Testimi i hipotezës

Një mësim i thjeshtë dhe i shkurtër mbi testimin e hipotezave duke përdorur Python

Imazhi nga: http://www.advanceinnovationgroup.com/blog/median-based-hypotesis-testing

Në këtë blog, unë do të jap një tutorial të shkurtër të Testimit të Hipotezave duke përdorur metodat Statistikore në Python. Testimi i hipotezave është pjesë e Metodës Shkencore me të cilën jemi njohur të gjithë, diçka që me siguri kemi mësuar në vitet tona të hershme arsimore. Sidoqoftë, në statistika, shumë eksperimente bëhen në një kampion të një popullate.

"Përcaktimi i asaj që një mostër vëzhgimesh na tregon për një shpjegim të propozuar, në përgjithësi, kërkon që ne të bëjmë një konkluzion, ose siç e quajmë ne, statisticienët, të Arsyeja me Pasiguri. Arsyetimi me pasiguri është thelbi i konkluzionit statistikor dhe zakonisht bëhet duke përdorur një metodë të quajtur Testimi i Rëndësisë së Hipotezës Null. -Ovens.

Si shembull për këtë blog, unë do të përdor një grup evropian të të dhënave të futbollit të gjetura në Kaggle, dhe do të bëj testimin e hipotezave. Të dhënat mund të gjenden këtu.

Hapi 1

Bëni një vëzhgim

Hapi i parë është vëzhgimi i fenomeneve. Në këtë rast, do të jetë: A ka ndonjë ndikim të agresionit të mbrojtjes në qëllimet e lejuara mesatare?

Hapi 2

Shqyrtoni hulumtimin

Një mentalitet i mirë për të kaluar është të punosh më zgjuar dhe jo më shumë. Një gjë e mirë për të bërë është të shihni nëse kërkimet që lidhen me vëzhgimin tuaj ekzistojnë. Nëse po, mund të ndihmojë në përgjigjen e pyetjes sonë. Të qenit i vetëdijshëm për hulumtime ose eksperimentet tashmë ekzistuese do të na ndihmojë të strukturojmë më mirë eksperimentin tonë, ose mbase madje t'i përgjigjemi pyetjes sonë dhe nuk duhet të bëjmë eksperimentin në radhë të parë.

Hapi 3

Formoni një hipotezë të pavlefshme dhe një hipotezë alternative

Një hipotezë alternative është supozimi ynë i arsimuar dhe një hipotezë e pavlefshme është thjesht e kundërta. Nëse hipoteza alternative shprehet se ekziston një lidhje e rëndësishme midis dy ndryshoreve, hipoteza e pavlefshme shprehet se nuk ka ndonjë lidhje domethënëse.

Hipoteza jonë Null do të jetë: Nuk ka ndonjë ndryshim statistikor në gola të lejuara me ekipe me një vlerësim të agresionit mbrojtës më të madh se ose të barabartë me 65 kundrejt skuadrave nën 65.

Hipoteza alternative: Ekziston një ndryshim statistikor në qëllimet e lejuara me ekipe me një vlerësim të agresionit mbrojtës më të madh se ose të barabartë me 65 kundrejt skuadrave nën 65.

Hapi 4

Përcaktoni nëse hipoteza jonë është një test me një bisht ose një test me dy bisht.

Testi me një bisht

"Nëse jeni duke përdorur një nivel domethënie prej 0.05, një test me një bisht i lejon të gjitha alfa tuaj të testojnë domethënien statistikore në një drejtim të interesit." Një shembull i një testi me një bisht do të ishte "Ekipet e futbollit me një vlerësim të agresionit më të ulët se 65 lejojnë statistikisht në mënyrë të konsiderueshme më shumë gola sesa skuadrat me një vlerësim më të ulët se 65."

Testi me dy bishta

"Nëse jeni duke përdorur një nivel domethënie prej 0.05, një test me dy bishta lejon gjysmën e alfa-s tuaj të testojë domethënien statistikore në një drejtim dhe gjysmën e alfa-s tuaj të testojë domethënien statistikore në drejtimin tjetër. Kjo do të thotë që 0.025 është në secilën bisht të shpërndarjes së statistikave të testit tuaj. "

Me një test me dy bisht, ju po testoni domethënien statistikore në të dy drejtimet. Në rastin tonë, ne jemi duke testuar rëndësinë statistikore në të dy drejtimet.

Hapi 5

Vendosni një nivel të rëndësisë së pragut (alfa)

(vlera alfa): Pragu margjinal në të cilin jemi në rregull me kundërshtimin e hipotezës së pavlefshme. Një vlerë alfa mund të jetë çdo vlerë që vendosëm ndërmjet 0 dhe 1. Megjithatë, vlera më e zakonshme e alfa-it në shkencë është 0.05. Një alfa e vendosur në 0.05 do të thotë që ne jemi në rregull me kundërshtimin e hipotezës së pavlefshme edhe pse ekziston një shans 5% ose më pak se rezultatet janë për shkak të rastësisë.

P-vlera: Probabiliteti i llogaritur për të arritur në këto të dhëna rastësisht.

Nëse llogarisim një p-vlerë dhe del në 0.03, ne mund ta interpretojmë këtë duke thënë: "Ekziston një shans prej 3% që rezultatet që unë po shoh janë në fakt për shkak të rastësisë ose fatit të pastër".

Imazhi nga Mësoni.co

Qëllimi ynë është të llogarisim vlerën p dhe ta krahasojmë atë me alfa tonë. Sa më i ulët alfa, aq më i rreptë është testi.

Hapi 6

Kryeni kampionimin

Këtu kemi të dhënat tona të quajtura futboll. Për testin tonë, ne kemi nevojë vetëm për dy kolona në grupin tonë të të dhënave: team_def_aggr_rating dhe qëllimet_ lejuar. Ne do t'i filtrojmë ato në këto dy kolona, ​​atëherë do të krijojmë dy nënseksione për ekipe me vlerësim të agresionit mbrojtës më të madh se ose të barabartë me 65 dhe ekipe me vlerësim të agresionit mbrojtës nën 65.

Vetëm për të rimarrë në testin tonë të hipotezës:

Ndikimi i agresionit të mbrojtjes në qëllimet mesatare të lejuara. Hipoteza Null: Nuk ka ndonjë ndryshim statistikor në synimet e lejuara me skuadrat me një vlerësim të agresionit mbrojtës më të madh se ose të barabartë me 65 kundrejt skuadrave nën 65. Hipoteza alternative: Ekziston një ndryshim statistikor në gola të lejuara me skuadrat me një vlerësim të agresionit mbrojtës më të madh sesa ose e barabartë me 65 kundrejt skuadrave nën 65. Test Alpha me dy bishta: 0.05

Tani kemi dy lista të mostrave në të cilat mund të ekzekutojmë teste statistikore. Para këtij hapi, unë do të komplotojë dy shpërndarjet për të marrë një vizuale.

Hapi 7

Kryeni testin me dy kampionë

T-testi me dy kampione përdoret për të përcaktuar nëse dy mjete të popullsisë janë të barabarta. Për këtë, ne do të përdorim modulin Python të quajtur statsmodels. Unë nuk do të marr më shumë detaje rreth statistikave, por ju mund ta shihni dokumentacionin këtu.

Hapi 8

Vlerësoni dhe përfundoni

Kujtojmë se alfa që vendosëm ishte a = 0.05. Siç mund të shohim nga rezultatet e testit tonë se vlera p është më e vogël se alfa jonë. Ne mund të hedhim poshtë hipotezën tonë të pavlefshme dhe me besim 95% të pranojmë hipotezën tonë alternative.

Faleminderit që lexuat! Për më shumë thellësi në testimin e hipotezave, mund ta shikoni këtë projekt grupi në GitHub ku isha i përfshirë në testimin e hipotezës këtu.

burimet:

Furra, Mateu. "Statistikat dhe" Metoda Shkencore "Marrë nga YourStatsGuru. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Hyrje në SAS. UCLA: Grupi i Këshillimit Statistikor. nga https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (arrihen maj 16, 2019).

Manuali i Statistikave Inxhinierike. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm