Statistiek is een complexe wetenschap van het meten en analyseren van verschillende gegevens. Zoals in veel andere disciplines, bestaat het concept van een hypothese in deze industrie. Een hypothese in de statistiek is dus een positie die moet worden aanvaard of afgewezen. Bovendien zijn er in deze branche verschillende soorten van dergelijke aannames, per definitie vergelijkbaar, maar in de praktijk verschillend. De nulhypothese is het onderwerp van studie van vandaag.
Van algemeen naar bijzonder: hypothesen in statistieken
Nog een, niet minder belangrijk, wijkt af van de hoofddefinitie van veronderstellingen - de statistische hypothese is de studie van de algemene totaliteit van objecten die belangrijk zijn voor de wetenschap, waarover wetenschappers conclusies trekken. Het kan worden gecontroleerd met behulp van een steekproef (deel van de populatie). Hier zijn enkele voorbeelden van statistische hypothesen:
1. De prestaties van de hele klas kunnen afhankelijk zijn van het opleidingsniveau van elke student.
2. De initiële cursus wiskunde wordt evenzeer verworven door zowel kinderen die op 6-jarige leeftijd naar school kwamen als kinderen die op 7-jarige leeftijd kwamen.
In de statistiek wordt een eenvoudige hypothese zo'n veronderstelling genoemd, die een bepaalde parameter van een door een wetenschapper genomen hoeveelheid uniek kenmerkt.
Complex bestaat uit meerdere of een oneindig aantal eenvoudig. Geef een bepaald gebied aan of geen exact antwoord.
Het is nuttig om verschillende definities van hypothesen in statistieken te begrijpen om ze in de praktijk niet te verwarren.
Het concept van de nulhypothese
De nulhypothese is een theorie dat er ongeveer twee aggregaten zijn die niet van elkaar verschillen. Op wetenschappelijk niveau bestaat er echter geen concept van "niet verschillen", maar er is "hun gelijkenis is nul". Uit deze definitie is het concept gevormd. In statistieken wordt de nulhypothese aangeduid als H0. Bovendien wordt de extreme waarde van het onmogelijke (onwaarschijnlijk) geacht 0,01 tot 0,05 of minder te zijn.
Het is beter om te begrijpen wat de nulhypothese is, een voorbeeld uit het leven zal helpen. De docent aan de universiteit suggereerde dat het verschillende niveau van voorbereiding van studenten van de twee groepen voor het testwerk wordt veroorzaakt door onbeduidende parameters, willekeurige redenen die geen invloed hebben op het algemene opleidingsniveau (het verschil in de voorbereiding van de twee groepen studenten is nul).
Het is echter de moeite waard om een voorbeeld te geven van een alternatieve hypothese - een veronderstelling die de bewering van de nul-theorie weerlegt (H1). Bijvoorbeeld: de directeur van de universiteit suggereerde dat het verschillende niveau ter voorbereiding op het testwerk bij studenten van de twee groepen wordt veroorzaakt door het gebruik van verschillende onderwijsmethoden door leraren (het verschil in de voorbereiding van de twee groepen is aanzienlijk en er is een verklaring).
Nu kunt u onmiddellijk het verschil zien tussen de concepten "nulhypothese" en "alternatieve hypothese". Voorbeelden illustreren deze concepten.
Hypothesetesten
Een veronderstelling creëren is het halve probleem. Een echte uitdaging voor beginners is het testen van de nulhypothese. Hier verwachten velen moeilijkheden.
Met behulp van de alternatieve hypothesemethode, die het tegenovergestelde beweert van de nul-theorie, kunt u beide opties vergelijken en de juiste kiezen. Dit is hoe statistieken werken.
Laat de nulhypothese H0 en het alternatief H1 dan:
H0: c = co;
H1: c ≠ c0.
Hier is c een bepaalde gemiddelde waarde van de populatie die moet worden gevonden, en c0 is aanvankelijk de gegeven waarde waarop de hypothese wordt gecontroleerd. Er is ook een bepaald aantal X - de gemiddelde waarde van het monster waarmee c0 wordt bepaald.
De controle bestaat dus uit het vergelijken van X en c0, als X = c0, dan wordt de nulhypothese geaccepteerd. Als X ≠ c0, dan wordt aangenomen dat het alternatief waar is.
Vertrouwde verificatiemethode
Er is de meest effectieve manier waarop de nul statistische hypothese in de praktijk gemakkelijk kan worden geverifieerd. Het bestaat uit het bouwen van een bereik van waarden tot 95% nauwkeurigheid.
Eerst moet u de formule kennen voor het berekenen van het betrouwbaarheidsinterval:
X - t * Sx ≤ c ≤ X + t * Sx,
waarbij X het aanvankelijk gegeven getal is op basis van een alternatieve hypothese;
t - tabelwaarden (studentcoëfficiënt);
Sx is de standaard gemiddelde fout, die wordt berekend als Sx = σ / √n, waarbij de teller de standaardafwijking is en de noemer de steekproefgrootte.
Dus stel je de situatie voor. Vóór reparatie produceerde de transportband 32,1 kg eindproducten per dag en na reparatie, volgens de ondernemer, nam de efficiëntie toe en begon de transportband volgens een wekelijkse controle gemiddeld 39,6 kg te produceren.
De nulhypothese zal stellen dat reparaties de efficiëntie van de transportband niet hebben beïnvloed. Een alternatieve hypothese zal zeggen dat de reparatie de efficiëntie van de transportband fundamenteel heeft veranderd, dus de productiviteit is verbeterd.
Uit de tabel vinden we n = 7, t = 2.447, waaruit de formule de volgende vorm zal aannemen:
39.6 - 2.447 * 4.2 ≤ s ≤ 39.6 + 2.477 * 4.2;
29,3 ≤ s ≤ 49,9.
Het blijkt dat de waarde 32.1 binnen het bereik ligt, en daarom wordt de door het alternatief voorgestelde waarde - 39.6 - niet automatisch geaccepteerd. Vergeet niet dat de nulhypothese eerst wordt gecontroleerd op juistheid en vervolgens het tegenovergestelde.
Soorten ontkenning
Voordien werd een dergelijke hypothese-constructieoptie overwogen, waarbij H0 iets claimt en H1 dit weerlegt. Van waar het mogelijk was om een soortgelijk systeem samen te stellen:
H0: c = co;
H1: c ≠ c0.
Maar er zijn nog twee gerelateerde weerlegmethoden. De nulhypothese stelt bijvoorbeeld dat de gemiddelde beoordeling van een klasse hoger is dan 4,54 en het alternatief zal dan zeggen dat de gemiddelde beoordeling van dezelfde klasse lager is dan 4,54. En het ziet eruit als een systeem als dit:
H0: s ⩾ 4,54;
H1: c <4,54.
Merk op dat de nulhypothese stelt dat de waarde groter dan of gelijk is en dat de statistische strikt minder is. De ernst van het ongelijkheidsteken is van groot belang!
Statistische verificatie
Een statistische test van nulhypothesen is om een statistisch criterium te gebruiken. Dergelijke criteria zijn onderworpen aan verschillende distributiewetten.
Er is bijvoorbeeld een F-criterium dat wordt berekend door de Fisher-verdeling. Er is een T-toets, meestal gebruikt in de praktijk, afhankelijk van de studentenverdeling. Vierkant criterium voor Pearson's toestemming, etc.
Gebied van acceptatie van de nulhypothese
In algebra is er het concept van "regio van toegestane waarden". Dit is zo'n segment of punt op de X-as, waarop er veel statistische waarden zijn waarbij de nulhypothese waar is. De extreme punten van het segment zijn kritische waarden. De stralen aan de rechter- en linkerkant van het segment zijn kritieke gebieden. Als de gevonden waarde erin is opgenomen, wordt de nul-theorie weerlegd en wordt een alternatief geaccepteerd.
Weerlegging van de nulhypothese
De nulhypothese in de statistiek is soms een zeer onbetrouwbaar concept. Tijdens verificatie kan het twee soorten fouten maken:
1. De afwijzing van de ware nulhypothese. We geven het eerste type aan als a = 1.
2. Acceptatie van de valse nulhypothese. Het tweede type wordt aangeduid als a = 2.
Het moet duidelijk zijn dat dit niet dezelfde parameters zijn, de uitkomsten van fouten kunnen onderling aanzienlijk verschillen en verschillende steekproeven hebben.
Een voorbeeld van twee soorten fouten
Complexe concepten zijn gemakkelijker te achterhalen met een voorbeeld.
Tijdens de productie van een bepaald medicijn hebben wetenschappers uiterste voorzichtigheid nodig, omdat het overschrijden van de dosis van een van de componenten een hoge toxiciteit van het eindproduct veroorzaakt, waaraan patiënten die het nemen kunnen sterven. Op chemisch niveau kan een overdosis echter niet worden gedetecteerd.
Daarom wordt, voordat het geneesmiddel in de uitverkoop wordt gebracht, een kleine dosis gecontroleerd op ratten of konijnen door het medicijn aan hen toe te dienen.Als de meeste proefpersonen sterven, is het medicijn niet toegestaan voor verkoop, als de experimentele proefpersonen in leven zijn, dan mag het medicijn in apotheken worden verkocht.
Het eerste geval: het medicijn was in feite niet giftig, maar tijdens het experiment werd een fout gemaakt en het medicijn werd geclassificeerd als giftig en mocht niet worden verkocht. A = 1.
Het tweede geval: in een ander experiment werd bij het controleren van een andere partij geneesmiddel besloten dat het medicijn niet giftig was en het in de verkoop mocht gaan, hoewel het medicijn in feite giftig was. A = 2.
De eerste optie brengt hoge financiële kosten met zich mee voor de leverancier-ondernemer, omdat u de hele partij medicijnen moet vernietigen en opnieuw moet beginnen.
De tweede situatie zal de dood veroorzaken van patiënten die dit geneesmiddel hebben gekocht en gebruikt.
Kansrekening
Niet alleen nul, maar alle hypothesen in statistiek en economie worden gedeeld op belangrijkheidsniveau.
Significantieniveau - het percentage fouten van de eerste soort (afwijking van de ware nulhypothese).
• het eerste niveau is 5% of 0,05, dat wil zeggen dat de kans op een fout 5 tot 100 of 1 tot 20 is.
• het tweede niveau is 1% of 0,01, dat wil zeggen de kans is 1 tot 100.
• het derde niveau is 0,1% of 0,001, de kans is 1 tot 1000.
Criteria voor hypothesetests
Als wetenschappers al hebben geconcludeerd dat de nulhypothese juist is, moet deze worden getest. Dit is nodig om de fout te verhelpen. Er is een basiscriterium voor het testen van de nulhypothese, bestaande uit verschillende fasen:
1. De toelaatbare foutkans P = 0,05 wordt genomen.
2. Statistieken worden geselecteerd voor criterium 1.
3. Volgens de bekende methode is het bereik van acceptabele waarden.
4. Nu de waarde van statistieken T.
5. Als T (statistieken) behoort tot het domein van acceptatie van de nulhypothese (zoals in de 'vertrouwende' methode), dan worden de veronderstellingen als correct beschouwd, wat betekent dat de nulhypothese zelf waar blijft.
Dit is hoe statistieken werken. De nulhypothese, met de juiste verificatie, wordt geaccepteerd of afgewezen.
Het is vermeldenswaard dat voor gewone ondernemers en gebruikers de eerste drie fasen erg moeilijk kunnen zijn om nauwkeurig uit te voeren, dus ze worden vertrouwd door professionele wiskundigen. Maar 4 en 5 fasen kunnen worden uitgevoerd door iedereen die voldoende statistische verificatiemethoden kent.