Enige kansrekening en statistiek

Voor Jisk

Inleiding

In de natuurkunde (en in andere vakken) komen waarnemingen vaak tot stand onder invloed van het toeval. De gevonden uitkomsten wijken dan enigszins af van de 'echte' waarde van de grootheid die je wilt meten. Daarom speelt de waarschijnlijkheidsrekening (kansrekening) een belangrijke rol. Een experiment waarbij de uitkomst mede van het toeval afhangt, noemen we een toevalsexperiment.

Voorbeeld 1. Iemand meet de lichtsnelheid met de methode en apparatuur van Newcomb. Hij doet dit vijf keer achter elkaar en krijgt vijf, enigszins verschillende, meetwaarden. Door de invloed van factoren die hij niet onder controle heeft, verschillen deze waarden. De verschillen schrijven we toe aan 'het toeval'. Iedere meting van de lichtsnelheid is een toevalsexperiment.

Stochastische variabelen

Onder een stochast(ische variabele) of toevalsvariabele (Engels: random variable) verstaan wij een variabele die reële waarden aanneemt, die uitkomsten zijn van een toevalsexperiment. De waarde (uitkomst of realisatie) van de stochastische variabele hangt dus van het toeval af. Vaak worden stochasten genoteerd met hoofdletters, bijvoorbeeld \(X\) of \(Y_i\).

Voorbeeld 2. Laat de stochast \(X\) het aantal ogen weergeven dat boven komt te liggen bij een worp met een dobbelsteen. De mogelijke uitkomsten van \(X\) zijn 1 tot en met 6.

Voorbeeld 3. Men vraagt aan een willekeurig persoon of hij/zij in de afgelopen week een kerk heeft bezocht en noteert een 0 als het antwoord 'ja' is en een 1 als het antwoord 'nee' is. Het genoteerde antwoord is de uitkomst van een stochastische variabele \(X\).

Voorbeeld 4. Bij een opiniepeiling wordt een steekproef van 1785 personen getrokken en aan iedere persoon gevraagd of zij/hij in de afgelopen week een kerk heeft bezocht; het aantal 'nee’-zeggers in de steekproef is een toevalsvariabele \(Y\). Een uitkomst van \(Y\) kan in principe liggen tussen 0 en 1785.

Voorbeeld 5. Een onderzoeker meet het aantal tikken op een Geigerteller gedurende 1 minuut in de buurt van een radioaktieve bron. De toevalsvariabele \(T\) stelt het aantal tikken voor. De uitkomst van \(T\) zal liggen in de verzameling \(\{0, 1, 2, \dots\}\).

Voorbeeld 6. Laat de stochast \(Z\) de eerstvolgende meting van de lichtsnelheid voorstellen volgens de methode en met de apparatuur van Newcomb. Een uitkomst van \(Z\) zal een positief getal zijn.

De uitkomst van een stochastische variabele noemen we ook wel zijn realisatie. Realisaties geven we aan met een kleine letter. Realisaties ontstaan pas als het toevalsexperiment is voltrokken. In de theoretische statistiek houden we ons echter voornamelijk bezig met wat aan de realisatie voorafgaat: wat kunnen we veronderstellen over het toevalsexperiment, wat zijn de mogelijke uitkomsten en de bijbehorende kansen en welke gevolgtrekkingen maken we uit de diverse mogelijke uitkomsten. Pas daarna wordt het toevalsexperiment uitgevoerd en wordt op grond van de concrete uitkomst een uitspraak gedaan. Maar dat is voor theoretische statistici zoiets als de koffie na de maaltijd.

Kansverdelingen

Aan een stochastische variabele is altijd een kansverdeling (probability distribution of distribution) gekoppeld; dit is een voorschrift waarmee je alle relevante kansen kunt berekenen. We onderscheiden twee typen kansverdelingen: discrete verdelingen en continue verdelingen.

Discrete verdeling

Als je alle relevante kansen in een tabel kunt weergeven is er sprake van een discrete verdeling (discrete distribution). Als je in voorbeeld 2 werpt met een zogenaamde 'zuivere' dobbelsteen, dan zullen de kansen op de diverse uitkomsten even groot zijn. Het volgende tabelletje legt dan de kansverdeling van \(X\) vast:

waarde: \(1\) \(2\) \(3\) \(4\) \(5\) \(6\)
kans: \(1\over 6\) \(1\over 6\) \(1\over 6\) \(1\over 6\) \(1\over 6\) \(1\over 6\)

In feite is dit een idealisering of model van de werkelijkheid. Want je weet niet of je dobbelsteen zuiver is en dus ook niet of alle uitkomsten even waarschijnlijk zijn.

Bernoulli verdeling

Ook bij voorbeeld 3 kun je een dergelijk tabelletje maken; alleen kunnen we de kansen niet echt berekenen zolang we de waarde van \(p\), de fractie 'nee'-zeggers in de hele bevolking, niet kennen. De grootheid \(p\) heet een parameter van de verdeling. De verdeling zelf heeft een naam gekregen: Bernoulli verdeling. Het is de eenvoudigste discrete kansverdeling die we kennen:

waarde: \(0\) \(1\)
kans: \(1-p\) \(p\)

Wanneer heb je te maken met een Bernoulli-verdeling? Als je een toevalsexperiment doet met twee mogelijke uitkomsten, 0 en 1, met kans \(p\) op de uitkomst 1.

Binomiale verdeling

Ook bij voorbeeld 4 zou je in principe een tabel kunnen maken met de mogelijke uitkomsten (0 tot en met \(n = 1785\)) van \(Y\) in de bovenste rij en de bijbehorende kansen in de onderste rij. Zo’n verdeling heet een binomiale kansverdeling:

waarde: \(0\) \(\dots\) \(k\) \(\dots\) \(n\)
kans: \((1-p)^n\) \(\dots\) \({n\choose k}p^k(1-p)^{n-k}\) \(\dots\) \(p^n\)

Om een kans echt te kunnen uitrekenen moeten we de waarden van de parameters \(n\) en \(p\) kennen. In dit voorbeeld is \(p\) de kans dat één willekeurige persoon 'nee' antwoordt. Wanneer heb je te maken met een binomiale verdeling?

  1. Het experiment bestaat uit \(n\) deelexperimenten.
  2. Er zijn slechts twee mogelijke uitkomsten, 'succes' en 'mislukking', voor elk deelexperiment.
  3. De kans op 'succes' is bij ieder deelexperiment even groot, namelijk \(p\).
  4. De deelexperimenten zijn onafhankelijk.
  5. Het totale aantal 'successen' heeft dan een binomiale verdeling met parameters \(n\) en \(p\).

Poissonverdeling

Als kansverdeling bij de variabele \(T\) uit opgave 5 wordt vaak een zogenaamde Poissonverdeling genomen. Als \(\lambda\) de intensiteit is, is de kans op een uitkomst \(t\) gelijk aan (het symbool voor kans is de hoofdletter \(P\)):

\[ P(T=t)= {\lambda^t\over {t!}}e^{-\lambda} \quad (t=0, 1, 2, \dots)\]

Wanneer heb je te maken met een Poissonverdeling? Als aan de volgende voorwaarden is voldaan:

  1. Het experiment bestaat uit het tellen van het aantal keren dat een bepaalde gebeurtenis voorkomt in een bepaald tijdsinterval of in een bepaald oppervlak of volume (of gewicht, afstand, of andere meeteenheid).
  2. De kans dat een gebeurtenis voorkomt in een bepaald tijdsinterval, oppervlak of volume, enzovoort, is even groot voor alle tijdsintervallen, oppervlaktes en volume-eenheden van gelijke grootte.
  3. Het aantal gebeurtenissen dat in een bepaalde eenheid van tijd, oppervlak of volume vorkomt, is onafhankelijk van het aantal dat in andere, hiermee niet overlappende eenheden voorkomt.
  4. Het verwachte aantal gebeurtenissen in elke eenheid wordt aangegeven met de Griekse letter \(\lambda\).

Continue verdeling

De variabele \(Z\) uit voorbeeld 6 heeft een continue verdeling (continuous distribution). Zo’n verdeling is minder gemakkelijk vast te leggen. In de eerste plaats weten we niet precies welke uitkomsten er mogelijk zijn en hoe groot de bijbehorende kansen zijn. Maar ook als we beter op de hoogte waren, zou het ondoenlijk zijn om een tabel te maken met in de bovenste regel alle mogelijke te meten waarden en in de onderste regel de bijbehorende kans. Ook in dit geval wordt de oplossing gegeven door een idealisering van de werkelijkheid. Die houdt in dat we een zodanige hulpfunctie \(f (x)\) verzinnen dat de kans dat we een meting vinden in het interval \([a, b]\) gegeven wordt door de oppervlakte onder de grafiek van \(f (x)\), tussen de vertikale grenzen \(x = a\) en \(x = b\) en boven de \(x\)-as, met andere woorden: de kans op een meting in het interval \([a, b]\) is dan \(\int_a^b f(x)dx\) . Zo’n hulpfunctie \(f (x)\) heet ook wel kansdichtheidsfunctie of kansdichtheid of kortweg dichtheid ((probability) density function). Als we een kansverdeling vastleggen door middel van een kansdichtheidsfunctie noemen we haar een continue verdeling.

Normale verdeling

Een populaire kansdichtheidsfunctie is

\[ f(x)={1\over\sqrt{2\pi\sigma^2}} e^{-{1\over 2\sigma^2}(x-\mu)^2}\quad(-\infty \lt x\lt \infty)\]

De kansverdeling van een stochast \(Z\) met deze kansdichtheid noemen we een normale of gaussische verdeling . Als we de waarden van de parameters \(μ\) en \(σ^2\) specificeren, kunnen we in principe alle relevante kansen uitrekenen. Bij een normale verdeling is de kans op een uitkomst in het interval \([a, b]\) niet analytisch uit te rekenen, maar er bestaan tabellen en programma's (bijvoorbeeld PyQRS) waarmee we zo'n kans wel kunnen bepalen. Een bijzonder geval is de normale verdeling met parameters \(\mu=0\) en \(\sigma^2=1\). Deze noemen we de standaardnormale verdeling.

Wanneer heb je te maken met een normale kansverdeling? In de praktijk wordt vaak een normale kansverdeling verondersteld als je mag aannemen dat de verdeling klokvormig is.

Parameters

Sommige families van kansverdelingen hebben een naam gekregen, bijvoorbeeld de Bernoulli verdeling, de binomiale, de Poissonverdeling en de normale verdeling. Bij deze verdelingen kunnen kansen worden berekend als de waarden van hun parameters zijn vastgelegd; voor de Bernoulli verdeling de waarde van \(p\) (met \(0\leq p \leq 1\)), voor de binomiale verdeling de waarden van \(n\) (met \(n=1, 2, \dots\)) en \(p\) (met \(0\leq p \leq 1\)), voor de Poissonverdeling de waarde van \(\lambda\) (met \(\lambda>0\)) en voor de normale verdeling de waarden van \(μ\) (met \(-\infty<\mu<\infty\)) en \(σ^2\) (met \(\sigma^2>0\)).

Verband tussen de genoemde verdelingen

  • De Bernoulli-verdeling is een speciaal geval van de binomiale verdeling, namelijk als \(n=1\).
  • Als \(X_1,\dots,X_n\) onderling onafhankelijk zijn en alle een Bernoulli-verdeling hebben met parameter \(p\), dan heeft hun som een binomiale verdeling met parameters \(n\) en \(p\).
  • Als \(n\to\infty\) en \(p\to 0\), zodanig dat \(np\to\lambda\) (een constante), dan nadert de binomiale verdeling met parameters \(n\) en \(p\) naar een Poisson-verdeling met parameter \(\lambda\). Dus als \(n\) groot is en \(p\) klein, dan kun je de binomiale verdeling met parameters \(n\) en \(p\) benaderen door een Poisson-verdeling met parameter \(\lambda=np\).
  • Als \(n\) groot is (\(n>30\)), dan kunnen we kansen bij een binomiale verdeling benaderen door die van een normale verdeling met \(\mu=np\) en \(\sigma^2=np(1-p)\).
  • Als \(\lambda\) niet te klein is, kunnen we kansen bij een Poisson-verdeling benaderen door die van een normale verdeling met \(\mu=\lambda\) en \(\sigma^2=\lambda\).

Bovenstaande beweringen kun je bevestigd zien door in PyQRS diverse verdelingen te bekijken.

Opgaven

(Je kunt de oplossingen gemakkelijk vinden met behulp van PyQRS)

  1. De kans dat een willekeurig gekozen persoon linkshandig is, bedraagt 0.14. In een schoolklas zitten 20 kinderen. Hoe groot is de kans dat hiervan 3 linkshandig zijn? En hoe groot is de kans dat er meer dan 3 linkshandigen in de klas zitten?

  2. De waarde van de parameter \(\lambda\) in voorbeeld 5 bedraagt 50. Hoe groot is de kans dat de uitkomst van de meting groter is dan 65?

  3. De lengte van zwangerschappen van conceptie tot geboorte varieert volgens een verdeling die ongeveer normaal is met parameters \(\mu=266\) dagen en \(\sigma=16\) dagen, dus \(\sigma^2=256\) dagen². Noem de lengte van een willekeurige zwangerschap \(Y\). Hoe groot is dan de kans \(P(Y>300)\)? En de kans \(P(266 < Y \le 300)\)?

Verwachting

De kansverdelingen waar wij in de praktijk mee werken hebben alle een zwaartepunt of verwachtingswaarde (expected value) of kortweg verwachting. Ook spreken wij over de verwachting van een stochastische variabele. Deze is gelijk aan die van de bijbehorende verdeling. Notatie: \(EX\) of \(E(X)\) is de verwachting van de stochast \(X\). Als \(X\) een symmetrische verdeling heeft is \(EX\) vanzelfsprekend gelijk aan het symmetriepunt (=zwaartepunt). Zo is de verwachting van de variabele \(X\) uit voorbeeld 2 gelijk aan \(3{1\over2}\) . De verwachting van de variabele \(Y\) uit voorbeeld 4 hangt van de waarde van \(p\) af. Als \(p\) gelijk is aan \(0.6\), is hij gelijk aan \(1785 \times 0.6 = 1071\).

Algemeen: als \(X\) een discrete kansverdeling heeft met mogelijke uitkomsten \(x_1,x_2,\dots\), dan geldt: \(EX = \sum x_i P(X = x_i)\). De verwachting is dus een gewogen gemiddelde van de mogelijke uitkomsten \(x_i\), 'gewogen' met de bijbehorende kansen als gewichten.

Deze definitie van verwachting geldt voor alle discrete verdelingen, dus ook voor de Poissonverdeling, ook al is daarbij het aantal mogelijke uitkomsten oneindig groot.

Ook de normale verdeling is symmetrisch; in voorbeeld 6 is dus \(EZ = μ\). De verwachting bij continue verdelingen met kansdichtheidsfunctie \(f (x)\) vind je door te integreren: \(EX = \int x f (x)dx\), waarbij de integraal wordt genomen over het gebied waarop \(f (x)\) positief is.

In veel boeken gebruikt men in plaats van 'verwachting' (expected value) het woord 'gemiddelde’ (mean). Dit kan echter verwarring opleveren als we willen spreken over 'het gemiddelde van een aantal stochastische variabelen'. Daarom zullen wij steeds 'verwachting’ of 'verwachtingswaarde’ gebruiken om het zwaartepunt van een verdeling aan te duiden.

Opgaven

  1. Laat zien dat de verwachting van een Bernoulli-verdeelde stochastische variabele met parameter \(p\) gelijk is aan \(p\).
  2. Men kan laten zien (je hoeft dit niet uit te werken) dat de verwachting van een binomiaal verdeelde stochastische variabele met parameters \(n\) en \(p\) gelijk is aan \(np\). Hoe groot is de verwachting van het aantal linkshandigen in de klas uit opgave 1?
  3. Laat zien dat de verwachting van een Poisson-verdeelde stochastische variabele met parameter \(\lambda\) gelijk is aan \(\lambda\). Hoe groot is de verwachting van de stochastische variabele \(T\) uit voorbeeld 5 en opgave 2?
  4. Hoe groot is de verwachte duur van een zwangerschap (zie opgave 3).

Functies van één stochastische variabele

Als \(X\) een stochastische variabele is (zijn uitkomst hangt van het toeval af), en \(g\) is een functie : R → R , dan is ook \(Y = g(X)\) een stochastische variabele. Als we de kansverdeling van \(X\) kennen, dan kunnen we ook die van \(Y\) bepalen.

Voorbeeld 7. Neem in voorbeeld 2 voor \(g\) de functie: \(g(x)=\begin{cases} 1 & \mbox{voor } x\geq 5;\\ 0 & \mbox{voor } x<5. \end{cases}\)

Dan is de kansverdeling van \(Y = g(X)\) een Bernoulli verdeling met parameter \(p = {1\over 3}\) :

waarde: \(0\) \(1\)
kans: \(4\over 6\) \(2\over6\)

Bij discrete verdelingen kijken we voor iedere mogelijke uitkomst van \(Y\) welke mogelijke uitkomsten van \(X\) ermee overeenkomen en tellen de bijbehorende kansen op. Ook bij continue verdelingen kunnen we de verdeling van een functie \(Y = g(X)\) bepalen als de verdeling van \(X\) bekend is. Hiervoor bestaan verschillende technieken, die we hier niet behandelen.

Voorbeeld 8. In voorbeeld 4 stelde \(Y\) het \(aantal\) 'nee'-zeggers in de steekproef van 1785 personen voor. De fractie 'nee'-zeggers in de steekproef is dus \(Y\over{1785}\). In het boek van Moore en McCabe wordt deze nieuwe stochastische variabele genoteerd met het symbool \(\hat p\). Deze hangt nauw samen met de variabele \(Y\); kansen met betrekking tot \(\hat p\) kunnen dus worden herschreven als kansen met betrekking tot \(Y\). Bijvoorbeeld: \(P( \hat p ≥ 0.58) = P( {Y\over 1785} ≥ 0.58) = P(Y ≥ 1035.3)\) en deze laatste kans is uit te rekenen als we de bij de (binomiale) kansverdeling van \(Y\) behorende parameter \(p\) kennen (\(n = 1785\)). N.B. In dit voorbeeld wordt de stochastische variabele \(\hat p\) niet met een hoofdletter geschreven, maar om hem te onderscheiden van de parameter \(p\) wordt hij voorzien van een dakje.

Variantie en standaardafwijking

De verwachting van een toevalsvariabele is gelijk aan het zwaartepunt van de bijbehorende verdeling. Een maat voor de breedte van de verdeling is de variantie (variance).

Als we de verwachting van een verdeling \(μ\) noemen, dan is de variantie gedefinieerd als de verwachting van de kwadratische afwijking ten opzichte van \(μ\): Var \(X = E(X − μ)^2\) .

Voorbeeld 9. In voorbeeld 2 was \(EX = 3 {1\over2}\) . We kunnen de verdeling van \(Y = (X − 3 {1\over2})^2\) in tabelvorm vastleggen:

waarde: \(0.25\) \(2.25\) \(6.25\)
kans: \(1\over3\) \(1\over3\) \(1\over3\)

De verwachting van \(Y\) (en dus de variantie van \(X\)) is dus gelijk aan de verwachting van deze verdeling, namelijk 2.92.

Voor een continue verdeling met kansdichtheidsfunctie \(f(x)\) is de variantie: Var \(X=\int(x-\mu)^2f(x)dx\). Een andere maat voor de breedte van een verdeling is de standaardafwijking (standard deviation). Deze wordt berekend door de wortel uit de variantie te nemen.

Voor de Bernoulli, binomiale en de normale verdelingen hangen de verwachting, de variantie en de standaardafwijking als volgt van de parameterwaarden af.

verdeling parameters verwachting variantie standaardafwijking
Bernoulli \(p\) \(p\) \(p(1-p)\) \(\sqrt{p(1-p)}\)
binomiale \(n, p\) \(np\) \(np(1-p)\) \(\sqrt{np(1-p)}\)
Poisson \(\lambda\) \(\lambda\) \(\lambda\) \(\sqrt{\lambda}\)
normale \(\mu,\sigma^2\) \(\mu\) \(\sigma^2\) \(\sigma\)

Functies van meer dan één stochastische variabele

Als de gezamenlijke kansverdeling van twee stochastische variabelen \(X\) en \(Y\) bekend is, kunnen we de kansverdeling van een functie \(Z = g(X, Y)\) bepalen.

Voorbeeld 10. We gooien twee keer, onafhankelijk van elkaar, met een dobbelsteen. Laat \(X\) het aantal ogen zijn dat bij de eerste worp bovenkomt en \(Y\) het aantal ogen bij de tweede worp. Hoe ziet de kansverdeling van \(Z = {X\over Y}\) , het quotiënt van het aantal ogen bij beide worpen, eruit? \(Z\) heeft een discrete verdeling met mogelijke waarden die variëren tussen \(1\over6\) en 6. Om bijvoorbeeld de kans \(P(Z = 2)\) te bepalen tekenen we eerst een assenstelsel met op de \(x\)-as de mogelijke uitkomsten van \(X\) en op de \(y\)-as de mogelijke uitkomsten van \(Y\). Je krijgt dan een rooster van 36 punten. Ieder punt heeft gelijke kans, namelijk \(1\over{36}\). Om de kans \(P(Z = 2)\) te bepalen, moeten we kijken welke punten met de uitkomst \(\{Z = 2\}\) overeenkomen. Dit zijn \((2, 1), (4, 2), (6, 3)\). De kans P(Z = 2) is gelijk aan de som van kansen op ieder van die uitkomsten, \({1\over{36}}+{1\over{36}}+{1\over{36}}={3\over{36}}\). Op dezelfde manier kunnen we de kansen op alle andere mogelijke waarden van \(Z\) bepalen en vervolgens weergeven in een tabel.

Als \(Z = g(X, Y)\) een discrete verdeling heeft, stellen we voor iedere mogelijke uitkomst van \(Z\) vast, welke gezamenlijke uitkomsten van \(X\) en \(Y\) ermee corresponderen en tellen we de bijbehorende kansen op. Ook als \(X\) en \(Y\) een continue verdeling hebben en we hun gezamenlijke kansverdeling kennen, dan kunnen we de kansverdeling van een functie \(Z = g(X, Y)\) bepalen. De technieken die hiervoor nodig zijn, worden hier echter niet besproken. Twee stochastische variabelen \(X\) en \(Y\) noemen we onafhankelijk als voor alle getallenverzamelingen \(A\) en \(B\) geldt dat \(P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)\).

Lineaire combinaties

De functies \(g(X, Y) = X + Y\), de som van \(X\) en \(Y\), en \(h(X, Y) = {1\over2} (X + Y)\), hun gemiddelde, zijn voorbeelden van lineaire combinaties van twee stochastische variabelen. Lineaire combinaties zullen we nog vaak tegenkomen; daarom noemen we enkele relevante stellingen.

Stelling 1.

verwachting variantie
\(E(aX)=a E(X)\) Var\((aX) = a^2\) Var\(( X)\)
\(E(X+Y)=E(X)+E(Y)\) Als \(X\) en \(Y\) onafhankelijk: Var\((X + Y) =\)Var\((X) +\)Var\((Y)\)

Speciaal voor normaal verdeelde stochastische variabelen geldt:

Stelling 2.

Als een stel stochastische variabelen onafhankelijk is en iedere variabele is normaal verdeeld, dan is ook iedere lineaire combinatie normaal verdeeld.

Voorbeeld 11. \(X\) en \(Y\) zijn onafhankelijk; \(X ∼ N(μ_1 , σ_1^2 )\), \(Y ∼ N(μ_2 , σ_2^2 )\). Wat is de kansverdeling van \(Z = X + Y\)? We doen een beroep op de stelling 2: \(Z\) is ook normaal verdeeld. We bepalen de precieze verdeling door de verwachting en de variantie van \(Z\) te berekenen: \(EZ = EX + EY = μ_1 + μ_2\) en Var \(Z =\) Var \(X\) + Var \(Y = σ_1^2 + σ_2^2\) . De stochast \(Z\) heeft dus een \(N(μ_1 + μ_2 , σ_1^2 + σ_2^2)\) verdeling.

We hoeven ons niet te beperken tot lineaire combinaties van twee variabelen:

Voorbeeld 12. De variabelen \(X_1 , \dots , X_9\) zijn onafhankelijk en normaal verdeeld, alle met parameters \(μ\) en \(σ^2\) . Wat is de kansverdeling van \(Y = X_1 + \cdots + X_9\) ? Herhaald toepassen van stelling 2 levert op dat \(Y\) normaal verdeeld is. De parameters bepalen we door de verwachting en de variantie van \(Y\) te berekenen: \(EY = EX_1 +\cdots+ EX_9 = μ+\cdots+μ = 9μ\) en Var\((Y) =\) Var\((X_1) +\cdots+\)Var\((X_9) = 9σ^2\). De stochast \(Y\) heeft dus een \(N(9μ, 9σ^2 )\) verdeling.

Voor de som van een aantal onafhankelijke Bernoulli verdeelde variabelen formuleren we de volgende stelling:

Stelling 3. Als \(X_1, \dots, X_n\) onafhankelijk zijn en alle dezelfde Bernoulli verdeling hebben met parameter \(p\), dan heeft hun som \(Z = X_1 + \cdots + X_n\) een binomiale verdeling met parameters \(n\) en \(p\).

Voorbeeld 13. Een ingenieur belast met kwaliteitsbewaking kiest uit een grote zending ter inspectie een enkelvoudige aselecte steekproef (EAS) van 10 schakelaars. Het is de ingenieur niet bekend dat 10% van de schakelaars in de zending niet voldoet aan de specificaties. We definiëren voor \(i = 1, \dots, 10\) variabelen \(X_i\) die de (toevallige) uitslag van de inspectie weergeven: \(X_i = 1\) als de \(i\)-de schakelaar niet voldoet en \(X_i = 0\) als de \(i\)-de schakelaar wel voldoet aan de specificaties. De ingenieur telt in de steekproef het aantal schakelaars \(Z\) dat niet aan de specificaties voldoet. Deze stochastische variabele \(Z\) is dus gelijk aan \(X_1 + \cdots + X_{10}\) (de stochast \(Z\) is gelijk aan het aantal enen onder de \(X_i\)’s, dus gelijk aan de som van de \(X_i\)’s). Als de zending heel groot is, zijn de opeenvolgende resultaten van inspectie nagenoeg onafhankelijk van elkaar en is de kans op een exemplaar dat niet aan de specificaties voldoet steeds (vrijwel) gelijk aan 0.10. Ieder van de \(X_i\)’s heeft een Bernoulli verdeling met parameter \(p = 0.10\), zodat \(Z\) een binomiale verdeling heeft met parameters \(n = 10\) en \(p = 0.10\).

Populatie, steekproef, steekproeffunctie

Populatie en steekproef

In de eenvoudigste voorbeelden van inferentiële statistiek is er sprake van een steekproef (sample) uit een populatie. Hierin wordt een populatie doorgaans beschreven door een kansverdeling met parameter(s) waarvan de waarde niet bekend is.

Definitie 1. Een populatie kunnen we opvatten als een kansverdeling die afhangt van één of meer parameters waarvan de waarde onbekend is.

Bij een steekproef denkt men al gauw aan een verzameling waargenomen getallen. Wij definiëren een steekproef echter als een aantal stochastische variabelen \(X_1 , \dots, X_n\), waarvan de waargenomen getallen de realisatie vormen. Tenzij anders vermeld, zal de steekproef een enkelvoudige aselecte steekproef (simple random sample) zijn, dit wil zeggen dat de stochastische variabelen in de steekproef onafhankelijk zijn en dezelfde verdeling hebben, namelijk die van de populatie waaruit ze getrokken zijn.

Definitie 2. Een steekproef is een stel onafhankelijke stochastische variabelen \(X_1, \dots, X_n\), alle met dezelfde kansverdeling (als de populatie).

In de praktijk ontstaat zo’n steekproef wanneer we een aselecte steekproef trekken uit een populatie die veel groter is dan de steekproef of wanneer we, onafhankelijk van elkaar, experimenten doen onder dezelfde omstandigheden.

Voorbeeld 14. In een laboratorium worden monsters van een farmaceutisch produkt geanalyseerd om de concentratie van het aktieve ingrediënt te bepalen. Dergelijke chemische analyses zijn niet geheel nauwkeurig. Herhaalde metingen aan hetzelfde monster zullen lichtelijk verschillende resultaten opleveren. De resultaten van herhaald meten volgen vrij nauwkeurig een normale verdeling. Het procédé van de analyse is niet systematisch vertekend, zodat de verwachting \(μ\) van de populatie van alle metingen de werkelijke concentratie in het monster geeft. De standaardafwijking van deze verdeling is een inherente eigenschap van het analytisch procédé en heeft de bekende waarde \(σ = 0.0068\) per liter. Het laboratorium analyseert elk monster drie keer en rapporteert het gemiddelde resultaat. De drie metingen (nog voordat we de uitkomsten gezien hebben) bij één monster noemen we \(X_1\), \(X_2\) en \(X_3\). Dit zijn drie stochastische variabelen (de uitkomsten hangen van het toeval af), die onafhankelijk van elkaar zijn (de uitkomst van de ene meting beïnvloedt niet die van een andere meting) en die alle drie dezelfde normale verdeling hebben, namelijk met parameters \(μ\) (onbekend) en \(σ = 0.0068\). Het drietal stochastische variabelen \(X_1, X_2, X_3\) vormt dus een enkelvoudige aselecte steekproef uit een normale verdeling met parameters \(μ\) (onbekend) en \(σ = 0.0068.\)

Opgaven

  1. Het gewicht van de eieren van een bepaald soort kippen is normaal verdeeld met verwachting 65 g en standaardafwijking 5 g. We beschouwen het gewicht van een doos met 12 aselect gekozen eieren van dit soort kippen. a. Wat is hier de populatie? b. Benoem de toevalsvariabelen die hier een rol spelen. Wat valt er te zeggen over hun kansverdeling? c. Wat is hier de steekproef?
  2. In een onderzoek naar het spitsverkeer in San Francisco wordt het aantal personen in elke auto geteld die bij een voorstedelijk knooppunt een snelweg opgaat. Veronderstel dat dit aantal \(X\) in een willekeurige auto die tijdens het spitsuur bij dit knooppunt de snelweg opgaat, als verwachting 1.5 heeft en als standaardafwijking 0.75. a. Heeft \(X\) een binomiale verdeling? Waarom wel/niet? Heeft \(X\) een normale verdeling? Waarom wel/niet? b. Men telt het aantal personen in ieder van 700 aselect bij dit knooppunt gekozen auto’s. Wat is hier de populatie? c. Benoem de toevalsvariabelen die hier een rol spelen. Wat valt er te zeggen over hun kansverdeling? d. Wat is hier de steekproef?

Steekproeffunctie

Op grond van (de realisatie van) de steekproef willen we een uitspraak doen over de onbekende parameter(s), echter pas nadat we de steekproef hebben samengevat door middel van een steekproeffunctie (statistic). Een steekproeffunctie is dus een functie van een aantal stochastische variabelen en daarom zelf ook een stochastische variabele.

Definitie 3. Een steekproeffunctie is een functie \(Y = g(X _1 , \dots, X_n)\) van de steekproef.

Voorbeeld 15. Een voorbeeld van een steekproeffunctie is de som \(Z = X_1 + \cdots + X_{10}\) uit voorbeeld 13. \(Z\) heeft een binomiale verdeling met parameters \(n = 10\) en \(p = 0.10\).

Voorbeeld 16. Een ander voorbeeld is het gemiddelde \(Y = {1\over3} (X_1 + X_2 + X_3)\) uit voorbeeld 14. We kunnen hier de kansverdeling van \(Y\) gemakkellijk bepalen: \(Y\) is een lineaire combinatie van de \(X\)’en en dus volgens stelling 2 ook normaal verdeeld. Zijn verwachting kunnen we uitdrukken in \(μ\) en zijn variantie in \(σ^2\): \(EY = {1\over3} (EX_1 + EX_2 + EX_3) = {1\over3} (μ + μ + μ) = μ\) en Var \(Y = {1\over9}\) Var\((X_1 + X_2 + X_3)\). Omdat de \(X\)’en onafhankelijk zijn, is de variantie van hun som gelijk aan de som van hun varianties, dus \(3 × 0.0068^2\). Kortom, \(Y ∼ N(μ, {0.0068^2\over3})\). Deze notatie moet je lezen als: '\(Y\) is verdeeld als een normale verdeling met parameters \(\mu\) en \({0.0068^2\over3}\)'.

Opgaven

  1. Vervolg van opgave 8.

    d. Welke steekproeffunctie wordt hier beschouwd? e. Wat is de kansverdeling van deze steekproeffunctie? f. Hoe groot is de kans dat het gewicht van een doos ligt tussen 750 g en 825 g?

  2. Vervolg van opgave 9. e. Beschouw de steekproeffunctie \(\bar{X}\), het gemiddelde aantal personen in 700 aselect bij dit knooppunt gekozen auto’s. Kan men de exacte kansverdeling van de steekproeffunctie \(\bar{X}\) bepalen? En bij benadering (denk aan de Centrale Limietstelling)? (&&&& Moet nog worden uitgelegd &&&&) f. Het totale aantal personen in deze 700 auto’s is \(700 \bar{X}\). Gebruik het resultaat bij e om (bij benadering) de kansverdeling van dit totale aantal personen te bepalen. Hoe groot is de kans dat er in 700 auto’s meer dan 1075 personen zitten?

Uitspraken

In onderstaande figuur staat aangegeven dat we op grond van (de realisatie van) de steekproeffunctie een uitspraak willen doen over de waarde van de onbekende parameter \(θ\).

Basisschema
Basisschema van de inferentiële statistiek

We behandelen drie soorten uitspraken:

  1. Schatten van \(θ\),

  2. Betrouwbaarheidsinterval maken voor \(θ\),

  3. Toetsen van een hypothese omtrent \(θ\).

We gaan bij een inferentieprobleem in het algemeen als volgt te werk:

  1. Wat is de populatie en wat kun je zeggen over de kansverdeling van de populatie? Welke parameters spelen een rol? Van welke parameters is de waarde onbekend? In welke parameters zijn we geïnteresseerd?
  2. Benoem de stochastische variabelen waarvan de realisaties zijn gegeven. Wat kun je zeggen over de kansverdeling van deze variabelen?
  3. Welke steekproeffunctie(s) gebruiken we om een uitspraak te doen over de onbekende parameter(s)? Wat kun je zeggen over de kansverdeling van deze steekproeffunctie(s)?
  4. Bereken de realisatie van de steekproeffunctie(s).
  5. Doe een uitspraak.

Schatten

Bij het schatten noemen we de steekproeffunctie \(Y = g(X_1 , \dots, X_n)\) de schatter en de realisatie \(y = g(x_1 , \dots, x_n)\) de schatting. We streven ernaar dat

  1. de schatter zuiver is, dit wil zeggen dat de verwachting van \(Y\) gelijk aan \(θ\) is, ongeacht de werkelijke waarde van \(θ\),
  2. de schatter een kleine variantie heeft.

Voorbeeld 18. Zie voorbeeld 14. \(Y = {1\over3} (X_1 + X_2 + X_3 )\) is een zuivere schatter voor \(μ\) met variantie \(0.0068^2\over 3\) Een andere zuivere schatter voor \(μ\) is de mediaan, de middelste (in waarde) van de drie variabelen \(X_1 , X_2 , X_3\). Men kan afleiden dat deze een grotere variantie heeft.

Opgaven

  1. Hieronder staan de metingen (in millimeters) van een kritische afmeting voor een steekproef van krukassen voor automotoren: 224.120 223.987 224.001 223.976 224.017 223.902 223.982 223.980 223.989 224.098 223.961 224.057 223.960 223.913 224.089 223.999 De gegevens zijn afkomstig uit een produktieproces waarvan bekend is dat de standaardafwijking gelijk is aan \(σ = 0.060\) mm. Een normaal-kwantielplot toont aan dat de verdeling heel dicht bij normaal ligt. Men is geïnteresseerd in de verwachting \(μ\). a. Beantwoord de vragen uit het schema 4.1. b. Is de schatter een zuivere schatter?

Betrouwbaarheidsinterval

Als we een betrouwbaarheidsinterval willen construeren, hebben we niet genoeg aan één steekproeffunctie, zoals bij schatten en toetsen, maar dan zijn er twee functies nodig: \(g_1(X_1, \dots, X_n)\) voor de ondergrens en \(g_2(X_1, \dots, X_n)\) voor de bovengrens van het interval. Beide grenzen zijn stochastische variabelen en daarom is \(P[g_1(X_1, \dots, X_n) ≤ μ ≤ g_2(X_1, \dots, X_n)] = 0.95\) een zinvolle uitdrukking. Zodra we echter realisaties invullen, kunnen we niet meer van kansen spreken; een uitdrukking als \(P(−1.23 ≤ μ ≤ 4.56) = 0.95\) is dus uit den boze! Wel kunnen we zeggen dat het interval \([−1.23; 4.56]\) de uitkomst is van een procedure die in 95% van de gevallen een interval oplevert waar de werkelijke waarde van \(μ\) in ligt.

Voorbeeld 18. (zie voorbeeld 14.) Je wilt een uitspraak doen over de concentratie van een stof in een oplossing. Je doet 3 bepalingen die de uitkomsten vormen van de stochastische variabelen \(X_1, \dots, X_3\). Veronderstel dat deze variabelen onafhankelijk zijn en dezelfde normale verdeling hebben met parameters \(μ\) (waarde onbekend) en \(σ = 0.0068\) gram per liter. We weten nu dat \(\bar{X}\) een normale verdeling heeft met als verwachting dezelfde \(μ\) en standaardafwijking 0.0068. Er geldt nu:

\(P(μ − 1.96{0.0068\over\sqrt{3}} ≤ \bar{X} ≤ μ + 1.96{0.0068\over\sqrt{3}}) = 0.95\)

en dus ook

\(P( \bar{X} − 1.96{0.0068\over\sqrt{3}} ≤ μ ≤ \bar{X} + 1.96{0.0068\over\sqrt{3}}) = 0.95\)

zodat het interval met de (stochastische) grenzen \(\bar{X} − 1.96{0.0068\over\sqrt{3}}\) en \(\bar{X} + 1.96{0.0068\over\sqrt{3}}\) een 95%-betrouwbaarheidsinterval voor \(μ\) vormt. Als de uitkomst van \(X\) gelijk is aan 0.8404, dan is een realisatie van dit interval: \([0.8365, 0.8443]\) (gram per liter). Dit is de uitkomst van een procedure die in 95% van de gevallen een interval oplevert dat de werkelijke waarde van \(μ\) bevat.

Opgaven

  1. (Vervolg van opgave 12.) c. Wat is een 95%-betrouwbaarheidsinterval voor \(μ\)? d. Wat is de uitkomst van dit interval? e. Wat is de interpretatie van het laatste interval?

Toetsen

Hier gaan we niet nader op in.