SF1924 Kapitel:
2.1-9 | 3.1-10 | 4.1-7 | 5.1-6 ( KS1 )
6.1-5(153),7 | 7.1-4 | 10.1-4 | 11.1-10 | 12.1-5 | 13.1-8,10 | 14.1-4

NOT: FIFS (finns i formelsamling)

Mängder

Begrepp Notation Förklaring
utfall ω\omega resultatet av ett slumpmässigt försök
utfallsrum Ω\Omega mängden av alla möjliga utfall
händelse A,B,A,B,\dots en samling/mängd utfall

Ett utfallsrum sägs vara:
diskret - om antalet utfall är ändliga eller uppräkneligt oändliga.
kontinuerligt - om antalet utfall är icke uppräkneligt oändliga.

Snitt
Om vi letar efter alla element i AA OCH BB använder vi snitt: ABA\cap B

Union
Om vi letar efter alla element i AA ELLER BB använder vi union: ABA\cup B

Komplement (not: ^*)
AA^* betyder det som inte är i AA.
(A)=A(A^*)^* = A

(A(BC))=A(BC)(A^* \cup (B \cap C^*))^* = A \cap (B^* \cup C)
Byt ut alla \cap \leftrightarrow \cup och AAA \leftrightarrow A^*.

De Morgans lagar
A(BC)=(AB)(AC)A \cap(B \cup C) = (A \cap B) \cup (A \cap C)
A(BC)=(AB)(AC)A \cup(B \cap C) = (A \cup B) \cap (A \cup C)

Kombinatorik

Multiplikationsprincipen
Om två åtgärder aa och bb kan utföras på z1z_1 och z2z_2 olika sätt så finns det z1z2z_1z_2 sätt att utföra kombinationen av båda åtgärder.

Dragning av kk element ur nn:

återläggning ordning antal sätt
med med nkn^k
utan med n!(nk)!\frac{n!}{(n-k)!}
utan utan (nk)\binom{n}{k}

Binomialkoefficienten: (nk)=n!(nk)!k!,\binom{n}{k} = \frac{n!}{(n-k)!k!},\quad (uttalas: "nn över kk")

Sannolikhet

Klassiska sannolikhetsdefinitionen
Sannolikheten av en händelse AA betecknas P(A)P(A).
P(A)=antal gynsamma (g)antal mo¨jliga (m),0P(A)1,P(Ω)=1P(A) = \frac{\text{antal gynsamma }(g)}{\text{antal möjliga } (m)},\quad 0 \le P(A) \le 1, \quad P(\Omega) = 1

Komplementsatsen
P(A)=1P(A)P(A^*) = 1 - P(A)

Additionssatsen
…för två händelser
P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

AB= (disjunkta)    P(AB)=0    P(AB)=P(A)+P(B)A \cap B = \empty \text{ (disjunkta)} \implies P(A \cap B) = 0 \implies P(A \cup B) = P(A) + P(B)

…för tre händelser
P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C)

Likformig sannolikhet
P(ωi)=1m,i=1,,mP(\omega_i) = \frac{1}{m},\quad i = 1,\dots,m

Betingad sannolikhet
P(AB)=P(AB)P(B),P(A|B) = \frac{P(A \cap B)}{P(B)},\quad (uttalas: "sannolikheten av AA givet/betingat BB")
BB agerar som ett nytt utfallsrum till AA, så de gynsamma utfallen blir de utfall i AA som finns i BB och de möjliga utfallen är BB.

Lagen om total sannolikhet
Om händelserna H1,H2,,HnH_1,H_2,\dots,H_n är disjunkta (dvs H1H2Hn=H_1 \cap H_2 \cap \dots \cap H_n = \empty) OCH H1H2Hn=ΩH_1 \cap H_2 \cap \dots \cap H_n = \Omega (dvs att för varje försök inträffar exakt en av dem) GÄLLER för varje händelse AA att:
P(A)=i=1nP(Hi)P(AHi)P(A) = \sum^{n}_{i=1}{P(H_i)P(A|H_i)}

Bayes sats
Under samma villkor som för lagen om total sannolikhet gäller att:
P(HiA)=P(Hi)P(AHi)j=1nP(Hj)P(AHj)P(H_i|A) = \frac{P(H_i)P(A|H_i)}{\sum^{n}_{j=1}{P(H_j)P(A|H_j)}}

Enklare (med endast en betingning, använd om P(BA)P(B|A) är kännt):
P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

Oberoende händelser
Två händelser AA och BB sägs vara oberoende om: P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B).

Tre händelser AA, BB och CC sägs vara oberoende om:
P(AB)=P(A)P(B)P(A \cap B) = P(A)P(B),
P(AC)=P(A)P(C)P(A \cap C) = P(A)P(C),
P(BC)=P(B)P(C)P(B \cap C) = P(B)P(C) och
P(ABC)=P(A)P(B)P(C)P(A \cap B \cap C) = P(A)P(B)P(C)

Om händelserna A1,A2,,AnA_1,A_2,\dots,A_n är oberoende är deras komplement A1,A2,,AnA_1^*, A_2^*,\dots,A_n^* också oberoende.

Om händelserna A1,A2,,AnA_1,A_2,\dots,A_n är oberoende och P(Ai)=piP(A_i) = p_i så är sannolikheten att minst en inträffar:
1(1p1)(1P2)(1Pn)1 - (1 - p_1)(1 - P_2)\dots (1 - P_n)

Detta leder också till att om P(Ai)=pP(A_i) = p (dvs de är lika sannolika) är sannolikheten att minst en inträffar:
1(1p)n1 - (1 - p)^n

Endimensionella stokastiska variabler

Även kallat slumpvariabler. Notation: X,Y,Z,X,Y,Z, osv.
En stokastisk variabel är en funktion som definerar ett värde xix_i till varje möjligt utfall ωi\omega_i av en händelse: X:Ω={ω1,ω2, }{x1,x2, }X : \Omega=\{ \omega_1,\omega_2,\dots \} \to \{ x_1,x_2,\dots\}

Det diskreta fallet

Sannolikhetsfunktionen
pX(x)=P(X=x)p_X(x) = P(X=x)

Den stokastiska variabeln XX antar värden i en definierad mängd.

Fördelningsfunktionen
FX(x)=P(Xx)=ixpX(j)F_X(x) = P(X \le x) = \sum_{i \le x} p_X(j)

Tvåpunktfördelning (ej med i F.S.)
pX(a)=p,pX(b)=1pp_X(a) = p,\quad p_X(b) = 1-p
Om $a=1, b=0 sägs XX vara Bernoulli-fördelad

Likformig fördelning (ej med i F.S.)
pX(k)=1m,k=1,2,,mp_X(k) = \frac{1}{m}, \quad k=1,2,\dots,m

Förklaring: Vad är sannolikheten att vi får k när vi kastar en m-sidig tärning.
Svar: Den är alltid lika stor 1m\frac{1}{m}.

För-fösta-gången-fördelning [FIFS] Xffg(p)\quad X\in \text{ffg}(p)
pX(k)=(1p)k1p,k=1,2,,p=P(ω)p_X(k) = (1-p)^{k-1}p,\quad k=1,2,\dots,\quad p=P(\omega)

Förklaring: Vad är sannolikheten att vi får vi utfallet ω\omega med slh pp för först gången efter k försök.
Svar: Sannolikheten att missa 1p1-p alla gånger utom den sista, dvs k1k-1-ggr, multiplicerat med sannolikheten för ω\omega, dvs pp.

Binomialfördelning [FIFS] XBin(n,p)\quad X\in \text{Bin}(n,p)
pX(k)=(nk)pk(1p)nk,k=0,1,2,,np_X(k) = \binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,2,\dots,n

Förklaring: Vad är sannolikheten att dra k element ur n, med återläggning?
Svar: Antalet möjliga kombinationer som k kan väljas ur n, dvs (nk)\binom{n}{k}, multiplicerat med sannolikheten för k träffar och (n-k) missar, dvs pk(1p)nkp^k(1-p)^{n-k}.

Binomial stokastik variabel

Hypergeometrisk [FIFS] XHyp(N,n,p)\quad X\in \text{Hyp}(N,n,p)
pX(k)=(Npk)(N(1p)nk)/(Nn),0kNp,0nkN(1p)p_X(k)=\binom{Np}{k} \binom{N(1-p)}{n-k}\big /\binom{N}{n}, \quad 0\le k \le Np,\quad 0 \le n-k \le N(1-p)

Np=Np = totala antalet kulor \cdot slh att få vit kula = antalet vita kulor

Förklaring: Vad är sannolikheten att vi får kk “vita” kulor när vi drar nn kulor ur totalt NN kulor, utan återläggning?
Svar: Använd definitionen för sannolikhet: gm\frac{g}{m}
Antalet gynnsamma är (antalet sätt att välja kk “vita” kulor av totalt NpNp vita kulor) \cdot (antalet sätt att välja resterande (nk)(n-k) inte vita kulor ur alla andra N(1p)N(1-p) kulor)
Antalet möjliga: antalet sätt att välja nn kulor ur totalt NN kulor.

Poisson-fördelning [FIFS] XPo(μ)\quad X\in Po(\mu)
pX(k)=μkk!eμ,k=0,1,2,,μ>0p_X(k)=\frac{\mu^k}{k!}e^{-\mu},\quad k=0,1,2,\dots,\quad \mu > 0

μ=Va¨nteva¨rdet E(X)\mu = \text{Väntevärdet}\ E(X) (kommer senare)

Förklaring: Sannolikheten att en händelse sker under ett visst tidsintervall, om vi vet den genomsnittliga sannolikheten (μ\mu) att händelsen sker under intervallet.

Det kontinuerliga fallet

Täthetsfunktionen
fX(x)f_X(x) kallas täthetsfunktionen och används för att beräkna sannolikheten enligt: P(XA)=AfX(x)dxP(X\in A)=\int_A f_X(x)dx

Den stokastiska variabeln XX antar värden i ett valt intervall.

P(a<X<b)=abfX(x)dxP(a < X < b)= \int_a^b f_X(x)dx\quad
(spelar ingen roll om intervallet är slutet eller öppet)

Täthetsfunktionen fX(x)=P(X=x)f_X(x) = P(X=x) beskriver sannolikheten att X antar ett visst värde x.

Fördelningsfunktionen
FX(x)=P(Xx)=P(<Xx)=xfX(t)dtF_X(x) = P(X \le x) = P(-\infty < X \le x) = \int_{-\infty}^xf_X(t)dt

Fördelningsfunktionen beskriver summeringen av den förbrukade sannolikheten till och med värdet xx.

!!! Viktigt samband
FX(x)=fX(x)F'_X(x) = f_X(x)

Likformig/Uniform fördelning [FIFS] XU(a,b)\quad X \in U(a,b)
fX(x)={1baa<x<b0annarsf_X(x) = \begin{cases} \frac{1}{b-a} & a < x < b \\ 0 & \text{annars}\end{cases}

Det är lika stor sannolikhet över hela intervallet [a,b][a,b]. Sannolikheten är därför P(aXb)=1baP(a \le X \le b) = \frac{1}{b-a}

FX(x)={0xaxabaa<x<b1xbF_X(x) = \begin{cases} 0 & x \le a \\ \frac{x-a}{b-a} & a < x < b \\ 1 & x \ge b\end{cases}

Exponentialfördelning [FIFS] XExp(λ)\quad X \in \text{Exp}(\lambda)
fX(x)={0x0λeλxx>0f_X(x) = \begin{cases} 0 & x \le 0 \\ \lambda e^{-\lambda x} & x > 0\end{cases}

FX(x)={0x<01eλxx0F_X(x) = \begin{cases} 0 & x < 0 \\ 1-e^{-\lambda x} & x \ge 0 \end{cases}

-Bevis-
Enligt definitionen för fördelningsfunktionen:
FX(x)=xfX(t)dt=0fX(t)dt+0xfX(t)dtF_X(x)= \int_{-\infty}^x f_X(t)dt = \int_{-\infty}^0 f_X(t)dt + \int_0^x f_X(t)dt
=0 (da˚ f odef under 0)+0xfX(t)dt=0 \text{ (då f odef under 0)} + \int_0^x f_X(t)dt

0xfX(t)dt=[FX(t)]0x=[eλt]0x=eλxeλ0=eλx(1)=1eλx\int_0^x f_X(t)dt = \left [ F_X(t)\right]_0^x = [-e^{-\lambda t}]_0^x = -e^{-\lambda x} - -e^{-\lambda 0} = -e^{-\lambda x} - (-1) = 1 -e^{-\lambda x}

Normalfördelning [FIFS] XN(μ,σ)\quad X \in N(\mu,\sigma)
fX(x)=1σ2πe(xμ)2/2σ2,<x<f_X(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2},\quad -\infty < x < \infty

σ\sigma kallas standardavvikelsen (kommer senare).

Fler(/Två)dimensionella stokastiska variabler

Notation: (X,Y),(Z,W),(X,Y),(Z,W), osv.
En stokastisk variabel är en funktion som definerar ett talpart(xi,yi)(x_i,y_i) till varje möjligt utfall ωi\omega_i av en händelse: (X,Y):Ω={ω1,ω2, }{(x1,y1),(x2,y2), }(X,Y) : \Omega=\{ \omega_1,\omega_2,\dots \} \to \{ (x_1,y_1),(x_2,y_2),\dots\}

Det diskreta fallet

Sannolikhetsfunktionen
pX,Y(x,y)=P(X=j,Y=k),j,k=0,1,2,p_{X,Y}(x,y) =P(X = j, Y = k), \quad j,k= 0,1,2,\dots

Marginella sannolikhetsfunktionen
pX(j)=k=0PX,Y(j,k)p_X(j) = \sum_{k=0}^\infty P_{X,Y}(j,k)

Fördelningsfunktionen
FX,Y(j,k)=P(Xx,Yy)=jxkypX,Y(j,k)F_{X,Y}(j,k) = P(X \le x, Y \le y) = \sum_{j \le x} \sum_{k \le y} p_{X,Y}(j,k)

Marginella fördelningsfunktionen
Fås enklast genom att använda den marginella sannolikhetsfunktionen.

Det kontinuerliga fallet

Täthetsfunktionen
fX,Y(x,y)f_{X,Y}(x,y) kallas täthetsfunktionen och används för att beräkna sannolikheten enligt: P((X,Y)A)=AfX,Y(x,y)dxdyP((X,Y)\in A)=\int\int_A f_{X,Y}(x,y)dxdy

Fördelningsfunktionen
FX,Y(x,y)=P(Xx,Yy)=P(<Xx,<Yy)F_{X,Y}(x,y) = P(X \le x, Y \le y) = P(-\infty < X \le x, -\infty < Y \le y)
=yxfX,Y(u,v)dudv=\int_{-\infty}^y \int_{-\infty}^xf_{X,Y}(u,v)dudv

Fördelningsfunktionen beskriver summeringen av den förbrukade sannolikheten till och med värdet/punkten (x,y)(x,y).

Största/Minsta stokastiska variabeln
Z=max(X,Y)    Zz    Xx,Yy    FZ(z)=FX(x)FY(y)Z = \text{max}(X,Y) \implies Z \le z \iff X \le x, Y \le y \implies F_Z(z) = F_X(x)F_Y(y)

Z=min(X,Y)    Z>z    X>x,Y>y    FZ(z)=1(1FX(x))(1FY(y))Z = \text{min}(X,Y) \implies Z > z \iff X > x, Y > y \implies F_Z(z) = 1- (1 - F_X(x))(1 - F_Y(y))

Lägesmått (väntevärde)

Det förväntade genomsnittliga värdet över ett oändligt antal försök kallas väntevärdet E(X)=μE(X) = \mu. Väntevärdet är ett lägesmått, dvs det beskriver var massan är belägen “i genomsnitt”, delar arean under kurvan i hälften.

Det endimensionella diskreta fallet
E(X)=kkpX(k)E(X) = \sum_{k} kp_X(k)

Det endimensionella kontinuerliga fallet
E(X)=xfX(x)dxE(X) = \int_{-\infty}^\infty xf_X(x)dx

Om en s.v. Y=g(X)Y = g(X), dvs beror på s.v. XX genom en funktion gg så byts värdena x,kx,k ut mot funktionsvärdet i formlerna ovan enligt:
kg(k),xg(x)k \to g(k),\quad x \to g(x)

Det tvådimensionella diskreta fallet
E(Z)=j,kg(j,k)pX,Y(j,k)E(Z) = \sum_{j,k}g(j,k)p_{X,Y}(j,k)
Z=g(X,Y)Z = g(X,Y)

Det tvådimensionella kontinuerliga fallet
E(Z)=g(x,y)fX,Y(x,y)dxdyE(Z) = \int_{-\infty}^\infty \int_{-\infty}^\infty g(x,y)f_{X,Y}(x,y)dxdy
Z=g(X,Y)Z = g(X,Y)

Räkneregler för väntevärden
Uppdelning, koefficienter och konstanter
E(aX+bY+c)=aE(X)+bE(Y)+cE(aX + bY + c) = aE(X) + bE(Y) + c
Oberoende s.v. ger
E(XY)=E(X)E(Y)E(XY) = E(X)E(Y)

Spridningsmått

Variansen [FIFS]
V(X)=E[(Xμ)2]={anv. ra¨kneregler fo¨r va¨nteva¨rden ovan}V(X) = E[(X-\mu)^2] = \{ \text{anv. räkneregler för väntevärden ovan} \}
=E(X2)E2(X)= E(X^2) - E^2(X)

Standardavvikelse
D(X)=σ=V(X)D(X) = \sigma = \sqrt{V(X)}

Variationskoefficient
R(X)=D(X)E(X)R(X) = \frac{D(X)}{E(X)}

Räkneregler för spridningsmått
E(aX+b)=aE(X)+bE(aX+b) = aE(X) + b
V(aX+b)=a2V(X)V(aX + b) = a^2V(X)
D(aX+b)=aD(X)D(aX + b) = \lvert a \rvert D(X)

!!! Notera
V(aX+bY+z)=a2V(X)+b2V(X)V(aX + bY + z) = a^2V(X) + b^2V(X)\quad (se räkneregler för väntevärde)
D(aX+bY+z)=(a2D(X)2+b2D(Y)2D(aX + bY + z) = \sqrt{(a^2D(X)^2 + b^2D(Y)^2} \quad (se standardavvikelse)

Beroendemått

Kovarians [FIFS]
Beskriver huruvida olika mätdata X,YX,Y tenderar att avviker åt samma eller olika håll, genom att ge ett positivt respektive negativt värde. Är som variansen, men mellan X och Y istället för X \cdot X.
C(X,Y)=E[(XμX)(YμY)]=E(XY)E(X)E(Y)C(X,Y) = E\left [(X - \mu_X)(Y - \mu_Y) \right ] = E(XY) - E(X)E(Y)

Korrelationskoefficient [FIFS]
Beskriver huruvida mätdata är korrelerade där ρ\lvert \rho \rvert beskriver korrelationens styrka.
ρ(X,Y)=C(X,Y)D(X)D(Y),1ρ1\rho(X, Y) = \frac{C(X,Y)}{D(X)D(Y)},\quad -1\le\rho \le 1

I följande fall sägs X,YX,Y vara okorrelerade:
C(X,Y)=0    ρ(X,Y)=0C(X,Y) = 0 \implies \rho(X,Y) = 0

Det gäller även att: Om X,YX,Y är oberoende, dvs E(X,Y)=E(X)E(Y)E(X,Y) = E(X)E(Y), så är de även okorrelerade. Detta gäller INTE åt andra hållet, dvs:
E(X,Y)=E(X)E(Y)    C(X,Y)=0E(X,Y) = E(X)E(Y) \implies C(X,Y) = 0
(C(X,Y)=0E(X,Y)=E(X)E(Y))\big ( C(X,Y) = 0 \nRightarrow E(X,Y) = E(X)E(Y) \big )

Mer om stokastiska variabler

Standardiserad stokastisk variabel
YY kallas en standardiserad s.v. om Y=Xμσ,μ=E(X),σ=D(X)Y = \frac{X-\mu}{\sigma},\quad \mu = E(X),\quad \sigma = D(X)

En standardiserad s.v. YY har egenskaperna:
E(Y)=μ=0,D(V)=σ=1E(Y) = \mu = 0,\quad D(V) = \sigma = 1
(används i samband med normalfördelning)

Felvärden
Om vi har mätdata enligt den s.v. XX så har den finns ett systematiskt fel (δ\delta), som beskriver differensen mellan väntevärdet (μ\mu) och det korrekta värdet (θ\theta), samt ett slumpmässigt fel (ε\varepsilon), som beskriver differensen mellan mätvärdet (XX) och väntevärdet (μ\mu). Sammanfattat:
Xma¨tva¨rde=θkorrekt va¨rde+δsystematiskt fel+εslumpma¨ssigt fel\underbrace{X}_{\text{mätvärde}}= \underbrace{\theta}_{\text{korrekt värde}} + \underbrace{\delta}_{\text{systematiskt fel}} + \underbrace{\varepsilon}_{\text{slumpmässigt fel}}
Där:
δ=μθ,\delta= \mu - \theta,\quad God nogrannhet = litet δ\delta
ε=Xμ,\varepsilon = X - \mu,\quad God precision = litet ε\varepsilon

Medelvärde
Om s.v. X1,X2,XnX_1,X_2, \dots X_n är oberoende så:
X=i=1nXin\overline{X} = \sum_{i=1}^n \frac{X_i}{n}

Där:E(X)=μ,V(X)=σ2n,D(X)=σn\quad E(\overline X) = \mu,\quad V(\overline X) = \frac{\sigma^2}{n}, \quad D(\overline X) = \frac{\sigma}{\sqrt n}

Fler räkneregler för s.v.
E(X+Y)=E(X)+E(Y)E(X+Y) = E(X) + E(Y)
V(X+Y)=V(X)+V(Y)+2C(X,Y)V(X+Y) = V(X) + V(Y) + 2C(X,Y)

Om s.v. oberoende (dvs C(X,Y)=0C(X,Y) = 0)
V(X+Y)=V(X)+V(Y)V(X+Y) = V(X) + V(Y)
D(X+Y)=D2(X)+D2(Y)D(X+Y) = \sqrt{D^2(X) + D^2(Y)}

Stora talens lag
P(Xnμ<ε)1,fo¨r varje ε da˚ nP( |\overline X_n - \mu| < \varepsilon) \to 1,\quad \text{för varje }\varepsilon \text{ då } n \to \infty
Lagen menar att så länge vi utför tillräckligt många försök så kommer medelvärdet av försöken att närma sig väntevärdet, oavsett storlek på precisionen ε\varepsilon.

Markovs olikhet
P(Ya)E(Y)a,(a>0,y>0)P(Y\ge a) \le \frac{E(Y)}{a},\quad (a>0, y>0)

Tjebysjovs olikhet [FIFS]
P(Xμkσ)1k2,(μ,σ>0)P(|X-\mu| \ge k\sigma) \le \frac{1}{k^2},\quad (\mu,\sigma > 0)

Begreppslista 1

Begrepp Notation Alt. Förklaring
sannolikhetsfunktion pX(x)p_X(x) sannolikheten för en diskret s.v.: P(X = x)
täthetsfunktion fX(x)f_X(x) sannolikheten för en kontinuerlig s.v.: P(X = x)
fördelningsfunktion FX(x)F_X(x) beskriver hur stor del av den totala slh som förbrukats t.o.m. xx.
väntevärde E(X)E(X) μ\mu det förväntade värdet av en s.v. / medelvärdet
varians V(X)V(X) den kvadratiska medelavvikelsen från väntevärdet
standardavvikelse D(X)D(X) σ\sigma den genomsnittliga avvikelsen
variationskoefficient R(X)R(X) den procentuella avvikelsen
kovarians C(X,Y)C(X,Y) variansen mellan två olika s.v.
korrelationskoefficient ρ(X,Y)\rho(X,Y) korrelationen mellan två s.v.
korrekt värde θ\theta det korrekta värdet (ej mätvärde)
systematiskt fel δ\delta skillnaden mellan väntevärdet och det korrektvärdet (μθ\mu - \theta)
slumpmässigt fel ε\varepsilon skillnaden mellan mätvärdet och väntevärdet (XμX-\mu)
frihetsgrad ff ofta men INTE alltid: f=(n1)f=(n-1) (alt f=(r1)f=(r-1)), n/r = antalet försök/tester


Normalfördelning

Om en eller flera s.v. XX är normalfördelade betecknas det som XN(μ,σ)X \in N(\mu,\sigma).
fX(x)=1σ2πe(xμ)2/2σ2,FX(x)=1σ2πxe(tμ)2/2σ2dtf_X(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/2\sigma^2},\quad F_X(x) = \frac{1}{\sigma \sqrt{2\pi}} \int_{-\infty}^x e^{-(t-\mu)^2 / 2\sigma^2}dt

Standariserad normalfördelning
För μ=0\mu = 0 och σ=1\sigma = 1 får vi speciallfallet XN(0,1)X \in N(0,1) som kallas det standardiserad normalfördelning. För detta specialfall kallas täthetsfunktionen fx(x)f_x(x) för φ(x)\varphi(x), och fördelningsfunktionen FX(x)F_X(x) för Φ(x)\Phi(x).
φ(x)=12πex2/2,Φ(x)=12πxet2/2dt\varphi(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2},\quad \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^x e^{-t^2 / 2}dt

!!! Notera att dessa oftast avläses från tabeller, inte räknas ut.

Egenskaper för standardiserad normalfördelning
I och med att en standardiserad normalfördelning är symmetrisk runt yy-axeln så gäller följande:

α\alpha-kvantilen
Den area under täthetsfunktionen höger om λα\lambda_\alpha är lika med α\alpha.
P(X>λα)=αP(X > \lambda_\alpha) = \alpha

Enligt ovan symmetriska egenskaper gäller även: λ1α=λα\lambda_{1-\alpha} = -\lambda_\alpha

Formeln används oftast för att beräkna slh för att XX ligger mellan λα/2-\lambda_{\alpha/2} och λα/2\lambda_{\alpha/2}.
P(λα/2<X<λα/2)=1αP(-\lambda_{\alpha/2}<X<\lambda_{\alpha/2}) = 1- \alpha

Allmän normalfördelning
För det allmänna fallet kan vi utgå i den standardiserade normalfördelningen, då den är mycket enklare att räkna med. Så om XN(μ,σ)X \in N(\mu, \sigma) och Y=xμσN(0,1)Y = \frac{x-\mu}{\sigma} \in N(0,1) gäller:
fx(X)=1σφ(xμσ),Fx(X)=Φ(xμσ)f_x(X) = \frac{1}{\sigma}\varphi \left ( \frac{x-\mu}{\sigma} \right ),\quad F_x(X) = \Phi \left (\frac{x-\mu}{\sigma} \right )

Glöm inte att: μ=E(X),σ=D(X)\mu = E(X), \sigma = D(X) och då även att σ2=V(X)\sigma^2 = V(X).

Linjärkombinationer av oberoende normalfördelade s.v.
Genom att vända räknereglerna för väntevärde, standardavvikelse (se tidigare avsnitt) kan vi beskriva vad som händer med normalfördelad s.v. då vi linjärtransformerar dem:

En s.v. XN(μ,σ)X \in N(\mu,\sigma):
Y=aX+bN(aμ+b,aσ),aσ=a2σ2Y = aX + b \in N(a\mu + b, |a|\sigma),\quad \|a|\sigma = \sqrt{a^2\sigma^2}

Två XN(μX,σX)X \in N(\mu_X, \sigma_X) och YN(μY,σY)Y \in N(\mu_Y, \sigma_Y):
X+YN(μx+μY,σX2+σY2)X+Y \in N\left ( \mu_x + \mu_Y, \sqrt{\sigma^2_X + \sigma_Y^2} \right )
XYN(μxμY,σX2+σY2)X-Y \in N\left ( \mu_x - \mu_Y, \sqrt{\sigma^2_X + \sigma_Y^2} \right )

!!! Observera att tecknet inte spelar roll för standardavvikelsen, precis som tidigare.

Flera s.v. X1,X2,,XnX_1,X_2,\dots,X_n som alla N(μi,σi)\in N(\mu_i, \sigma_i) respektive:
1naiXi+bN(1naiμi+b,1nai2σi2)\sum_1^n a_iX_i + b \in N\left ( \sum_1^n a_i\mu_i + b, \sqrt{\sum_1^n a_i^2\sigma_i^2} \right )

Medelvärden
Om vi använder det aritmetiska medelvärdet till en s.v. enligt X=1nXi/n\overline X = \sum_1^n X_i / n så är medelvärdet normalfördelat enligt: XN(μ,σ/n)\overline X \in N(\mu, \sigma /\sqrt n)

Kan ses från Centrala Gränsvärdessatsen härnäst.

Om vi har två olika medelvärden X\overline X och Y\overline Y så gäller:
XYN(μXμY,σX2/nX+σY2/nY)\overline X - \overline Y \in N(\mu_X - \mu_Y, \sqrt{\sigma_X^2 / n_X + \sigma_Y^2/n_Y})

Centrala gränsvärdessatsen
Om X1,X2,X_1, X_2, \dots är en oändlig följd av oberoende och likafördelade s.v. med σ>0\sigma > 0 så gäller för Yn=X1++XnY_n = X_1 + \cdots + X_n att:
P(a<Ynnμσnb)Φ(b)Φ(a),nP(a < \frac{Y_n -n\mu}{\sigma\sqrt n} \le b) \to \Phi(b) - \Phi(a),\quad n\to \infty

Asymptotisk normafördelning
Om ZnZ_n är en oändlig följd s.v. det kan finnas talen An,BnA_n, B_n sådana att:
P(a<YnAnBnb)Φ(b)Φ(a),nP\left ( a < \frac{Y_n -A_n}{B_n} \le b \right ) \to \Phi(b) - \Phi(a),\quad n\to \infty
…sägs ZnZ_n vara asymptotiskt normalfördelad: ZnAsN(An,Bn)Z_n \in \text{AsN}(A_n, B_n)

!!! Detta medför även från ovan att YnAsN(nμ,σn)Y_n \in \text{AsN}(n\mu, \sigma\sqrt n)

Det gäller då även (följer enkelt ur ovan argument) för en följd oberoende likafördelade s.v. att:
(X1,X2,,Xn)/nAsN(μ,σ/n)(X_1,X_2,\dots,X_n)/n \in \text{AsN}(\mu, \sigma/\sqrt n)

Binomialfördelning och dess släktningar

3-4 FIFS

Punktskattning/Stickprov

Stickprovsvariabel
θ=θ(X1,X2,,Xn)\theta^* = \theta^*(X_1,X_2,\dots,X_n) är en funktion av s.v. X1,X2,,XnX_1,X_2,\dots,X_n, som är fördelad enligt parametern θ\theta.

Punktskattning
θobs=θ(x1,x2,,xn)\theta^*_{\text{obs}} = \theta^*(x_1,x_2,\dots,x_n) är en funktion av mätdata x1,x2,,xnx_1,x_2,\dots,x_n som är ETT utfall (observation) av θ\theta^*.

Medelfel/Standardfelet för stickprov (not: dd)

När μ\mu skattas
D(Xˉ)=σnDobs=d=sn,D(\bar X)=\frac{\sigma}{\sqrt{n}} \to D^*_{obs}=d=\frac{s}{\sqrt{n}}, \quad(för ss se 8 FIFS)

…förskillnaden: μ1μ2\mu_1-\mu_2
D(XˉYˉ)=σx2n+σy2nD(\bar X - \bar Y) = \sqrt{\frac{\sigma^2_x}{n}+\frac{\sigma^2_y}{n}}

När pp skattas
d=p(1p)nd=\sqrt{\frac{p^*(1-p^*)}{n}}

…förskillnaden: p1p2p_1-p_2
dp1p2:obs=p1(1p1)n1+p2(1p2)n2Dp1p2d^*_{p_1-p_2:obs}=\sqrt{\frac{p_1^*(1-p_1^*)}{n_1}+\frac{p_2^*(1-p_2^*)}{n_2}}\approx D{p_1-p_2}

Konfidensinterval

Krav på bra konfidensinterval (från Binomial) (FIFS)

  1. Slumpmässigt urval
  2. Approximativt normalfördelad - minst 10 vardera av träffar och missar, dvs: np,n(1p)10np, n(1-p) \le 10.
    • Oftast är parametern pp ej känd och då används istället den approximerade stickprovsvariabeln pp^*
  3. Oberoende urval - utan återläggning bör urvalsstorleken ej vara större än 10% av populationen.
    • Oftast är parametern pp ej känd och då för att beräkna standardavvikelsen σp=p(1p)n\sigma_p = \sqrt{\frac{p(1-p)}{n}} använder vi istället den approximerade stickprovsvariabeln pp^* för att approximera standardfelet σp=p(1p)nσp\sigma_{p^*} = \sqrt{\frac{p^*(1-p^*)}{n}} \approx \sigma_p.

Välja metod för konfidensinterval

  1. Vilken fördelning tillhör den okända parameterna θ\theta?
    1. normalfördelad N(θ,D),D=σn\in N(\theta, D), \quad D=\frac{\sigma}{\sqrt{n}}
      1. Är riktiga σ\sigma känd?
        JA: λ\lambda-metoden (12.1 FIFS}
        NEJ: tt-metoden (12.2 FIFS), använd Dobs=sn,sD^*_{obs} = \frac{s}{\sqrt{n}}, \quad s punktskattning av σ\sigma
    2. approximativt…
      …normalfördelad N(θ,D)\in N(\theta, D)
      Approximativa metoden (12.3 FIFS) => ger en approximativ signifikansnivå
      …annars ((12.3 FIFS) funkar ändå, men ej N(μ,σ)N(\mu,\sigma))?
      Iθ=θobs±dλα/2I_\theta = \theta^*_{obs} \pm d\cdot \lambda_{\alpha/2}, (se dd medelfel ovan)
    3. vilken annan fördelning som helst, inklusive N(μ,θ)N(\mu, \theta)
      χ2\chi^2-metoden (12.4 FIFS), använd en punktskattning av θ\theta (t.ex. ss för σ\sigma)

χ2\chi^2-test

Test av given fördelning
!!! Kontrollera npi5np_i \ge 5.
Qχα2(f)H0Q \le \chi^2_\alpha(f) \Rightarrow H_0 sann med konfidensnivå 1α1-\alpha
(14.3 FIFS)

Om npi5np_i \ge 5 EJ UPPFYLLT: Gruppera enligt:

  1. slå ihop 2 eller flera tester xix_i till ett test:
    p=pip = \sum p_i
    x=xix = \sum x_i
  2. Räkna ut nytt npnp och hantera som enskilt test.

Homogenitetstest
Som ovan, men summera istället samtliga kollonner och rader. 14.3 FIFS

Kategorisering av uppgifter

I. Sannolikhet

II. Fördelningar

III. Linjärkombinationer av stokastiska variabler

IV. Konfidensintervall

V. Hypotesprövning
α=P(H0 fo¨rkastas)\alpha = P(H_0 \text{ förkastas}) även om H0H_0 sann.
Skapa ett konfidensintervall för mothypotesen H1H_1 med konfidensgrad 1α1-\alpha.
(om H1</>θH_1 </> \theta använd nedre/högre gräns /-\infty/\infty)
[–> IV. Konfidensintervall]