II. Valószínűségelmélet és statisztika

2.1. Populácó és minta

Az utóbbi fejezetben változók eloszlását vizsgáltuk, de azzal nem foglalkoztunk, hogy azok hogyan realizálódnak egyes esetekben. Csak azt állapítottuk meg, hogy egy X valószínűségi változó milyen valószínűséggel esik egy adott intervallumba. Ez a valószínűség bizonyos paraméterektől függ, amelyek ezt az általában ismeretlen eloszlást leírják. Tehát nincs semmi ismeretünk az eloszlásról, ezt kísérleti úton nyert tapasztalati eloszlással kell közelítenünk. Kísérleteket végzünk e célból, amelynek az eredménye véges számú mérési eredmény, ún. statisztikai minta lesz.

A statisztikai vizsgálat tárgyát képező egyedek összességét a megfelelő számértékekkel együtt statisztikai sokaságnak vagy populációnak nevezzük. Más szóval, a populáció azoknak az elemeknek, objektumoknak az összessége, amelyről információt kívánunk nyerni.

Ha egy populáció véges számú elemet tartalmaz, akkor véges populációról beszélünk. Elméletileg, idealizált esetben elképzelhető végtelen populáció is.

A populáció elemeinek általában valamilyen numerikus jellemzőit vizsgáljuk, minden elemhez a vizsgálatra jellemző szám rendelhető. Ezt a tulajdonságot egy valószínűségi változóval fejezhetjük ki, azaz, a populáció egy X valószínűségi változóval hozható kapcsoltaba. X eloszlását a populáció eloszlásának nevezzük.

1.Példa. Magyarország lakói véges populációt képeznek. A numerikus jellemző (valószínűségi változó) lehet például egy lakos évi jövedelme forintban.

2.Példa. A gyógyszerészhallgatók halmaza is egy populáció, a numerikus jellemző a hallgatók testmagassága.

3.Példa. Tegyük fel, hogy egy kutató az egyéves hímnyulak átlagos súlyát szeretné meghatározni. Lehetetlen a populáció összes egyéves hímnyulát megmérni, mivel a populáció sosem létezik teljes egészében egy adott időpontban. Ha a kutató pld. 50 darab hímnyulat véletlenszerűen kiválaszt, ez az 50 nyúl lesz az alapja a populáció vizsgálatához. Ez az 50 nyúl ún. statisztikai mintát képez.

Ismételjünk meg egy kísérletet n-szer, a populáció n elemén. Így n számú megfigyelést kapunk. Az ismétléseket egymástól függetlenül, ugyanazon körülmények között kell végrehajtanunk. Minden ismétlés eredménye egy valós szám lesz, amely egyúttal egy X valószínűségi változó értéke. Jelöljük az így kapott számsorozatot -nel.

Definícó.

Az egymástól független és X-szel megegyező eloszlású valószínűségi változók összességét n-elemű mintának nevezzük. Ha X eloszlásfüggvénye F(x), akkor azt mondjuk, hogy egy, az F(x) eloszlású sokaságból vett (n-elemű véletlen) minta. Az xi-ket mintaelemeknek nevezzük.n

 

A mintaelemeknek egy populációból történő véletlenszerű kiválasztásának több módszere is van (visszatevés nélkül, visszatevéssel, szekvenciálisan, stb.). A véletlen mintában a kiválasztás azon elv szerint történik, hogy a populációnak minden eleme egyforma valószínűséggel legyen választható. A mintavételezés a biostatisztika egyik fontos kérdése, de mi nem foglalkozunk vele.

2. Példa. Az összes gyógyszerészhalgatók populációjában 10 véletlenszerűen választott hallgató 10 elemű mintának tekinthető.

A statisztikai vizsgálat célja egyrészt populációról a minta alapján leíró információkat szerezni, másrészt következtetéseket szeretnénk levonni, hipotéziseket bebizonyítani. Az első cél a leíró statisztika, a második pedig a statisztikai analízis, következtetés témaköre. A következő fejezetben a leíró statisztika módszereivel foglalkozunk, azaz, a minta alapján a populáció jellemzésével.

2.2. Populácó- és mintabeli jellemzők

2.2.1. A populáció és a minta eloszlása

Tekintsünk egy statisztikai mintát, mely az F(x) eloszlású populációból származik. Ez egyúttal az X valószínűségi változó eloszlásfüggvénye is, melyet tehát a populáció eloszlásfüggvényének vagy elméleti eloszlásfüggvénynek nevezünk. Hasonlóan (folytonos esetben) f(x) az elméleti sűrűségfüggvény, mindkettő többnyire ismeretlen.

Az értékek a számegyenesen véletlenszerűen helyezkednek el, minden konkrét esetben azonban kapunk n meghatározott pontot. Ha az így kapott pontok mindegyikéhez hozzárendelünk 1/n valószínűséget, akkor egy diszkrét valószínűségeloszlást kapunk, melyet empírikus eloszlásnak nevezünk, az ehhez tartozó eloszlásfüggvényt a minta eloszlásfüggvényének vagy empírikus eloszlásfüggvénynek nevezzük. Minél nagyobb az n, annál jobban megközelíti a minta eloszlásfüggvénye az elméleti eloszlásfüggvényt.

Hasonlóan nyerhető folytonos eloszlás esetén a minta sűrűségfüggvénye. Az előző fejezetben látott hisztogram is az elméleti sűrűségfüggvény egy közelítése.A 8.a-b ábra mutat egy példát a minta és a populáció eloszlás- és sűrűségfüggvényére.

8.a.ábra. Folytonos eloszlásfüggvény és közelítése empírikus sűrűségfüggvénnyel

 

8.b.ábra. Folytonos sűrűségfüggvény és közelítése empírikus sűrűségfüggvénnyel.

 

 

2.2.2. A centrális tendencia mérőszámai

A kutató gyakran keres olyan számokat, amelyek az adatai általános jellemvonását tükrözik. Ilyen jellemzők az átlag, a módusz és a medián, melyeket a következőképpen definiálunk:

Tekintsük az mintát.

Az átlag vagy mintabeli átlag a mintaelemek számtani közepe, azaz:

(2.1)

A módusz a minta leggyakrabban előforduló eleme.

A medián az az érték, amelynél a mintaelemek fele kisebb, és amelynél a mintaelemek fele nagyobb. Kiszámítása oly módon történik a mintaelemekből, hogy a mintát először nagyság szerint rendezzük, és páratlan mintaelemszám esetén a középső elem a medián, páros mintaelemszám esetén a két középső elem számtani közepe.

1.Példa. 11 hallgató maximum 100 pontos teszteredményei a következők: 100 100 100 63 62 60 12 12 6 2 0. Az átlag 517/11=47, a modus 100, a medián 60. Az egyik hallgató szerint szigorú volt a tanár, mert a 47-es átlagot alacsonynak találta. A tanár szerint több 100 pontos teszt volt, mint bármely más teszt. Végül a tanszékvezető megfelelőnek találta az eredményeket, mivel a közepes érték, 60 nem mondható rendkívülinek.

Kinek volt igaza? Mindhárman szerették volna az adatokat legjobban jellemző egyetlen számot megadni. A hallgató az átlagot, a tanár a móduszt, a tanszékvezető a mediánt használta.

2. Példa. Számítsuk ki a 3,7,5,6,8 minta mediánját.Átrendezés után kapjuk a 3,5,6,7,8 sorrendet, a medián a középső elem, 6. A 3,3,5,6,8,13 minta mediánja viszont (5+6)/2=5.5.

Melyik a jobb a három mérőszám közül? Ez az adott helyzettől függ. Például, az átlagot egy-két szélsőséges mintaelem nagyon "elhúzza", míg a medián kevésbé függ a mintából feltűnően "kilógó", extrém nagy vagy kicsi értékektől.

 

A mintabeli jellemzők kapcsolata a populációbeli jellemzőkkel

Hasonlóan az elméleti és tapasztalati eloszlások közötti kapcsolathoz, amely a populáció és a minta közötti kapcsolatra vezethető vissza, a minta átlagának, móduszának és mediánjának is megvan az elméleti "megfelelője": az elméleti átlag, módusz, valamint a medián.

A minta átlag a populáció átlagnak vagy elméleti átlagnak vagy a várható értéknek a közelítése. A populáció átlagát a m görög betűvel jelöljük, és ez az összes populációbeli elem összege osztva az elemek számával. A minta módusza az elméleti eloszlás helyi maximumának egy közelítése, a minta mediánja a populáció mediánjának egy közelítése.

 

Az átlag tulajdonságai

1. Ha a mintaelemekhez ugyanazt a számot adjuk hozzá, akkor az így számolt mintaátlag is ugyanezzel a számmal tér el az eredetitől. Ugyanez érvényes egy szám kivonására, számmal való szorzásra és osztásra.

2. Az átlag az a szám, amelynek a négyzetes eltérése a mintaelemektől minimális.

Ezt a második állítást a differenciálszámítás eszközeivel be lehet bizonyítani. Jelölje m azt a számot, amelynek a mintaelemektől való négyzetes eltérését vizsgáljuk. Ez a négyzetes eltérés adott mintaelemek esetén m függvénye, tehát a következő függvény minimumát keressük:

.

A szélsőértékek megkereséséhez a fenti függvényt kell m szerint differenciálnunk:

Tegyük egyenlővé a jobboldalt 0-val, és oldjuk meg az egyenletet m-re:

Az utolsó egyenlőségből m -et kifejezve kapjuk a (2.1) alatti formulát:

Tehát a számtani átlag szélsőérték hely. Bebizonyítható, hogy ez minimum is, mert a második derivált mindig pozitív:

2.2.3. A szóródás mérőszámai

Szükségünk van egy olyan mérőszámra is, amely azt mondja meg, hogy a mintaelemek közel vannak-e az átlagtól, vagy távol vannak tőle. Egy ilyen mérőszámot a szóródás mérőszámának nevezzük, ideális esetben ez a szám akkor nagy, ha a mintaelemek távol vannak az átlagtól, és kicsi, ha közel. Ilyen, a leggyakrabban alkalmazott mérőszámok a terjedelem, a variancia és a standard deviáció.

A minta terjedelme

A terjedelem a minta legnagyobb eleme (maximuma) és legkisebb eleme(minimuma) közötti különbség.

A variancia

Most tekintsünk egy, az átlagtól való eltérést mérő számot. Az átlagtól egyenlő távolságra levő egyedek egyenlő mértékben járulnak hozzá ehhez a számhoz, akár pozitív, akár negatív az átlagtól való eltérésük. Négyzetre emeléssel eltüntethető a negatív előjel, tehát definiáljuk a minta szóródását az átlagtól való átlagos négyzetes eltéréssel, amit varianciának nevezünk. A variancia képlete a következő:

 

(2.2)

A standard deviáció

Mivel a varianciát gyakran nehéz elképzelni, általánosabban használt mérőszám a szóródásra a variancia négyzetgyöke, amit standard deviációnak vagy a minta szórásának nevezünk. A standard deviáció képlete:

 

(2.3)

A standard deviációnak ugyanaz a (fizikai) mértékegysége, mint az átlagé, ill. az eredeti adatoké. Gyakorlatban, kézi számoláshoz megfelelőbbek a standard deviáció következő, átalakított formái:

 

 

(2.4)

A populációbeli szóródás mérőszámai

A szóródás mérőszámai is definiálhatók a teljes populációra is, így a minta terjedelme, varianciája és standard deviációja a populáció terjedelmének, varianciájának és standard deviációjának közelítései.

Példa. Számoljuk ki az 1, 8, 0, 3, 9 standard deviációját a (2.3) és a (2.4)-beli képlet segítségével. Látható, hogy egyszerűbb a (2.4)-ben megadott képlet használata.

i

xi

xi-4.2

(xi-4.2)2

 

xi

xi2

1

1

-3.2

10.24

 

1

1

2

8

3.8

14.44

 

8

64

3

0

-4.2

17.64

 

0

0

4

3

-1.2

1.44

 

3

9

5

9

4.8

23.04

 

9

81

S

S xi=21

 

S (xi-4.2)2=
66.8

 

S xi=21

S xi2=
155

 

 

A standard deviáció tulajdonságai

1. Ha a mintaelemekhez ugyanazt a számot hozzáadjuk, vagy a mintaelemekből ugyanazt a számot levonjuk, az így keletkezett minta szórása megegyezik az eredeti minta szórásával.

2. Ha a mintaelemeket ugyanazzal a számmal szorozzuk, az így keletkezett minta szórása az eredeti minta szórásának konstansszorosa lesz. Ugyanez érvényes egy konstanssal való osztásra is.

2.2.4. Egy mintaelem mérőszáma a mintában vagy a populációban

z érték, vagy standardizált érték

Egy mintaelemre vonatkozó mérőszám természetesen adódik: maga a mérés eredménye, az a szám, amelyet a mintavételezés során kapunk. Egy másik fontos mérőszáma egy mintaelemnek az ún. z érték, vagy a mintaelem standardizáltja. A z érték megadja, hogy a mintaelem eltérése a minta átlagától a standard deviáció hányszorosa. Ha adott egy minta, az xi mintaelemhez tartozó z érték a következőképpen számítható :

, i=1,2,...,n.

Példa . Egy osztályban egy tesztnek a következő eredményei születtek: az átlag 83 pont volt, a standard deviáció 5, a medián 87 és a terjedelem 24. Az egyik gyereknek ebben az osztályban 69 pontos eredménye lett. Az ehhez tartozó z érték z=(69-83)/5=-14/5=-2.8. Ez azt mutatja, hogy ennek a gyereknek a teljesítménye majdnem 3 standard deviációval volt az átlag alatt.

A z értéket a mintaelemek relatív helyzetének a jellemzésére is használhatjuk. Tekintsünk két vizsgaeredményt, melyet egy hallgató elért: angolból 85 pont, fizikából 65. Tegyük fel, hogy az angol tesztek átlaga 70 lett, a fizika teszteké pedig 50. Azt jelenti-e ez, hogy a hallgató relatíve ugyanazt az eredményt érte el mindkét tárgyból? (az átlagtól való eltérés 15 mindkét esetben). Ha figyelembe vesszük a szórásokat is, és kiszámítjuk a z értékeket, láthatjuk, hogy nem, az átlagtól való eltérés önmagában nem elegendő a hallgató mintabeli relatív helyzetének a meghatározásához, amint ezt a következő táblázat is mutatja:

Angol

 

Fizika

 

100

 

65

a hallgató pontszáma

99

 

57

 

98

 

55

 

85

a hallgató pontszáma

53

 

73

 

50

 

67

 

49

 

60

 

47

 

53

 

44

 

45

 

44

 

20

 

36

 

=70

 

=50

 

s=26.4

 

s=8.1

 

Ebből a táblázatból látható, hogy bár az átlagtól való eltérés mindkét esetben ugyanannyi, a hallgató fizikából relatíve jobb volt, mint angolból. Hogy lássuk, hogyan viszonyul a hallgató a többihez, számítsuk ki a z értékeket. A hallgató angol tesztjének z értéke z=(85-70)/26.4=15/26.4=0.56, a fizikáé z=(65-50)/8.1=15/8.1=1.9. Látható, hogy a fizika eredmény relatíve jobb.

 

Rangsorolás

Másik lehetséges mérőszám egy mintaelem pozíciójának a meghatározására a mintaelemnek a rendezett mintában elfoglalt helye (pld. "10-ből a negyedik") . Ez főként kis mintaelemszám esetén használható.

Feladatok.

1. 20 ember vérnyomását mérték és csak azt figyelték, hogy a vérnyomás alacsony (A), normál (N), vagy magas (M) tartományba esik-e. A következő mintát kapták:

M,M,N,M,M,N,A,A,N,N,N,N,M,M,N,N,M,M,A,N.

Készítsünk relatív gyakorisági hisztogramot a mintából, és interpretáljuk az eredményt.

2. Számítsuk ki a következő minták átlagát, standard deviációját, mediánját és terjedelmét. Ahol szükséges, alkalmazzunk transzformációt.

a) -2, 0, 2, 4, 6 (n=5)

b) 2, 5, 4, 2 (n=4)

c) 3, 5, 1, 0, 3, 4 (n=6)

d) 1002, 1005, 1004, 1002 (n=4).

3. Számolás nélkül hasonlítsuk össze a következő hőmérsékletek átlagát és standard deviációját:

Kodiak, Alaska: 10, 8, 0, -1

Coldfoot, Alaska: -10, -8, 0, 1

4. Számolás nélkül hasonlítsuk össze a következő életkorok átlagát és standard deviációját:

X: 5,2,7,3

Y: 65, 62, 67, 63

5. Számítsuk ki a 2,5,6,7 elemekből álló minta átlagát és szórását! Adjuk meg az átlagtól több, mint 2-szeres standard deviáció távolságra levő mintaelemeket.

6. Adjunk meg egy ötelemű mintát, melynek a varianciája 0 .