jueves, 31 de mayo de 2012

Desbiazio estandar

Probabilitate teorian eta estatistikan, desbideratze estandarra edo desbideratze tipikoa aldagai kuantitatibo bati buruzko datu-multzoen eta probabilitate-banakuntzen sakabanatze neurri absolutu bat da. Jatorrian eta datu-multzo baterako, datu bakoitza batezbesteko aritmetiko sinpletik batez beste zenbat desbideratzen den adierazten du. Beste alde batetik, bariantza desbideratze estandarraren karratua da. Biak ala biak dira estatistikan gehien erabiltzen diren sakabanatze neurriak, bereziki euren propietate matematikoengatik. Hala ere, datu multzo desberdinen sakabanatze-mailak alderatzeko erabili behar denean, dagokion sakabanatze neurri erlatiboa hobesten da, aldakortasun koefizientea hain zuzen, desbideratze estandarra zati batezbestekoa eginez kalkulatzen dena.










Kalkulua (datuak)

Kalkuluari buruzko xehetasunak eta adibideak ikusteko, ikus Bariantza, jakinda desbideratze estandarra bariantzaren erro karratu positiboa dela.
Datu multzoetarako honela izendatu eta kalkulatzen da, x_1,x_2,\ldots,x_n datuetarako:
s_X = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}\,
Aurreko formulari jarraiki, pauso hauek jarraitu behar dira kalkulurako:
  1. batezbesteko aritmetiko sinplea (\overline{x}) kalkulatu;
  2. x_i-\overline{x}, datu bakoitzak batez bestekora duen distantzia alegia, kalkulatu;
  3. distantzia hauen batezbesteko koadratikoa kalkulatu: distantzia karratuak eman, batu, datu kopuruaz zatitu eta emaitzaren erro karratu positiboa eman.
Laburrago kalkulatzeko formula bat ere badago, aurreko formulatik erator daitekeena:
s_X = \sqrt{\frac{\sum_{i=1}^n {x_i^2}}{n}-\overline{x}^2}\,

Kalkulua (probabilitate banakuntza)

Probabilitate banakuntzetarako honela izendatu eta kalkulatzen da:
\begin{array}{lcl}
\sigma & = &\sqrt{\operatorname{E}((X - \operatorname{E}(X))^2)} =  \sqrt{\operatorname{E}(X^2) - (\operatorname{E}(X))^2}=\sqrt{\alpha_2-\alpha_1^2}\,,
\end{array}
non \alpha_2,\ \alpha_1 jatorriari buruzko bigarren eta lehenengo mailako momentuak diren, hurrenez hurren.

Propietateak

Jatorri aldaketa

Y=X+a\, (a\, konstante) aldagai aldaketa egiten bada, desbideratze estandarra ez da aldatzen:

\sigma_Y=\sigma_X\,

Hau da, banakuntzaren balio guztiak (datu guztiak) gehi konstante bat egiten bada, desbideratze estandarra ez da aldatzen.

Eskala aldaketa

Y=bX\, (b\, konstante) aldagai aldaketa egiten bada, desbideratze estandarra honela aldatzen da:

\sigma_Y=b\sigma_X\,

Hau da, banakuntzaren balio guztiak (datu guztiak) gehi konstante bat egiten bada, aldagai berriaren desbideratze estandarra bider b\, eginda geratzen da.

mediana (estadistika)

Estatistikan, mediana aldagai bati buruzko datuak txikienetik handienera ordenaturik daudela, erdian dagoen datua da. Beraz, medianak alde banatara datuen %50ak uzten ditu. Probabilitate banakuntza baterako ere kalkula daiteke eta orduan alde banatara eta orduan azpitik eta gainetik 0.5eko probabilitatea uzten duen balioa da. Mediana zentro neurri bat da, batezbesteko aritmetiko sinplea bezala esaterako, eta neurri aproposa datuetan muturreko datuak daudenean .

Kalkulua lagin baterako

Lagin baterako, datu koantitatiboak txikienetik handienera ordenatuta daudela, erdian kokatzen den datua da mediana. Horrela, kalkulua ezberdina da n datu kopurua zenbaki bakoitia edo zenbaki bikoitia den.
Lagin-tamaina edo datu-kopurua bakoitia bada, datuak ordenaturik daudela, mediana erdiko datuak hartzen duen balioa da. Adibidez, datu hauetarako
1 2 2 3 5 6 8
Me=3\,
Datu-kopurua bikoitia bada, datuak ordenaturik daudela, erdiko datu bi dagoenez, mediana erdiko bi datu hauen batezbestekoa dela esan daiteke. Datu hauetarako adibidez,
2 3 4 5 7 7 8 10
Me=\frac{5+7}{2}=6
Ohartarazi behar da mediana zenbatesteko bestelako jardunbideak ere asmatu direla.

Kalkulua tartetan bildutako datuetarako

Datuak tartean bildurik daudenean, mediana hurbilketaz kalkulatzen da, aurretik mediana kokatzen den tartea zehaztuz. Kalkulurako erabiltzen den formula hau da:

Me=L_i+a_i\frac{\frac{n}{2}-N_{i-1}}{n_i}
Adibidez, herri bateko biztanleen adinari buruzko datu hauk harturik,
Biztanleen adinak Biztanleak Maiztasun metatuak
0-20 9 9
20-40 18 27
40-60 26 53
60-80 7 60
80-100 4 64
Maiztasun metatuak kalkulatu ondoren, hirugarren zutabean, datu kopurua 64 dela ikusten da. Beraz, mediana 64/2=32garren datuaren balioa izango da. Maiztasun metatuen zutabeari erreparatuz, 32garren datua 40-60 tartean kokatzen da. Beraz, bertan izango da mediana:
Me=40+20 \times \frac{32-27}{26}=43.84\ urte
Beraz, biztanleen erdiek 43.84 urte baino gutxiago dauzkate. Ohartarazi behar da, ordea, emaitza hau hurbilketa baten ondorioa dela eta emaitza zehatza izateko hobe dela jatorrizko datu zerrenda hartzea.
Medianaren kalkulua datuak tartetan bilduta daudenean, interpolazio linealez egiten da. Mediana kokaturik dagoen tartea 40-60 da. Medianatik behera (marra eten gorriz) 32 datu daude, datuen erdiak alegia. 40 urtetik behera 27 biztanle daude. 60 urtetik behera 53 biztanle daude. Bi puntuak lotuz, OAB eta OCD hirukiak baliokideak dira eta, beraz, katetoen arteko erlazio berdina dute. OAB triangeluan, OB=x eta AB=5. OCD triangeluan OD=20 eta CD=26. Hiruko erregela sinple batez x=3.82 eta beraz, mediana 40+x=43.82 dela ondorioztatzen da.

Mediana probabilitate banakuntzetan

Probabilitate banakuntzetan, bere azpitik %50eko probabilitatea (eta ondorioz, bere gainetik ere %50eko probabilitatea) uzten duen balioa da. Beraz, banakuntza jarraia bada hau betetzen duen Me balioa da mediana:
\operatorname{P}(X\leq Me) \geq \frac{1}{2}\text{ eta }\operatorname{P}(X\geq Me) \geq \frac{1}{2}\,\!

Propietateak

Abantaila gisa, balio osoko aldagaietan, medianaren emaitza ere zenbaki osoa da. Adibidez, familiako haur kopuruaren batezbesteko aritmetiko sinplea 2.37 haur izan daitekeen bitartean, medianak beti balio oso bat emango du (1, 2, 3), interpretazioa erraztuz horrela.
Aldi berean, muturreko datuak daudenean zentro neurri egokiagoa da batezbesteko aritmetiko sinplea baino. Adibidez, { 1, 2, 2, 2, 3, 9 } datuetarako, mediana 2 da, zentroaren balio adierazgarri bat, batezbesteko aritmetiko sinplea zentroaren adierazgarri ez den 3,166… delarik. Muturreko datuek medianaren balioan eragin nabarmenik ez dutela eta, mediana estatistiko jasankorra dela esaten da. Alborapen handiko banakuntzetan ere, batezbestekoa baion neurri egokiagoa da.
Eragozpen gisa, datu guztiak kontuan hartzen ez dituela aipatu behar da. Bere kalkulua formula bidez adierazteko oztopoak izateaz gainera, ez da matematikoki garatzen erraza.
Propietate matematikoei buruz,
  • x_i lagin datuetarako ondoko adierazpena txikien egiten duen m balioa da mediana:
\sum_{i=1}^n|x_i-m|;
  • bi datu-multzo bateratzen badira, baterako mediana aurreko medianen tartean izango da.

moda(estadistika)

Estatistikan, moda datu-multzo batean gehienetan agertzen den balioa da. Zehatzago, aldagai bakarreko datuetarako (koantitatibo zein koalitatibo), maiztasun handieneko balioa da. Probabilitate banakuntza baterako ere kalkula daiteke eta orduan probabilitate handienez agertzen den balioa da.
Batezbestekoa edo mediana bezala, zentro neurri gisa erabiltzen da, datuak balio bakar batez laburbiltzeko.




Datu-multzo batean daturik errepikatzen ez denean (1-3-4-6-7 datuetarako, adibidez), moda definituta ez dagoela esaten da. Dena den, egoera hau aldagaiak balio ezberdin asko har ditzakeenean agertzen denez, egokiagoa da kasu hauetan datuak tartetan bildu eta moda maiztasun handiena duen tartean kokatzea, hurbilketa baten bitartez, atal honetan ikusten den bezala.
Datuak maiztasun-taula batean bilduta daudenean, modaren kalkulua berehalakoa da. Adibidez, ikasle hauen adinetarako moda 8 urtekoa da:
Adinak Ikasleak
6 26
7 31
8 43
Aldagai koalitatiboetarako ere kalkula daiteke moda. Adibidez, ikasketa-motari buruzko datu hauetan, modazko kategoria zientziak da:
Aukeratutako ikasketak Ikasleak
Zientziak 20
Letrak 16
Teknologia 12

Modaren kalkulua tartetan bildutako datuetarako

Datuak tartetan bildu direnean, moda maiztasun handiena duen tartean kokatzen da. Tarte-zabalera konstantea bada, era honetan hurbildu daiteke:

Mo=L_i+A\frac{\Delta n_a}{\Delta n_a + \Delta n_o}\ , non

  • Li, moda dagoen tartearen behe-muga den;
  • A, moda dagoen tartearen zabalera den;
  • \Delta n_a, moda dagoen tartearen aurreko tarteko maiztasun absolutua ken moda dagoen tarteko maiztasun absolutua den;
  • \Delta n_o, moda dagoen tartearen ondorengo tarteko maiztasun absolutua ken moda dagoen tarteko maiztasun absolutua den.
Tarte-zabalera ezberdina denean, maiztasunen ordez, (maiztasun absolutu / tarte zabalera) kalkulatu eta erabiltzen dira. Moda azken balio horietan handiena duen tartean kokatuko da eta formulan ere maiztasunen ordez balio horiek erabiliko dira. A moda kokatzen den tartearen zabalera izango da.
Adibidez, herri bateko biztanleen adinari buruzko datuak jaso dira:
Biztanleen adinak Biztanleak
0-20 9
20-40 18
40-60 26
60-80 7
80-100 4
Moda honela kalkulatzen da, moda kokatzen den tartea 40-60 dela kontuan harturik:

Mo=40+20\frac{26-18}{(26-18)+(26-7)}=45.92\ urte\,
Modaren kalkulua tartean bildutako datuetarako. Moda dagoen tartea 40-60 da. Aurreko tarteko maiztasuna handiagoa denez ondorengo tartekoa baino, moda 40tik gertuago kokatuko da 60tik baino, histogramara egokitzen den maiztasun-kurbaren gailurrak erakusten duen bezala. Izan ere, eskubitik maiztasun jeitsiera nabarmenagoa denez, 40-60 tartean, tarte barneko datu-trinkotasuna ezkerretik handiagoa pentsatu eta, beraz, moda 40tik gertuago izango da. Hurbilketa interpolazio linealez egiten da: moda kokatzen den tarteko maiztasuna eta aurreko eta ondorengo tarteetako maiztasunak kontuan harturik hiruki gorriak osatzen dira. Bi hirukiak baliokideak dira eta beraz, oinarriaren (8 eta 19, hurrenez hurren) eta altueraren (h eta 20-h, hurrenez hurren) arteko erlazio berdina dute. Moda kalkulatzeko, h kalkulatu behar da. Hiruko erregela sinple batez, h=5.92 kalkulatu eta beraz Mo=40+h=45.92 izango da.

Moda eta beste zentro-neurriak

Modak, medianak eta batezbesteko aritmetiko sinpleak oso emaitza ezberdinak eman ditzakete, denak zentro-neurri badira ere:
Zentro neurriak alderatuz
Izena Deskribapena Formula Adibidea Emaitza
Batezbesteko aritmetiko sinplea Datuen batura zati datu kopurua. \scriptstyle\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i  =  \frac{1}{n} (x_1+\cdots+x_n) (1+2+2+3+4+7+9) / 7 4
Mediana Datuak ordenaturik, erdian dagoen datua.
1, 2, 2, 3, 4, 7, 9 3
Moda Datuetan gehien errepikatzen den balioa.
1, 2, 2, 3, 4, 7, 9 2
(1, 2, 2, 3, 4, 7, 9) datu hauetarako zentro-neurri adierazgarriena edo zentroa hobekien islatzen duena mediana edo batezbesteko aritmetiko sinplea da, nekez esan baitaiteke datuak modak ematen duen 2 balioaren inguruan biltzen direla.
Oro har, moda, mediana eta beztesbesteko aritmetiko sinplea alborapen handiko banakuntzetan izango dira nahiko ezberdinak.
Modaren beste eragozpen bat hau da: moda anitza ere izan daiteke, gehienetan errepikatzen diren balioak zehazteko orduan berdinketa dagoenean.

miércoles, 30 de mayo de 2012

Estatistika

Estatistika fenomeno aldakor eta ziurgabeei buruzko datu-multzoak bildu, sailkatu, irudikatu, laburtu eta aztertu egiten dituen metodo eta prozeduren multzoa da, horien baitan dauden erregulartasunak eta erlazioak hauteman, horietarako ereduak eratu, aurresanak egin, konklusio zehatzak eman eta erabaki egokiak hartzearren. Labur, estatistikaren helburua jasotako datuetatik informazio baliagarria eskuratzeko teknikak garatu eta aplikatzea da. Horretarako, matematika, probabilitate teoria eta erabaki-teoria oinarritzat hartzen ditu. Estatistikaren teknikak maila bitan erabiltzen dira: estatistika deskribatzailean teknika sinple eta errazak erabiltzen dira datuak irudikatu eta laburtzeko; inferentzia estatistikoak, berriz, azterketa konplexuago eta zorrotzagoa egiten du, datuak eredu matematiko batera egokitu eta berarekin duten errore estatistikoa neurtuz, probabilitate kontzeptuan oinarrituz horretarako. Egun funtsezko metodologia da ikerketa zientifikoan eta alor guztietan zabaltzen da bere erabilera, hala nola ekonomian, medikuntzan, soziologian eta meteorologian. Hala ere, erabilera oker batengatik estatistika manipulazio eta erroreen iturburua izan da sarri; hori dela eta, estatistikaren emaitzak behar bezala interpretatzeko garrantzitsutzat jotzen dira estatistikaren jendarteratzea eta estatistika-hezkuntza zorrotza, estatistika teknikak eta horietarako programa informatikoen aukerak tentuz baliatzeko.
Beste alde batetik, estatistikak terminoa edonolako datu multzoak, baina gehienetan erakunde publikoek argitaratutako datu ofizialak, adierazteko ere erabili ohi da (langabetuen estatistikak eta osasun estatistikak, esaterako). Estatistika ez da, ordea, datuak jasotzera mugatzen, harago doa eta datuen azterketarako metodologia ere hartzen du bere baitan.