Puhelinaika arkisin klo 8-10 0445222660
fi

Tilastotiede, SPSS

26.12.2019

Tilastotiede, SPSS

Otoksessa havaitun ilmiön on oltava tilastollisesti merkitsevä, jotta havainto voidaan yleistää luotettavasti koko perusjoukkoon. 

Muistiinpanoja tilastotieteen kursseilta....

1. Luokitelluasteikolliset muuttujat (Kategorinen)

  • Kuvaavat laadullisia ominaisuuksia, jotka ovat toisensa poissulkevia esim. tamma/ori/ruuna, sh/lv/poni. Laskutoimitukset eivät ole mielekkäitä.
  • Suositeltavia kuvailu ja testausmenetelmiä:
  • Eäparametriset (nonparametric) menetelmät
  • Frekvenssiesitykset esim histogrammi, ristiintaulukointi, moodi
  • Khiin neliötesti
  • Loglineaariset menetelmät

2. Järjestysasteikolliset muuttujat (ordinaaliasteikko)

  • Onko jotain ominaisuutta enemmän tai vähemmän kuin muissa tapauksissa. Laskutoimitukset eivät ole mielekkäitä. esim. sotilasarvo, korkeakoulututkinto
  • Ei -parametriset menetelmät
  • Mediaani, järjestyskorrelaatio

3. Välimatka-asteikolliset muuttujat (intervalli asteikko)

  • Voimme määritellä muuttujien a ja b etäisyyden tai suuruuden esim. lämpötila Celcius, Fahrenheit, todistuksen numerot, ajanlasku, vauriopiste.
  • Puuttuu absoluuttinen nollapiste
  • Useimmat laskutoimitukset ovat sallittuja
  • Parametriset ja ei-parametriset testit
  • Regressioanalyysit
  • Keskiarvotestit (t-testit, varianssianalyysit)
  • Faktorianalyysi sekä muut monimuuttujamenetelmät

4. Suhdeasteikolliset muuttujat

  • Mitattavalla arvolla on absoluuttinen nollapiste eli kun mitattavan arvo tulee nollaksi, niin esim mitattavaa ominaisutta ei esiinny esim. paino, pituus, tilavuus, tulot, pitoisuus, Kelvin, kuolaimen paksuus.
  • Lukuarvoja voidaan laskea yhteen ja kertoa. 
  • Samat testit kuin välimatka-asteikollisilla muuttujilla. 

5. Absoluuttinen asteikko

  • Lukumäärä esim. omenoiden lukumäärä

Epäparametriset testit

  • Ristiintaulukointi. Data-aineisto esitetään frekvensseinä ja prosenttiosuuksina. Yhdessä khiin-neliötestiin sopii monen tutkimusongelman käsittelyyn. Muuttujat toisistaan riippumattomia ja toisensa poissulkevia. Syysuhdepäätelmiä tulee varoa. 
  • Khiin-neliö testi
  • Mann-Whitney U-testi  Kahden ryhmän välisten erojen vertailuun, vähintään järjestysasteikollinen muuttuja, vertaa ryhmien keskiarvoja (mediaaneja). Testi perustuu sijalukuihin. Tarkasteltavien muuttujein arvot laitetaan suuruusjärjestykseen ja niille annetaan suuruusjärjestykseen perustuvat sijaluvut. 
  • Kruskall-Wallisin testi. Soveltuu kolmen tai useamman rhmän vertailuun. Vähntään järjestysasteikollinen muuttuja. Perustuu järjestyslykujen käyttöön.
  • Wilcoxonin testi

Heikompi selitysvoima parametrisiin menetelmiin verrattuna

Hypoteesi

  • Havaitulle ilmiölle pyritään löytämään selitys
  • H0: nollahypoteesti, mitään ei tapahdu, havinnot johtuvat sattumasta. Väite jota vastaan tarvitaan vahvoja todisteita, että siitä luovuttaisiin. Jos nollahypoteestista luovutaan, astuu voimaan tutkimushypoteesi H1. 
  • H1: tutkimushypoteesti, vaihtoehtoinen hypoteesi. Havainnot johtuvat taustalla olevasta tekijästä eivätkä sattumasta. Otoksessa saadut tulokset poikkeavat niin paljon H0:sta ettei se voi enää olla satumaa. 
  • Hypoteesien testaamiseen tarvitaan tilastollisia testejä. 
  • Hypoteesi on se mitä halutaan testata. Kerro miten se testataan. 

P-arvo, merkitsevyystaso

  • p < 0.05  tilastollisesti melkein merkitsevä
  • p < 0.01  tilastollisesti merkitsevä
  • p < 0.001 tilastollisesti erittäin merkitsevä
  • Ilmoittaa sen kuinka todennäköisesti otoksessa havaittu piirre on voimassa myös tutkimuksen perusjoukossa eli populaatiossa.
  • Jos p < 0.05     nollahypoteesti hylätään
  • Jos p > 0.05     nollahypoteesiä ei hylätä.
  • p-arvo on todennäköisyys sille, että havaittu poikkeama nollahypoteestista voidaan selittää pelkästään otantavirheellä. 
  • Jos nollahypoteesi päätetään hylätä, niin p-arvo ilmoittaa päätökseen liittyvän erehtymisriskin. 
  • H0: Eri kuolaimilla ei ole vaikutusta hevosen vaurioluokitukseen.
  • H1: Eri kuolaimilla on vaikutusta hevosen vaurioluokitukseen.
  • Jos nollahypoteesti H0 hylätään ja vaihtoehtoinen hypoteesti H1 tulee voimaan p = 0.03. Silloin on 3 % riski sille, että H1 tulos johtuisi pelkästään otantavirheestä. 
  • Yleensä hyväksymme 5 % virhemahdollisuuden (p < 0.05).
  • Suuri data: saadaan helpommin pieniä p arvoja, jolloin on mahdollisuus tyypin 1 virheeseen. 
  • Pieni data: saadaan suuria p-arvoja, jolloin on mahdollisuus tyypin 2 virheeseen. 
  • P-arvo ei kerro yhteyden voimakkuudesta. Yhteyden voimakkuudesta kertoo efektikoko. 

Päättelyvirheet

  • Tyypin I virhe: Jos todellisuudessa nollahypoteesti on totta (eroa ei ole), mutta nollahypoteesti kumotaan. Hylkäysvirhe. Väärä positiivinen, alfa virhe. 
  • Tyypin II virhe: Jos todellisuudessa nollahypoteesti ei ole totta (eroa on), mutta nollahypoteesti jää voimaan.  Hyväksymisvirhe. Väärä negatiivinen, beeta virhe. 
  • Tilastollinen merkitsevyys ei kerro kliinisestä merkitsevyydestä. 

Kausaliteetti

  • Kausaliteetti eli syy ja seuraussuhde.
  • Korrelaatio ei kerro kausaliteetista.
  • Vaikka kaksi asiaa ovat yhteydessä toisiinsa, se ei silti tarkoita että toinen johtuisi toisesta, vaan taustalla voi olla jokin muu sekoittava tekijä (confounder), joka vaikuttaa molempiin muuttujiin. 

Korrelaatio

  • Korrelaatio kuvaa kahden muuttujan välistä riippuvuutta
  • Korrelaatiolla yleensä tarkoitetaan lineaarista riippuvuutta kahden jatkuvan muuttujan välillä
  • Korrelaatiokerroin kertoo yhteyden voimakkuudesta
  • P-arvo taas ei kerro mitään yhteyden voimakkuudesta se vain kertoo onko yhteyttä olemassa

Assosiaatio eli yhteys

  • Assosiaatio viittaa kahden tekijän väliseen yhteyteen. 

OR odds ratio, vedonlyöntisuhde, ristitulosuhde 

  • Huom! ei vedonlyöntikerroin
  • Todennäköisyys sille, että jokin asia tapahtuu versus sille että ei tapahdu
  • Lasketaan: sairaat altistuneet/terveet altistuneet (30/9) jaettuna sairaat altistumattomat/terveet altistumattomat (61/58)  OR = 3.2

  • OR = 1 selittävällä muuttujalla ei ole vaikutusta selitettävään muuttujaan
  • OR > 1 selittävä muuttuja suurentaa selitettävän muutujan riskiä, todennäköisyys tapahtumalle kasvaa
  • OR < 1 selittävä muuttuja suojaa selitettävältä muuttujalta, todenäköisyys tapahtumalle pienenee.
  • Esimerkiksi haavojen todennäköisyys kun jokin tekijä on läsnä versus sille että tekijä ei ole läsnä. 
  • Todennäköisyys sille, että nopasta tulee 4, on 1/5 (huom! ei 1/6). 
  • Voidaan raportoida:
  • Higher risk/more likely tai 5 times higher odds, mutta ei saa raportoida 5 times higher risk.
  • Kun sairauden prevalenssi on korkea, OR näyttää isompaa kuin RR. Kun  prevalenssi on matala OR ja RR ovat lähellä tosiaan. 

RR riskisuhde, suhteellinen riski, risk ratio, relative risk

  • RR = 2 tarkoittaa, että altistuminen riskitekijälle nostaa sairaiden riskin kaksinkertaiseksi.
  • RR = 0.5 tarkoittaa, että altistuminen tekijälle puolittaa sairaiden riskin.
  • Lasketaan sairaat altistuneet/kaikki altistuneet (30/39) jaettuna sairaat altistumattomat/kaikki altistumattomat (61/119). RR altistuneiden sairastumiselle on 1,5.  

Luottamusväli, Confidence Interval (CI), virhemarginaali 

  • Olemme 95 %:sti varmoja siitä, että oikea tulos on näiden rajojen välissä tai toisin sanottuna:
  • Luottamusväli määrittelee ne rajat, joiden väliin 95 % keskiarvoista tai luvuista asettuu, mikäli tutkimusta toistettaisiin loputtomasti.
  • 95 % todennäköisyydellä tulos olisi sillä välillä koko populaatiossa. 
  • Kuvaa OR:n ympärillä olevaa epävarmuutta
  • Todellinen arvo on luottamusvälillä
  • Jos luottamusväli ylittää 1:n esim 0.9-1.1 - tämä viittaa siihen, että tutkimuksen ryhmien välillä ei ole eroa eli tulos ei ole tilastollisesti merkitsevä. 
  • Kertoo tulosten yleistettävyydestä.
  • Luottamusväli ilmoitetaan mm. keskiarvolle ja OR-arvolle 

Oikea cutoff

  • Oikea cutoff kohta on silloin kun tulee vähiten vääriä diagnooseja (vääriä positiivisia ja vääriä negatiivisia). 

Tilastollisia tunnuslukuja

Sijaintiluvut

  • Keskiarvo
  • Mediaani
  • Moodi

Kertovat aineiston jakauman sijainnista

Hajontaluvut

  • Keskiharjonta  SD
  • Varianssi
  • Vaihteluväli [pienin luku, suurin luku]
  • Fraktiilivälit
  • Kurtoosi

Kertovat aineiston jakauman levinneisyydestä

Moodi

  • Se arvo, jonka frekvenssi on suurin
  • Yleisin luku
  • Lasketaan luokitelluista muuttujista, jatkuvista muuttujista moodia ei lasketa

Mediaani

  • Toteutuneista arvoista se luku, joyta pienempiä ja suurempia arvoja on yhtä paljon.
  • Jakaa aineiston kahtia
  • Jos arvoja on parillinen määrä, mediaani on kahden keskimmäisen keskiarvo. 
  • Vinoille jakaumille mieluummin mediaani kuin keskiarvo

Keskiarvo

  • Aritmeettinen keskiarvo

Kvartiili

  • Mediaani on 50% kvartiili, jakaa aineiston kahteen osaan. Mediaani on siis yhtäkuin Q2
  • Kvartiilit jakavat aineiston neljään osaan.
  • Ensimmäinen kvartiili Q1 : 25% toteutuneista arvoista on pienempiä kuin Q1 ja 75% on suurempia kuin Q1.  
  • Kvartiili voidaan laksea yhdeksälläeri tavalla. 
  • Graafisesti viiden luvun yhteenveto kuvataan Box-plotin eli laatikkojana kuvion avulla. 
  • Min   Q1   Md  Q3  Max

Keskihajonta SD, standard deviation

  • Satunnaismuuttujan standardipoikkeama eli keskihajonta kuvaa keskimääräistä poikkeamaa odotusarvosta 
  • Kertoo miten kaukana arvot keskimäärin ovat keskiarvosta.
  • Varianssin neliöjuuri.

Normaalijakauma

  • Monien tilastollisten testien oletus.
  • 68 % havainnoista sijoituu yhden keskihajonnan päähän keskiarvosta.
  • 95% havainnoista sijoituu kahden keskihajonnan päähän keskiarvosta. 
  • 99% havainnoista sijoittuu kolmen keskihajonnan päähän keskiarvosta.
  • Normaalijakauman vinous = kurtoosi = 0. 
  • Tieteellisissä artikkeleissa ei yleensä lue miten normaalisuus on testattu, yleensä olisi hyvä lukea. esim tarkastelemalla histogrammia, sapphiro-wilkins testillä tai katsomalla skewness lukua. (Explore valikko).

Vinous, skewness

  • Aineistoa verrataan normaalijakaumaan
  • < 0 :vasen häntä korostunut (negative skew)
  • > 0: oikea häntä korostunut (positive skew)

Huipukkuus, kurtosis

  • Aineistoa verrataan normaalijaumaan. 
  • < 0 normaalia ohuemmat hännät, tylppä huippu
  • > 0 normaalia paksummat hännät, terävä huippu

Khiin neliötesti

  • Tarkastellaan kahden luokittelevan muuttujan yhteyttä ristiintaulukoinnilla
  • Khii neliötestejä on useita mutta yleensä käytetään Pearson Chi-squarea
  • Testissä korkeintaan 20% odotetuista frevensseisä saa olla alle 5
  • 2 x 2 taulukossa yksikään odotetuista frevensseistä ei saa olla alle 5
  • Yksikään odotetuista frekvensseistä ei saa olla alle 1
  • Jos nämä ehdot eivät toteudu, voidaan käyttää Fisherin tarkkaa testiä
  • Df = degrees of freedom, vapausaste. Sarakkeiden määrä-1 x Rivien määrä x 1
  • Esim. 2 x2 taulukossa vapausaste on 1. 

Fisherin tarkka testi

  • Voidaan käyttää silloin kun khiin neliötestin ehdot eivät toteudu
  • Sopii pienille aineistoille

Lineaarinen regressioanalyysi

  • Mallintaa selittävän muuttujan X yhteyttä selitettävään (vaste) muuttujaan Y. 
  • Selittävän muuttujan tulee olla normaalisti jakautunut
  • Ennustaa Y:n arvoja eli X:n arvoila.
  • Kertoo paljonko Y:n havaitusta vaihteusta X:n vaihtelu selittää (ns. selitysaste). 

Logistinen regressioanalyysi

Soveltuu tilanteisiin, jossa selitettävä muuttuja on kategorinen

  • Binäärinen- kaksiluokkainen selitettävä  muuttuja (vastemuuttuja eli outcome, dependent variable
  • Selitettävän muuttujan luokkia voi olla myös monta, jolloin puhutaan multinominaalisesta regressioanalyysistä. 
  • Selittävät muuttujat eli altistemuuttujat (exposure, predictors, risk factors, independent variables, covariates) voivat olla kaksiluokkaisia, useampiluokkaisia tai jatkuvia. 
  • Selittävät muuttujat eivät saa korreloida voimakkaasti keskenään (multikollineaarisuus)
  • Tavallisessa regressioanalyysissä selittävät muuttujat otetaan mukaan yhdellä kertaa eikä niitä lisätä tai tiputeta pois. 
  • Stepwise selection (Askeltava regressioanalyysi). Ensimmäisessä askeleessa mukaan malliin otetaan se selittäjä, jonka korrelaatio selitettävän muuttujan kanssa on korkein (pienin p-arvo). Seuraavassa askeleessa mukaan tulee se selittäjä, jonka tuoma selityslisä jäljellä olevista selittäjistä on korkein jne. 
  • Backward elimination menetelmässä ensin kaikki on mukana ja sitten poistetaan p-arvojen mukaan huonommat. 
  • Manuaalinen mallinrakennus, jota ohjaa kausaalidiagrammi (suositeltava menetelmä), joka selittää sekoittavien tekijöiden (confounder) ja interaktioiden arvioinnin. 
  • Minimissään 10 ja mieluiten 20 havaintoa per selittävä muuttuja
  • Selitettävän muuttujan luokat mieluiten aika saman kokoisia tai ainakin enemmän kuin selittäviä muuttujia. 

Sekoittava tekijä, confounder

  • Muuttuja joka vaikuttaa sekä selitettävään että selittävään muuttujaan. 
  • Eli sellainen tekijä joka vaikuttaa sekä altistukseen, että sairauteen
  • Tukimuksissa ikä ja sukupuoli ovat lähes aina sekoittavia tekijöitä 
  • Pseudoriippuvuus eli näennäisriippuvuus
  • Esimerkiksi tutkittaessa vaikuttaako lääke paranemiseen. Sukupuoli vaikutti siihen minkä lääkkeen potilas valitsee. Sukupuoli on tutkimuksessa sekoittava tekijä. 
  • Tätä voidaan tutkia vakioimalla tekijän vaikutus (splittaus, stratification, aineiston jakaminen). Jakamalla aineisto esim. sukupuolen mukaan  ja katsoa, muttuuvatko tulokset. 
  • Elaboraatio tarkoittaa prosessia, jossa jo syntynyttä kausaalisuhdetta yritetään tarkentaa tuomalla analysiin mukaan muita asiaan avikuttavia tekijöitä. Esim tutkitaan vaikutusta eri ikärymissä. 
  • Muuttuja on confounder, jos lisättäessä se regressiomalliin, exposuren ja outcomin välinen yhteys muttuu 10%. 
  • Confounderit ovat usein tuntemattomia.

Interaktio eli yhdysvaikutus

  • Kahden samanaikaisesti vaikuttavan tekijän yhteisvaikutus, joka poikkeaa samojen tekijöiden erillisten vaikutusten summasta.
  • Toinen tekijä vaikuttaa toiseen tekijään. 
  • Selittävän muuttujan vaikutus otcomiin riippuu toisesta selittävästä muuttujasta.
  • Tilastotieteessä kutsutaan yhdysvaikutukseksi
  • Epidemiologiassa kutsutaan vaikutuksen muovaajaksi (effect modifier)

Kollineaarisuus, multikollineaarisuus

  • Kun kaksi tekijää ovat riippuvaisia toisistaan puhutaan kollineaarisuudesta.
  • Regressioanalyysissä selittävät muuttujat eivät saa voimakkaasti korreloida keskenään, koska silloin ne mittaavat osittain samaa asiaa. 
  • Jos kaksi tekijää korreloivat /ovat toisiinsa yhteydessä syynä voi olla
  1. Ne mittaavat samaa asiaa
  2. Inetarktio eli yhdysvaikutus
  3. Intervening variable
  4. Confounder, mahdollinen confounder pitää laittaa malliin vaikka p arvo olisi yli 0.05. 

Välittävä muuttuja, intervening variable, mediator

  • Myös nimellä intermediate variable
  • On hypoteettinen muuttuja, jota ei pystytä mitaamaan. 
  • Essimerkissä köyhyys on yhteydessä lyhempään elinikään. Köyhyys itsessään ei aiheuta lyhentynyttä elinikää vaan mahdollisesti ettei pysty käyttämään terveyspalveluja
  • Syyketjun osa
  • Köyhyys->huono terveydenhuolto-> lyhentynyt elinikä
  • Asettuu selittävän muuttujan ja outcomin väliin

Sensitiivisyys, herkkyys

  • Testi mittaa oikein tautia sairastavaksi kaikista tautia sairastavista
  • Testipositiiviset sairaista
  • a/a+c
  • Sensitiivisyys korkea: vähän vääriä negatiivisia
  • Sensitiivisyys on matala: paljon vääriä negatiivisia

Spesifisyys, tarkkuus

  • Testi mittaa negatiivisiksi ne, jotka eivät sairasta tautia. 
  • Testinegatiiviset terveistä. 
  • d/b+d
  • Spesifisyys on korkea: vähän vääriä positiivisia
  • Speisifisyys on matala: paljon vääriä positiivisia

PPV Positive predictive value

  • Oikeasti sairaat testipositiivisista
  • a/a+b

NPV Negative predictive value

  • Oikeasti terveet testinegatiivisista
  • d/c+d

ROC-käyrä 

  • Receiver Operating Characteristic
  • Jos jonkin testin sensitiivisyyttä lisätään, samalla vähenee spesifisyys.
  • Piirtämällä sensitiivisyys spesifisyyden funktiona, saadaan ROC käyrä. 
  • ROC-käyrän alle jäävä pinta- ala saa arvoja välillä 0.5-1. 
  • ROC-käyrän tulos kuvaa testin tai mallin luokittelukykyä: kuinka hyvin testi tai malli luokittelee yksilöt sairaaksi tai terveeksi. 
  • Pystyakselilla sensitiivisyys ja vaaka-akselilla spesifisyys
  • AUC = Area Under ROC Curve yhdistää testin herkkyyden ja spesifisyyden. Käyrän alleen peittämä pinta-ala prosentteina. 

Efektikoko

Käytetään p-arvon sijaan tai lisäksi. Sekä meta-analyyseissä. Eri tutkimusten p-arvoja ei voi verrata toisiinsa, mutta efektikokoja voi verrata tutkimusten kesken. 

  • Efektikoko kertoo yhteyden voimakkuudesta.
  • Mikäli efekti on voimakas, jakaumakäyrät eivät ole paljoa toistensa päällä. 
  • Keskiarvojen ero voi olla kahdessa eri tutkimuksessa sama, mutta riippuen käyrien muodosta, jakaumat menevät eri tavalla päällekkäin ja efektikoko voi olla eri.

Erilaisia efektikoon mittareita:

  • Phi tai Cramer V (V) (Khiin neliötestiessä, Phi 2 x 2 taulukossa, Cramer V isommissa taulukoissa.
  • Cohen's d
  • Pearson r
  • Eetan neliö tai osittais eetan neliö (Eta square, partial Eta square ANOVAssa)
  • R square
  • Odds ratio (OR)
  • Hazard ratio (H) .....

Mallin rakennus

I Univariable analysis

  • P-arvo alle 0.25
  • Variable of interest, eli mitä halutaan tutkia
  • Muut kliinisesti merkittävät muuttujat

II Mallien vertailu

  • Kaikki ensin malliin mukaan, jos poistamisen jälkeen regressiokerroin muuttuu yli 20%, muuttuja pitää laittaa takaisin malliin
  • Jos p-arvo on yli 0.05 poistetaan muuttuja mallista, jos kertoimet eivät muutu yli 20%

III Jatkuvien muuttujien lineaarisuuden tarkistus

IV Interaktiot selittävien muuttujien välilä

  •  Selittävän muuttujan vaikutus riippuisi toisesta selittävästä muuttujasta
  • Katsotaan interaktiotermin P-arvo ja lisätään termi malliin ja verrataan sitä päävaikutus malliin

V Arvioidaan selittävien muuttujien väliset yhteydet (multicollinearity)

  • luokkamuuttujat voidaan testata khiin neliötestillä
  • Jatkuvat muuttujat t-testillä tai ANOVA

VI Mallin sopivuuden arviointi (assesing the model fit) ts yhteensopivuus havaintoaineiston kanssa

I Yhteensopivuustestit:

 Goodnes of fit test (Pearson, Hosmer-Lemeshow) 

  • Testi mittaa sitä kuinka hyvin arvot sijoittuvat oikeisiin luokiin
  • Malli on huono jos p arvo on alle 0.05

II Luokittelu- classification, predictive ability

  • Sensitiivisyys
  • Spesifisyys
  • AUC, area under ROC curve
  • PPV, NPV
  • Classification eli luokittelu

III Regression diagnostikka epätavalliset tai vaikuttavat havaintoyksiköt ja niiden tutkiminen

* Residuaalinen arviointi

Mallissa vastemuuttuja voi saada arvoja 0= terve 1 = sairas. Kun malli on luotu. Malli luo jokaiselle hevoselle ennustearvon ja päättää kumpaan luokkaan se kuuluu. Esim ennustearvo on 0.3, kun arvo on alle 0.5 hevonen luokitellaan terveeksi. "Oikeassa elämässä" hevonen kuitenkin oli sairas. Hevosen residuaaliksi tulee 1-0.3 = 0.7.  Toisen hevosen ennustearvo on myös 0.3 ja tämä hevonen on oikeastikin terve residuaali on tällöin 0-0.3 = -0.3 Residuaali kertoo siten ennustettujen ja todellisten arvojen eron.  

Ideaalinen tilanne olisi että jokaisella havaintoyksiköllä olisi sama vaikutus regressiomalliin. Tutkitaan löytyykö sellaisia havaintoyksiköitä, joilla on selvästi suurempi vaikutus regressiomallin parametrien arviointiin. 

* Leverage eli vipuvoima

  • Sen avulla etsitään niitä havaintoarvoja, joilla on suurin vaikutus ennustettuihin arvoihin. Saa arvoja välillä 0-1. 
  • Hevosen vaikuttavuus mallissa

* Delta-Beta (DFBETA)

  • Kertoo kuinka pajon kukin havainto vaikuttaa logistisen mallin kertoimiin.
  • Kertoo kuinka paljon regressiokerroin muuttuu jos havainto otetaan pois mallista. Eli testaa tätä ottamalla kaikki havainnot ykksitellen pois mallista. 

* Cook's distance (COOK)

  • Samanlainen kuin delta-beta. Käytetään lineaarisessa regressiossa.
  • Mittaa sitä miten paljon residuaalit muuttuisivat jos tapaus poistettaisiin. 
  • Jos arvo on yli 1, silloin kysessä voi ola vaikuttava havainto
  • How much influence a single case has on a regression model

* Outlierit 

  • Havaintoja, joilla on isot residuaalit. Eli näitä malli on eniten eniten ennustanut pieleen. Tällöin pitää tarksitaa, että kyseessä ei ole esimerkiksi kirjausvirhe. 
  • Jos Standardisoitu residuaali (ZRESID) on yli 2.5
  • Jos studentisoitu residuaali (SRESID) on yli 3


Logistisen regression oletukset

  • Residuaalien ei tarvitse olla normaalijakautuneita
  • Homoskedastisuus ei ole välttämätön

Oletukset:

  1. Binäärinen tai järjestysasteikollinen outcome
  2. Toisistaan riippumattomat oucomit eli ei toistuvia mittauksia
  3. Ei multikollineaarisuutta: Vain vähän tai ei ollenkaan
  4. Riippumattomat muuttujat eivät saisi korreloida keskenään  
  5. Tärkein vaatimus: havaintojen täytyy olla itsenäistä. Tätä ei voi mitata se täytyy vain tietää.
  6. Jatkuvat muuttujat pitäisi olla normaalisti jakautuneita
  7. Suuri otoskoko

Logistisella regressiomallilla voidaan selvittää

1)  Mitkä ominaisuudet ovat riskitekijöitä eli selittävät vastemuuttujan vaihtelua.

2) Voidaan ennustaa mihin luokkaan uusi tapaus kuuluu

3) Voidaan hallita confoundereita. Mallia käytetään usien sekoittavien tekijöiden hallintaan.