Cursus / training:

Methode voor Causale Analyse



Causale analyse

en

Statistiek


CvdV
2.0: Donderdag 9 april 2009 11:21.

Toepassing van experiment vereist inzicht in statistiek Ťn causale logica.



Om zinvol bij te dragen aan gewenste doeluitkomsten is het noodzakelijk te weten welke oorzaken onder welke voorwaarden tot welke effecten leiden. Kennis over structurele relaties in de werkelijkheid zoals causale mechanismen is bij uitstek het beoogde product van wetenschappelijke activiteit.

De resultaten uit wetenschappelijk onderzoek komen vaak tot stand met complexe experimentele methoden en exacte statistische technieken. Maar ze hoeven dan op zichzelf niet exact te zijn. De toepassing van zulke methoden en technieken heeft enkel zin als het correct gebeurt, dat wil zeggen, exact zoals ze bedoeld zijn.

Dat laatste kan alleen op een zinvolle manier wanneer men een helder begrip heeft van wat causale relaties zijn, en wat nodig is om deze aan te tonen op basis van een hoeveelheid waarnemingsgegevens c.q. steekproefdata.
Een belemmering voor die adequate aanpak is echter het feit dat het vaak ontbreekt - bij leken, maar zeker ook bij academici en professional in de beroepspraktijk - aan primaire inzichten in de meest basale principes van causaliteit, met name de precieze logische structuur daarvan. Dat laatste is de belangrijkste voorwaarde voor inzicht in opzet en uitvoering van onderzoek dat betrouwbaar en valide is.

Wetenschappelijk onderzoek scoort eerder hoge ogen naarmate de bevindingen nieuw en markant zijn, liefst spectaculair en opzienbarend. Soms bestaat de verleiding naar resultaten toe te werken die 'goed in de markt liggen'.
In hun enthousiasme willen onderzoekers weleens allerlei voorwaarden en eisen verwaarlozen van goed experimenteel onderzoek: ten aanzien van de steekproef, de metingen en de gegevensbehandeling.
Enkele voorbeelden van algemeen gangbare fouten en misverstanden:

Correlatie



Correlatie wordt vaak overgewaardeerd, als mogelijke indicatie voor de aanwezigheid van causale relaties.
In wetenschappelijk onderzoek, met name in de sociale wetenschappen, wordt enorm veel gebruik gemaakt van correlaties of andere statistische maten die direct of indirect tot correlaties te herleiden zijn (toetsingsgrootheden zoals z-waarde, t-waarde, F-waarde, Chi-kwadraat, regressie-coŽfficiŽnt, enz.). Het idee daarbij is dat correlatie bij uitstek de 'kracht' van het causale verband weerspiegelt.
(1) De aanwezigheid van correlatie wijst echter enkel op symmetrie tussen twee of meer getallenreeksen, c.q. rekenkundige variabelen. Die statistische samenhang kan worden uitgedrukt in een correlatie-coŽfficiŽnt (zoals de 'product-moment correlatie-coŽfficiŽnt' van Karl Pearson, 1857-1936). Deze geeft niets anders weer dan een mate van rekenkundige herleidbaarheid tussen de getallenreeksen.
(2) De correlatie-coŽfficiŽnt geldt tweezijdig - is dus niet afhankelijk van de gekozen rekenrichting.
(3) Daarnaast is ze gestandaardiseerd, en ligt altijd tussen minimaal -1 (volkomen omgekeerd evenredig verband), via 0 (volkomen onafhankelijk: geen verband), en maximaal 1 (volkomen recht evenredig verband). Dus haar waarde is niet afhankelijk van de gebruikte schalen c.q. eenheden voor de variabelen.
(4) Ook de waarde boven of onder nul is niet relevant: deze 'klapt om' als we ťťn van de getallenreeksen in haar tegendeel weergeven.
(5) De correlatie-coŽfficiŽnt heeft verder geen inherente relatie met tijd of ruimte. Ze maakt dus geen onderscheid mogelijk in de tijdsrichting. Dit betekent voor praktische toepassingen dat ze altijd een gelijke waarde van de afhankelijke variabele aangeeft: zowel bij toepassing in retrospectief, oftewel voor verklarend vermogen van het verband, als bij toepassing in prospectief, oftewel voor voorspellend vermogen van het verband. Terwijl deze waarden in de realiteit - wanneer de correlatie meestal lager dan ťťn is - zeer verschillend kunnen liggen.

Bij deze - lineaire - 'gedragsverhouding' hoort een proportie verklaarde variantie, maar deze geldt in eerste instantie alleen voor het gegeven cijfermateriaal, en ongeacht de rekenrichting - dus al helemaal los van een eventuele 'beÔnvloedingsrichting' van een 'oorzaak' op een 'gevolg' in het referentiŽle domein.
{Nb. Wat ik 'referentieel domein' noem is simpelweg het gebied waarin de populatie zich bevindt, dus inclusief alle mogelijke causale mechanismen die er in gelden. Dit is een belangrijk onderscheid want meestal zoeken we naar causale relaties die onafhankelijk zijn van de specifieke, 'toevallige' en context-afhankelijke toestand van de populatie: die dus nog steeds gelden ook als de hele populatie vervangen is door een andere lichting, generatie, enz.. }

Afwezigheid van correlatie kan wel wijzen op de ŗfwezigheid van causaal verband, maar het causale mechanisme kan ook tijdelijk geblokkeerd zijn, door nader te bepalen oorzaken, te noemen 'bronnen van bias'.
(Afhankelijk van hun rol gaat dit om intermediŽrende variabelen, latente factoren, covariaten, confounding factors, extraneous factors, enz.).

Betrouwbaarheid van de correlatiewaarde.


Het is meestal de bedoeling dat de gevonden correlatie een symmetrische variantie weerspiegelt tussen reŽle processen in het referentiŽle domein c.q. de populatie. De veronderstelling is dat deze symmetrie over langere termijn geldt en structureel is, dus inherent aan de causale relatie tussen de betreffende factoren.

In principe is het mogelijk dat een correlatie-coŽfficiŽnt exact de ware toedracht weergeeft. Dan moet eerst aan enkele randvoorwaarden voldaan zijn: (a) de getallen weerspiegelen reŽle meetgegevens; (b) deze gegevens hebben betrekking op reŽle eigenschappen van geobserveerde gevallen (zeg steekproefeenheden); en (c) de metingen waren betrouwbaar, de meetwaarden weerspiegelen nauwkeurig de reŽle verhoudingen.

Er zijn talrijke manieren waarop de correlatie een vertekende weergave kan geven van de reŽle toedracht met betrekking tot de aard van de veronderstelde causale relatie. Dit komt doordat allerlei verstoringen kunnen optreden in de bedoelde meting van de causale processen. Hierin wreekt zich bijvoorbeeld de invloed van de eerder genoemde bronnen van bias. Maar ook schendingen van overige vereisten zoals consistente chronologie, en constante latentietijd.

Deze vertekeningen kunnen in principe altijd optreden bij steekproefonderzoek.

Validiteit van correlatie als indicatie van causale relatie.

.
Zelfs bij perfecte betrouwbaarheid wijst correlatie nog steeds alleen op de aanwezige symmetrie in de variatie van bepaalde verschijnselen. Het betreft dan nog steeds niet het exacte onderliggende causale mechanisme, inclusief alle mogelijke bijkomende of verstrengelde oorzaken en neven-effecten.

Om een scherper beeld te krijgen van het eventuele causale mechanisme, kunnen we de volgende aanpak volgen:
(1) We beginnen met een strak gecontroleerde proefopzet:
Eťn variabele wordt vrij gelaten (het veronderstelde 'effect'), en ťťn variabele (de veronderstelde 'oorzaak') wordt kunstmatig gevarieerd op volledig gecontroleerde wijze. Alle overige factoren of invloeden (covariaten, confounding factors, extraneous factors) wordt zoveel mogelijk geÔsoleerd, gefixeerd of op minimaal niveau gehouden. Dit vereist dus het het maximaal beheersen van alle (bekende) variabelen: standaardiseren, onder ceteris paribus condities, oftewel in 'laboratoriumsetting' (in vitro). Dit kan uiteraard lastig zijn in natuurlijke settings, waar typisch veel dynamiek, complexiteit, verstrengeling en chaos heersen die niet of heel moeilijk sluitend te controleren zijn.
(2) Vervolgens wordt systematisch exact hetzelfde schema gevolgd met wisselende combinaties van alle factoren die mogelijk direct of indirect invloed of effect kunnen zijn bij hetzelfde (causale) proces.
(3) Op basis van alle verschillende experimenten en statistische berekeningen (correlatiematrices, multivariate analyses, enz.) kunnen we een voorlopig statistisch model opstellen van het causale mechanisme.
(4) Het voorlopige model kunnen we vervolgens toetsen op mogelijke lacunes en omissies, door het 'los te laten' op volkomen ongecontroleerde situaties 'in het wild'. Het gaat dan om het maximaal detecteren van verborgen of onbekende variabelen: randomiseren, onder ceteris liberis condities, bijv. via veldonderzoek (in vitro).
Als hieruit nieuwe varianten naar voren komen kunnen we daarmee opnieuw het laboratorium in.

Steekproefonderzoek kan dus behoorlijk veelomvattend, complex en langdurig worden, dus zeer kostbaar. Deze weg kan echter aanzienlijk worden bekort als we steeds tevoren een scherpe analyse maken van de logische structuur van het eventuele causale mechanisme. Hiervoor zijn inzichten en vaardigheden nodig met betrekking tot de precieze samenhang van logica, statistiek en causale analyse.

Regressie



Regressie wordt vaak beschouwd als een aanwijzing die - meer dan correlatie - verwijst naar de veronderstelde causale relatie. Dit geheel ten onrechte! De regressie-coŽfficiŽnt is een 'vertaling' van de correlatie, met twee verschillen: ze is afhankelijk van rekenrichting, en ze is niet-gestandaardiseerd, dus afhankelijk van de gebruikte schalen. Hierdoor kan ze, anders dan de correlatie, directer de getalsverhouding aangeven tussen de waarden van de betrokken variabelen op hun 'oorspronkelijke' schaal.
Maar zowel de rekenrichting als de schalen kunnen we altijd arbitrair kiezen, en maken geen verschil voor de onderliggende correlatie: en al helemaal niet voor de mogelijke symmetrie van verschijnselen laat staan een eventueel causaal verband. Kortom, de beperkingen die voor de correlatie-coŽfficiŽnt gelden, gelden mutatis mutandis ook voor de regressie-coŽfficiŽnt.

Verklaarde variantie



Het kwadraat van de correlatiewaarde levert de proportie verklaarde variantie: de hoeveelheid symmetrie die de correlatiewaarde tussen de betreffende variabelen aangeeft ten opzichte van een volledige symmetrie. We kunnen deze proportie gebruiken als indicatie van de voorspellende kracht van de gevonden correlatie voor gemiddelde waarden van vergelijkbare steekproeven.

Bijvoorbeeld, een correlatie van ca.

0.8

(wat in de sociale wetenschappen een behoorlijk robuust resultaat wordt gevonden) verklaart nog maar

64 procent

van de symmetrische variantie, dus nog geen 2/3. Daarmee blijft dan nog ruim 1/3 onverklaard.

Significantie



Significantie van steekproefuitkomsten zoals correlaties betekent simpelweg dat het waarschijnlijk is dat die uitkomsten niet volledig aan toeval te wijten zijn. Met andere woorden, de steekproefwaarden 'zeggen' in dat geval waarschijnlijk iets over de totale populatie in het referentiŽle domein.
Significantie is dus een kanswaarde, die gebaseerd is op de relatie tussen de steekproefwaarde en de steekproefgrootte. Op basis van die relatie geeft ze weer hoe groot de kans is dat de steekproefwaarde op statistische gronden de populatiewaarde weerspiegelt.
Wil deze kanswaarde echter valide zijn dan moet tevoren voldaan zijn aan talrijke behoorlijk strenge vereisten. Om enkele belangrijke te noemen, kort en bondig, en los van hun onderlinge relaties:
(a) De steekproef is in elk onderdeel representatief voor de populatie.
(b) De steekproef is aselect, dus is 'blind', via volstrekt willekeurige selectie uit de populatie tot stand gekomen.
(c) De gehele steekproef blijft tijdens de metingen constant.
(d) Alle steekproefeenheden zijn vanaf de aanvang onderling identiek op al hun eigenschappen uitgezonderd de onderzochte variabelen.
Ze blijven dat ook tijdens de metingen: dus blijven onder meer steeds constant en geÔsoleerd van externe invloeden.
(e) De waarnemingsgegevens zijn onderling onafhankelijk, dus de steekproefeenheden blijven geÔsoleerd van elkaar, en ze worden per groep waarover gemiddeld wordt uitsluitend in identieke situaties gebracht.
(f) De gehele populatie blijft vanaf de eerste steekproef, tot en met de gehele periode waarover de onderzoeksresultaten moeten gelden, in alle relevante opzichten constant.
(g) De variabelen zijn meetbaar op een kwantitatieve of continu waardenschaal (zeg een 'graduele schaal'): dat wil zeggen tenminste op interval-niveau (zeg een 'getrapte schaal', met gelijke waardeverschillen), maar liever nog op ratio-niveau (zeg een 'glijdende schaal', met een absoluut nulpunt). En ze zijn op die schaal ook gemeten.
(h) De gemeten variabelen zijn normaal verdeeld: ze vertonen in hun 'gedrag' (d.i. wisselende omvang) een spreiding c.q. variantie die evenwichtig rond het gemiddelde schommelt. (In overeenstemming met de zgn. Gauss functie of bell curve).
(i) De meetwaarden van de onderzochte variabelen vertonen onderling een overeenkomstige variantie (homoscedasticiteit).

Statistische resultaten in de praktijk



In de praktijk blijken waarnemingsgegevens c.q. steekproefdata maar zelden aantoonbaar te voldoen aan al deze vereisten.
{Nb. In die gevallen worden vaak andere statistische analysemethoden aanbevolen, zoals nonparametrische testtechnieken, maar deze hebben weer hun eigen zwaktes zoals beperkte bruikbaarheid voor modelvorming met waarborging van voldoende betrouwbare voorspellende kracht. }

Significantie versus voorspellend vermogen



Hebben we een valide significantie dan is die nog altijd een zwakke, indirecte indicatie voor de kans dat het veronderstelde causale verband werkelijk geldig is in het gebied waarover we informatie willen: de steekproef, maar vooral, de populatie, dat wil zeggen, de empirie, 'de werkelijke wereld' of een ander referentieel domein.

Wanneer we een statistische techniek gebruiken om een causaal verband te toetsen, dan kijken we allereerst of de onafhankelijke variabele (die staat voor de causale factor) een verschil maakt voor de afhankelijke c.q. effectvariabele dat voldoende groot is. De vraag is daarbij of het geschatte effectverschil in de populatie, berekend op basis van de steekproefgegevens redelijk 'beduidend' is, dat wil zeggen, zodanig afwijkt van toeval (zoals dat 'normaal' te verwachten is), dat het wijst op ťnig daadwerkelijk verschil in de populatie. In dat geval noemen we het het geschatte effectverschil statistisch significant.
Een grotere significantie betekent een kleiner risico op wat 'fout I' genoemd wordt: een onterechte conclusie dat het gemeten verschil niet uitsluitend toe te schrijven is aan 'toevallige ruis' (random error) als gevolg van onzuivere meetwaarden door 'vermenging' met niet ter zake doende incidentele invloeden. Met een kleinere kans op false negative conclusie hebben we een grotere kans op proper negative conclusie: dat we het verschil met recht niet toeschrijven aan louter toeval. Met andere woorden, daarmee hebben we een grotere kans dat we het verschil met recht toeschrijven aan de variatie in de onafhankelijke variabele.
Indirect geeft de significantie dus weer hoe groot de kans is dan dat de proportie van wederzijds verklaarde variantie (het kwadraat van de correlatie) werkelijk groter is dan  

0.

. Dit levert natuurlijk nog niet echt veel concrete informatie die we rechtsreeks kunnen gebruiken voor causale oordelen zoals attributies, determinaties, verklaringen en voorspellingen. Het is een begin, een aanwijzing dat er werkelijk iets in de trant van onze causale hypothese werkzaam kan zijn in de populatie.

Veelzeggender is hoe groot de kans is dat de proportie verklaarde variantie voldoende groot is voor betrouwbare voorspellingen van (nieuwe) meetwaarden, en niet wordt overheerst door 'uitzonderingsruis' (systematic error) onder invloed van andere causale factoren.

Significantie en voorspellende waarde liggen als tegenovergestelde polen op ťťn continuŁm van wat in de logica vervulbaarheid heet.

(1)

Significantie.


Dit criterium geeft de kans weer op consistentie tussen observaties (steekproefwaarden) en de veronderstelde causale relatie (populatiewaarden).
Het vraagt dus om een zo klein mogelijke kans op onvervulbaarheid van de (causale) hypothese.
Anders gezegd, een zo klein mogelijke kans op totale afwezigheid van het veronderstelde effect (dus op feitelijke geldigheid van de 'nul-hypothese').
Oftewel, een zo klein mogelijke kans op ongegronde aanname van enige aanwezigheid van het veronderstelde effect (d.i. onterechte validatie van de 'alternatieve hypothese').

Dit betekent dus slechts 'afwezigheid van contra-indicatie(s)' voor de (causale) hypothese.
Anders gezegd, een zo klein mogelijke kans op toevallig verschil tussen de meetwaarden van het veronderstelde 'effect' met en zonder de veronderstelde 'oorzaak'.

Met minder significantie wordt de kans op het weergegeven verband vrijwel nihil.

(2)

Voorspellende kracht.


Deze waarde geeft de kans weer op ondersteuning van observaties (steekproefwaarden) voor de veronderstelde causale relatie (populatiewaarden).
Het vraagt dus om een zo groot mogelijke kans op geldigheid van de (causale) hypothese.
Anders gezegd, een zo groot mogelijke kans op aanwezigheid van het veronderstelde effect (dus op feitelijke contradictie van de 'nul-hypothese').

Dit vereist dus niet minder dan 'voldoende voorwaarde(n)', oftewel 'geen ontbrekende noodzakelijke voorwaarde' voor de (causale) hypothese.
Anders gezegd, een zo klein mogelijke kans op systematisch verschil tussen de verwachte waarden van het veronderstelde 'effect' met en zonder de veronderstelde 'oorzaak'.
Dit impliceert een zo groot mogelijke kans dat het verwachte effect zal afwijken van louter toevalstreffers, oftewel een 'better than random' voorspelling.
Anders gezegd, een kans groter dan 0.5 dat de steekproefwaarden van de onafhankelijke variabele op zijn minst de ligging van de effectgrootte ten opzichte van het populatiegemiddelde (boven of onder) correct voorspelt.

Met minder voorspellende waarde wordt de kans op het weergegeven verband minder dan sluitend.

Neem bijvoorbeeld een behoorlijk forse steekproef van

5000

eenheden.
We stellen de uitzonderingskans, de maximale kans op 'toevalsruis' (random error), het 'verwerpingsgebied' α, op

0.05

(5 procent), dus ťťn op twintig.
(1)

'Terugvoorspellen' van populatiecorrelatie.


Dan is de correlatie al 'significant' bij een steekproefwaarde van tenminste

0.025

.
Dit komt echter overeen met een populatiewaarde van minstens

0.0017

.
Oftewel een proportie verklaarde variantie van minstens

0.000003

- een verwaarloosbare fractie.
(2)

Voorspellen van (nieuwe) steekproefgemiddelde.


Stel nu dat we de correlatie willen gebruiken om te voorspellen, en heel bescheiden beginnen: de gemiddelde geschatte populatiewaarde van een variabele voor een individu ligt onder of boven het werkelijke populatiegemiddelde.
We gaan uit van een gelijke steekproefgrootte en foutkans.
Dan hebben we een correlatie nodig met een steekproefwaarde van tenminste

0.99

.
Daarbij hoort dan een populatiewaarde van tenminste

0.989

.
Oftewel een proportie verklaarde variantie van tenminste

0.98

.
Dat komt overeen met een proportie onverklaarde variantie van hoogstens

0.02

(2 procent).
Met andere woorden, we hebben dan ongeveer het complement nodig van de waarden voor significantie!

De gemiddelde waarden zijn niet de individuele waarden.



De genoemde statistische maten - correlatie- en regressie-coŽfficient, proportie verklaarde variantie - zeggen in eerste instantie alleen iets over de gemiddelde waarden van de gehele steekproef, of van de populatiewaarden voor zover die op een valide wijze geschat zijn. Ze zeggen echter vrijwel niets over meetwaarden van kenmerken van individuen in een steekproef of een populatie, dus nog minder over reŽle 'oorzaken' en 'effecten' in individuele gevallen, zgn. 'N=1' steekproeven.
Voor meer daarover zie Principes van Causale analyse voor 'N=1' steekproef.


Zie verder

:

§ Methode voor Causale analyse: Richtlijnen bij oorzaak-gevolg oordelen, verklaren, voorspellen. (Introductie).
§ Principes van Causale analyse voor 'N=1' steekproef.
Voorspellende kracht van correlatiewaarden: van steekproef naar populatie, en naar specifiek geval.

Zie ook ..