sabato 4 luglio 2009

Curar l'influenza suina con la grappa, ovvero: della validazione statistica – Prima puntata

ANSA – Il prof. Hans Krupp dell'Università di Vienna ha dichiarato di aver trovato una cura per migliorare il decorso dell'influenza H1N1, meglio nota come influenza suina. Di aver trovato, o meglio di aver riscoperto la cura della nonna: latte e grappa. In un esperimento egli ha somministrato due volte al giorno a dieci pazienti il rimedio della nonna. Il risultato è stato che la durata della febbre è stata di due giorni e mezzo, contro la media di tre per i pazienti curati con altri mezzi. La comunità scientifica è molto divisa sulla validità dell'esperimento.


Come avrete forse capito, questo insolito post parla di statistica. Più precisamente, tratta di come sia possibile trarre delle conclusioni da un'indagine statistica -in questo caso, sull'efficacia di una cura.

Chiediamoci se l'esperimento del dottor Krupp sia valido. La risposta è che basandoci sui soli dati dell'agenzia ANSA non è possibile stabilirlo. Per farlo, avremmo bisogno di informazioni sulla dispersione dei dati. Per capire cosa sia questa dispersione, ipotizziamo due possibili scenari.


Nel primo scenario supponiamo che non solo la febbre causata dall'influenza suina duri in media tre giorni, cioè 72 ore, ma che abbia praticamente sempre quella durata. Supponiamo che siano rari i pazienti che, non curati o curati con altri mezzi, abbiano una febbre che dura meno di 70 ore o più di 74. Allora dieci pazienti che in media hanno 60 ore di febbre sono difficili da spiegare con una coincidenza e si è portati a credere che veramente la cura della nonna funzioni. Questo è uno scenario di dati con bassa dispersione.


Il secondo scenario è uno scenario di alta dispersione. In questo scenario la febbre dura sì tre giorni, in media, ma ci sono molti malati ai quali dura uno o due giorni e più o meno altrettanti ai quali dura quattro-cinque giorni. Per fissare le idee, nei due terzi dei casi la febbre dura dalle 48 alle 96 ore. In questo caso, una persona dotata di logica si ritrova piena di dubbi. Può ben darsi che la cura del prof. Krupp funzioni, ma invece potrebbe essere che casualmente egli abbia scelto dieci pazienti tra i più robusti e ne abbia dedotto una conclusione errata.


In tale secondo scenario, ogni persona di buon senso in questo caso inviterebbe il prof. Krupp a ripetere l'esperimento, magari su 100 pazienti. Ma se dovesse accadere che in questo nuovo esperimento la media risultasse di 66 ore, cosa si potrebbe dedurre? Immaginiamo una discussione tra un fan del prof. Krupp (K) e uno scettico (S).


K: L'esperimento ha avuto successo! Vedi infatti che la durata media della febbre su 100 persone è inferiore alla durata per i pazienti non trattati.


S: Sarà pure inferiore, ma non direi proprio che l'esperimento abbia avuto successo. Tra 66 ore e 72 ore la differenza è piccola. Probabilmente ciò è dovuto al fatto che i pazienti sono stati scelti in una zona in cui la gente è normalmente più sana e robusta.


K: Ciò che dici è falso. I pazienti non li ha scelti il professore, ma un'agenzia statistica indipendente che ha scelto un campione rappresentativo per età, condizioni di salute e residenza.


S: Comunque converrai che un guadagno di sei ore in meno di febbre è ben poco, ci vuol altro per dire che si è trovata una cura.


K: Ma è comunque un passo avanti. Per alcuni la febbre è stata di sole 24 ore.


S: Sì, ma dai dati leggo che per altri è durata una settimana. E allora come la mettiamo? Io direi che con una variabilità così forte, il fatto che la febbre sia durata in media 66 ore anziché 72 è stato solo un caso.


K: No. 66 ore è poco meno di 72 ore, ma visto che la media è su 100 persone, il risultato conferma la validità della cura.


S: Balle! Per il 30% dei pazienti la febbre è durata addirittura più di quattro giorni, come fai a dire che quei dati significhino qualcosa? Quei numeri non hanno nessun valore.


K: E invece sì.


S: No.


K: Sì.


S: No...


La Statistica ha un metodo preciso per dire chi tra K e S abbia ragione. Con calcoli che per il momento non approfondiamo, è possibile stabilire con una certa precisione cosa accade se scegliamo un gruppo di cento pazienti (si chiama campione di cento pazienti) non sottoposti a trattamento. Questi calcoli portano a un risultato di questo tipo:


nel 99% dei casi, la media della febbre in un campione di cento pazienti è compresa tra x ore e y ore.


Questo è il concetto più difficile di questo post. La frase precedente significa che se si prendono tanti, ma tanti!, gruppi di 100 pazienti, e di ciascun gruppo si calcola la media, nel 99% dei casi questa media risulta compresa tra x e y. Il bello è che non occorre prendere veramente tante centinaia di pazienti: la statistica permette di calcolare x e y a partire dalla media e dai valori della dispersione già noti. Come si calcolino tali valori, è questione che non affrontiamo in questo post. Siamo invece interessati alle conclusioni che si possono trarre sulla cura Krupp. Consideriamo due possibilità.


  1. Supponiamo che la media trovata dal prof. Krupp, 66 ore, sia un valore più piccolo di x. Se la cura di grappa e latte non funzionasse, ciò significherebbe che il prof. Krupp si sarebbe trovato davanti a uno di quell'1% di campioni di pazienti con media anomala. E' difficile credere che uno scelga un campione a caso e vada a prendere proprio quello fallato; siccome infatti non ci si crede, in questo caso si conclude che la cura ha un effetto, magari piccolo, ma rilevabile.

  2. Al contrario, supponiamo il valore di 66 ore sia compreso tra x e y. Questo significherebbe che tra i campioni “normali” di 100 pazienti non trattati ce ne sono anche vari per i quali la durata media della febbre è di 66 ore o meno! E allora in questo caso la statistica si arrende. Può darsi che la cura Krupp funzioni, ma può anche darsi che lo scostamento dalla durata media delle 72 ore sia semplice casualità. In questo caso si conclude che il dato sperimentale non è significativo, cioè che non è una prova. Attenzione: non è provata l'efficacia della cura, ma nemmeno la sua non efficacia!



Concludendo. Qui è stata fatta qualche semplificazione. Ad esempio, quando si fanno esperimenti di tipo medico o farmacologico, di solito si tratta anche un secondo campione (detto campione di controllo) con una cura tradizionale o con una cura placebo. Ciò perché è noto un effetto, chiamato appunto effetto placebo, per il quale anche un trattamento con farmaci inefficaci (quali ad esempio una pastiglia di zucchero) può avere degli effetti terapeutici, dovuti a meccanismi psichici. Poi bisogna pur dire che come ogni metodo statistico esso focalizza un certo effetto (la durata della febbre), ma non è in grado di chiarire se questo effetto ha conseguenze realmente positive (chi mi dice che le complicanze non siano più frequenti quando la febbre dura di meno?)


Ho adottato lo stesso principio in qualche post precedente, parlando di tressette. E devo ammettere che lì ho un po' fatto il buffone. Intanto, laddove ho scritto che la statistica dice che siamo nella normalità, in realtà avrei dovuto dire che la statistica dice che potremmo essere nella normalità: siamo come al caso 2) di quelli trattati sopra. Inoltre, l'analisi statistica che ho fatto riguarda la media dei carichi in una mano, perché è di questo che ci lamenta spesso. Ma la casualità è un concetto molto più complicato. Immaginate un software che secondo gli sviluppatori sia casuale, ma che distribuisca tre carichi a giocatore per mano, sempre. La media è quella giusta, ma vi sembrerebbe una distribuzione davvero casuale? Non credo proprio.


Però c'è una cosa fondamentale da aggiungere. I profani credono che chi ha scritto il software per il gioco del tressette di GDM (www.mygdm.com) abbia anche realizzato da sé un qualche meccanismo per creare la casualità. Io il software non l'ho visto, ma sono certo che non sia così. La generazione di numeri casuali è implementata in ogni linguaggio di programmazione, compreso quello, che non conosco, che i creatori di quel sito avranno adottato. Tale generazione è studiata in tomi pesanti chili da barbosi studiosi d'informatica, da lunghi anni. Tutte le tecniche di generazione note hanno caratteristiche di casualità (veramente si chiama pseudocasualità) assolutamente affidabili. Ecco perché, a mio avviso, è impossibile che il software di GDM distribuisca le carte in un modo diverso da quello che noi riconosciamo come casuale.


(Fine prima puntata. Se proprio vi interessano i conti, ce ne sarà anche una seconda.)