Il grafico riportato qui sotto è stato pubblicato stamattina da La Stampa a pag. 10. Sembra la pistola fumante che ci sia una evidente correlazione tra la quota di contante che si usa e l’evasione.
Alcune considerazioni preliminari.
Primo. Perché si riportano i dati per regione? Sarebbe interessante considerare anche altri fattori, quali il reddito. Infatti si potrebbe pensare che sia il reddito a influenzare la propensione all’evasione. Non si avanzi l’obiezione che il reddito non è misurabile, perché l’ISTAT, induttivamente, riesce a valutare e tenere conto anche del cosiddetto “nero”, ossia il non dichiarato.
Secondo. Come mai alcune regioni sono accorpate? Qual è il criterio usato? Certo le regioni piccole non possono essere messe alla pari di quelle grandi. Ma allora come si stabilisce la soglia? Sarebbe interessante vedere cosa succede se si cominciano a togliere o ad accorpare altre regioni
Terzo. Il criterio della popolazione è cruciale. Andrebbe tenuto in considerazione per tutte le regioni. Per esempio la Lombardia è il doppio della seconda per popolazione e quindi va pesata il doppio.
Ci siamo cimentati anche noi in questo esercizio e abbiamo ripreso i dati nel grafico e ci abbiamo giocato un po’.
Primo. Qualunque tipo di correlazione – ossia, la misura della strettezza della relazione che la retta interpolante (regressione) descrive – va comunque esplicitata secondo un modello, in questo caso econometrico, e non semplicemente buttata lì. Il rischio, più che teorico, e che si acchiappi una concomitanza che in realtà dipende da qualcos’altro. Chi si vuole divertire, può consultare interi libri che mostrano le assurdità a cui si può arrivare con un uso cieco della correlazione. Correlazione tra le malattie gastroenteriche e gli incidenti stradali, la vendita degli occhiali da sole e dei gelati, l’indice di criminalità femminile e il ciclo mensile … una serie di cose ridicole che possono invece essere spiegate con una approfondita analisi col cervello e non con la forza bruta del computer, oggi purtroppo a disposizione di chiunque abbia anche un semplice foglio elettronico. Bombe atomiche date in mano a bambini … o a delinquenti.
Secondo. Andrebbe anche spiegata la forza della correlazione trovata. Se essa possa essere messa in relazione anche a fattori casuali, oppure se è così forte da poterci fare escludere che quello che vediamo sia una semplice casualità. A questo scopo la statistica ci fornisce una misura (il p-value) che ci dice quanto sia probabile che la relazione trovata possa essere un effetto del caso. Più è basso più è da escludere questa eventualità e quindi la forza della relazione è accertata. Convenzionalmente si usa un valore di sicurezza basso, il 5 percento: se la misura è inferiore a tale soglia, la relazione si dà per accertata.
E allora, vogliamo giocare anche noi a questo gioco.
Abbiamo anche raccolto i dati della popolazione per regione, in modo da poter usare questo valore come peso per le analisi successive.
Inoltre abbiamo raccolto i dati del PIL per regione per vedere se questa ulteriore variabile può essere una delle cause, o comunque dei fattori, che potrebbero essere responsabili di un “effetto statistico” che scompare non appena si tiene conto anche di quello.
Abbiamo usato un software professionale che ci permette di inserire nel modello di regressione anche la variabile popolazione, come peso, in modo da evitare le discrepanze di cui abbiamo già parlato.
Abbiamo quindi depurato i dati della variabile Evasione da quelli del PILprocapite e quindi abbiamo rifatto il grafico de La Stampa, mettendo in relazione i dati con quelli della percentuale dell’uso del contante.
I dati originari riportati da La Stampa non darebbero adito a dubbi. La forza della relazione tra evasione e uso del contante sembra dimostrata in modo schiacchiante (p-value inferiore al 5 permille, ossia dieci volte più forte di quello che noi abbiamo posto come soglia).
Ma se inseriamo il peso della popolazione e depuriamo i dati dal PILprocapite, tale forza si abbassa notevolmente (p-value superiore al 30 percento), quindi non si può escludere che quello che vediamo sia un effetto statistico.
Se inoltre cominciamo a farci venire i dubbi su quei punti (senza etichetta nel grafico) che sembrano molto “anomali”, perveniamo al grafico qui sotto
dove la relazione è magicamente scomparsa.
Cosa vogliamo dimostrare?
Nello specifico nulla a riguardo della relazione tra evasione e uso del contante, che certo non può essere risolta a colpi di grafici, ma dev’essere oggetto di studi meno superficiali.
Più in generale, vogliamo avvertire i nostri lettori che uno dei principi che vale per gli statistici è il seguente: “Torturate i dati, prima o poi vi diranno quello che vi volete sentir dire”.
Alberto Lombardo – Ordinario di Statistica, Dip. Ingegneria – Università di Palermo