
Modulo Youden
di Statistics for Data Analysis
Il nuovo modulo Youden ti aiuta a determinare il cut-off ottimale di una curva ROC, una tecnica molto utile che mostra le prestazioni di classificazione a diverse soglie di probabilità.
​
Questa tecnica è molto usata in medicina, radiologia, psicologia, meteorologia, veterinaria e fisica.
Richiamo alla Curva ROC
La curva ROC (Receiver Operating Characteristic) è un grafico che mette in relazione la sensibilità e la specificità di un test diagnostico al variare di un valore soglia, detto anche di cut-off.
L’analisi della curva ROC di un test diagnostico permette di:
-
Valutare l’accuratezza
-
Determinare il valore di cut-off più appropriato
-
Confrontare le performance di due o più test
Per assaggiare l’importanza dell’indice di Youden, richiameremo prima alcuni concetti di base, essenziali per comprendere l’argomento.​
Per praticità, riportiamo di seguito alcuni concetti fondamentali:
-
l’obiettivo di un test è classificare correttamente un paziente (ad esempio presenza o assenza di una specifica malattia)
-
i casi classificati erroneamente vengono chiamati falsi positivi e falsi negativi
-
la sensibilità di un test diagnostico è la proporzione di casi veri positivi che vengono classificati in maniera corretta (ad esempio, in medicina è la capacità di classificare correttamente i soggetti malati).
-
la specificità di un test diagnostico è la proporzione di veri negativi che sono classificati correttamente (ad esempio, in medicina è la probabilità di classificare correttamente i sani).
​
La Curva ROC e diagnostiche
La curva ROC è uno strumento molto utile per riassumere in un unico grafico le performance di un test diagnostico al variare del valore di cut-off.
Il grafico di una curva ROC è formato da:
-
i valori di sensibilità, cioè la proporzione dei veri postivi del test sull’asse delle ordinate (asse y)
-
i valori di specificità, cioè la proporzione dei falsi positivi del test sull’asse delle ascisse (asse x)
-
all’interno del grafico viene rappresentato ogni valore di cut-off, per ognuno dei quali si può leggere il valore della sensibilità (sull’asse y) e quello della specificità (sull’asse x)
-
unendo i vari punti si ottiene una curva con andamento “a scaletta”, la curva ROC.
L’area sottostante alla curva ROC (AUC, acronimo di “Area Under the Curve”) è una misura di accuratezza diagnostica. Per semplicità, potremmo dire che se un ipotetico nuovo test discriminasse perfettamente i malati dai sani, l’area della curva ROC avrebbe valore 1, cioè il 100% di accuratezza. Nel caso in cui il nuovo test non discriminasse per niente i malati dai sani, la curva ROC avrebbe un’area di 0.5 (o 50%) che coinciderebbe con l’area sottostante la diagonale del grafico. Nella realtà, si considera adeguato un test diagnostico con un’area sotto la curva ≥80%.
Diagnostica molto utile è anche la determinazione del cut-off ottimale, ovvero il valore che massimizzi contemporaneamente la sensibilità e la specificità del test.
Questo è l’indice di Youden, che vediamo di seguito con un esempio.​
Esempio
​
​Consideriamo un ipotetico campione di 25 pazienti affetti da malattia renale terminale. Per ciascun paziente sono stati misurati due biomarcatori cardiaci (atrial natriuretic peptide, ANP, e brain natriuretic peptide, BNP) e la presenza/assenza di ipertrofia ventricolare sinistra è stata accertata tramite ecocardiografia. L’ANP è prodotto principalmente dall’atrio, mentre il BNP dal ventricolo sinistro e vi è evidenza in letteratura che questi due biomarcatori hanno un buon potere diagnostico per identificare l’ipertrofia ventricolare sinistra nei pazienti in dialisi (Figura 1).

Per disegnare il grafico della curva ROC è necessario calcolare la sensibilità, la specificità e la proporzione di falsi positivi (1-specificità) relative a una serie di valori soglia di ANP e BNP. Ad esempio, per calcolare le coordinate della curva ROC per il solo ANP con Statistics for Data Analysis, si richiama la finestra di dialogo delle Analisi ROC dal Menu Analizza/ Analizza ROC (Figura 2).

Per brevità, nella Figura 3 sono riportate le coordinate della curva ROC per il solo ANP.

Per esempio, un cut-off di ANP pari a 59 pg/mL ha una sensibilità del 70%, per l’identificazione dei pazienti con ipertrofia ventricolare sinistra, e una percentuale di falsi positivi del 20%
Riportando nel grafico tutte le possibili coppie di veri positivi e falsi positivi, corrispondenti a ciascun valore soglia, si ottiene la curva ROC (figura 4).

La figura 5 riporta l’AUC, pari a 0,743 (cioè del 74%). Questo significa che in un ipotetico esperimento che consiste nello scegliere in 100 diverse prove, in modo random, una coppia di pazienti di cui uno con ipertrofia ventricolare sinistra e uno senza, nel 74% dei casi i livelli di ANP sono più alti negli individui con ipertrofia ventricolare sinistra rispetto a quelli senza questa alterazione.

Indice Youden
​
Attraverso le coordinate della curva ROC è possibile identificare il best cut-off, cioè il valore del test che massimizza la differenza tra veri positivi e falsi positivi, ovvero il Test di Youden, disponibile solo nella soluzione Statistics for Data Analysis, all’interno del menu Analizza/ Analyze Add-On.”
​
Una volta riportate le coordinate della Curva ROC sul dataset (Figura 7) è possibile calcolare il Test di Youden grazie al relativo Add-On, potendo anche richiamare tutti i migliori risultati di cui si ha necessità (Figura 6).

Nel nostro caso il best cut-off si associa a una percentuale di falsi positivi del 27 %, come si evidenzia nella prima riga del cutoff_score in figura 7.

Questo best cut-off corrisponde ad un valore per l’ANP di 52 pg/mL che si associa a una sensibilità del 70%. (Figura 8).

In conclusione, nel nostro esempio, questo valore ricavato dall’Add-On del Test di Youden per l’ANP di 52 pg/mL è quello che massimizza la differenza tra veri positivi e falsi positivi per l’identificazione dell’ipertrofia ventricolare sinistra.
(L’esempio sopra riportato ha come unico obiettivo mostrare come richiamare un’analisi ROC e alcune sue diagnostiche, tra cui l’Indice di Youden. Si considerino i dati di invenzione, senza nulla voler dimostrare dal punto di vista medico).