Le novità di Statistics for Data Analysis V.29
INDICE
-
Le novità di Statistics for Data Analysis V.29
-
-
Alternative OLS Lineari: Lasso, Ridge e Elastic Net
-
Modelli AFT (Parametric Accelerated Failure Time)
-
Pseudo-R2 misure in Modelli misti lineari e Modelli misti lineari generalizzati
-
-
-
Menù degli strumenti
-
Finestra di dialogo Cerca
-
Funzioni delle finestre di dialogo
-
Nuovi comandi di sintassi
-
Introduzione
Statistics for Data Analysis powered by SPSS è una soluzione di analisi statistica dei dati completa che affronta tutti gli aspetti del processo analitico, dalla preparazione e gestione dei dati, all'analisi e al reporting.
Statistics for Data Analysis V. 29 introduce numerose novità, tra cui una nuova scheda panoramica nella visualizzazione iniziale dei dati, la Regressione OLS, una migliore integrazione con le estensioni open sources e altri miglioramenti che sono stati progettati per ottimizzare il lavoro quotidiano.
Le novità di Statistics for Data Analysis V.29
Visualizzazione dei dati
All’apertura di un file di dati, oltre alle classiche schede Vista Dati e Vista Variabile, è stata introdotta la scheda Panoramica, che fornisce un riepilogo grafico e statistico del dataset e di ogni variabile.
Questa scheda permette di avere una rapida occhiata sulla quantità, qualità e tipologia dei dati inclusi nel dataset.
Grafici a violino
I grafici a Violino sono stati aggiunti all’interno dei modelli disponibili per la modelli lavagna grafica (Menu grafici/ Selettore modelli per lavagna grafica). Questi grafici sono un ibrido dei grafici a scatola e dei grafici della densità del kernel. I grafici a violino mostrano i picchi nei dati e vengono utilizzati per visualizzare la distribuzione delle variabili di scala. A differenza di un box plot che può mostrare solo statistiche riassuntive, i violin plot rappresentano statistiche riassuntive e la densità di ogni variabile.
Nuove procedure di Analisi
Alternative OLS Lineari: Lasso, Ridge e Elastic Net
La nuova versione 29 di Statistics for Data Analysis introduce tre nuove procedure di Regressione che utilizzano diverse forme di regolarizzazione: Lasso, Ridge e Elastic Net.
Tutte queste tecniche sono ottimizzate per prevenire problemi di overfitting che sono comunemente associati alla regressione dei minimi quadrati ordinari.
Lasso
Spesso indicata come regolarizzazione L1, la procedura Lasso (Least Absolute Shrinkage and Selection Operator) funziona penalizzando le caratteristiche meno importanti, riducendole verso lo zero. È quindi utile per la selezione delle variabili, poiché quelle deboli deboli vengono effettivamente annullate, semplificando così il modello finale.
Ridge
La regolarizzazione L2, nota come regressione di Ridge, tende a penalizzare i coefficienti in modo più uniforme rispetto a L1. Oltre a creare modelli più generalizzabili, è comunemente impiegato quando si affrontano problemi di multicollinearità.
Elastic Net
Elastic Net combina la regressione Lasso (L1) e Ridge (L2), che può risultare in un modello più bilanciato se ogni singolo metodo è in qualche modo non ottimale.
Il grafico dalla procedura Elastic Net che mostra l'effetto sui coefficienti del modello utilizzando diversi valori dell'iperparametro Alpha
Modelli AFT (Parametric Accelerated Failure Time)
Statistics for Data Analysis V. 29 introduce una nuova tecnica alla famiglia delle procedure di analisi della sopravvivenza.
A differenza delle esistenti tavole di sopravvivenza, Kaplan-Meier e Cox Regression, il nuovo Accelerated Failure Time Model è di natura parametrica. Ciò significa che si presume che la variabile dipendente segua una distribuzione specifica.
I modelli parametrici sono spesso considerati meno flessibili dei modelli non parametrici, ma se la variabile outcome segue una distribuzione nota, questo tipo di procedure può essere molto utile.
Mentre i modelli di rischio proporzionale presuppongono che l'effetto di una covariata sia quello di moltiplicare il rischio per una costante, un modello AFT presuppone che gli effetti della covariata accelerino o decelerino la sopravvivenza di una costante.
Questa capacità può essere utile per i ricercatori che studiano il tempo al fallimento accelerato con i loro effetti del modello proporzionali rispetto al tempo di sopravvivenza.
La nuova procedura supporta modelli parametrici basati sulle distribuzioni Weibull, Esponenziale, Log-Normale e Log-Logistica.
Questa nuova funzione richiede il Modulo Statistics Advanced.
Pseudo-R2 misure in Modelli misti lineari e Modelli misti lineari generalizzati
In Statistics for Data Analysis V. 29 l'output dei modelli misti lineari e dei modelli misti lineari generalizzati include misure pseudo-R2 e il coefficiente di correlazione intra-classe. R2 è una statistica di adattamento comunemente riportata, che indica la proporzione di varianza spiegata da un modello lineare. Il coefficiente di correlazione intra-classe (ICC) è una statistica correlata che indica quanta varianza è spiegata da un fattore di raggruppamento (casuale) nei dati multilivello/gerarchici.
Miglioramenti
Statistics for Data Analysis V. 29 introduce anche diversi miglioramenti che facilitano il lavoro quotidiano dell’analista. Di seguito si ripotano quelli più significativi.
Menu degli strumenti
All’interno della Barra degli strumenti troviamo due nuovi pulsanti: Mostra/Nascondi tutte le finestre di sintassi e Cancella tutto l'output.
Inoltre, è stato aggiunto un nuovo pulsante nella barra di stato che consente di passare rapidamente dalla modalità classica (finestre di output e sintassi separate) alla modalità cartella di lavoro.
Finestra di dialogo Cerca
La funzione di ricerca fornisce opzioni per l'inserimento di termini direttamente in una barra degli strumenti che consente di visualizzare i risultati all’interno di una finestra di dialogo a comparsa.
Funzioni delle finestre di dialogo
Percentili
È disponibile una nuova finestra di dialogo dei Percentili (Analizza/Statistiche descrittive/Percentili) che permette di impostare i quartili o dei percentili personalizzati, utilizzando uno dei cinque metodi di stima disponibili.
Regressione lineare
All’interno del menu relativo alla Regressione lineare (Analizza/ Regressione/ Lineare) sono disponibili 3 nuove funzioni:
-
Dal sottomenù Statistiche è possibile selezionare Criterio di selezione, che richiama nell’output le relative statistiche.
2. Sempre al sottomenù Statistiche è possibile richiamare la somma dei quadrati dei residui previsti (PRESS), una statistica di tipo di convalida incrociata comune per la valutazione dei modelli di regressione lineare.
3. Dal sottomenù Opzioni è possibile specificare il livello di Tolleranza all’interno dei criteri di accettazione e rifiuto, utile per la gestione delle variabili che presentano quasi collinearità.
Regressione di Cox
È disponibile la nuova finestra di dialogo Cox con Coviarate dipendente dal tempo, ridisegnata per consentire di specificare e calcolare più covariate.
Nuovi Comandi di Sintassi
SURVREG RECURRENT
Stima i modelli di sopravvivenza parametrici per i dati degli eventi ricorrenti tramite l'incorporazione di un termine di fragilità condiviso. Questo termine viene trattato come una componente casuale per tenere conto di un effetto non osservato a causa della variabilità a livello individuale o di gruppo.
MIXED
Aggiunge un sottocomando OUTFILE con una parola chiave EBLUPS per esportare le previsioni dei parametri degli effetti casuali o EBLUP in file .sav . Se sono richieste più serie di EBLUP nei sottocomandi RANDOM, tramite parole la chiave SOLUZIONE, la parola chiave FILE_SEPARATE può essere utilizzata con TRUE o FALSE per salvare le previsioni in uno o più dataset o file.
GENLINMIXED
Aggiunge una parola chiave EBLUPS al sottocomando OUTFILE per esportare le previsioni dei parametri degli effetti casuali o EBLUP in un file .sav . Se sono richieste più serie di EBLUP nei sottocomandi RANDOM tramite parole chiave SOLUZIONE, la parola chiave FILE_SEPARATE può essere utilizzata con TRUE o FALSE per salvare le previsioni in uno o più dataset o file.
Confronto versioni
Scarica il pdf della tabella per vedere le principali novità e il confronto tra le ultime versioni di Statistics for Data Analysis powered by SPSS: