(key-notions-notebook)=
# Concetti chiave 

La data science è un campo che si sviluppa all'intersezione tra la statistica e l'informatica. La statistica fornisce una serie di metodologie per analizzare i dati e ottenere informazioni significative, mentre l'informatica si occupa dello sviluppo di software e strumenti per implementare tali metodologie. In questo capitolo, approfondiremo alcuni concetti fondamentali che costituiscono le basi di questa disciplina in continua evoluzione.

## Popolazioni e campioni

Per iniziare l'analisi dei dati, è necessario identificare le unità che contengono le informazioni rilevanti per il fenomeno di interesse. Questo insieme di unità è chiamato *popolazione* o *universo* ($\Omega$), e rappresenta l'insieme completo di entità capaci di fornire informazioni per l'indagine statistica in questione. Possiamo rappresentare la popolazione come $\Omega = \{\omega_i\}_{i=1, \dots, n}= \{\omega_1, \omega_2, \dots, \omega_n\}$, oppure $\Omega = \{\omega_1, \omega_2, \dots \}$ nel caso di popolazioni *finite* o *infinite*, rispettivamente. Le singole unità $\omega_i$ dell'insieme $\Omega$ sono chiamate *unità statistiche*.

Nella ricerca psicologica, sia nelle ricerche sperimentali che in quelle osservazionali, l'obiettivo principale è studiare i fenomeni psicologici all'interno di una specifica popolazione. Pertanto, è essenziale definire con chiarezza la popolazione di interesse, ovvero l'insieme di individui ai quali verranno applicati i risultati della ricerca. Tale popolazione può essere reale, come ad esempio tutte le persone sopravvissute per un anno dopo il bombardamento atomico di Hiroshima, o ipotetica, come ad esempio tutte le persone depresse che potrebbero beneficiare di un intervento psicologico. Il ricercatore deve sempre essere in grado di identificare se un individuo specifico appartiene o meno alla popolazione in questione.

Una *sotto-popolazione* è un sottoinsieme di individui che possiedono proprietà specifiche ben definite. Ad esempio, potremmo essere interessati alla sotto-popolazione degli uomini di età inferiore ai 30 anni o alla sotto-popolazione dei pazienti depressi che hanno ricevuto uno specifico intervento psicologico. Molte questioni scientifiche cercano di descrivere le differenze tra sotto-popolazioni, come ad esempio il confronto tra un gruppo di pazienti sottoposti a psicoterapia e un gruppo di controllo per valutare l'efficacia di un trattamento.

Il *campione* è un sottoinsieme della popolazione composto da un insieme di elementi $\omega_i$, ognuno dei quali rappresenta un'unità statistica (abbreviata con u.s.) portatrice delle informazioni che verranno rilevate tramite un'operazione di misurazione. Il campione viene utilizzato per ottenere informazioni sulla popolazione di riferimento.

A differenza di una sotto-popolazione, che viene definita in base a criteri specifici, il campione viene generalmente selezionato attraverso una procedura casuale. Il *campionamento casuale* consente al ricercatore di trarre conclusioni sulla popolazione e di quantificare l'incertezza dei risultati. Un esempio di campione casuale è quello utilizzato in un sondaggio. Tuttavia, molti studi osservazionali non utilizzano dati campionati casualmente, ma piuttosto un *campione di convenienza*, come ad esempio una coorte di studenti selezionati da un unico istituto.

Il ricercatore, indipendentemente dal metodo di acquisizione dei dati, deve sempre considerare la questione della *rappresentatività statistica* del campione, ovvero se il campione scelto è in grado di riflettere in modo accurato e privo di distorsioni le caratteristiche di interesse della popolazione. Selezionare le unità statistiche in modo casuale rappresenta il metodo più semplice per garantire la rappresentatività del campione. Tuttavia, in molti casi, soprattutto in psicologia, i ricercatori possono non avere a disposizione le risorse necessarie, inclusi i fondi, per utilizzare la tecnica del campionamento casuale nelle loro ricerche.

## Variabili e costanti

Le *variabili* sono caratteristiche o proprietà che possono assumere diversi valori, sia numerici che categoriali. In altre parole, rappresentano elementi misurabili o osservabili, a cui le unità statistiche forniscono risposte. Ad esempio, se chiediamo "Qual è l'età di questo partecipante?" e la risposta è "19 anni", allora "età" è la variabile e "19" è il suo valore.

La probabilità che la variabile $X$ assuma il valore $x$ si indica con $P(X = x)$, spesso abbreviato in $P(x)$. Ad esempio, $P(X = 19)$ rappresenta la probabilità che un individuo selezionato casualmente dalla popolazione abbia 19 anni. Possiamo anche esaminare la probabilità *congiunta* di più valori contemporaneamente; ad esempio, la probabilità di $X = x$ e $Y = y$ è scritta come $P(X = x, Y = y)$ o $P(x, y)$. La nozione di "variabile" si oppone a quella di "costante", che è una proprietà invariante per tutte le unità statistiche.

Le *modalità* sono le diverse varianti con cui una variabile statistica può manifestarsi. L'*insieme delle modalità* di una variabile statistica è l'insieme $M$ di tutte le possibili espressioni con cui la variabile può presentarsi. Le modalità osservate e facenti parte del campione sono definite come *dati*.

**Esempio 1** Consideriamo lo studio sull'intelligenza, dove la popolazione è costituita da tutti gli italiani adulti. La variabile in questione è il punteggio del test standardizzato WAIS-IV, con modalità come 112, 92, 121, e così via. Questa variabile è di tipo quantitativo discreto.

**Esempio 2** Nel caso dello studio sul compito Stroop, la popolazione comprende i bambini dai 6 agli 8 anni. La variabile di interesse è il reciproco dei tempi di reazione in secondi, con modalità come 1.93, 2.35, 1.32, e così via. Questa variabile è di tipo quantitativo continuo.

**Esempio 3** Supponiamo che lo studio riguardi il disturbo di personalità, e la popolazione sia costituita dai detenuti nelle carceri italiane. La variabile considerata è l'assessment del disturbo di personalità ottenuto tramite interviste cliniche strutturate, con modalità come i Cluster A, Cluster B, Cluster C descritti dal DSM-V. Questa variabile è di tipo qualitativo.

### Variabili casuali

Il termine *variabile* utilizzato nella statistica ha un equivalente nella teoria delle probabilità, ed è noto come *variabile casuale*. Nello studio degli interventi psicologici, ci occupiamo di variabili casuali che misurano i risultati di tali interventi. Una variabile casuale cattura una caratteristica specifica degli individui nella popolazione, e i suoi valori tendono a variare tra gli individui. In teoria, una variabile casuale può assumere una gamma di possibili valori, anche se in pratica osserviamo un valore specifico per ciascun individuo. 

Nell'ambito delle variabili casuali, utilizzeremo lettere maiuscole come $X$ e $Y$ per riferirci a queste variabili, mentre useremo lettere minuscole come $x$ e $y$ per fare riferimento ai valori specifici assunti da una variabile casuale in una data situazione.

Ma qual è la differenza tra una variabile casuale e una variabile statistica? La distinzione tra questi due concetti può essere spiegata attraverso l'incertezza epistemica del ricercatore. Supponiamo di avere un *esperimento casuale*, come il lancio di un dado, e la variabile di interesse $X$ sia l'esito del lancio. Durante un singolo lancio, la variabile $X$ può assumere il valore 5, ma prima del lancio del dado, essa è una *variabile casuale* in quanto sappiamo che può assumere valori da 1 a 6, ma non conosciamo il valore specifico che si verificherà. Solo dopo aver effettuato il lancio e osservato il risultato $X = 5$, la variabile $X$ diventa una *variabile statistica*, poiché ora costituisce un dato osservato nel campione di osservazioni.

## Statistica

Una statistica è una funzione del campione di una variabile casuale.

**Esempio 4** Gli esempi di statistiche includono la media campionaria, la mediana campionaria, la varianza, eccetera. Tuttavia, secondo la definizione precedente, qualsiasi funzione arbitraria del campione costituisce una statistica. Ad esempio, il rapporto tra il valore minimo e il logaritmo del valore massimo del campione sarebbe una statistica del campione, anche se potrebbe non avere un significato pratico.

### Variabili indipendenti e variabili dipendenti

Nell'identificazione delle variabili dipendenti (di esito) e indipendenti (predittori), è essenziale considerare la domanda di ricerca e la conoscenza del fenomeno in esame. In molti casi, è possibile distinguere chiaramente le variabili di esito da quelle predittive, ma in altri casi, potrebbe essere più difficile farlo. Ad esempio, nel caso dell'associazione tra esercizio fisico e insonnia, potrebbe non essere chiaro quale sia la causa e quale l'effetto. Tuttavia, un'analisi più approfondita delle evidenze disponibili e della conoscenza del fenomeno può aiutare a identificare le variabili dipendenti e indipendenti in modo più accurato. È importante sottolineare che la corretta identificazione delle variabili è fondamentale per poter fare previsioni e inferenze valide e accurate sul fenomeno studiato.

**Esempio 5** Immaginiamo che uno psicologo convochi 120 studenti universitari per un test di memoria. Prima di iniziare l'esperimento, a metà dei soggetti viene detto che si tratta di un compito particolarmente difficile, mentre agli altri soggetti non viene data alcuna indicazione. Lo psicologo misura il punteggio nella prova di memoria di ciascun soggetto. In questo esperimento, la variabile indipendente è rappresentata dall'informazione sulla difficoltà della prova. La variabile indipendente viene manipolata dallo sperimentatore assegnando i soggetti, di solito in maniera causale, alla condizione "informazione assegnata" o alla condizione "informazione non data". La variabile dipendente, invece, è ciò che viene misurato nell'esperimento, ovvero il punteggio nella prova di memoria di ciascun soggetto.

### La matrice dei dati

Nella rilevazione statistica, le informazioni raccolte sulle variabili vengono organizzate in una matrice dei dati. Questa matrice è una tabella composta da righe e colonne, dove ogni riga rappresenta un'unità statistica e ogni colonna corrisponde a una variabile statistica esaminata. Ad esempio, consideriamo una generica matrice dei dati $D_{m,n}$:

$$
D_{m,n} = 
 \begin{pmatrix}
  \omega_1 & a_{1}   & b_{1}   & \cdots & x_{1} & y_{1}\\
  \omega_2 & a_{2}   & b_{2}   & \cdots & x_{2} & y_{2}\\
  \vdots   & \vdots  & \vdots  & \ddots & \vdots & \vdots  \\
 \omega_n  & a_{n}   & b_{n}   & \cdots & x_{n} & y_{n}
 \end{pmatrix}
 $$

Nella matrice, la prima colonna contiene i nomi delle diverse unità statistiche prese in considerazione. Le colonne successive rappresentano le variabili considerate nell'analisi.

In particolare, le colonne 2 e 3 si riferiscono a due variabili categoriali (o mutabili) $A$ e $B$, mostrando le diverse modalità osservate nel campione. Le ultime due colonne, invece, riguardano due variabili statistiche quantitative $X$ e $Y$, mostrando i diversi valori assunti da queste variabili nel campione.

È importante notare che, generalmente, non esiste un ordine progressivo tra le diverse unità statistiche $\omega_i$ nella matrice dei dati. L'indice assegnato alle unità statistiche riflette solo la riga che esse occupano nella tabella e non ha un significato intrinseco o ordinale. La matrice dei dati fornisce una struttura organizzata per raccogliere, visualizzare e analizzare le informazioni raccolte durante la rilevazione statistica.

## Effetto

L'effetto è una misura del risultato osservato nei dati, ed è influenzato sia dal tipo di dati raccolti sia dal tipo di test statistico utilizzato. Per comprendere meglio questo concetto, prendiamo ad esempio il lancio di una moneta 100 volte, dove si ottiene "testa" in 66 occasioni. In questo caso, l'effetto sarebbe pari a 66/100.

Successivamente, è possibile confrontare l'effetto ottenuto con quello atteso, noto come "effetto nullo", di una moneta bilanciata, che sarebbe pari a 50/100. In alternativa, si può confrontare l'effetto osservato con qualsiasi altro effetto di riferimento scelto.

La dimensione dell'effetto si riferisce alla differenza tra l'effetto osservato nei dati e l'effetto nullo. Quest'ultimo rappresenta il valore che ci si aspetta di ottenere casualmente, senza alcun effetto reale. Il confronto tra l'effetto osservato e l'effetto nullo è fondamentale per valutare se l'effetto osservato si discosta da quello dovuto al caso o all'aleatorietà dei dati.

## Stima e inferenza

La stima è un processo attraverso il quale utilizziamo il campione per ottenere informazioni sulle caratteristiche della popolazione di interesse. Per esempio, se calcoliamo la media del campione, stiamo stimando la media della popolazione. Allo stesso modo, se calcoliamo la mediana del campione, stiamo stimando la mediana della popolazione. Quando parliamo di stima di una caratteristica della popolazione, chiamata spesso parametro, oppure della distribuzione di una variabile casuale (cioè la probabilità che la variabile assuma un valore in un determinato intervallo), ci riferiamo all'uso dei dati osservati per conoscere le caratteristiche di interesse della popolazione.

L'inferenza statistica è il processo attraverso il quale utilizziamo le stime ottenute dal campione per rispondere a domande di ricerca e per valutare ipotesi specifiche riguardanti la popolazione. Nella parte finale di questa dispensa, esamineremo le procedure di inferenza bayesiana e illustreremo le limitazioni dell'approccio frequentista.

## Modelli psicologici

In statistica e nella data science, il termine "modello" si riferisce a una rappresentazione matematica semplificata di un fenomeno di interesse. Un modello statistico è composto da un insieme di ipotesi sulla distribuzione della variabile casuale di interesse, le cui specifiche possono dipendere dai dati e dalla domanda di ricerca. Spesso, esistono più modelli che possono essere utilizzati per affrontare la stessa domanda di ricerca, e l'obiettivo è identificare il modello che meglio rappresenta i dati disponibili e che soddisfa i criteri di bontà previsti.

In psicologia, un modello di comportamento umano o di funzionamento mentale deve descrivere le caratteristiche del fenomeno in questione, formulare predizioni sulle caratteristiche future del fenomeno, essere supportato da evidenze empiriche e poter essere falsificabile. L'analisi dei dati permette di valutare un modello psicologico attraverso l'applicazione di strumenti statistici, verificandone la capacità di spiegare i dati disponibili e la sua capacità di fare previsioni accurate su nuovi dati.

## Riassunto del contenuto

Dopo aver letto questo capitolo, dovresti essere in grado di:

- ✅ comprendere cos'è un campione casuale;
- ✅ conoscere il significato di variabile campionaria e come sia associata alle variabili casuali nella teoria della probabilità;
- ✅ distinguere tra variabili dipendenti e indipendenti;
- ✅ comprendere il concetto di effetto statistico;
- ✅ avere un'idea di cosa sia l'inferenza statistica.