# Concetti chiave {#sec-key-notions}

**Prerequisiti**

- Leggere [Horoscopes](../../figures/horoscopes.pdf). L'ultimo capitolo di @McElreath_rethinking discute il contesto scientifico e culturale della statistica.
- Leggere [The Effect: An Introduction to Research Design and Causality](https://theeffectbook.net). Focalizzati sul capitolo 10 *Treatment Effects*.

**Concetti e competenze chiave**

- Definizione di popolazione e campione.
- Distinzione tra variabili indipendenti e dipendenti. 
- La matrice dei dati.
- L'effetto delle variabili all'interno dell'analisi statistica. 
- I concetti di stima e inferenza. 
- Il concetto di modello psicologico.

**Preparazione del Notebook**

In [2]:
import numpy as np
import pandas as pd

## Introduzione {.unnumbered}

> Most of the fundamental ideas of science are essentially simple, and may, as a rule, be expressed in a language comprehensible to everyone.  
> (Einstein A and Infeld L, 1938)

L’[analisi dei dati](https://imstat.org/2014/09/04/data-science-how-is-it-different-to-statistics%E2%80%89/) si colloca all’intersezione tra statistica, teoria della probabilità e informatica. Questa disciplina multidisciplinare richiede una solida comprensione dei concetti fondamentali provenienti da ciascuna di queste tre aree.

- **Statistica.** La statistica fornisce gli strumenti e le tecniche per raccogliere, analizzare e interpretare i dati. Attraverso metodi descrittivi e inferenziali, permette di trarre conclusioni dai dati e di prendere decisioni informate. La statistica fornisce gli strumenti e le tecniche per raccogliere, analizzare e interpretare i dati. Attraverso metodi descrittivi e inferenziali, la statistica permette di trarre conclusioni dai dati e di prendere decisioni informate.

- **Teoria della probabilità.** La teoria della probabilità costituisce la base matematica della statistica, modellando l’incertezza e comprendendo i fenomeni aleatori, fornendo i fondamenti per sviluppare metodi statistici rigorosi.

- **Informatica.** L’informatica gioca un ruolo cruciale nell’analisi dei dati, offrendo gli strumenti necessari per la gestione, l’elaborazione e la visualizzazione dei dati su larga scala. Conoscere i principi dell’informatica è essenziale per sfruttare appieno tecnologie moderne come il machine learning e l’intelligenza artificiale. L’uso di linguaggi di programmazione come Python e R, insieme a librerie specializzate, permette di eseguire analisi complesse e di visualizzare i dati in modo efficace.

::: {.callout-note title="Statistica"}
Il termine “statistica” può assumere diversi significati, a seconda del contesto in cui viene utilizzato. 

- Nel primo senso, la statistica è una scienza e una disciplina che si occupa dello studio e dell’applicazione di metodi e tecniche per la raccolta, l’organizzazione, l’analisi, l’interpretazione e la presentazione di dati. 
- Nel secondo senso, il termine “statistica” si riferisce a una singola misura o un valore numerico che è stato calcolato a partire da un campione di dati. Questo tipo di statistica rappresenta una caratteristica specifica del campione. Esempi comuni di statistiche in questo senso includono la media campionaria, la deviazione standard campionaria o il coefficiente di correlazione campionario. 
:::

## Popolazioni e Campioni

Per iniziare l’analisi dei dati, è fondamentale individuare le unità che contengono le informazioni rilevanti per il fenomeno di interesse. Questo insieme di unità costituisce la popolazione o universo, rappresentando l’insieme completo di entità capaci di fornire informazioni per l’indagine statistica in questione. Le singole unità dell’insieme sono chiamate unità statistiche.

Nella ricerca psicologica, sia nelle ricerche sperimentali che in quelle osservazionali, l’obiettivo principale è studiare i fenomeni psicologici all’interno di una specifica popolazione. È essenziale definire con chiarezza la popolazione di interesse, ovvero l’insieme di individui ai quali verranno applicati i risultati della ricerca. Tale popolazione può essere reale, come tutte le persone sopravvissute per un anno dopo il bombardamento atomico di Hiroshima, o ipotetica, come tutte le persone depresse che potrebbero beneficiare di un intervento psicologico.

### Sotto-popolazioni e Campioni

Una sotto-popolazione è un sottoinsieme di individui che possiedono proprietà specifiche ben definite. Ad esempio, potremmo essere interessati alla sotto-popolazione degli uomini di età inferiore ai 30 anni o dei pazienti depressi che hanno ricevuto uno specifico intervento psicologico. Il campione è un sottoinsieme della popolazione composto da elementi che rappresentano unità statistiche (u.s.) portatrici delle informazioni rilevate tramite misurazione. Il campione viene utilizzato per ottenere informazioni sulla popolazione di riferimento.

### Metodi di Campionamento

Il campionamento può avvenire in diversi modi. Il campionamento casuale consente al ricercatore di trarre conclusioni sulla popolazione e di quantificare l’incertezza dei risultati, come avviene in un sondaggio. Tuttavia, esistono anche altre forme di campionamento, come il campione di convenienza o il campionamento stratificato.

Il ricercatore deve sempre considerare la rappresentatività statistica del campione, ovvero se il campione scelto riflette accuratamente le caratteristiche di interesse della popolazione. In molti casi, soprattutto in psicologia, possono essere usati metodi di campionamento diversi dal casuale a seconda delle risorse disponibili.

## I Bias nella Raccolta Dati

Spesso si pensa che l'analisi statistica sia la parte più importante della scienza. Ma non è così. La parte cruciale è comprendere i dati: chi li ha raccolti, quando, dove, perché e come? Chi li ha inseriti e puliti, e con quali modalità e obiettivi? [@murray2024measuring]

![Tabella creata da Ellie Murray.](../../figures/data_biases.png){ width=75% } 


È fondamentale considerare sempre i bias che influenzano la raccolta dei dati. I dati non sono mai “neutri” e il loro contenuto, insieme alle intenzioni che ne guidano la raccolta, spesso determinano l'interpretazione che ne deriva [@nobles2000shades].

Ad esempio, @johnson2021two confronta due modalità di raccolta dati riguardanti le persone incarcerate negli Stati Uniti: quella statale e quella comunitaria. La raccolta dati statale si concentra su informazioni demografiche e statistiche di base, perpetuando una comprensione limitata e spesso distorta del sistema carcerario. Al contrario, la raccolta dati comunitaria include dettagli più specifici sulle condizioni di vita e gli effetti della detenzione, offrendo una visione più completa e umana della realtà carceraria.

Negli Stati Uniti, i docenti universitari sono generalmente retribuiti per 9 mesi all'anno. Per i restanti tre mesi, lo stipendio può essere integrato attraverso i fondi di ricerca che il ricercatore riesce a ottenere vincendo un grant. I grant vengono assegnati in base alla qualità del progetto proposto e al curriculum vitae del ricercatore, in particolare alle sue pubblicazioni. Le pubblicazioni, quindi, hanno un impatto economico diretto per il ricercatore.

Questo crea un evidente conflitto di interesse nella conduzione della ricerca. Immaginiamo un ricercatore noto per la sua esperienza in un campo specifico e per aver proposto una teoria su un determinato fenomeno. Più pubblicazioni confermeranno tale teoria, maggiori saranno le sue possibilità di ottenere grant futuri. In questo contesto, quale incentivo avrebbe il ricercatore a pubblicare dati che falsifichino la teoria su cui ha costruito la sua carriera?

## Variabili e Costanti

Nell’analisi statistica, le variabili denotano le caratteristiche che possono assumere diversi valori, sia numerici che categoriali. Le costanti, al contrario, sono valori che non variano tra le unità di osservazione. Le variabili indipendenti (o predittive) rappresentano i fattori che si ipotizza influenzino l’esito di interesse, mentre le variabili dipendenti rappresentano l’esito che si cerca di spiegare o prevedere.

## Effetto

Il concetto di “effetto” misura il cambiamento o l’influenza tra le variabili. Ad esempio, consideriamo uno studio che indaga l’effetto delle mnemotecniche sul miglioramento della memoria. Se il gruppo che ha seguito un workshop mnemonico mostra un punteggio medio superiore, si può affermare che le mnemotecniche hanno un effetto positivo sulla memoria. L’effetto viene misurato attraverso diverse statistiche, come la differenza di medie o il rapporto di probabilità  [@huntington2021effect]. 

## Variabili Casuali

Nel contesto della teoria delle probabilità, una variabile casuale rappresenta una quantità che può assumere diversi valori con una certa probabilità. Dopo l’osservazione e la misurazione, una variabile casuale diventa una variabile statistica, trasformando un’incertezza teorica in una certezza empirica.

## Stima e Inferenza

### Stima

La stima statistica permette di dedurre le caratteristiche di un'intera popolazione partendo dall'analisi di un campione rappresentativo. Gli elementi chiave della stima statistica sono i seguenti.

1. Parametri della popolazione:

   - sono le caratteristiche numeriche che descrivono la popolazione;
   - esempi includono la media (μ), la varianza (σ²), la proporzione (p), ecc.;
   - generalmente non sono noti e devono essere stimati.

2. Statistiche campionarie:

   - sono calcolate dai dati del campione;
   - fungono da stimatori dei parametri della popolazione;
   - esempi: media campionaria (x̄), varianza campionaria (s²), proporzione campionaria (p̂).

3. Tipi di stime:

   - puntuale: fornisce un singolo valore come miglior stima del parametro;
   - intervallare: offre un range di valori plausibili per il parametro, con un certo livello di credibilità o confidenza.

4. Proprietà degli stimatori:

   - consistenza: la stima converge al vero valore del parametro all'aumentare della dimensione del campione;
   - non distorsione: il valore atteso dello stimatore è uguale al vero valore del parametro;
   - efficienza: lo stimatore ha la minor varianza possibile.

L'accuratezza della stima dipende da vari fattori, tra cui la dimensione e la rappresentatività del campione, la variabilità nella popolazione e il metodo di campionamento utilizzato.

### Inferenza Statistica

Dopo aver ottenuto le stime iniziali, il passo successivo è l'inferenza statistica, un processo che va oltre la semplice stima dei parametri e permette di trarre conclusioni più generali riguardo alla popolazione di interesse. L'inferenza statistica si concentra sulla valutazione di ipotesi specifiche o sulla risposta a domande di ricerca basate sui dati raccolti da un campione. In altre parole, questo ramo della statistica si occupa di distinguere i pattern derivanti da un segnale reale rispetto a quelli dovuti al caso.

Ad esempio, se abbiamo stimato la media del rendimento accademico in un campione di studenti, l'inferenza statistica ci consente di quantificare l'incertezza riguardo alla differenza di rendimento tra maschi e femmine all'interno della popolazione più ampia. In questo modo, l'inferenza statistica ci fornisce gli strumenti per fare previsioni e trarre conclusioni su fenomeni che riguardano l'intera popolazione.

Esistono diversi approcci e metodologie per condurre l'inferenza statistica, tra cui i due più comuni sono l'inferenza bayesiana e l'approccio frequentista.

**L'inferenza bayesiana**:

- Si basa sul teorema di Bayes;
- Utilizza probabilità a priori, che riflettono conoscenze o credenze iniziali su un fenomeno;
- Aggiorna queste probabilità con nuovi dati per ottenere probabilità a posteriori;
- Fornisce una interpretazione delle probabilità come gradi di credenza soggettivi.

**L'approccio frequentista**:

- Si fonda sulla frequenza relativa di eventi osservati in esperimenti ripetuti;
- Utilizza strumenti come il test di ipotesi nulla e gli intervalli di confidenza per trarre conclusioni;
- Non fa uso di probabilità a priori, concentrandosi esclusivamente sui dati osservati.

## Le Tre Sfide della Statistica

Secondo @gelman2020regression, le principali sfide dell’inferenza statistica sono:

1. **Generalizzare dai campioni alla popolazione**: Questa sfida è strettamente legata al problema del campionamento di comodo, spesso usato in psicologia, ma presente in quasi tutte le applicazioni dell’inferenza statistica. La difficoltà risiede nel trarre conclusioni affidabili su una popolazione più ampia partendo da un campione limitato e, a volte, non rappresentativo.

2. **Generalizzare dal gruppo trattato al gruppo di controllo**: Questa sfida riguarda l’inferenza causale, un aspetto centrale per determinare l’efficacia dei trattamenti psicologici. L’obiettivo è stabilire se i risultati osservati nel gruppo trattato possano essere applicati al gruppo di controllo o ad altre popolazioni, permettendo una valutazione valida dell’effetto del trattamento.

3. **Generalizzare dalle misurazioni osservate ai costrutti sottostanti**: In psicologia, i dati raccolti non corrispondono mai perfettamente ai costrutti teorici di interesse. La sfida è inferire questi costrutti latenti dai dati osservati, che rappresentano spesso solo un’approssimazione imperfetta.

Queste sfide possono essere interpretate come problemi di previsione. Si tratta di fare previsioni per nuovi individui o nuovi item non inclusi nel campione, per risultati futuri in condizioni diverse (come trattamenti differenti) e per i costrutti sottostanti, se fossero misurabili con maggiore precisione.

## Modelli Psicologici

Un modello è una rappresentazione matematica semplificata di un fenomeno reale. È composto da un insieme di equazioni e ipotesi che definiscono la struttura probabilistica e le relazioni tra le variabili, cercando di cogliere gli aspetti essenziali del fenomeno senza includerne ogni dettaglio. Esistono spesso diversi modelli applicabili a uno stesso problema, e il compito della scienza dei dati è identificare quello che meglio si adatta ai dati, soddisfacendo criteri di validità e accuratezza.

I modelli psicologici sono strumenti concettuali per descrivere, spiegare e prevedere il comportamento umano e i processi mentali. Un buon modello psicologico dovrebbe avere alcune caratteristiche fondamentali:

1. **Coerenza descrittiva**: Il modello deve rappresentare in modo logico e coerente il fenomeno studiato, catturando gli aspetti chiave del processo psicologico e organizzando le osservazioni in una struttura comprensibile.

2. **Capacità predittiva**: Un modello efficace deve essere in grado di fare previsioni accurate sui futuri sviluppi del fenomeno. Questa capacità non solo ne aumenta l’utilità, ma permette anche di testarne la validità.

3. **Supporto empirico**: Le ipotesi e le previsioni del modello devono essere confermate da dati raccolti attraverso ricerche sistematiche e rigorose.

4. **Falsificabilità**: Un modello scientifico deve poter essere testato e, se necessario, confutato con l’osservazione e l’esperimento. Questo principio assicura che il modello rimanga aperto alla revisione e al miglioramento in base a nuove evidenze.

5. **Parsimonia**: Il modello dovrebbe spiegare il fenomeno nel modo più semplice possibile, evitando complessità inutili.

6. **Generalizzabilità**: Deve essere applicabile a una vasta gamma di situazioni e contesti, non limitandosi a casi specifici o condizioni sperimentali particolari.

7. **Utilità pratica**: Un modello efficace dovrebbe fornire spunti utili per interventi, terapie o applicazioni nel mondo reale.

La modellazione in psicologia affronta sfide uniche dovute alla natura soggettiva e variabile dell’esperienza umana. I ricercatori devono bilanciare la precisione scientifica con la flessibilità necessaria per cogliere la complessità dei fenomeni psicologici, considerando al contempo i limiti etici della sperimentazione e le potenziali implicazioni sociali dei loro modelli.

La creazione e l’uso di modelli in psicologia è un processo dinamico e iterativo. I modelli sono costantemente affinati, testati e, se necessario, modificati o sostituiti quando emergono nuove evidenze. 

L’analisi dei dati, attraverso tecniche statistiche, è il mezzo per valutare un modello psicologico. Oltre a stabilire se il modello riesce a spiegare i dati osservati, l’analisi verifica la capacità del modello di fare previsioni su dati non ancora raccolti. In questo modo, la modellazione non solo consente di comprendere i fenomeni psicologici ma permette anche di prevedere e, in certi casi, influenzare il comportamento e i processi mentali.

In sintesi, un modello – sia statistico sia psicologico – è uno strumento teorico che rappresenta un fenomeno complesso in una forma semplificata ma informativa, guidando la comprensione, la previsione e, infine, l’intervento efficace sul fenomeno. La scelta e la valutazione del modello appropriato sono cruciali per garantire che le conclusioni siano valide e utili nel contesto specifico.

## Riflessioni Conclusive

L'analisi dei dati riveste un ruolo centrale nelle scienze, e in particolare nelle scienze psicologiche, perché consente di estrarre informazioni significative da grandi quantità di dati e di verificare le previsioni avanzate dalle teorie. Possiamo suddividere gli obiettivi dell’analisi dei dati in due aspetti principali:

1. **Riassumere grandi quantità di informazioni**: L’analisi dei dati consente di sintetizzare grandi volumi di informazioni complesse in statistiche descrittive, grafici e altre rappresentazioni. Questo processo di sintesi è fondamentale perché rende i dati accessibili e comprensibili, evidenziando le tendenze generali, le variazioni e i punti anomali. Per esempio, in psicologia, riassumere i dati può aiutare a osservare schemi comportamentali tipici, a identificare differenze tra gruppi o a descrivere le distribuzioni dei punteggi su variabili psicologiche.

2. **Verificare le predizioni di un modello scientifico**: Il secondo obiettivo, ben più ambizioso, è quello di mettere alla prova le previsioni di una teoria scientifica. L'analisi dei dati offre gli strumenti per confrontare le aspettative teoriche con i dati osservati e valutare la validità delle ipotesi sottostanti. Questa verifica consente di sostenere, modificare o confutare una teoria, contribuendo direttamente all'avanzamento della conoscenza scientifica.

Sebbene l’analisi dei dati possa portare alla scoperta di correlazioni o schemi interessanti, questi risultati, senza una teoria, offrono solo una comprensione limitata. Per esempio, rilevare che due variabili psicologiche sono correlate non fornisce informazioni sulla natura di questa relazione o sul motivo per cui esiste. Per interpretare e attribuire un significato a queste osservazioni, è necessario un quadro teorico che le contestualizzi e proponga meccanismi causali o esplicativi.

In psicologia, le teorie forniscono ipotesi testabili che spiegano il “come” e il “perché” di determinati fenomeni mentali e comportamentali. Una teoria robusta permette di formulare previsioni chiare e specifiche che possono essere verificate empiricamente. Ad esempio, una teoria sull’ansia potrebbe prevedere che, in un compito di esposizione graduale a stimoli ansiogeni, il livello di ansia diminuisca progressivamente. Senza una teoria che spieghi perché questo dovrebbe accadere, tale osservazione rimane solo un dato descrittivo, privo di valore esplicativo o predittivo.

L’analisi dei dati diventa davvero potente quando è integrata a una teoria. In altre parole, la data science è uno strumento essenziale, ma non sufficiente, per comprendere i fenomeni psicologici. Da sola, la data science può descrivere i dati, ma non può spiegare i meccanismi sottostanti. Le teorie psicologiche formali, che generano previsioni testabili, sono necessarie per guidare la raccolta e l’interpretazione dei dati.

Un esempio è l’uso della data science per analizzare l'efficacia di un trattamento psicoterapeutico. I dati possono mostrarci una diminuzione dei sintomi in seguito alla terapia, ma è solo la teoria alla base del trattamento che fornisce un quadro interpretativo per questo miglioramento, proponendo i meccanismi per cui il trattamento riduce i sintomi. La teoria orienta quindi l’analisi e permette di interpretare i dati in un contesto scientifico.

Sviluppare una teoria in psicologia è molto più complesso di quanto possa apparire. La mente umana è caratterizzata da una notevole variabilità, sia tra individui sia all'interno dello stesso individuo in momenti diversi. Questa complessità rende difficile costruire modelli teorici capaci di fare previsioni accurate e di ampio respiro sui fenomeni psicologici [@eronen2021theory].

Un buon modello psicologico deve essere in grado di prevedere con precisione non solo i comportamenti osservabili, ma anche di rappresentare i processi mentali latenti che li determinano. Tali previsioni devono essere testabili e falsificabili, cioè costruite in modo da poter essere messe alla prova e, se necessario, smentite dai dati empirici. 

La relazione tra teoria e analisi dei dati è dinamica e iterativa. In psicologia, come in altre scienze, i modelli e le teorie si evolvono grazie alla verifica empirica. Se i dati raccolti non supportano le previsioni di una teoria, si cerca di modificarla o sostituirla con una teoria più adatta a spiegare i fenomeni osservati. L'analisi dei dati, quindi, non solo verifica le teorie esistenti ma fornisce anche nuovi spunti per lo sviluppo di teorie alternative.

In sintesi, la data science e la formulazione di teorie scientifiche sono complementari e interdipendenti. L’analisi dei dati offre gli strumenti per testare e affinare le teorie psicologiche, ma è la teoria a dare significato e contesto ai dati, rendendo possibile una comprensione profonda e utile dei fenomeni psicologici.

## Informazioni sull'Ambiente di Sviluppo

In [3]:
%load_ext watermark
%watermark -n -u -v -iv -w -m

The watermark extension is already loaded. To reload it, use:
  %reload_ext watermark
Last updated: Tue Jul 23 2024

Python implementation: CPython
Python version       : 3.12.4
IPython version      : 8.26.0

Compiler    : Clang 16.0.6 
OS          : Darwin
Release     : 23.5.0
Machine     : arm64
Processor   : arm
CPU cores   : 8
Architecture: 64bit

numpy : 1.26.4
pandas: 2.2.2

Watermark: 2.4.3

