# How much italians students are good across their country? 
## INVALSI: an example of Exploratory Data Analysis.

---

#### Introduzione:
In questo notebook eseguiremo un'analisi dei dati messi a disposizione dal _Cineca_ sul servizio statistico _INVALSI_ ("__Fonte: INVALSI - Servizio Statistico"; "Fonte: elaborazione su dati INVALSI - Servizio Statistico__") reperibili al seguente [Link](https://invalsi-serviziostatistico.cineca.it/#provinciali).
#### Contesto:
Le prove _INVALSI_ sono test standardizzate che gli studenti italiani svolgono per individuare il loro livello di competenza e preparazione in diverse materie scolastiche su scala nazionale.
#### Obiettivo: 
Lo scopo è quello di analizzare i dati per introdurre i principi fondamentali della _Exploratory Data Analysis_ ed arrivare ad ottenerne una rappresentazione visiva. Come tool di _Data Visualization_ useremo una _Choropleth Map_ (della libreria _Plotly_) per visualizzare la distribuzione, tra le province del territorio nazionale italiano, dell'abilità degli studenti di V liceo nel superare le prove che _INVALSI_ eroga annualmente.

### Cosa si intende per Exploratory Data Analysis ?

L'_EDA_, acronimo di _Exploratory Data Analysis_ è un processo analitico fondamentale, un'indagine iniziale che si effettua per riassumere, visualizzare e acquisire familiarità con le caratteristiche importanti di un set di dati. 
L'_EDA_ ci aiuta a identificare eventuali anomalie nel dataset, permettendoci di risolvere  o correggere la presenza di informazioni corrotte o  semplicemente rimuoverle laddove possibile.

Più approfonditamente, l'analisi esplorativa dei dati ci offre l'opportunità di riconoscere e comprendere le relazioni ed i pattern che esistono tra le molteplici variabili coinvolte. 
Viene eseguita al fine di definire e perfezionare la selezione delle variabili che verranno utilizzate per applicare qualsiasi tipo di algoritmo.
Ci permette dunque di guardare il problema da una prospettiva più ampia facilitandone la comprensione e favorendo spunti di analisi utili a garantire l'ottenimento di risultati ottimali per lo scopo del progetto.

Tale comprensione può essere raggiunto solo dopo che i dati grezzi sono stati controllati e verificati, assicurando che il set di dati sia pronto per future analisi più tecniche.

Volendo identificare l'analisi esplorativa nei passaggi principali di cui generalmente è costituita, possiamo suddividere il processo di _EDA_ nei seguenti steps:
 1. Data Exploration & Preparation
 2. Handling Missing Values & Outliers
 3. Feature Engineering
 4. Uni-Bi-Multy Variative Analysis
 5. Data Visualization

L'ordine delle fasi esplorative componenti non è da considerarsi rigoroso ma dipende dal tipo di progetto che ci ritroviamo ad affrontare.
Al fine di questo progetto seguiremo esattamente questi 5 passi. \
Per motivi di scomodità nel gestire un unico notebook ottenuto svolgendoli tutti insieme in un'unico file, dedicheremo un notebook ad ogni passo.


--------------

# Parte 1

## 1- Data Exploration & Preparation:

Abbiamo a disposizione 2 dataframe.

Il dataframe __df\_province__

Il dataframe __df\_punteggi__

Per prima cosa andiamo a verificare la loro integrità chiedendoci:
- In che formato sono caricati i dati? 
- Che tipo di valori contengono le loro features? (dati numerici o categorici)
- I dati contenuti presentano valori nulli e o outliers?

##### Import dei dati e delle librerie:

In [1]:
from pathlib import Path
import pandas as pd
import plotly.express as px
import pickle

In [2]:
DATA_PATH = "../data/in/"

In [3]:
df_province = pd.read_csv(Path(DATA_PATH, "Report_province_livelli.csv"), sep=";")
df_punteggi = pd.read_csv(Path(DATA_PATH, "Matrice_medie_provinciali.csv"), sep=";")

##### Ad una prima occhiata:
Diamo uno sguardo generale ai 2 dataframe andando a visualizzare i primi 5 e gli ultimi 5 record rispettivamente:

In [4]:
df_province.head()

Unnamed: 0,Codice_provincia,Sigla_provincia,Nome_provincia,Grado,Materia,Anno,LIVELLO_1,LIVELLO_2,LIVELLO_3,LIVELLO_4,LIVELLO_5,perc_copertura_stu
0,1,TO,TORINO,8,Italiano,2017-18,1007964287526,20270887231776,311469588596358,240653375944808,144067366712322,972568947654053
1,1,TO,TORINO,10,Italiano,2017-18,874020494273659,198010849909584,322061482820977,277456298975286,111030741410488,935438398646744
2,1,TO,TORINO,8,Matematica,2017-18,133821063862216,215871564294061,256718996087995,206980643194635,186353706243967,971088854901574
3,1,TO,TORINO,10,Matematica,2017-18,128287675393306,221223349328798,23294660754419,200145781449311,213691307781085,928277417535946
4,1,TO,TORINO,5,Inglese R,2017-18,47037539574853,952792853912257,999,999,999,904017172646427


In [5]:
df_province.tail()

Unnamed: 0,Codice_provincia,Sigla_provincia,Nome_provincia,Grado,Materia,Anno,LIVELLO_1,LIVELLO_2,LIVELLO_3,LIVELLO_4,LIVELLO_5,perc_copertura_stu
4487,111,SU,SUD SARDEGNA,8,Inglese R,2021-22,754084625052367,266862170087977,657729367406787,999,999,933881064162754
4488,111,SU,SUD SARDEGNA,13,Inglese R,2021-22,276463262764633,38293897882939,340597758405978,999,999,926716676283901
4489,111,SU,SUD SARDEGNA,5,Inglese L,2021-22,275661375661376,722222222222222,999,999,999,785209804736186
4490,111,SU,SUD SARDEGNA,8,Inglese L,2021-22,510764035457999,501055297593922,447868298860279,999,999,926838810641627
4491,111,SU,SUD SARDEGNA,13,Inglese L,2021-22,420199501246883,337905236907731,241895261845387,999,999,925562608193883


In [6]:
df_punteggi.head()

Unnamed: 0,Anno,Grado,Materia,Sigla_provincia,Nome_provincia,Codice_provincia,punteggio_medio,deviazione_standard,punteggio_medio_wle,deviazione_standard_wle,perc_copertura_stu
0,2012-13,2,Italiano,AG,AGRIGENTO,84,593150073777354,18190800414411,192265162028523,518381871497441,909962938739917
1,2012-13,2,Italiano,AL,ALESSANDRIA,6,621044367131885,166958186913763,204600039194695,397636111863349,905049894163895
2,2012-13,2,Italiano,AN,ANCONA,42,630460221804143,163077271476602,205657189792302,394580594011765,915343915343915
3,2012-13,2,Italiano,AO,AOSTA,7,619107082669205,16293049412049,205257658801212,383702883848067,936967632027257
4,2012-13,2,Italiano,AP,ASCOLI PICENO,44,645349912345785,156314350316611,208427316901486,383694825513285,924559471365639


In [7]:
df_punteggi.tail()

Unnamed: 0,Anno,Grado,Materia,Sigla_provincia,Nome_provincia,Codice_provincia,punteggio_medio,deviazione_standard,punteggio_medio_wle,deviazione_standard_wle,perc_copertura_stu
10599,2021-22,13,Matematica,VE,VENEZIA,27,999,999,203076139524746,362314648374361,968876177658143
10600,2021-22,13,Matematica,VI,VICENZA,24,999,999,208436145311973,368646408596957,975194221071282
10601,2021-22,13,Matematica,VR,VERONA,23,999,999,204651657367328,359214575788051,972817255133698
10602,2021-22,13,Matematica,VT,VITERBO,56,999,999,185404910740602,35737373025528,942907334211682
10603,2021-22,13,Matematica,VV,VIBO VALENTIA,102,999,999,173804583060593,353694466500628,950407608695652


##### Con quanti dati abbiamo a che fare?
Andiamo a visualizzare le dimensioni dei dataframe

In [8]:
df_province.shape

(4492, 12)

In [9]:
df_punteggi.shape

(10604, 11)

Già da questi primi semplici passi notiamo non poche differenze, soprattutto nelle dimensioni dei due dataframe. \
Il **df_punteggi**  è quasi **2** volte più grande del **df_province** (in termini di numero di record).

Vogliamo allora capire che informazioni sono contenute nei due set di dati e perchè sono così diversi. \
Proprio per questo, prima ancora di iniziare ad interagire con i dati stessi, studiamo i metadati che vengono affiancati ai due dataframe insieme alle loro\
__table-maps__ che qui ho riportato, così come vengono fornite, come tabelle markdown:

##### Table Map per "df_province":
Nome Variabile|Descrizione|Valori
--------|--------|-----
Codice_provincia|Codice ISTAT della provincia|-
Sigla_provincia|Sigla della provincia|- 
Nome_provincia|Nome della provincia|- 
GRADO|Grado scolastico| 5: V primaria. 8: III secondaria di I grado. 10: II secondardia di II grado. 13: V secondaria di II grado
Materia|Materia oggetto della prova|Italiano - Matematica - Inglese lettura - Inglese ascolto
Anno|Anno scolastico| Dal 2017-18 al 2021-22 (non è presente l'anno scolasti 2019-20 poichè non si sono svolte le prove)
LIVELLO_1|Livelli di competenza|"Per Italiano e matematica grado 8,10,13 equivale al livello di competenza 1, Inglese grado 5,8 equivale al ""Livello Pre-A1, "Non raggiunge il livello B1 per il grado 13; 999=dato mancante
LIVELLO_2|Livelli di competenza|per Inglese grado 5 e 8 equivale al ""Livello A1""; ""Livello B1"" per il grado 13; 999= dato mancante"
LIVELLO_3|Livelli di competenza|Livelli di competenza;"Per Italiano e Matematica grado 8, 10 e 13 equivale al livello di competenza 3, per Inglese grado 8 equivale al ""Livello A2""; ""Livello B2"" per il grado 13; 999= dato mancante"
LIVELLO_4|Livelli di competenza|Livelli di competenza;"Per Italiano e Matematica grado 8, 10 e 13 equivale al livello di competenza 4; 999= dato mancante"
LIVELLO_5|LIvelli di competenza|Livelli di competenza;"Per Italiano e Matematica grado 8, 10 e 13 equivale al livello di competenza 5; 999= dato mancante"
perc_copertura_stu|Percentuale di partecipazione alle prove|

##### Table Map per "df_punteggi":
Nome Variabile|Descrizione|Valori
--------|--------|-----
Anno|Anno scolastico| Dal 2012-13 al 2021-22 
GRADO|Grado scolastico| 2: II primaria, 5: V primaria. 8: III secondaria di I grado. 10: II secondardia di II grado. 13: V secondaria di II grado
Materia|Materia oggetto della prova|Italiano - Matematica - Inglese lettura - Inglese ascolto
Sigla_provincia|Sigla della provincia|-
Nome_provincia|Nome della provincia|- 
Codice_provincia|Codice ISTAT della provincia|- 
Punteggio percentuale medio|Punteggio percentuale medio - corretto per il cheating NB: dal 2017-18, questo dato non è più calcolato per i gradi 8, 10, 13|-
Dev. Std. Punteggio percentuale|"Deviazione standard del punteggio percentuale medio NB: dal 2017-18, questo dato non è più calcolato per i gradi 8, 10, 13|-
Punteggio wle medio|Punteggio WLE medio (stima delle abilità secondo il modello di Rasch) su scala nazionale corretto per il cheating|-
Dev. Std. Punteggio wle|Deviazione standard del punteggio WLE medio|-
Perc. Partecipazione|Percentuale di partecipazione alla prova corrispondente (alunni che hanno sostenuto la prova su alunni attesi)|-

##### Con cosa abbiamo a che fare?
Osservando i datasets ed interpretando le rispettive **table-maps** ci rendiamo subito conto che dobbiamo puntare il focus su 2 valori in particolare: le colonne **LIVELLO_n** e la colonna **Punteggio WLE medio**.
Nel primo caso, per il dataset **df_province**, i valori numerici presenti nelle colonne **LIVELLO_n**, con **n** da 1 a 5, rappresentano la percentuale di studenti che superano le prove *INVALSI* in una data provincia, per un dato anno, per una data materia e per un dato grado scolastico.
##### Come vanno interpretate queste percentuali?
Dalle diapositive disponibili al seguente [Link](https://www.invalsi.it/invalsi/doc_eventi/12-2014/4/P_Falzetti.pdf)
apprendiamo che:

*Sulla base della distribuzione dei punteggi su scala nazionale, l'INVALSI ha costruito i 5 livelli di apprendimento con le seguenti logiche:*
- *Livello 1 e 2: punteggio maggiore del 95% della media nazionale*
- *Livello 3: punteggio maggiore del 95% e minore o uguale al 110% della media nazionale*
- *Livello 4-5: punteggio maggiore del 110% della media nazionale*

Per cui interpretiamo i valori elencati nel dataset come le percentuali di studenti che, nel superare le prove, rientrano in una delle 3 fasce di punteggio in questo modo descritte.
##### Cosa rappresenta il valore "Punteggio WLE medio" ?
La colonna **Punteggio WLE medio** esprime il punteggio ottenuto dagli studenti secondo il modello di *Rasch*.
Spiegare nel dettaglio il modello statistico in oggetto esula da questa analsi.
Per interpretarlo correttamente abbiamo preso come riferimento le considerazioni avanzate in queste [slide](https://www.invalsi.it/invalsi/doc_eventi/12-2014/4/G_Giampaglia.pdf)\
In maniera generale possiamo dire che il modello statistico di Rasch viene utilizzato per stimare la preparazione di uno studente nell'affrontare un test in funzione della difficoltà di quest'ultimo.\
L'*INVALSI* utilizza una scala che pone il valore medio nazionale pari a 200.
Non abbiamo informazioni concrete sul come sia stato calcolato questo punteggio ma possiamo provare a confermarne l'interpretazione con l'analisi che svolgeremo. 

___________

##### Cosa mi raccontano le colonne? 
Andiamo ad analizzare sommariamente i dati contenuti nelle singole colonne di interesse:

In [10]:
df_province["Grado"].value_counts()

8     1712
13    1284
5      854
10     642
Name: Grado, dtype: int64

Come abbiamo appreso dalla **table_map** i gradi rappresentano gli anni scolastici tra scuola primaria e secondaria in cui si svolgono le prove *INVALSI*. Essi sono così definiti:
- Grado 5:  V primaria (quinto anno della scuola elementare);
- Grado 8: III secondaria di primo grado (terzo anno della scuola media);
- Grado 10: II secondaria di secondo grado (secondo anno della scuola superiore);
- Grado 13: V secondaria di secondo grado (quinto anno della scuola superiore);

Al fine dell'analisi ci concentreremo solo sugli anni relativi alla scuola secondaria di secondo grado, *AKA* ai licei, per cui selezioneremo solo i record associati ai valori dell'attributo **GRADO** pari a 10 e 13

In [11]:
df_province["LIVELLO_1"].describe()

count                 4492
unique                4476
top       12,3595505617978
freq                     3
Name: LIVELLO_1, dtype: object

La colonna **LIVELLO_1** (le stesse conclusioni seguenti si applicano anche alle altre colonne **LIVELLO_n**) sono lette come **dtype=object**. I valori in esse contenute sono quindi delle stringhe ma che rappresentano una grandezza quantitativa. 
Questo formato di dato va corretto, possiamo leggere i dati nella loro vera "natura" utilizzato il parametro di **dtype="float"** all'interno della funzione **pandas read_csv()** per specificarla.

##### Il dataframe copre tutte le province italiane?

In [12]:
len(df_province["Sigla_provincia"].value_counts())

106

Abbiamo 106 valori univoci per sigla provincia, ma sappiamo che in Italia ci sono 107 province, cosa non torna?

In [13]:
len(df_province["Nome_provincia"].value_counts())

107

I valori univoci della colonna **Nome_provincia** sono correttamente 107.\
Deve esserci allora una "sigla provincia" che non viene riconosciuta:

In [14]:
df_province[df_province["Sigla_provincia"].isnull()].head()

Unnamed: 0,Codice_provincia,Sigla_provincia,Nome_provincia,Grado,Materia,Anno,LIVELLO_1,LIVELLO_2,LIVELLO_3,LIVELLO_4,LIVELLO_5,perc_copertura_stu
2602,63,,NAPOLI,8,Italiano,2017-18,203899018232819,272005610098177,286760168302945,166311360448808,707994389901823,960579850726161
2603,63,,NAPOLI,10,Italiano,2017-18,181011232119081,273872520569458,305827728653853,177665494520501,561605954047318,881276890212715
2604,63,,NAPOLI,8,Matematica,2017-18,291650278136765,279063887171995,231078271618812,123784907568691,736921953138169,959070945490798
2605,63,,NAPOLI,10,Matematica,2017-18,293553856267949,290335974533753,199750873672191,121760492716515,890626621916197,871220570946251
2606,63,,NAPOLI,5,Inglese R,2017-18,183237710262094,816534098317903,999,999,999,884799538505913


La sigla provincia "NA" che rappresenta la città di "NAPOLI" viene interpretata come un valore nullo, per questo ritroviamo la sigla codificata con "NaN". 
Anche questa lettura del dato va corretta. Come prima andiamo a specificare la codifica dei valori nulli, in fase di lettura del dato, tramite il parametro **na_values** all'interno della funzione **pandas read_csv()**.

##### Quali intervalli di anni coprono i dataframe?

In [15]:
df_province["Anno"].unique()

array(['2017-18', '2018-19', '2020-21', '2021-22'], dtype=object)

In [16]:
df_punteggi["Anno"].unique()

array(['2012-13', '2013-14', '2014-15', '2015-16', '2016-17', '2017-18',
       '2018-19', '2020-21', '2021-22'], dtype=object)

Innanzitutto notiamo che per entrambi i dataframe manca l'anno "2019-2020" ma la sua assenza è corretta in quanto le prove *INVALSI* non si sono tenute per quell'anno specifico.
Il dataframe **df_punteggi**, però, copre una finestra di anni molto più ampia.
Nel proseguo dell'analisi ci limiteremo ai soli anni in comune con il **df_province**.