In [6]:
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns

# plt.rcParams['figure.figsize'] = [10.0, 8.0]
plt.rcParams['figure.dpi'] = 200
plt.rc('legend',fontsize=16)





In questo esercizio, utilizzerai Python e Pandas per importare, trasformare e unire dati scolastici e studenteschi relativi a diversi anni scolastici. Il tuo compito sarà leggere i file CSV, eseguire operazioni di pulizia e trasformazione dei dati, e infine unire i dataset per ottenere un unico DataFrame consolidato. Alla fine, salverai questo DataFrame in un file CSV. Segui i passaggi descritti di seguito:

#### Passaggi:

1.  **Definizione delle Variabili di Base**:
    
    -   Hai a disposizione le variabili di prefisso per i file delle scuole pubbliche, paritarie e degli studenti per entrambi i tipi di scuole e i dataset scaricati dal portale degli Open Data della scuola.
    -   Hai anche a disposizione una lista di anni scolastici che utilizzerai per importare i dati.
2.  **Inizializzazione della Lista per i DataFrame**:
    -   Crea una lista vuota che conterrà i DataFrame per ciascun anno.
3.  **Ciclo per l'Importazione e la Trasformazione dei Dati**:
    -   Per ogni anno scolastico nella lista degli anni:
        -   Importa i file CSV delle scuole pubbliche e paritarie.
        -   Aggiungi una colonna per indicare se la scuola è pubblica o paritaria.
        -   Unisci i DataFrame delle scuole pubbliche e paritarie.
        -   Elimina le colonne non necessarie dai DataFrame delle scuole.
        -   Importa i file CSV degli studenti pubblici e paritari.
        -   Unisci i DataFrame degli studenti pubblici e paritari.
        -   Unisci i dati degli studenti con quelli delle scuole basandoti sul codice scuola.
        -   Aggiungi il DataFrame risultante alla lista dei DataFrame.
4.  **Unione Finale dei DataFrame**:
    -   Unisci tutti i DataFrame presenti nella lista in un unico DataFrame.
    -   Resetta l'indice del DataFrame.
    -   Aggiungi una colonna per il totale degli studenti (maschi più femmine).
    -   Salva il DataFrame finale in un file CSV.

In [15]:
public_students_base_prefix = 'scuola/ALUCORSOINDCLASTA'
charter_students_base_prefix = 'scuola/ALUCORSOINDCLAPAR'
public_school_nation_prefix = 'scuola/ALUITASTRACITSTA'
charter_school_nation_prefix = 'scuola/ALUITASTRACITPAR'
public_school_prefix = 'scuola/SCUANAGRAFESTAT'
charter_school_prefix  = 'scuola/SCUANAGRAFEPAR'

years = ['20152016', '20162017', '20172018', '20182019', '20192020', '20202021', '20212022', '20222023']
dataframes = []

for current_year in years:
    print(f"Importing schools and students for year {current_year}")

    current_year_public_schools = pd.read_csv(f"{public_school_prefix}{current_year}.csv")
    current_year_charter_schools = pd.read_csv(f"{charter_school_prefix}{current_year}.csv")

    current_year_public_schools['PUBBLICA_PARITARIA'] = "PUBBLICA"
    current_year_charter_schools['PUBBLICA_PARITARIA'] = "PARITARIA"

    current_year_schools = pd.concat([current_year_public_schools, current_year_charter_schools], axis=0)
    
    
    current_year_schools.drop([
        'ANNOSCOLASTICO', 
        #'CODICEISTITUTORIFERIMENTO',
        #'DENOMINAZIONEISTITUTORIFERIMENTO',
        # 'DENOMINAZIONESCUOLA',
        'INDIRIZZOSCUOLA', 
        'CAPSCUOLA',
        'DESCRIZIONECARATTERISTICASCUOLA', 
        'DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA',
        'INDICAZIONESEDEDIRETTIVO',
        'INDICAZIONESEDEOMNICOMPRENSIVO',
        'INDIRIZZOEMAILSCUOLA',
        'INDIRIZZOPECSCUOLA',
        'SITOWEBSCUOLA',
        'SEDESCOLASTICA'
    ], axis=1, inplace=True)
    
    print(f"Schools for {current_year}: {current_year_schools.shape}")

    current_year_public_students = pd.read_csv(f"{public_students_base_prefix}{current_year}.csv")
    current_year_charter_students = pd.read_csv(f"{charter_students_base_prefix}{current_year}.csv")
    current_year_students = pd.concat([current_year_public_students, current_year_charter_students], axis=0)

    print(f"Students for {current_year}: {current_year_students.shape}")

    merged = current_year_students.merge(current_year_schools, on="CODICESCUOLA", how="inner")

    print(f"Merged for {current_year}: {merged.shape}")
    
    print("\n")
    
    dataframes.append(merged)

    
df = pd.concat(dataframes, axis=0)

df.reset_index()
df['ALUNNITOT'] = df['ALUNNIMASCHI'] + df['ALUNNIFEMMINE']
df.to_csv("scuola/students_schools_years.csv")

(51122, 21)
(13418, 15)
(64540, 21)
Index(['ANNOSCOLASTICO', 'AREAGEOGRAFICA', 'REGIONE', 'PROVINCIA',
       'CODICEISTITUTORIFERIMENTO', 'DENOMINAZIONEISTITUTORIFERIMENTO',
       'CODICESCUOLA', 'DENOMINAZIONESCUOLA', 'INDIRIZZOSCUOLA', 'CAPSCUOLA',
       'CODICECOMUNESCUOLA', 'DESCRIZIONECOMUNE',
       'DESCRIZIONECARATTERISTICASCUOLA',
       'DESCRIZIONETIPOLOGIAGRADOISTRUZIONESCUOLA', 'INDICAZIONESEDEDIRETTIVO',
       'INDICAZIONESEDEOMNICOMPRENSIVO', 'INDIRIZZOEMAILSCUOLA',
       'INDIRIZZOPECSCUOLA', 'SITOWEBSCUOLA', 'SEDESCOLASTICA',
       'PUBBLICA_PRIVATA'],
      dtype='object')


In [16]:
# Mostra le sole scuole medie pubbliche di Bari

In [2]:
# Estrai il numero totale di studenti per ordine di scuola raggruppati per scuole pubbliche e private

In [4]:
# Crea una tabella pivot e mostra il totale di studenti di classe prima primaria di scuole pubbliche e paritarie raggruppati per anno scolastico 