In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data_dir = "./dataset/"
img_dir = "./img/"

# Funzioni utili

In [150]:
# Funzione che modifica i nomi delle colonne di "da_modificare" con i nomi delle corrispondenti colonne di "base"
def make_consistent(base, da_modificare):
    for i in range(min(base.columns.size, da_modificare.columns.size)):
        # check if columns name are equal
        if(base.columns[i] != da_modificare.columns[i]):
            # rename column
            da_modificare.rename(columns = {da_modificare.columns[i]:base.columns[i]}, inplace=True)

# Funzione che verifica che due dataset abbiano lo stesso numero di colonne e con gli stessi nomi 
def check_same_shape(a, b):
    size = min(a.columns.size, b.columns.size)
    return np.all(a.columns[:size] == b.columns[:size])

# restituisce una serie di sigle delle province della regione 
def get_province(df_province, regione):
    return df_province[df_province.regione == regione].sigla

# restituisce
def get_scuole(province, df_scuole):
    return df_scuole[df_scuole.SIGLAPROVINCIA.isin(province)]

# Import DataSet

In [171]:
# ***************************** #
# ********* ELENCO ************ # 
# ***************************** #

elenco = pd.read_csv(data_dir + "elenco_scuole_italia.csv")

# ***************************** #
# ********* PROVINCE ********** # 
# ***************************** #


province = pd.read_csv(data_dir + "province.csv", encoding='latin-1')
regioni = province.regione.unique()

# ***************************** #
# ********** AMBIENTE ********* # 
# ***************************** #

a_i_1718 = pd.read_csv(data_dir + "ambiente_italia_1718.csv")
a_i_1819 = pd.read_csv(data_dir + "ambiente_italia_1819.csv")
a_i_2021 = pd.read_csv(data_dir + "ambiente_italia_2021.csv")
a_i_2122 = pd.read_csv(data_dir + "ambiente_italia_2122.csv")

# MODIFICHE
# drop last column in ambiente dataframes ( sembra poco rilevante )
a_i_1718.drop(columns=['AREAALTREMOTIVAZIONI'], inplace=True)
a_i_1819.drop(columns=['AREAALTREMOTIVAZIONI'])
a_i_2021.drop(columns=['ALTRECRITICITASPECIFICHE'], inplace=True)
a_i_2122.drop(columns=['ALTRECRITICITASPECIFICHE'], inplace=True)
# drop column in position 12 ( non coincidono tra annate e sempra poco rilevante )
a_i_1718.drop(columns=[a_i_1718.columns[12]], inplace=True)
a_i_1819.drop(columns=[a_i_1819.columns[12]], inplace=True)
a_i_2021.drop(columns=[a_i_2021.columns[12]], inplace=True)
a_i_2122.drop(columns=[a_i_2122.columns[12]], inplace=True)

# modifica nomi degli attributi 
make_consistent(a_i_2021, a_i_1819)
make_consistent(a_i_2021, a_i_1718)

# ***************************** #
# ****** RAGGIUNGIBILITÀ ****** # 
# ***************************** #
t_i_1516 = pd.read_csv(data_dir + "trasporti_italia_1516.csv")
t_i_1718 = pd.read_csv(data_dir + "trasporti_italia_1718.csv")
t_i_1819 = pd.read_csv(data_dir + "trasporti_italia_1819.csv")
t_i_2021 = pd.read_csv(data_dir + "trasporti_italia_2021.csv")
t_i_2122 = pd.read_csv(data_dir + "trasporti_italia_2122.csv")

# MODIFICHE
# drop last column ( "ALTRO", difficile da analizzare)
t_i_1516.drop(columns=[t_i_1516.columns[t_i_1516.columns.size - 1]], inplace=True)
t_i_1718.drop(columns=[t_i_1718.columns[t_i_1718.columns.size - 1]], inplace=True)
t_i_1819.drop(columns=[t_i_1819.columns[t_i_1819.columns.size - 1]], inplace=True)
t_i_2021.drop(columns=[t_i_2021.columns[t_i_2021.columns.size - 1]], inplace=True)
t_i_2122.drop(columns=[t_i_2122.columns[t_i_2122.columns.size - 1]], inplace=True)
# le annate 2121 e 2122 hanno in più una colonna alla fine relativa alla presenza di piste ciclabili

# modifica nomi degli attributi 
make_consistent(t_i_2021, t_i_1516)
make_consistent(t_i_2021, t_i_1718)
make_consistent(t_i_2021, t_i_1819)

# ***************************** #
# * BARRIERE ARCHITETTONICHE ** # 
# ***************************** #
ba_i_1718 = pd.read_csv(data_dir + "barriere_architettoniche_italia_1718.csv")
ba_i_1819 = pd.read_csv(data_dir + "barriere_architettoniche_italia_1819.csv")
ba_i_2021 = pd.read_csv(data_dir + "barriere_architettoniche_italia_2021.csv")
ba_i_2122 = pd.read_csv(data_dir + "barriere_architettoniche_italia_2122.csv")

# MODIFICHE
# drop last column ( "ALTRO", difficile da analizzare)
ba_i_1718.drop(columns=[ba_i_1718.columns[ba_i_1718.columns.size - 1]], inplace=True)
ba_i_1819.drop(columns=[ba_i_1819.columns[ba_i_1819.columns.size - 1]], inplace=True)
ba_i_2021.drop(columns=[ba_i_2021.columns[ba_i_2021.columns.size - 1]], inplace=True)
ba_i_2122.drop(columns=[ba_i_2122.columns[ba_i_2122.columns.size - 1]], inplace=True)

# modifica nomi degli attributi 
make_consistent(ba_i_2021, ba_i_1819)
make_consistent(ba_i_2021, ba_i_1718)

print('SCHEMA DATASET AMBIENTE', a_i_1819.columns)
print('SCHEMA DATASET RAGGIUNGIBILITÀ', a_i_1819.columns)
print('SCHEMA DATASET BARRIERE ARCHITETTONICHE', a_i_1819.columns)

### Elenchi tipo scuole

In [172]:
licei = ['PC', 'PL', 'PS', 'SL']
istituti_tecnici = ['TA', 'TB', 'TD', 'TE', 'TF', 'TH', 'TL', 'TN']
istituti_professionali = ['RA', 'RB', 'RC', 'RE', 'RF', 'RH', 'RI', 'RM', 'RN', 'RS', 'RT', 'RV']
area_artistica = ['SD', 'SM', 'SN', 'SR', 'ST']
media = ['MM']
elementari = ['EE']
istituto_comprensivo = ['IC']
superiori = ['IS']
scuola_materna = ['AA']
magistrali = ['PM', 'PQ']
altri = ['VC', 'VE']

regioni

array(['Sicilia', 'Piemonte', 'Marche', "Valle d'Aosta", 'Toscana',
       'Campania', 'Puglia', 'Veneto', 'Lombardia', 'Emilia-Romagna',
       'Trentino-Alto Adige', 'Sardegna', 'Molise', 'Calabria', 'Abruzzo',
       'Lazio', 'Liguria', 'Friuli-Venezia Giulia', 'Basilicata',
       'Umbria'], dtype=object)

In [166]:
province_lombardia = get_province(province, 'Lombardia')
cs_lombardia = get_scuole(province_lombardia, elenco).CODICESCUOLA
cs_lombardia = cs_lombardia.to_numpy()


licei_lombardia = [x for x in cs_lombardia if x[2:4] in licei]

['MIPS03000R' 'LCPS020004' 'BSPC020001' 'MIPS01101C' 'MISL03000N'
 'BSPS11000A' 'MIPS01101C' 'LCPS00901A' 'MISL03000N' 'MIPS02301P'
 'MISL030503' 'BSPS070005' 'MIPS012018' 'LCPS01000D' 'MIPS026016'
 'PVPC010006' 'COPS00301N' 'MBPS05000V' 'VAPS120001' 'MISL04401L'
 'LCPS01000D' 'BSPS00902B' 'BSPS070005' 'MIPS027012' 'COPS001012'
 'MBPS05000V' 'MIPS027012' 'VAPS120001' 'LCPS020004' 'BSPS070005'
 'BSPS00901A' 'MBPS05301B' 'SOPS050001' 'BSPS11000A' 'SOPS050001'
 'BSPS00901A' 'MBPS05301B' 'MIPS11000C' 'BSPS11000A' 'SOPS050001'
 'MBPS00601T' 'MIPS11000C' 'BSPS11000A' 'MBPS00701N' 'MIPS11002E'
 'BSPS01000D' 'BSPS11000A' 'MIPS120003' 'BSPS00902B' 'MBPS00701N'
 'PVSL00601G' 'MIPS08000T' 'BSPS00902B' 'PVSL00601G' 'MBPS042011'
 'BSPS00902B' 'BGSL00201X' 'MIPS08101P' 'BSSL03601G' 'BGSL00201X'
 'MIPS09901X' 'BSPS017019' 'VAPC040006' 'VASL011017' 'BSPS01000D'
 'BSSL03601G' 'VASL01000A' 'MIPS10101P' 'LCSL01301V' 'BSPS017019'
 'VAPC040006' 'BSPS01000D' 'VASL01000A' 'BSPS017019' 'LOPS010007'
 'BSPS0100