 # Schools_SynthPops
 This notebook is intended to prepare the school data needed by the `generate_synthetic_population` function of [Synthpops](https://docs.idmod.org/projects/synthpops/en/latest/index.html)
 
 ## Useful Links
 [Open Data](https://dati.istruzione.it/opendata/) <br>
 [Codici Meccanografici](http://www.comuni-italiani.it/001/scuole/)
 
 ## Ideas
 
 - With respect to ICs, which are school (infancy, elementary ad Lower) complexes whose nature (exact mechanographic code) is impossible to determine:
 > direi allora facciamo una bella media dei volumi di tutti gli asili, elementari e medie e poi dividiamo il volume degli IC per questo valore. Così otteniamo il numero di "scuole efficaci" a cui un IC corrisponde

In [1]:
import pandas as pd
import numpy as np
import ast

In [2]:
#pupils_per_class = 21.6 # see Q:\IlMIoDrive\magistrale\2anno\primo_periodo\epi\Data\CSV\2020\Infrastructural\DCIS_SCUOLE_15102020182434230.csv (taken from http://dati.istat.it/#)

In [3]:
#class_volume = pupils_per_class*((4))*4 #number of students*average surface area per student*

In [4]:
code_province_df = pd.read_csv(r"Q:\IlMIoDrive\magistrale\2anno\primo_periodo\epi\Data\CSV\2020\Administrative\ItalianProvinces.csv")
code_province_df.head()

Unnamed: 0,code,name,population,abbreviation
0,1,Torino,2252379,TO
1,2,Vercelli,170296,VC
2,3,Novara,368040,NO
3,4,Cuneo,586568,CN
4,5,Asti,213216,AT


In [5]:
students_by_province_df = pd.read_csv(r"Q:\IlMIoDrive\magistrale\2anno\primo_periodo\epi\Data\CSV\2020\Infrastructural\DCIS_SCUOLE_16102020172237978_iscritti_per_scuole.csv")
print(np.unique(students_by_province_df["ORDINESCOL2"].to_list()))
print(np.unique(students_by_province_df["NATGIUR1"].to_list()))
print(len(np.unique(students_by_province_df["Territorio"].to_list())))
print(len(np.unique(students_by_province_df["Seleziona anno (anno t= anno sc. t-1 / t)"].to_list())))
print(np.unique(students_by_province_df["SEXISTAT1"].to_list()))
print(np.unique(students_by_province_df["TIME"].to_list()))
print(np.unique(students_by_province_df["Gestione della scuola"].to_list()))
students_by_province_df = students_by_province_df.drop(["Flag Codes","Flags", "Seleziona anno (anno t= anno sc. t-1 / t)","TIPO_DATO_ISTR","SEXISTAT1","Sesso","CITTADINANZA","Cittadinanza","Ordine scolastico","NATGIUR1","TIME","Gestione della scuola"], axis =1)
students_by_province_df.head(20)

['LOW' 'PRE' 'PRI' 'UPP']
['STA']
107
1
['T']
[2018]
['statale']


Unnamed: 0,ITTER107,Territorio,Tipo dato,ORDINESCOL2,Value
0,ITC11,Torino,scuole,LOW,204
1,ITC11,Torino,classi,LOW,2710
2,ITC11,Torino,iscritti,LOW,57613
3,ITC12,Vercelli,scuole,LOW,28
4,ITC12,Vercelli,classi,LOW,222
5,ITC12,Vercelli,iscritti,LOW,4288
6,ITC13,Biella,scuole,LOW,31
7,ITC13,Biella,classi,LOW,210
8,ITC13,Biella,iscritti,LOW,4252
9,ITC14,Verbano-Cusio-Ossola,scuole,LOW,25


In [6]:
ORD_MEC_df = pd.read_csv(r"Q:\IlMIoDrive\magistrale\2anno\primo_periodo\epi\Data\CSV\2020\Infrastructural\ORDINESCOL2_MEC.tsv", sep = "\t")
ORD_MEC_df["MEC"] = [ast.literal_eval(string) for string in ORD_MEC_df["MEC"]]
ORD_MEC_df

Unnamed: 0,ORDINESCOL2,MEC
0,PRI,[EE]
1,PRE,[AA]
2,LOW,[MM]
3,UPP,"[PQ, PM, RC, RH, RI, RS, RH, RA , TD, SD, TA, ..."


In [7]:
def dct_to_kv_pairs(dct):
    return [(list(dct.keys())[i], list(dct.values())[i]) for i in range(len(dct))]

In [8]:
ORD_MEC_dct = {row[0]:row[1] for i,row in ORD_MEC_df.iterrows()}
print(ORD_MEC_dct)
ORD_MEC_lst = dct_to_kv_pairs(ORD_MEC_dct)
print(dct_to_kv_pairs(ORD_MEC_dct))

{'PRI': ['EE'], 'PRE': ['AA'], 'LOW': ['MM'], 'UPP': ['PQ', 'PM', 'RC', 'RH', 'RI', 'RS', 'RH', 'RA ', 'TD', 'SD', 'TA', 'TB', 'TF', 'TL', 'TN ', 'SL', 'PC', 'PS', 'PL', 'TE', 'PM']}
[('PRI', ['EE']), ('PRE', ['AA']), ('LOW', ['MM']), ('UPP', ['PQ', 'PM', 'RC', 'RH', 'RI', 'RS', 'RH', 'RA ', 'TD', 'SD', 'TA', 'TB', 'TF', 'TL', 'TN ', 'SL', 'PC', 'PS', 'PL', 'TE', 'PM'])]


In [9]:
scuole_df = pd.read_csv(r"Q:\IlMIoDrive\magistrale\2anno\primo_periodo\epi\Data\CSV\2020\Infrastructural\EDICONSISTENZASTA20181920180901.csv")
scuole_df = scuole_df[scuole_df["VOLUME"] != "-"]
scuole_df["VOLUME"] = [float(volume) for volume in scuole_df["VOLUME"].tolist()] # add column "CAPIENZA_SCUOLA"
scuole_df["school_type"] = [string[2:4] for string in scuole_df["CODICESCUOLA"]] 
scuole_df.drop(["CODICEEDIFICIO","SPERFICIEAREATOTALE","SPERFICIEAREALIBERA"], axis = 1)
scuole_df.head()

Unnamed: 0,ANNOSCOLASTICO,CODICESCUOLA,CODICEEDIFICIO,SPERFICIEAREATOTALE,SPERFICIEAREALIBERA,VOLUME,school_type
0,201819,FGEE82302X,710140317,"2.310,00","4.915,00",7000.0,EE
1,201819,COTD00101T,131450925,"4.800,00",-,35000.0,TD
2,201819,CTAA08305Q,870550868,13000,-,435.0,AA
3,201819,MITF11000E,151462103,"19.224,00",-,9068.0,TF
5,201819,CSIS06100T,780031081,"17.000,00",-,18600.0,IS


In [10]:
ORDINESCOL2 = []
for Type in scuole_df["school_type"].tolist():
    found = False
    if Type == "IC":
        ORDINESCOL2.append("IC")
    else:
        for tup in ORD_MEC_lst:
            if Type in tup[1]:
                ORDINESCOL2.append(tup[0])
                found = True
                break
        if not found:
            ORDINESCOL2.append("UPP")
        
scuole_df["ORDINESCOL2"] = ORDINESCOL2
scuole_df.head()

Unnamed: 0,ANNOSCOLASTICO,CODICESCUOLA,CODICEEDIFICIO,SPERFICIEAREATOTALE,SPERFICIEAREALIBERA,VOLUME,school_type,ORDINESCOL2
0,201819,FGEE82302X,710140317,"2.310,00","4.915,00",7000.0,EE,PRI
1,201819,COTD00101T,131450925,"4.800,00",-,35000.0,TD,UPP
2,201819,CTAA08305Q,870550868,13000,-,435.0,AA,PRE
3,201819,MITF11000E,151462103,"19.224,00",-,9068.0,TF,UPP
5,201819,CSIS06100T,780031081,"17.000,00",-,18600.0,IS,UPP


In [11]:
ICs = scuole_df[scuole_df["school_type"] == "IC"]
ICs.head()

Unnamed: 0,ANNOSCOLASTICO,CODICESCUOLA,CODICEEDIFICIO,SPERFICIEAREATOTALE,SPERFICIEAREALIBERA,VOLUME,school_type,ORDINESCOL2
13,201819,RAIC810006,390140160,"9.628,90","7.393,10",11760.0,IC,IC
27,201819,LEIC81900G,750230480,"2.650,00","1.200,00",10150.0,IC,IC
33,201819,GRIC815003,530150001,"16.000,00","13.485,00",14520.0,IC,IC
39,201819,MIIC84200D,151311286,"20.700,00","17.500,00",19265.0,IC,IC
68,201819,REIC83200D,350260142,"5.180,00","2.198,00",16848.0,IC,IC


In [12]:
#raw_df["CAPIENZA_SCUOLA"] = (raw_df["VOLUME"]/class_volume)* pupils_per_class

In [13]:
torino  = students_by_province_df[students_by_province_df["Territorio"] == "Torino"]
torino

Unnamed: 0,ITTER107,Territorio,Tipo dato,ORDINESCOL2,Value
0,ITC11,Torino,scuole,LOW,204
1,ITC11,Torino,classi,LOW,2710
2,ITC11,Torino,iscritti,LOW,57613
321,ITC11,Torino,scuole,PRI,509
322,ITC11,Torino,classi,PRI,4564
323,ITC11,Torino,iscritti,PRI,91806
642,ITC11,Torino,scuole,PRE,449
643,ITC11,Torino,classi,PRE,1447
644,ITC11,Torino,iscritti,PRE,31842
1000,ITC11,Torino,iscritti,UPP,87756
