# Import block

In [1]:
import numpy as np
import pandas as pd

# Demographic Data

In [2]:
df_demo = pd.read_csv('Data/demographic_data/Regions.csv')

In [3]:
df_demo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Unnamed: 0             21 non-null     int64 
 1   denominazione_regione  21 non-null     object
 2   popolazione            21 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 632.0+ bytes


In [4]:
df_demo.head(3)

Unnamed: 0.1,Unnamed: 0,denominazione_regione,popolazione
0,0,Abruzzo,1311580
1,1,Basilicata,562869
2,2,P.A. Bolzano,531178


Qui si tratta semplicemente di eliminare la prima colonna, in quanto è un vecchio indice

Here it is simply a matter of removing the first column, it is just an old index

In [5]:
df_demo.drop('Unnamed: 0', axis=1, inplace = True)

In [6]:
df_demo.head(3)

Unnamed: 0,denominazione_regione,popolazione
0,Abruzzo,1311580
1,Basilicata,562869
2,P.A. Bolzano,531178


# Covid-19 Data

In [7]:
df_covid = pd.read_csv('https://raw.githubusercontent.com/pcm-dpc/COVID-19/master/dati-regioni/dpc-covid19-ita-regioni-latest.csv')

In [8]:
df_covid.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 18 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   data                         21 non-null     object 
 1   stato                        21 non-null     object 
 2   codice_regione               21 non-null     int64  
 3   denominazione_regione        21 non-null     object 
 4   lat                          21 non-null     float64
 5   long                         21 non-null     float64
 6   ricoverati_con_sintomi       21 non-null     int64  
 7   terapia_intensiva            21 non-null     int64  
 8   totale_ospedalizzati         21 non-null     int64  
 9   isolamento_domiciliare       21 non-null     int64  
 10  totale_attualmente_positivi  21 non-null     int64  
 11  nuovi_attualmente_positivi   21 non-null     int64  
 12  dimessi_guariti              21 non-null     int64  
 13  deceduti              

In [9]:
df_covid.head(3)

Unnamed: 0,data,stato,codice_regione,denominazione_regione,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,totale_attualmente_positivi,nuovi_attualmente_positivi,dimessi_guariti,deceduti,totale_casi,tamponi,note_it,note_en
0,2020-03-28T17:00:00,ITA,13,Abruzzo,42.351222,13.398438,311,70,381,646,1027,102,30,76,1133,7003,,
1,2020-03-28T17:00:00,ITA,17,Basilicata,40.639471,15.805148,26,19,45,133,178,31,1,3,182,1421,,
2,2020-03-28T17:00:00,ITA,4,P.A. Bolzano,46.499335,11.356624,225,51,276,653,929,96,116,64,1109,9168,,


Qui va tutto bene, nella prossima fase deciderò come strutturare il dataframe di analisi.

Everything is fine here, in the next phase I will decide how to structure the analysis dataframe.

# Air Pollution Data

In [10]:
df_air = pd.read_excel('Data/air_pollution_data/Tabella 3.xlsx', header=1)

In [11]:
df_air.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 79 entries, 0 to 78
Data columns (total 7 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Codice zona                79 non-null     object
 1   id                         79 non-null     int64 
 2   Regione                    79 non-null     object
 3   Tipo zona                  79 non-null     object
 4   classificazione            79 non-null     object
 5   superamento VL             79 non-null     object
 6   max media annuale (mg/m3)  79 non-null     object
dtypes: int64(1), object(6)
memory usage: 4.4+ KB


In [12]:
df_air.head(3)

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
0,IT0118,1,PIEMONTE,Agglomerato,aboveUAT,Sì,29
1,IT0119,1,PIEMONTE,Pianura,aboveUAT,No,24
2,IT0120,1,PIEMONTE,Collina,aboveUAT,No,22


Come si può notare ho due problemi principali, i nomi delle regioni non sono uguali (maiuscolo vs capitalized), bisogna verificare se i codici regione lo sono, la colonna 'max media annuale (mg/m3)' non è identificata come tipo numerico, molto probabilmente ci sono dei valori non numerici nella colonna

As you can see I have two main problems, the names of the regions is not the same (uppercase vs capitalized), you have to check if the region codes are, the column 'max annual average (mg / m3)' is not identified as a numeric type, most likely there are some non-numeric values in the column

In [13]:
df_air[df_air['max media annuale (mg/m3)'].str.contains('n', na=False)]

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
70,IT1911,19,SICILIA,Agglomerato Palermo,aboveUAT,n.d.,n.d.
71,IT1912,19,SICILIA,Agglomerato Catania,aboveUAT,n.d.,n.d.
72,IT1913,19,SICILIA,Agglomerato Messina,aboveUAT,n.d.,n.d.
74,IT1915,19,SICILIA,Altro,aboveUAT,n.d.,n.d.


Una volta trovati l'etichetta per i valori assenti procedo ad eliminare le righe, e mi assicuro vi siano ancora valori validi per la regione

Once I have found the label for the absent values I proceed to delete the lines, and I make sure there are still valid values for the region

In [14]:
df_air.drop(df_air[df_air['max media annuale (mg/m3)']=='n.d.'].index, inplace=True)

In [15]:
df_air[df_air['Regione']=='SICILIA']

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
73,IT1914,19,SICILIA,Aree Industriali,LAT-UAT,No,16


In [16]:
df_air.groupby(['id','Regione']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Codice zona,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
id,Regione,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,PIEMONTE,4,4,4,4,4
2,VALLE_AOSTA,2,2,2,2,2
3,LOMBARDIA,7,7,7,7,7
5,VENETO,9,9,9,9,9
6,FRIULI_VENEZIA_GIULIA,3,3,3,3,3
7,LIGURIA,6,6,6,6,6
8,EMILIA_ROMAGNA,4,4,4,4,4
9,TOSCANA,6,6,6,6,6
10,UMBRIA,3,3,3,3,3
11,MARCHE,2,2,2,2,2


In [17]:
df_covid.groupby(['codice_regione', 'denominazione_regione']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,data,stato,lat,long,ricoverati_con_sintomi,terapia_intensiva,totale_ospedalizzati,isolamento_domiciliare,totale_attualmente_positivi,nuovi_attualmente_positivi,dimessi_guariti,deceduti,totale_casi,tamponi,note_it,note_en
codice_regione,denominazione_regione,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1,Piemonte,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
2,Valle d'Aosta,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
3,Lombardia,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
4,P.A. Bolzano,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
4,P.A. Trento,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
5,Veneto,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
6,Friuli Venezia Giulia,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
7,Liguria,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
8,Emilia Romagna,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0
9,Toscana,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0


In [18]:
df_demo

Unnamed: 0,denominazione_regione,popolazione
0,Abruzzo,1311580
1,Basilicata,562869
2,P.A. Bolzano,531178
3,Calabria,1947131
4,Campania,5801692
5,Emilia Romagna,4459477
6,Friuli Venezia Giulia,1215220
7,Lazio,4459477
8,Liguria,1550640
9,Lombardia,10060574


I codici regione non corrispondono tra il dataframe del covid e quelli dell'inquinamento, e sono totalmente assenti nel dataframe del indice demografico, mentre i nomi delle regioni sono uguali tra Covid e Indice Demografico. Visto che gli eventuali dati da aggiornare saranno quelli del Covid, manterrò questa nomenclatura come corretta. Modificherò i nomi delle regioni nel dataframe dell'inquinamento, e userò questo campo per fare il join dei dati. In più manca una regione (la Basilicata) sempre nel dataframe dell'inquinamento.

The region codes do not correspond between the covid and pollution dataframes, and they are totally absent in the demographic index dataframe, while the names of the regions are the same between Covid and Demographic Index. Since any data to be updated will be that of Covid, I will keep this nomenclature as correct. I will modify the names of the regions in the pollution dataframe, and I will use this field to join the data. In addition, a region (Basilicata) is still missing in the pollution dataframe.

In [19]:
df_air['Regione'] = df_air.iloc[:,2].str.replace('_', ' ')
df_air['Regione'] = df_air.iloc[:,2].str.replace('PA ', 'P.A. ')
df_air['Regione'] = df_air.iloc[:,2].apply(str.title)

In [20]:
df_air.groupby('Regione').count().info()

<class 'pandas.core.frame.DataFrame'>
Index: 20 entries, Abruzzo to Veneto
Data columns (total 6 columns):
 #   Column                     Non-Null Count  Dtype
---  ------                     --------------  -----
 0   Codice zona                20 non-null     int64
 1   id                         20 non-null     int64
 2   Tipo zona                  20 non-null     int64
 3   classificazione            20 non-null     int64
 4   superamento VL             20 non-null     int64
 5   max media annuale (mg/m3)  20 non-null     int64
dtypes: int64(6)
memory usage: 1.1+ KB


Aggiungo i dati relativi alla Basilicata

Adding Basilicata's Data

In [21]:
df_air2 = pd.read_excel('Data/air_pollution_data/Tabella 2.xlsx', header=1)
df_basilicata = df_air2[df_air2['Regione']=='Basilicata']
df_basilicata

Unnamed: 0,Region_id,Province_id,Municipality_id,Observation_id,Station_code,Station_eu_code,Regione,Provincia,Comune,Nome della stazione,...,Tipo di stazione,Tecnica di misura,"Valore medio annuo1,3 [µg/m³]",50° percentile1 [µg/m3],75° percentile2 [µg/m3],98° percentile2 [µg/m3],"99,2° percentile2 [µg/m3]",Valore massimo2 [µg/m3],Numero di dati validi,AQD used4
246,17.0,76,17076048,28804,1707620,IT1740A,Basilicata,Potenza,Melfi,San Nicola di Melfi,...,industrial,b,11,9.48004,13.3713,26.4319,34.0767,52.8224,337,f
247,17.0,76,17076098,28809,1707625,IT2205A,Basilicata,Potenza,Viggiano,VIGGIANO - COSTA MOLINA SUD 1,...,industrial,b,8,7.2,10.2,20.1,25.6,45.6,352,f
248,17.0,76,17076037,28810,1707622,IT2202A,Basilicata,Potenza,Grumento Nova,GRUMENTO 3,...,industrial,b,10,8.4,11.83,20.8,24.8,55.2,353,f
249,17.0,76,17076098,28811,1707624,IT2204A,Basilicata,Potenza,Viggiano,VIGGIANO - MASSERIA DE BLASIIS,...,industrial,b,11,9.88,13.98,27.14,34.44,49.75,355,f
250,17.0,76,17076098,28812,1707623,IT2203A,Basilicata,Potenza,Viggiano,VIGGIANO 1,...,industrial,b,10,8.6,11.54,21.3,24.7,63.9,357,f


In [22]:
df_basilicata['Valore medio annuo1,3 [µg/m³]'] = pd.to_numeric(df_basilicata['Valore medio annuo1,3 [µg/m³]'])
df_basilicata.groupby('Regione').mean()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_basilicata['Valore medio annuo1,3 [µg/m³]'] = pd.to_numeric(df_basilicata['Valore medio annuo1,3 [µg/m³]'])


Unnamed: 0_level_0,Region_id,Province_id,Municipality_id,Observation_id,Station_code,"Valore medio annuo1,3 [µg/m³]",Numero di dati validi
Regione,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Basilicata,17.0,76.0,17076075.8,28809.2,1707622.8,10.0,350.8


In [23]:
data_basilicata=['Not Important',17, 'Basilicata', 'Rurale', 'Not Important', 'No',10]
data_basilicata = pd.DataFrame([pd.Series(data_basilicata)])
data_basilicata.columns = df_air.columns
data_basilicata

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
0,Not Important,17,Basilicata,Rurale,Not Important,No,10


In [24]:
df_air = pd.concat([df_air, data_basilicata], ignore_index=True)
df_air

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
0,IT0118,1,Piemonte,Agglomerato,aboveUAT,Sì,29
1,IT0119,1,Piemonte,Pianura,aboveUAT,No,24
2,IT0120,1,Piemonte,Collina,aboveUAT,No,22
3,IT0121,1,Piemonte,montagna,LAT-UAT,No,19
4,IT0204,2,Valle Aosta,VdA_fondo_valle,LAT-UAT,No,13
...,...,...,...,...,...,...,...
71,IT2007,20,Sardegna,Agglomerato di Cagliari,LAT-UAT,No,14
72,IT2008,20,Sardegna,Zona Urbana,LAT-UAT,No,6
73,IT2009,20,Sardegna,Zona Industriale,LAT-UAT,No,15
74,IT2010,20,Sardegna,Zona Rurale,belowLAT,No,6


In [25]:
df_air.loc[df_air['Regione']=='Valle Aosta', 'Regione']= "Valle d'Aosta"

In [26]:
df_air[df_air['Regione']== "Valle d'Aosta"]

Unnamed: 0,Codice zona,id,Regione,Tipo zona,classificazione,superamento VL,max media annuale (mg/m3)
4,IT0204,2,Valle d'Aosta,VdA_fondo_valle,LAT-UAT,No,13
5,IT0205,2,Valle d'Aosta,VdA_rurale montano,belowLAT,No,11


# Exporting tables
La pulizia dei dataframe è conclusa, esporto le tre tabelle cosi ottenute per comodità di lavoro e passo alla fase successiva

The cleaning of the dataframe is completed, I export the three tables thus obtained for ease of work and go to the next step

In [27]:
df_air.to_csv('df_air.csv')
df_demo.to_csv('df_demo.csv')
df_covid.to_csv('df_covid.csv')