# Esame Big Data
Il seguente notebook si prefissa lo scopo di analizzare i dati relativi alle misurazioni ARPA per gli inquinanti PM10 e PM2_5, come richiesto da consegna.

Procediamo all'installazione delle librerie. Questo blocco è stato inserito per velocizzare e semplificare l'esecuzione del notebook.

In [None]:
!pip install pandas==1.2.4 dnspython==2.1.0 pymongo==3.12.1

Importiamo le librerie necessarie alla corretta esecuzione del notebook

In [2]:
import datetime
import pymongo
import pandas as pd
import json

Istanziamo il client e procediamo alla connessione al DB

In [3]:
client = pymongo.MongoClient("mongodb+srv://nosql:nosql@cluster0.v4pfc.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")
db = client.progetto

Cancelliamo tutte le vecchie collezioni, in modo da poterle inizializzare con i valori presenti localmente

In [4]:
collectionList = db.list_collection_names()

if "stazione" in collectionList:
    db.stazione.drop()

if "a2018" in collectionList:
    db.a2018.drop()

if "a2019" in collectionList:
    db.a2019.drop()

Leggiamo i dati relativi alla stazione

In [5]:
with open('data_to_load_in_db/arpa-qualita-aria-anagrafica-stazioni_json.json',) as f:
    stationData = json.load(f)

pd.DataFrame(stationData).describe(include='all')

Unnamed: 0,stazione_id,zone_id,stazione_nome,stazione_latitudine,stazione_longitudine
count,58.0,58,58,58.0,58.0
unique,58.0,5,58,,
top,1908202.0,IT1914,Misterbianco,,
freq,1.0,35,1,,
mean,,,,36.215019,13.965968
std,,,,6.924838,2.793564
min,,,,0.0,0.0
25%,,,,37.078311,13.561177
50%,,,,37.30673,14.688259
75%,,,,38.10035,15.217553


Possiamo notare la presenza di alcuni record che hanno latitudine e longitudine a zero. Questo è dovuto ad un errore all'atto della creazione dei dati.
Provvediamo a trovare i dati falsati.

In [6]:
pd.DataFrame(stationData).sort_values(by=['stazione_latitudine', 'stazione_longitudine']).head()

Unnamed: 0,stazione_id,zone_id,stazione_nome,stazione_latitudine,stazione_longitudine
53,102,IT1914,Gela Pontile,0.0,0.0
56,112,IT1914,Augusta Villa Augusta,0.0,0.0
4,48,IT1915,Lampedusa,35.502802,12.597921
22,1908805,IT1914,Pozzallo,36.729474,14.838651
20,1908801,IT1914,RG - Campo Atletica,36.917119,14.734022


Notiamo che la stazione con id 102 e 112 non sono popolate correttamente. Visto che per lo scopo di questo notebook non è necessaria la posizione esatta, andremo ad aggiustare i valori con quelli di altre stazioni già presenti a Gela ed Augusta.

Procediamo a correggere i dati e inserirli nel database.

In [36]:
df = pd.DataFrame(stationData)
df.loc[df['stazione_id'] == '112', ['stazione_latitudine']] = 37.221026
df.loc[df['stazione_id'] == '112', ['stazione_longitudine']] = 15.169058

df.loc[df['stazione_id'] == '102', ['stazione_latitudine']] = 37.055867
df.loc[df['stazione_id'] == '102', ['stazione_longitudine']] = 14.297144

stationData = df.to_dict('records')

_ = db.stazione.insert_many(stationData)

Procediamo a leggere i dati relativi agli inquinanti

In [29]:
with open('data_to_load_in_db/arpa-qualita-aria-anagrafica-inquinanti_json.json',) as f:
    pollutantSubstanceData = json.load(f)

pd.DataFrame(pollutantSubstanceData)

Unnamed: 0,inquinante_id,inquinante_simbolo,inquinante_descrizione,unitaMisura_simbolo,unitaMisura_id,unitaMisura_descrizione,condizioneStandardTemperatura_valore,condizioneStandardTemperatura_unitaMisura,condizioneStandardTemperatura_descrizione,tipoMisura
0,38,NO,ossidi di azoto,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
1,9,NOX,ossidi di azoto,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
2,8,NO2,biossido di azoto,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
3,7,O3,ozono,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
4,32,NMHC,idrocarburi non metanici,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
5,1,SO2,biossido di zolfo,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
6,10,CO,monossido di carbonio,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
7,20,C6H6,benzene,ug/m3,ug.m-3,microgrammo per metro cubo,293.0,K,standardizzazione del volume di aria alla temp...,Media
8,5,PM10,particolato fine PM10,ug/m3,ug.m-3,microgrammo per metro cubo,,,,Media
9,6001,PM2.5,particolato fine PM2.5,ug/m3,ug.m-3,microgrammo per metro cubo,,,,Media


La consegna richiede l'analisi del particolato fine PM10 e PM2.5. Vediamo che ci dovremmo aspettare di trovare l'identificativo **5** per il PM10 e l'identificativo **6001** per il PM2.5. Avendo nel database i dati relativi solamente a questi inquinanti, conoscendo il loro id e sapendo che i dati sono immutabili, non si renderebbe necessario aggiungere una collection adibita a questi dati, in modo da non trovarci a fare una lookup non strettamente necessaria per il corretto recupero dei dati.

Tuttavia, come richiesto da consegna, procediamo comunque alla creazione.

In [30]:
_ = db.inquinante.insert_many(pollutantSubstanceData)

Andiamo a leggere da file le varie misure di PM 2.5 e PM10 del 2018, come richiesto da testo.

In [11]:
with open('data_to_load_in_db/arpa-qualita-aria-2018-PM2_5.json',) as pm2_5:
    with open('data_to_load_in_db/arpa-qualita-aria-2018-PM10.json',) as pm10:
        pm25Data = json.load(pm2_5)
        pm10Data = json.load(pm10)
        measures2018Data = pm25Data + pm10Data

pd.DataFrame(measures2018Data).describe(include='all')

Unnamed: 0,stazione_id,periodo_media,inquinante_id,misura_valore,misura_dataora,misura_anno
count,342939.0,342939,342939.0,342939.0,342939,342939.0
unique,31.0,1,2.0,,8761,
top,1908312.0,h,5.0,,2018-06-27T10:00:00,
freq,17520.0,342939,233398.0,,45,
mean,,,,74820490.0,,2018.000076
std,,,,452388000.0,,0.008707
min,,,,0.0,,2018.0
25%,,,,11.5,,2018.0
50%,,,,17.29999,,2018.0
75%,,,,25.477,,2018.0


Vediamo che sono presenti correttamente solo due tipi di inquinanti. Notiamo anche che la distribuzione dei valori tra i quartili della proprietà **misura_valore** è disomogenea, il che suggerisce la presenza di outlier.
Infatti possiamo notare un valore min equivalente a zero e un valore sproporzionatamente alto.
I valori delle misure a zero indicano che sono presenti anche i timestamp in cui le stazioni, potenzialmente, erano guaste.

Procediamo a creare la relativa collection su MongoDB in cui metteremo i dati solamente risalenti al 2018.

In [None]:
_ = db.a2018.insert_many(measures2018Data)

Andiamo a leggere da file le varie misure di PM 2.5 e PM10 del 2019, come richiesto da testo.

In [13]:
with open('data_to_load_in_db/arpa-qualita-aria-2019-PM2_5.json',) as pm2_5:
    with open('data_to_load_in_db/arpa-qualita-aria-2019-PM10.json',) as pm10:
        pm25Data = json.load(pm2_5)
        pm10Data = json.load(pm10)
        measures2019Data = pm25Data + pm10Data

pd.DataFrame(measures2019Data).describe(include='all')

Unnamed: 0,stazione_id,periodo_media,inquinante_id,misura_valore,misura_dataora,misura_anno
count,266163.0,266163,266163.0,266163.0,266163,266163.0
unique,27.0,1,2.0,,8760,
top,1908601.0,h,5.0,,2019-12-04T14:00:00,
freq,17088.0,266163,183597.0,,38,
mean,,,,19.440512,,2019.0
std,,,,15.517493,,0.0
min,,,,0.0,,2019.0
25%,,,,11.0,,2019.0
50%,,,,16.700001,,2019.0
75%,,,,23.694001,,2019.0


Anche qui notiamo le stesse problematiche riscontrate per i dati relativi al 2018.

Questo ci porterà nelle aggregation ad usare un misuratore resistente agli outlier come la mediana invece della media ed ignoreremo tutti i valori uguali a zero, non utili ai fini dell'analisi. 

Procediamo ad inserire i dati nella relativa collezione per i dati 2019.

In [None]:
_ = db.a2019.insert_many(measures2019Data)

Le stazioni da tenere in considerazione sono quelle relative a quelle del quadrante 4, quello assegnato al nostro gruppo.

Quindi estraiamo tutte le stazioni relative al quadrante 4 e mostriamole

In [37]:
quad4Lat = 37.30
quad4Long = 14

stationCursor = db.stazione.aggregate(
    [
        {
            '$match': {
                'stazione_longitudine': { '$gte' : quad4Long} ,
                'stazione_latitudine': { '$lte' : quad4Lat}
            }
        },
    ]
)

station = [s for s in stationCursor]

pd.DataFrame(station)

Unnamed: 0,_id,stazione_id,zone_id,stazione_nome,stazione_latitudine,stazione_longitudine
0,619a9fe82f2bf2a43ca22bad,1908801,IT1914,RG - Campo Atletica,36.917119,14.734022
1,619a9fe82f2bf2a43ca22bae,1908802,IT1914,RG - Villa Archiemede,36.926331,14.714509
2,619a9fe82f2bf2a43ca22baf,1908805,IT1914,Pozzallo,36.729474,14.838651
3,619a9fe82f2bf2a43ca22bb0,1908519,IT1914,Gela - Ex Autoparco,37.055867,14.297144
4,619a9fe82f2bf2a43ca22bb1,17,IT1914,Gela - Tribunale,37.065105,14.261254
5,619a9fe82f2bf2a43ca22bb2,1908501,IT1914,Gela - Enimed,37.062217,14.284218
6,619a9fe82f2bf2a43ca22bb3,1908513,IT1914,Gela - Via Venezia,37.070349,14.253618
7,619a9fe82f2bf2a43ca22bb4,1908521,IT1914,Gela - Capo Soprano,37.075693,14.223844
8,619a9fe82f2bf2a43ca22bb5,1908520,IT1914,Gela - Biviere,37.022486,14.344965
9,619a9fe82f2bf2a43ca22bb6,1908512,IT1914,Niscemi,37.145943,14.395552


Tutte le stazioni riferiscono alla Sicilia sud-orientale. Controlliamo se tutte le suddette stazioni hanno delle misurazioni.

In [49]:
cursor = db.stazione.aggregate(
    [
      {
        '$match': {
            'stazione_longitudine': { '$gte' : quad4Long } ,
            'stazione_latitudine': { '$lte' : quad4Lat }
        }
      },
      {
         '$lookup':
           {
             'from': 'a2018',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_18"
           }
      },
      {
         '$lookup':
           {
             'from': 'a2019',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_19"
           }
      },
      { '$project': { 'stazione_id': 1, 'stazione_nome': 1, 'n_misure': { '$add': [ {"$size": "$misure_18"}, {"$size": "$misure_19"}] } } },
      { '$sort': {'n_misure': 1 }}
    ]
)

pd.DataFrame(cursor)

Unnamed: 0,_id,stazione_id,stazione_nome,n_misure
0,619a9fe82f2bf2a43ca22bad,1908801,RG - Campo Atletica,0
1,619a9fe82f2bf2a43ca22bae,1908802,RG - Villa Archiemede,0
2,619a9fe82f2bf2a43ca22baf,1908805,Pozzallo,0
3,619a9fe82f2bf2a43ca22bb0,1908519,Gela - Ex Autoparco,0
4,619a9fe82f2bf2a43ca22bb1,17,Gela - Tribunale,0
5,619a9fe82f2bf2a43ca22bb4,1908521,Gela - Capo Soprano,0
6,619a9fe82f2bf2a43ca22bc2,1908964,SR - ASP Pizzuta,0
7,619a9fe82f2bf2a43ca22bc8,44,Solarino,0
8,619a9fe82f2bf2a43ca22bce,102,Gela Pontile,0
9,619a9fe82f2bf2a43ca22bcf,110,Augusta Contrada Marcellino,0


Notiamo che metà delle stazioni appartenenti al nostro quadrante non hanno misurazioni. Purtroppo i dati recuperati da ARPA sono incompleti e possiamo predisporre solamente di quelli che vediamo in tabella con un numero di misurazioni superiore a 0.

Estraiamo per ogni stazione, le mediane di PM10 (con inquinante_id a 5) e PM2.5 (con inquinante_id a 6001).

In [38]:
cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
         '$lookup':
           {
             'from': 'stazione',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "stazione_info"
           }
      },
      {
            '$match': {
                'stazione_info.stazione_longitudine': { '$gte' : quad4Long } ,
                'stazione_info.stazione_latitudine': { '$lte' : quad4Lat },
                'misura_valore': {'$gt': 0}
            }
      },
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

pd.DataFrame(cursor)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


Notiamo che la query è inefficente. Questo a causa della lookup che viene fatta su stazione per ogni misurazione (circa 600K) e, poi, viene fatto il filtering per le stazioni riguardanti il quadrante 4.

Possiamo ulteriormente ottimizzarla partendo dalle stazioni, filtrandole e recuperando le relative misurazioni.

In [50]:
cursor = db.stazione.aggregate(
    [
      {
        '$match': {
            'stazione_longitudine': { '$gte' : quad4Long } ,
            'stazione_latitudine': { '$lte' : quad4Lat }
        }
      },
      {
         '$lookup':
           {
             'from': 'a2018',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_18"
           }
      },
      {
         '$lookup':
           {
             'from': 'a2019',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_19"
           }
      },
      { '$project': { 'misure': { '$concatArrays': [ "$misure_18", "$misure_19" ] } } },
      { '$match': {'misure': {'$ne': [] } }},
      { '$unwind': '$misure' },
      { '$replaceRoot': {'newRoot': '$misure'}},
      { '$match': {'misura_valore': {'$gt': 0}}},
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

pd.DataFrame(cursor)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


Abbiamo migliorato molto la velocità ma comunque c'è un ampio margine di miglioramento. Potremmo evitare la lookup facendo una query che estrae tutte le stazioni relative al quadrante 4 e, poi, provvederemo a fare il filtering direttamente nella chiave *stazione_id* definita nelle collection relative nelle misure.

In [39]:
stazioniQuadrante = db.stazione.find(
    {'stazione_longitudine': { '$gte' : quad4Long} ,'stazione_latitudine': { '$lte' : quad4Lat} },
    {'stazione_id': 1, '_id': 0}
)
stazioniQuadrante = [obj['stazione_id'] for obj in stazioniQuadrante]

cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
            '$match': {
                'stazione_id': {'$in': stazioniQuadrante},
                'misura_valore': {'$gt': 0}
            }
      },
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

measureWithMedian = [e for e in cursor]

pd.DataFrame(measureWithMedian)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


Con quest'ultima aggregation, possiamo dire che abbiamo migliorato moltissimo le performance partendo dai 50-80 secondi iniziali arrivando a 0.8-1.2 secondi.

Mostriamo le stazioni con il PM10 e il PM2.5 più alto

In [27]:
measurePM10 = sorted([{'stazione_id': e['stazione_id'], 'inquinante_pm10': e.get('inquinante_pm10', -1)} for e in measureWithMedian], key=lambda item: item['inquinante_pm10'], reverse=True)

pd.DataFrame(measurePM10).head(2)

Unnamed: 0,stazione_id,inquinante_pm10
0,1908967,42.200001
1,1908512,27.1


In [28]:
measurePM2_5 = sorted([{'stazione_id': e['stazione_id'], 'inquinante_pm2_5': e.get('inquinante_pm2_5', -1)} for e in measureWithMedian], key=lambda item: item['inquinante_pm2_5'], reverse=True)

pd.DataFrame(measurePM2_5).head(2)

Unnamed: 0,stazione_id,inquinante_pm2_5
0,1908967,28.0
1,1908962,12.0


Possiamo vedere che la stazione con l'inquinante PM10 più alto è anche la stazione con il PM2.5 più alto. Di conseguenza, andremo a scegliere la stazione con id **1908967** per l'analisi relativa al PM10 e la stazione con id **1908962** per l'analisi relativa al PM2.5.

Vediamo a quali corrispondono

In [52]:
cursor = db.stazione.find({'stazione_id': { '$in' : ['1908967', '1908962']}})

pd.DataFrame(cursor)

Unnamed: 0,_id,stazione_id,zone_id,stazione_nome,stazione_latitudine,stazione_longitudine
0,619a9fe82f2bf2a43ca22bc4,1908962,IT1914,Melilli,37.182374,15.128831
1,619a9fe82f2bf2a43ca22bc7,1908967,IT1914,SR - Teracati,37.075831,15.278581


Corrispondono alla stazione di Melilli e ad una stazione di Siracusa.

Come richiesto da consegna, procediamo a recuperare e vedere la distribuzione dei valori per le suddette stazioni

In [55]:
cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
            '$match': {
                'stazione_id': {'$eq': '1908962'},
                'misura_valore': {'$gt': 0}
            }
      }
    ]
)

misureTotaliMelilli = [row for row in cursor]

pd.DataFrame(misureTotaliMelilli).describe(include='all')

Unnamed: 0,_id,stazione_id,periodo_media,inquinante_id,misura_valore,misura_dataora,misura_anno
count,23062,23062.0,23062,23062.0,23062.0,23062,23062.0
unique,23062,1.0,1,2.0,,14879,
top,619aa0242f2bf2a43ca7ed8f,1908962.0,h,5.0,,2019-11-23T07:00:00,
freq,1,23062.0,23062,14879.0,,2,
mean,,,,,14.95431,,2018.714856
std,,,,,11.487129,,0.451493
min,,,,,1.6,,2018.0
25%,,,,,8.3,,2018.0
50%,,,,,13.0,,2019.0
75%,,,,,17.700001,,2019.0


In [56]:
cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
            '$match': {
                'stazione_id': {'$eq': '1908967'},
                'misura_valore': {'$gt': 0}
            }
      }
    ]
)

misureTotaliSRTeracati = [row for row in cursor]

pd.DataFrame(misureTotaliSRTeracati).describe(include='all')

Unnamed: 0,_id,stazione_id,periodo_media,inquinante_id,misura_valore,misura_dataora,misura_anno
count,17257,17257.0,17257,17257.0,17257.0,17257,17257.0
unique,17257,1.0,1,2.0,,8816,
top,619a9fec2f2bf2a43ca628ca,1908967.0,h,5.0,,2019-01-01T00:00:00,
freq,1,17257.0,17257,8697.0,,4,
mean,,,,,23.766321,,2018.072087
std,,,,,17.973157,,0.258639
min,,,,,2.4,,2018.0
25%,,,,,11.6,,2018.0
50%,,,,,20.1,,2018.0
75%,,,,,33.200001,,2018.0


Qui puoi fare una descrizione delle due summary qui sopra e magari mostrare i grafici e roba varia

In [21]:
#cursor.close()
#client.close()