Si è provveduto alla correzione delle coordinate delle stazioni Gela Pontile e Augusta Villa Augusta direttamente nel file. Le coordinate presenti erano 0 e questo le esclude dalla query che facciamo per estrarre le stazioni presenti nel quadrante 4.

Installazione librerie

In [1]:
!pip install pandas==1.2.4 dnspython==2.1.0 pymongo==3.12.1

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m


Import

In [2]:
import datetime
import pymongo
import pandas as pd
import json

Connessione al DB

In [3]:
client = pymongo.MongoClient("mongodb+srv://nosql:nosql@cluster0.v4pfc.mongodb.net/myFirstDatabase?retryWrites=true&w=majority")
db = client.progetto

Dropping all the old data

In [4]:
collectionList = db.list_collection_names()

if "stazione" in collectionList:
    db.stazione.drop()

if "inquinante" in collectionList:
    db.inquinante.drop()

if "a2018" in collectionList:
    db.a2018.drop()

if "a2019" in collectionList:
    db.a2019.drop()

Leggiamo i dati relativi alla stazione

In [5]:
with open('data_to_load_in_db/arpa-qualita-aria-anagrafica-stazioni_json.json',) as f:
    stationData = json.load(f)

pd.DataFrame(stationData).describe(include='all')

Possiamo notare la presenza di alcuni record che hanno latitudine e longitudine a zero. Questo è dovuto ad un errore all'atto della creazione dei dati.
Provvediamo a trovare i dati falsati.

In [None]:
pd.DataFrame(stationData).sort_values(by=['stazione_latitudine', 'stazione_longitudine']).head()

Notiamo che la stazione con id 102 e 112 non sono popolate correttamente. Visto che per lo scopo di questo notebook non è necessaria la posizione esatta, andremo a mettere un valore a cui possa riferirsi rispettivamente alle stazioni di Gela ed Augusta.

Procediamo a correggere i dati.

In [None]:
df = pd.DataFrame(stationData)
df.loc[df['stazione_id'] == '112', ['stazione_latitudine']] = 37.221026
df.loc[df['stazione_id'] == '112', ['stazione_latitudine']] = 15.169058

df.loc[df['stazione_id'] == '102', ['stazione_latitudine']] = 37.055867
df.loc[df['stazione_id'] == '102', ['stazione_latitudine']] = 14.297144

stationData = df.to_dict('records')

Inseriamo i dati all'interno di MongoDB

In [None]:
db.station.insert_many(stationData)

Procediamo a leggere i dati relativi agli inquinanti

In [3]:
with open('data_to_load_in_db/arpa-qualita-aria-anagrafica-inquinanti_json.json',) as f:
    pollutantSubstanceData = json.load(f)

pd.DataFrame(pollutantSubstanceData).describe(include='all')

Unnamed: 0,inquinante_id,inquinante_simbolo,inquinante_descrizione,unitaMisura_simbolo,unitaMisura_id,unitaMisura_descrizione,condizioneStandardTemperatura_valore,condizioneStandardTemperatura_unitaMisura,condizioneStandardTemperatura_descrizione,tipoMisura
count,11,11,11,11,11,11,9,9,9,11
unique,11,11,10,1,1,1,1,1,1,1
top,32,CO,ossidi di azoto,ug/m3,ug.m-3,microgrammo per metro cubo,293,K,standardizzazione del volume di aria alla temp...,Media
freq,1,1,2,11,11,11,9,9,9,11


Procediamo a creare la relativa collection su MongoDB

In [None]:
db.inquinante.insert_many(pollutantSubstanceData)

Leggiamo le varie misure di PM 2.5 e PM10 del 2018, come richiesto da testo.

In [6]:
with open('data_to_load_in_db/arpa-qualita-aria-2018-PM2_5.json',) as pm2_5:
    with open('data_to_load_in_db/arpa-qualita-aria-2018-PM10.json',) as pm10:
        pm25Data = json.load(pm2_5)
        pm10Data = json.load(pm10)
        measures2018Data = pm25Data + pm10Data

pd.DataFrame(measures2018Data).describe(include='all')

Unnamed: 0,stazione_id,periodo_media,inquinante_id,misura_valore,misura_dataora,misura_anno
count,342939.0,342939,342939.0,342939.0,342939,342939.0
unique,31.0,1,2.0,,8761,
top,1908312.0,h,5.0,,2018-04-13T02:00:00,
freq,17520.0,342939,233398.0,,45,
mean,,,,74820490.0,,2018.000076
std,,,,452388000.0,,0.008707
min,,,,0.0,,2018.0
25%,,,,11.5,,2018.0
50%,,,,17.29999,,2018.0
75%,,,,25.477,,2018.0


Vediamo che sono presenti correttamente solo due tipi di inquinanti. Notiamo anche che la distribuzione dei valori tra i quartili della proprietà **misura_valore** è disomogenea, il che suggerisce la presenza di outlier.
Infatti possiamo notare un valore min equivalente a zero e un valore sproporzionatamente alto.

Procediamo a creare la relativa collection su MongoDB in cui metteremo i dati solamente risalenti al 2018.

In [None]:
db.a2018.insert_many(measures2018Data)

Leggiamo le varie misure di PM 2.5 e PM10 del 2019, come richiesto da testo.

In [8]:
with open('data_to_load_in_db/arpa-qualita-aria-2019-PM2_5.json',) as pm2_5:
    with open('data_to_load_in_db/arpa-qualita-aria-2019-PM10.json',) as pm10:
        pm25Data = json.load(pm2_5)
        pm10Data = json.load(pm10)
        measures2019Data = pm25Data + pm10Data

pd.DataFrame(measures2019Data).describe(include='all')

Anche qui notiamo le stesse problematiche riscontrate per i dati relativi al 2018.

Questo ci porterà nelle aggregation ad usare la mediana invece della media e a ignorare tutti i valori uguali a zero.

Procediamo ad inserire i dati nella relativa collezione per i dati 2019.

In [None]:
db.a2019.insert_many(measures2019Data)


Estraiamo tutte le stazioni relative al quadrante 4

In [7]:
quad4Lat = 37.30
quad4Long = 14

stationCursor = db.stazione.aggregate(
    [
        {
            '$match': {
                'stazione_longitudine': { '$gte' : quad4Long} ,
                'stazione_latitudine': { '$lte' : quad4Lat}
            }
        },
    ]
)

station = [s for s in stationCursor]

pd.DataFrame(station)

NameError: name 'db' is not defined

Creazione della collection relativa

In [10]:
cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
         '$lookup':
           {
             'from': 'stazione',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "stazione_info"
           }
      },
      {
            '$match': {
                'stazione_info.stazione_longitudine': { '$gte' : quad4Long } ,
                'stazione_info.stazione_latitudine': { '$lte' : quad4Lat },
                'misura_valore': {'$gt': 0}
            }
      },
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

pd.DataFrame(cursor)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


In [11]:
cursor = db.stazione.aggregate(
    [
      {
        '$match': {
            'stazione_longitudine': { '$gte' : quad4Long } ,
            'stazione_latitudine': { '$lte' : quad4Lat }
        }
      },
      {
         '$lookup':
           {
             'from': 'a2018',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_18"
           }
      },
      {
         '$lookup':
           {
             'from': 'a2019',
             'localField': "stazione_id",
             'foreignField': "stazione_id",
             'as': "misure_19"
           }
      },
      { '$project': { 'misure': { '$concatArrays': [ "$misure_18", "$misure_19" ] } } },
      { '$match': {'misure': {'$ne': [] } }},
      { '$unwind': '$misure' },
      { '$replaceRoot': {'newRoot': '$misure'}},
      { '$match': {'misura_valore': {'$gt': 0}}},
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

pd.DataFrame(cursor)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


In [12]:
stazioniQuadrante = db.stazione.find(
    {'stazione_longitudine': { '$gte' : quad4Long} ,'stazione_latitudine': { '$lte' : quad4Lat} },
    {'stazione_id': 1, '_id': 0}
)
stazioniQuadrante = [obj['stazione_id'] for obj in stazioniQuadrante]

cursor = db.a2018.aggregate(
    [
      { '$unionWith': { 'coll': "a2019"} },
      {
            '$match': {
                'stazione_id': {'$in': stazioniQuadrante},
                'misura_valore': {'$gt': 0}
            }
      },
      {
          '$group': {
              '_id': {'stazione_id': '$stazione_id', 'inquinante_id': '$inquinante_id',},
              'misure': { '$push': '$misura_valore' },
          }
      },
      { 
        '$project': {
            '_id': 1, 
            "median": { '$arrayElemAt': ["$misure", {'$floor': {'$multiply': [0.5, {'$size': "$misure"} ] } }]},
        }
      },
      { 
          "$group" : {
            "_id" : "$_id.stazione_id", 
            "inquinanti" : {"$push" : {"k" : "$_id.inquinante_id", "v" : "$median"}}
          }
      },
      { "$project" : {"stazione_id" : "$_id","_id" : 0, "inquinanti" : { "$arrayToObject" : "$inquinanti" }}},
      { "$project" : {'stazione_id': 1, "inquinante_pm10" : "$inquinanti.5", "inquinante_pm2_5" : "$inquinanti.6001"}},
      {'$sort': {'inquinante_pm2_5':-1, 'inquinante_pm10':-1}},
    ]
)

measureWithMedian = [e for e in cursor]

pd.DataFrame(measureWithMedian)

Unnamed: 0,stazione_id,inquinante_pm10,inquinante_pm2_5
0,1908967,42.200001,28.0
1,1908962,18.700001,12.0
2,1908513,19.700001,11.2
3,1908963,7.3,11.2
4,1908910,21.4,9.9
5,1908965,23.700001,7.4
6,1908901,16.200001,6.6
7,1908966,10.0,5.3
8,1908512,27.1,
9,1908520,14.2,


Close connection

In [13]:
measurePM10 = sorted([{'stazione_id': e['stazione_id'], 'inquinante_pm10': e.get('inquinante_pm10', -1)} for e in measureWithMedian], key=lambda item: item['inquinante_pm10'], reverse=True)

pd.DataFrame(measurePM10).head(2)

Unnamed: 0,stazione_id,inquinante_pm10
0,1908967,42.200001
1,1908512,27.1


In [14]:
measurePM2_5 = sorted([{'stazione_id': e['stazione_id'], 'inquinante_pm2_5': e.get('inquinante_pm2_5', -1)} for e in measureWithMedian], key=lambda item: item['inquinante_pm2_5'], reverse=True)

pd.DataFrame(measurePM2_5).head(2)

Unnamed: 0,stazione_id,inquinante_pm2_5
0,1908967,28.0
1,1908962,12.0


In [15]:
cursor.close()
client.close()