# Homework 3 - MongoDB

In [1]:
import json
import os
import pymongo
from pymongo import ASCENDING, DESCENDING
import pandas as pd
from datetime import date, datetime, timedelta

# Lettura dei dati

In [2]:
dataset_dir = './dataset/'
dati_covid_path = os.path.join(dataset_dir, 'dpc-covid19-ita-regioni.json')
dati_vaccini_path = os.path.join(dataset_dir, 'somministrazioni-vaccini-latest.json')

dati_covid = []
with open(dati_covid_path, 'r') as j:
    dati_covid = json.load(j)

dati_vaccini = []
with open(dati_vaccini_path, 'r') as j:
    dati_vaccini = json.load(j)
dati_vaccini = dati_vaccini['data']

# Creazione del database
Si crea il database e due collection contenenti rispettivamente dati relativi al Covid-19 e alle vaccinazioni.

In [3]:
client = pymongo.MongoClient('localhost', 27017)

db = client['homework3']

collection_covid = db.dati_covid
collection_vaccini = db.dati_vaccini

print('Available database: ', client.list_database_names())
print('Available collections: ', db.list_collection_names())

Available database:  ['admin', 'config', 'homework3', 'local']
Available collections:  ['system.views', 'dati_vaccini', 'dati_covid', 'dati_vaccini_regioni_categorie', 'dati_vaccini_regioni_fasce', 'dati_vaccini_fasce_fornitori ', 'dati_covid_mensili']


Si inseriscono i dati nelle rispettive collection (solo se il database è stato appena creato).

In [4]:
# collection_covid.insert_many(dati_covid)
# collection_vaccini.insert_many(dati_vaccini)

In [5]:
print('Available database: ', client.list_database_names())
print('Available collections: ', db.list_collection_names())

Available database:  ['admin', 'config', 'homework3', 'local']
Available collections:  ['dati_vaccini', 'dati_covid', 'system.views', 'dati_mensili']


# Preprocessing
Si convertono i campi relativi alle date dal formato `string` al formato `date`.

In [6]:
collection_covid.aggregate([
    { "$addFields": {
        "data": {
            "$toDate": "$data"
            }
        } 
    },
    { "$out" : "dati_covid" }
])

<pymongo.command_cursor.CommandCursor at 0x2bb2db1e5f8>

In [7]:
collection_vaccini.aggregate([
    { "$addFields": {
        "data_somministrazione": {
            "$toDate": "$data_somministrazione"
            }
        } 
    },
    { "$out" : "dati_vaccini" }
])

<pymongo.command_cursor.CommandCursor at 0x2bb2db1e978>

# Views and queries

## Dati Covid-19

### Q1: Attuali positivi e terapie intensive per regione

In [8]:
days_ago = 10
date = datetime.today() - timedelta(days=days_ago)

start = date.replace(hour=0, minute=0, second=0)
end = date.replace(hour=23, minute=59, second=59)

filter = {
    'data': {
        '$gt': start,
        '$lt': end
    }
}

project = {
    'data': 1, 
    'denominazione_regione': 1, 
    'totale_positivi': 1,
    'terapia_intensiva': 1,
    '_id': 0
}

sort = list({
    'totale_positivi': -1
}.items())

result = collection_covid.find(
    filter=filter,
    projection=project,
    sort=sort
)

result_list = list(result)

In [9]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,data,denominazione_regione,terapia_intensiva,totale_positivi
0,2021-05-12 17:00:00,Campania,116,82418
1,2021-05-12 17:00:00,Puglia,161,41549
2,2021-05-12 17:00:00,Lombardia,448,39871
3,2021-05-12 17:00:00,Lazio,244,35575
4,2021-05-12 17:00:00,Emilia-Romagna,178,26531
5,2021-05-12 17:00:00,Sicilia,125,20035
6,2021-05-12 17:00:00,Veneto,110,17635
7,2021-05-12 17:00:00,Toscana,188,15916
8,2021-05-12 17:00:00,Sardegna,38,14952
9,2021-05-12 17:00:00,Calabria,28,12958


### Q2: Nuovi casi e tamponi nell'ultima settimana per regione

In [10]:
weeks_ago = 2
date = datetime.today() - timedelta(weeks=weeks_ago)

result = collection_covid.aggregate([
    { "$match": { "data": { "$gte": date } } },

    { "$group": {
        "_id": "$denominazione_regione",
        "nuovi_casi": { "$sum": "$nuovi_positivi" },
        "tamponi" : { "$sum": "$tamponi"}
    }},
    
    { "$sort" : { "nuovi_casi": -1 } }
])

result_list = list(result)

In [11]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,_id,nuovi_casi,tamponi
0,Campania,6640,27490703
1,Lombardia,6451,59715802
2,Lazio,4096,38916821
3,Sicilia,3760,24925293
4,Piemonte,3542,25038942
5,Puglia,3337,14036640
6,Emilia-Romagna,3255,35157404
7,Toscana,3236,26243295
8,Veneto,2570,44875545
9,Calabria,1577,4873606


### V1: Totale casi e deceduti ad ogni mese

In [14]:
pipeline = [
    { "$group" : {
        "_id": {
            "anno" : {"$year": "$data"},
            "mese" : {"$month": "$data"},
            "regione" : "$denominazione_regione"
        },
        "deceduti": { "$max": "$deceduti" },
        "casi": { "$max": "$totale_casi" }
    }},
    
    { "$group" : {
        "_id": {
            "anno" : "$_id.anno",
            "mese" : "$_id.mese",
        },
        "deceduti": { "$sum": "$deceduti" },
        "casi": { "$sum": "$casi" }
    }},
        
    { "$project": {
        "anno": "$_id.anno",
        "mese": "$_id.mese",
        "deceduti": 1,
        "casi": 1,
        "_id": 0
    }},
    
    { "$sort" : {"anno": -1, "mese": -1} }
]

db.create_collection(
    'dati_covid_mensili',
    viewOn='dati_covid',
    pipeline=pipeline
)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'homework3'), 'dati_covid_mensili')

In [15]:
result = db.dati_covid_mensili.find()
result_list = list(result)

df = pd.DataFrame(result_list)
df

Unnamed: 0,anno,casi,deceduti,mese
0,2020,2107166,74159,12
1,2020,1601554,55576,11
2,2020,679430,38618,10
3,2020,314861,35894,9
4,2020,269214,35483,8
5,2020,247537,35142,7
6,2020,241112,34831,6
7,2021,4146722,123927,5
8,2020,233019,33425,5
9,2021,4022653,120807,4


### Q3: Totale casi e deceduti ad ogni mese nel 2021

In [35]:
result = db.dati_covid_mensili.find(filter={'anno': 2021})
result_list = list(result)

df = pd.DataFrame(result_list)
df

Unnamed: 0,anno,casi,deceduti,mese
0,2021,4146722,123927,5
1,2021,4022653,120807,4
2,2021,3583444,109346,3
3,2021,2925265,97699,2
4,2021,2553032,88516,1


## Dati vaccini

### V2: Prima e seconda dose per regione e fascia anagrafica

In [78]:
pipeline = [
    { "$group": {
        "_id": {
            "regione": "$nome_area",
            "fascia_anagrafica": "$fascia_anagrafica"
        },
        "prima_dose": { "$sum": "$prima_dose" },
        "seconda_dose" : { "$sum": "$seconda_dose"}
    }},
    
    { "$project": {
        "regione": "$_id.regione",
        "fascia_anagrafica": "$_id.fascia_anagrafica",
        "prima_dose": 1,
        "seconda_dose": 1,
        "_id": 0
    }},
    
    { "$sort" : { "regione": 1,  "fascia_anagrafica": 1} }
]

db.create_collection(
    'dati_vaccini_regioni_fasce',
    viewOn='dati_vaccini',
    pipeline=pipeline
)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'homework3'), 'dati_vaccini_regioni_fasce')

In [80]:
result = db.dati_vaccini_regioni_fasce.find()
result_list = list(result)

df = pd.DataFrame(result_list)
df.head(20)

Unnamed: 0,fascia_anagrafica,prima_dose,regione,seconda_dose
0,16-19,951,Abruzzo,399
1,20-29,14243,Abruzzo,6252
2,30-39,22066,Abruzzo,10408
3,40-49,35320,Abruzzo,14567
4,50-59,56181,Abruzzo,21084
5,60-69,88874,Abruzzo,26393
6,70-79,97106,Abruzzo,33336
7,80-89,72830,Abruzzo,63243
8,90+,17150,Abruzzo,13684
9,16-19,1088,Basilicata,193


### Q4: Prima e seconda dose per regione

In [83]:
result = db.dati_vaccini_regioni_fasce.aggregate([
    { "$group": {
        "_id": "$regione",
        "prima_dose": { "$sum": "$prima_dose" },
        "seconda_dose" : { "$sum": "$seconda_dose"}
    }},
    
    { "$sort" : { "prima_dose": -1 } }
])

result_list = list(result)

In [84]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,_id,prima_dose,seconda_dose
0,Lombardia,3333093,1254243
1,Lazio,1741912,801151
2,Campania,1735583,657414
3,Veneto,1601028,644776
4,Emilia-Romagna,1399348,673899
5,Piemonte,1331135,647416
6,Sicilia,1279452,598271
7,Puglia,1262044,542430
8,Toscana,1067067,567157
9,Calabria,521179,229618


### Q5: Prima e seconda dose per fascia anagrafica

In [85]:
result = db.dati_vaccini_regioni_fasce.aggregate([
    { "$group": {
        "_id": "$fascia_anagrafica",
        "prima_dose": { "$sum": "$prima_dose" },
        "seconda_dose" : { "$sum": "$seconda_dose"}
    }},
    
    { "$sort" : { "prima_dose": -1 } }
])

result_list = list(result)

In [86]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,_id,prima_dose,seconda_dose
0,70-79,4553747,1196929
1,60-69,4115406,904939
2,80-89,3266208,2873577
3,50-59,2555592,940924
4,40-49,1460247,679053
5,30-39,970612,486228
6,90+,743029,616487
7,20-29,700466,353475
8,16-19,50862,17421


### V3: Dosi somministrate per regione e categoria

In [65]:
pipeline = [
    { "$group": {
        "_id": "$nome_area",
        "personale_scolastico": { "$sum": "$categoria_personale_scolastico" },
        "soggetti_fragili": { "$sum": "$categoria_soggetti_fragili" },
        "operatori_sanitari_sociosanitari": { "$sum": "$categoria_operatori_sanitari_sociosanitari" },
        "personale_non_sanitario": { "$sum": "$categoria_personale_non_sanitario" },
        "60_69": { "$sum": "$categoria_60_69" },
        "over80": { "$sum": "$categoria_over80" },
        "altro": { "$sum": "$categoria_altro" },
        "ospiti_rsa": { "$sum": "$categoria_ospiti_rsa" },
        "70_79": { "$sum": "$categoria_70_79" },
        "forze_armate": { "$sum": "$categoria_forze_armate" }
    }},   
    
    { "$project": {
        "_id": 0,
        "regione": "$_id",
        "personale_scolastico": 1,
        "soggetti_fragili": 1,
        "operatori_sanitari_sociosanitari": 1,
        "personale_non_sanitario": 1,
        "60_69": 1,
        "over80": 1,
        "altro": 1,
        "ospiti_rsa": 1,
        "70_79": 1,
        "forze_armate": 1
    }}
]

db.create_collection(
    'dati_vaccini_regioni_categorie',
    viewOn='dati_vaccini',
    pipeline=pipeline
)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'homework3'), 'dati_vaccini_regioni_categorie')

In [66]:
result = db.dati_vaccini_regioni_categorie.find()
result_list = list(result)

df = pd.DataFrame(result_list)
df.head(20)

Unnamed: 0,60_69,70_79,altro,forze_armate,operatori_sanitari_sociosanitari,ospiti_rsa,over80,personale_non_sanitario,personale_scolastico,regione,soggetti_fragili
0,75878,152871,21947,11196,103344,24151,228751,25787,21572,Liguria,108012
1,12392,21829,6664,4250,25887,4749,71623,6863,15225,Basilicata,80724
2,3637,51887,1618,4952,51286,10215,134782,11109,20229,Umbria,106202
3,312027,406183,138141,21167,276243,84010,543974,72456,103393,Veneto,288210
4,38311,41679,22623,3646,29923,8485,55852,7068,10537,Provincia Autonoma Trento,17692
5,62268,73385,35601,17937,88470,28557,144172,27942,30662,Calabria,241803
6,12125,14876,1769,2759,15675,4723,37857,2845,7916,Molise,49010
7,640887,822609,98420,49806,585910,141368,1210130,228107,208610,Lombardia,601489
8,190100,294842,25280,27774,239624,30246,405317,50626,147459,Puglia,393206
9,57889,128017,11011,10889,80424,14579,180015,26337,41544,Marche,153460


### Q6: Dosi somministrate per categoria

In [101]:
result = db.dati_vaccini_regioni_categorie.aggregate([
    { "$group": {
        "_id": "null",
        "personale_scolastico": { "$sum": "$personale_scolastico" },
        "soggetti_fragili": { "$sum": "$soggetti_fragili" },
        "operatori_sanitari_sociosanitari": { "$sum": "$operatori_sanitari_sociosanitari" },
        "personale_non_sanitario": { "$sum": "$personale_non_sanitario" },
        "60_69": { "$sum": "$60_69" },
        "over80": { "$sum": "$80" },
        "altro": { "$sum": "$altro" },
        "ospiti_rsa": { "$sum": "$ospiti_rsa" },
        "70_79": { "$sum": "$70_79" },
        "forze_armate": { "$sum": "$forze_armate" }
    }},
    
    { "$project": {
        "_id": 0
    }}
])

result_list = list(result)

In [102]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,60_69,70_79,altro,forze_armate,operatori_sanitari_sociosanitari,ospiti_rsa,over80,personale_non_sanitario,personale_scolastico,soggetti_fragili
0,2642444,4089924,1017063,400998,3367525,682137,0,944150,1336497,5241322


### V4: Dosi somministrate per fascia anagrafica e fornitore

In [6]:
pipeline = [
    { "$group" : {
        "_id": {
            "fascia_anagrafica": "$fascia_anagrafica",
            "fornitore": "$fornitore"
        },
        "prima_dose": { "$sum": "$prima_dose" },
        "seconda_dose" : { "$sum": "$seconda_dose"}
    }},
    
    { "$addFields": {
        "totale_dosi": { "$sum": ["$prima_dose", "$seconda_dose"]}
    }},
    
    { "$project": {
        "fascia_anagrafica": "$_id.fascia_anagrafica",
        "fornitore": "$_id.fornitore",
        "totale_dosi": 1,
        "_id": 0
    }},
    
    { "$sort" : {
        "fascia_anagrafica": -1, 
        "totale_dosi": -1
    }}
]

db.create_collection(
    'dati_vaccini_fasce_fornitori',
    viewOn='dati_vaccini',
    pipeline=pipeline
)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'homework3'), 'dati_vaccini_fasce_fornitori')

In [7]:
result = db.dati_vaccini_fasce_fornitori.find()
result_list = list(result)

df = pd.DataFrame(result_list)
df

Unnamed: 0,fascia_anagrafica,fornitore,totale_dosi
0,90+,Pfizer/BioNTech,1137305
1,90+,Moderna,212551
2,90+,Vaxzevria (AstraZeneca),8581
3,90+,Janssen,1079
4,80-89,Pfizer/BioNTech,5437376
5,80-89,Moderna,633667
6,80-89,Vaxzevria (AstraZeneca),66646
7,80-89,Janssen,2096
8,70-79,Pfizer/BioNTech,3109782
9,70-79,Vaxzevria (AstraZeneca),2114173


### Q7: Principale fornitore per fascia anagrafica

In [8]:
result = db.dati_vaccini_fasce_fornitori.aggregate([
    { "$group" : {
        "_id": "$fascia_anagrafica",
        "totale_dosi": {"$first": "$totale_dosi"},
        "fornitore": {"$first": "$fornitore" }
    }}, 
    
    { "$sort" : {
        "_id": -1, 
    }},
])

result_list = list(result)

In [9]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,_id,fornitore,totale_dosi
0,90+,Pfizer/BioNTech,1137305
1,80-89,Pfizer/BioNTech,5437376
2,70-79,Pfizer/BioNTech,3109782
3,60-69,Pfizer/BioNTech,2927722
4,50-59,Pfizer/BioNTech,2509766
5,40-49,Pfizer/BioNTech,1450754
6,30-39,Pfizer/BioNTech,1024311
7,20-29,Pfizer/BioNTech,784369
8,16-19,Pfizer/BioNTech,59554


### V5: Dosi somministrate per fascia anagrafica ogni mese

In [16]:
pipeline = [
    { "$group" : {
        "_id": {
            "anno" : {"$year": "$data_somministrazione"},
            "mese" : {"$month": "$data_somministrazione"},
            "fascia_anagrafica" : "$fascia_anagrafica"
        },
        "prima_dose": { "$sum": "$prima_dose" },
        "seconda_dose" : { "$sum": "$seconda_dose"}
    }},
    
    { "$addFields": {
        "totale_dosi": { "$sum": ["$prima_dose", "$seconda_dose"]}
    }},    
        
    { "$project": {
        "anno": "$_id.anno",
        "mese": "$_id.mese",
        "fascia_anagrafica": "$_id.fascia_anagrafica",
        "totale_dosi": 1,
        "_id": 0
    }},
    
    { "$sort" : {
        "anno": -1,
        "mese": -1,        
        "totale_dosi": -1
    }}
]

db.create_collection(
    'dati_vaccini_fasce_mensili',
    viewOn='dati_vaccini',
    pipeline=pipeline
)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'homework3'), 'dati_vaccini_fasce_mensili')

In [17]:
result = db.dati_vaccini_fasce_mensili.find()
result_list = list(result)

df = pd.DataFrame(result_list)
df

Unnamed: 0,anno,fascia_anagrafica,mese,totale_dosi
0,2020,50-59,12,11265
1,2020,40-49,12,8978
2,2020,30-39,12,6666
3,2020,60-69,12,5991
4,2020,20-29,12,3795
5,2020,80-89,12,1327
6,2020,90+,12,974
7,2020,70-79,12,804
8,2020,16-19,12,25
9,2021,60-69,5,2144753


### Q8: Fascia anagrafica più vaccinata ogni mese

In [18]:
result = db.dati_vaccini_fasce_mensili.aggregate([    
    { "$group" : {
        "_id": {
            "anno": "$anno",
            "mese": "$mese"
        },
        "totale_dosi": {"$first": "$totale_dosi"},
        "fascia_anagrafica": {"$first": "$fascia_anagrafica" }
    }}, 
    
    { "$sort" : {
        "_id": -1, 
    }},
])

result_list = list(result)

In [20]:
df = pd.DataFrame(result_list)
df

Unnamed: 0,_id,fascia_anagrafica,totale_dosi
0,"{'mese': 12, 'anno': 2020}",50-59,11265
1,"{'mese': 5, 'anno': 2021}",60-69,2144753
2,"{'mese': 4, 'anno': 2021}",70-79,3409215
3,"{'mese': 3, 'anno': 2021}",80-89,2422442
4,"{'mese': 2, 'anno': 2021}",80-89,613353
5,"{'mese': 1, 'anno': 2021}",50-59,523036


# Indexes

In [21]:
print(list(collection_covid.list_indexes()))

[SON([('v', 2), ('key', SON([('_id', 1)])), ('name', '_id_')]), SON([('v', 2), ('key', SON([('data', 1)])), ('name', 'date_index'), ('background', True), ('sparse', False)])]


## Query without index

In [None]:
days_ago = 10
date = datetime.today() - timedelta(days=days_ago)

start = date.replace(hour=0, minute=0, second=0)
end = date.replace(hour=23, minute=59, second=59)

filter = {
    'data': {
        '$gt': start,
        '$lt': end
    }
}

project = {
    'data': 1, 
    'denominazione_regione': 1, 
    'totale_positivi': 1,
    'terapia_intensiva': 1,
    '_id': 0
}

sort = list({
    'totale_positivi': -1
}.items())

result = collection_covid.find(
    filter=filter,
    projection=project,
    sort=sort
)

explain_no_ind = result.explain()
explain_no_ind = explain_no_ind['executionStats']

In [None]:
print('executionTimeMillis:', explain_no_ind['executionTimeMillis'])
print('nReturned:', explain_no_ind['nReturned'])
print('totalDocsExamined:', explain_no_ind['totalDocsExamined'])

## Query with index

In [None]:
collection_covid.create_index([("data", ASCENDING)], 
                              name="date_index",
                              background=True,
                              unique=False,
                              sparse=False)

In [None]:
print(list(collection_covid.list_indexes()))

In [None]:
days_ago = 10
date = datetime.today() - timedelta(days=days_ago)

start = date.replace(hour=0, minute=0, second=0)
end = date.replace(hour=23, minute=59, second=59)

filter = {
    'data': {
        '$gt': start,
        '$lt': end
    }
}

project = {
    'data': 1, 
    'denominazione_regione': 1, 
    'totale_positivi': 1,
    'terapia_intensiva': 1,
    '_id': 0
}

sort = list({
    'totale_positivi': -1
}.items())

result = collection_covid.find(
    filter=filter,
    projection=project,
    sort=sort
)

explain_ind = result.explain()
explain_ind = explain_ind['executionStats']

In [None]:
print('executionTimeMillis:', explain_ind['executionTimeMillis'])
print('nReturned:', explain_ind['nReturned'])
print('totalDocsExamined:', explain_ind['totalDocsExamined'])