# Reto 2: Pandemia A (H1N1)
El influenzavirus A subtipo H1N1, más conocido como A H1N1 humana, es una especie de influenzavirus tipo A del virus de la gripe. La pandemia de gripe A (H1N1), que se inició en 2009, entró en México el 17 de marzo del mismo año. Este fue el primer país en reportar casos de gripe A en el mundo entero.

Para este reto usarás un conjunto de datos proveniente de un reporte de la OMS.

1. Analiza los datos, limpia los datos en caso de ser necesario.

2. Elige MySQL o MongoDB y crea una base de datos para el conjunto de datos del reto.

3. Carga los datos en la base de datos que elegiste y revisa que éstos se muestren correctamente.

4. Responde a las siguientes preguntas usando consultas:

In [2]:
import pymongo
import re
import pandas as pd
client = pymongo.MongoClient(f"mongodb://{user}:{password}@{proyecto}-shard-00-00.mmsfi.mongodb.net:27017,{proyecto}-shard-00-01.mmsfi.mongodb.net:27017,{proyecto}-shard-00-02.mmsfi.mongodb.net:27017/test?ssl=true&replicaSet=atlas-11i31k-shard-0&authSource=admin&retryWrites=true&w=majority")
db = client.test

#### 1. ¿Cuál fue el país con mayor número de muertes?

In [3]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Deaths': '$latest.Deaths'
        }
    }, {
        '$sort': {
            'Deaths': -1
        }
    }, {
        '$limit': 1
    }, {
        '$project': {
            '_id': 1, 
            'Deaths': 1
        }
    }
])

In [4]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Deaths
0,United States of America,170


#### 2. ¿Cuál fue el país con menor número de muertes? (Excluyendo los que no tienen muertes)

In [6]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Deaths': '$latest.Deaths'
        }
    }, {
        '$sort': {
            'Deaths': 1
        }
    }, {
        '$match': {
            'Deaths': {
                '$gte': 1
            }
        }
    }, {
        '$limit': 1
    }, {
        '$project': {
            '_id': 1, 
            'Deaths': 1
        }
    }
])

In [7]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Deaths
0,Philippines,1


#### 3. ¿Cuál fue el país con el mayor número de casos?

In [8]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Casos': '$latest.Cases'
        }
    }, {
        '$sort': {
            'Casos': -1
        }
    }, {
        '$limit': 1
    }, {
        '$project': {
            '_id': 1, 
            'Casos': 1
        }
    }
])

In [9]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Casos
0,United States of America,33902


#### 4. ¿Cuál fue el país con el menor número de casos?

In [10]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Casos': '$latest.Cases'
        }
    }, {
        '$sort': {
            'Casos': 1
        }
    }, {
        '$match': {
            'Casos': {
                '$gte': 1
            }
        }
    }, {
        '$limit': 1
    }, {
        '$project': {
            '_id': 1, 
            'Casos': 1
        }
    }
])

In [11]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Casos
0,Cook Island,1


#### 5. ¿Cuál fue el número de muertes promedio? (Por pais)

In [14]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$group': {
            '_id': None, 
            'promedioMuertes': {
                '$avg': '$latest.Deaths'
            }
        }
    }, {
        '$project': {
            '_id': 0, 
            'promedioMuertes': 1
        }
    }
])

In [15]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,promedioMuertes
0,3.194631


#### 6. ¿Cuál fue el número de casos promedio? (Por pais)

In [17]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$group': {
            '_id': None, 
            'promedioCasos': {
                '$avg': '$latest.Cases'
            }
        }
    }, {
        '$project': {
            '_id': 0, 
            'promedioCasos': 1
        }
    }
])

In [18]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,promedioCasos
0,756.281879


#### 7. Top 5 de países con más muertes

In [21]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Muertes': '$latest.Deaths'
        }
    }, {
        '$sort': {
            'Muertes': -1
        }
    }, {
        '$limit': 5
    }, {
        '$project': {
            '_id': 1, 
            'Muertes': 1
        }
    }
])

In [22]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Muertes
0,United States of America,170
1,Mexico,119
2,Argentina,60
3,United States of America*,44
4,Canada,25


#### 8. Top 5 de países con menos muertes (Excluyendo los que no tuvieron muertes)

In [23]:
result = client['h1n1']['h1n1'].aggregate([
    {
        '$sort': {
            'Update Time': -1
        }
    }, {
        '$group': {
            '_id': '$Country', 
            'latest': {
                '$first': '$$ROOT'
            }
        }
    }, {
        '$match': {
            '_id': {
                '$not': {
                    '$in': [
                        'Grand Total'
                    ]
                }
            }
        }
    }, {
        '$addFields': {
            'Muertes': '$latest.Deaths'
        }
    }, {
        '$sort': {
            'Muertes': 1
        }
    }, {
        '$match': {
            'Muertes': {
                '$gte': 1
            }
        }
    }, {
        '$limit': 5
    }, {
        '$project': {
            '_id': 1, 
            'Muertes': 1
        }
    }
])

In [24]:
x = list(result)
df = pd.DataFrame(x)
df

Unnamed: 0,_id,Muertes
0,Guatemala,1
1,Honduras,1
2,Spain,1
3,Paraguay,1
4,Philippines,1
