# Explorando datos mundiales de COVID-19

In [None]:
import pandas as pd

### Preparación de datos (1.5pt)

1. Explore el archivo covid19_confirmados.csv y configure la función read_csv de pandas para importarlo como un DataFrame.
    - Utilice el nombre de país como índice principal
    - Elimine las columnas Lat y Long
    - Use TimeStamps para los "nombres de columna" asociados a fechas
    - Reduzca la columna Province/State, el DataFrame resultante debe tener los totales a nivel país

In [None]:
# Importa utilizando 'Country/Region' como índice
df_confirmados = pd.read_csv('./data/covid19_confirmados.csv',index_col='Country/Region')

# Elimina columnas Lat, Long y Province/State
df_confirmados = df_confirmados.drop(['Lat','Long','Province/State'],axis=1)

# Convierte nombre de columnas a datetime64
df_confirmados.columns = pd.to_datetime(df_confirmados.columns).tolist()

# Compacta las filas del mismo país en una y suma sus valores
df_confirmados = df_confirmados.groupby("Country/Region").sum()

In [None]:
# Verificamos tipo de nombres de columna
df_confirmados.columns[0]

In [None]:
# Verificamos dataset
df_confirmados.head(5)

2. Explore el archivo population_by_country_2020.csv y configure la función read_csv de pandas para importarlo como un DataFrame.
    - Utilice el nombre de país como índice principal. Algunos siglas o nombres podrían no calzar con el DataFrame anterior, modifíquelos manualmente o usando pandas.

In [None]:
# Importamos dataset utilizando 'Country (or dependency)' como índice principal
df_population = pd.read_csv('./data/population_by_country_2020.csv',usecols=['Country (or dependency)','Population (2020)'],index_col='Country (or dependency)')

# Cambio de algunos símbolos
symbolChanges = [
    ['&', 'and'],
    ['St.', 'Saint'],
    ['ô', 'o']
]
for change in symbolChanges:
    df_population.index = [country.replace(change[0], change[1]) for country in df_population.index]


# Cambiamos valores específicos
fullChanges = [
    ['US','United States'],
    ['Burma','Myanmar'],
    ['Korea, South','South Korea'],
    ['Taiwan*','Taiwan'],
    ['Congo (Kinshasa)','DR Congo'],
    ['Congo (Brazzaville)','Congo'],
    ['Czechia','Czech Republic (Czechia)'],
    ['Saint Vincent and the Grenadines','Saint Vincent and Grenadines']
]

for change in fullChanges:  
    df_population.index = [change[0] if country == change[1] else country for country in df_population.index]


# Incluimos sectores dentro de otros ( sumando población )
includeChanges = [
    ['France','Wallis and Futuna'],
    ['France','New Caledonia'],
    ['France','French Guiana'],
    ['France','French Polynesia'],
    ['France','Guadeloupe'],
    ['France','Martinique'],
    ['France','Mayotte'],
    ['France','Réunion'],
    ['France','Saint Barthelemy'],
    ['France','Saint Pierre and Miquelon'],
    ['Denmark','Faeroe Islands'],
    ['Denmark','Greenland'],
    ['US','American Samoa'],
    ['US','Guam'],
    ['US','Northern Mariana Islands'],
    ['US','Puerto Rico'],
    ['US','U.S. Virgin Islands'],
    ['Israel','State of Palestine'],
    ['United Kingdom','Falkland Islands'],
    ['United Kingdom','Anguilla'],
    ['United Kingdom','Bermuda'],
    ['United Kingdom','British Virgin Islands'],
    ['United Kingdom','Cayman Islands'],
    ['United Kingdom','Channel Islands'],
    ['United Kingdom','Gibraltar'],
    ['United Kingdom','Isle of Man'],
    ['United Kingdom','Montserrat'],
    ['United Kingdom','Saint Helena'],
    ['United Kingdom','Turks and Caicos'],
    ['Netherlands','Aruba'],
    ['Netherlands','Caribbean Netherlands'],
    ['Netherlands','Curaçao'],
    ['Netherlands','Sint Maarten'],
    ['New Zealand','Cook Islands'],
    ['New Zealand','Niue'],
    ['New Zealand','Tokelau'],
    ['China','Hong Kong'],
    ['China','Macao'],
    ['Micronesia','Nauru'],
    ['Micronesia','Palau'],
    ['Morocco','Western Sahara']
    
]

for change in includeChanges:  
    df_population.index = [change[0] if country == change[1] else country for country in df_population.index]

# Suma población de lugares unidos
df_population = df_population.groupby(df_population.index).sum()

df_population.head(5)

3. Haga un merge de los DataFrame anteriores. El objetivo es asignar un valor de Population a cada elemento del primer DataFrame. Indique las filas donde no se puede realizar el merge y luego descártelas de su DataFrame final

In [None]:
# Elimina lugares en df de población
removePop = ['Kiribati', 'North Korea', 'Saint Martin', 'Tonga', 'Turkmenistan', 'Tuvalu']
df_population = df_population.drop(removePop,axis=0).sort_index()
df_population.head(5)

In [None]:
# Elimina lugares en df de confirmados
removeCon = ['Diamond Princess', 'Kosovo', 'MS Zaandam', 'West Bank and Gaza']
df_confirmados = df_confirmados.drop(removeCon,axis=0).sort_index()
df_confirmados.head(5)

In [None]:
# Incluye la población al df de confirmados
df_confirmados.insert(0, 'Population', df_population['Population (2020)'])
df_confirmados.head(5)

4. Repita el procedimiento anterior para los archivos covid19_recuperados.csv y covid19_muertes.csv

In [None]:
# Importamos datasets
df_recuperados = pd.read_csv('./data/covid19_recuperados.csv',index_col='Country/Region')
df_muertes = pd.read_csv('./data/covid19_decesos.csv',index_col='Country/Region')

# Elimina columnas Lat, Long y Province/State
df_recuperados = df_recuperados.drop(['Lat','Long','Province/State'],axis=1)
df_muertes = df_muertes.drop(['Lat','Long','Province/State'],axis=1)

# Convierte nombre de columnas a datetime64
df_recuperados.columns = pd.to_datetime(df_recuperados.columns).tolist()
df_muertes.columns = pd.to_datetime(df_muertes.columns).tolist()

# Compacta las filas del mismo país en una y suma sus valores
df_recuperados = df_recuperados.groupby("Country/Region").sum()
df_muertes = df_muertes.groupby("Country/Region").sum()

# Elimina Filas Confilctivas
df_recuperados = df_recuperados.drop(removeCon,axis=0).sort_index()
df_muertes = df_muertes.drop(removeCon,axis=0).sort_index()

# Incluye la población
df_recuperados.insert(0, 'Population', df_population['Population (2020)'])
df_muertes.insert(0, 'Population', df_population['Population (2020)'])

In [None]:
# Verifica recuperados
df_recuperados.head(5)

In [None]:
# Verifica muertes
df_muertes.head(5)

In [None]:
# Verifica índices

In [None]:
# Ignorarrrr v v v v v

In [None]:
# Unir Wallis and Futuna con Francia ???
# Unir New Caledonia con Francia ???
# Unir French Guiana con Francia ???
# Unir French Polynesia con Francia ???
# Unir Guadeloupe con Francia ???
# Unir Martinique con Francia ???
# Unir Mayotte con Francia ???
# Unir Réunion con Francia ???
# Unir Saint Barthelemy con Francia ???
# Unir Saint Pierre and Miquelon con Francia ???
# Unir Faeroe Islands con Dinamarca ???
# Unir Greenland con Dinamarca ???
# Unir American Samoa con USA ???
# Unir Guam con USA ???
# Unir Northern Mariana Islands con USA ???
# Unir Puerto Rico con USA ???
# Unir U.S. Virgin Islands con USA ???
# Unir palestina con isrrael ???
# Unir Falkland Islands (malvinas) con UK ???
# Unir Anguilla con UK ???
# Unir Bermudas con UK ???
# Unir British Virgin Islands con UK ???
# Unir Cayman Island con UK ???
# Unir Channel Islands con UK ???????????????????????????????????????
# Unir Gibraltar con UK ???
# Unir Isle of Man con UK ???
# Unir Montserrat con UK ???
# Unir Saint Helena con UK ???
# Unir Turks and Caicos con UK ???
# Unir Aruba con paises bajos ???
# Unir Caribbean Netherlands con paises bajos ???
# Unir Curaçao con paises bajos ???
# Unir Sint Maarten con Paises Bajos ???
# Unir Cook Islands con Nueva Zelanda ???
# Unir Niue con Nueva Zelanda ???
# Unir Tokelau con Nueva Zelanda ???
# Unir Hong Kong con China ???
# Unir Macao con China ???
# Unir Nauru con Micronesia ???
# Unir Palau con Micronesia ???
# Unir Western Sahara con Morocco ???

# Saint Martin unir con Francia o Paises Bajos ???

# Descartar Kiribati ??
# Descartar North Korea ??
# Descartar Tonga ??
# Descartar Turkmenistan ??
# Descartar Tuvalu ??
# Descartar Palau o añadir a Micronesia ??

In [None]:
ind2 = df_population.index
ind1 = df_recuperados.index
notF = []
partF = []
for ind in ind1:
    if ind not in ind2:
        notF.append(ind)
        
for c in notF:
    wds = c.split(' ')
    for a in ind1:
        for w in wds:
            if w in a:
                partF.append([c,a])
                
notF

In [None]:
for country in df_confirmados.index:
    if country[0] == 'M':
        print(country)

In [None]:
#df_confirmados.head(400)[0:20]
#df_confirmados.dtypes
df_confirmados.columns
