In [63]:
import pandas as pd
import numpy as nu
from datetime import datetime

#a. leer el archivo y mostrar la informacion y tamaño del dataframe
full_content = pd.read_csv('country_vaccinations.csv', parse_dates=['date'])
full_content.head()
len(full_content)

#b. Estructura y tipos de datos del dataframe, asegurandose que los campos de fecha sean datetime64[ns]
full_content.dtypes

#daily_vaccinations y daily_vaccinations_raw necesitan cambiar NaN a 0
full_content['daily_vaccinations'] = full_content['daily_vaccinations'].replace(nu.nan, 0)
full_content['daily_vaccinations_raw'] = full_content['daily_vaccinations_raw'].replace(nu.nan, 0)

#c. Cantidad de vacunas aplicadas de cada compañia
#la pregunta es ambigua porque no especifica que columna debe sumarse por cada grupo
#la cifra mas adecuada es daily vaccinations la cual sera usada en adelante
full_content[['vaccines','daily_vaccinations']].groupby(['vaccines']).sum(numeric_only = True)

#d. total de vacunas aplicadas en todo el mundo
full_content[['daily_vaccinations']].sum(numeric_only = True)

#e. promedio de vacunas aplicadas por pais
full_content[['country','daily_vaccinations']].groupby('country').mean()

#f. cantidad de vacunas aplicadas el 29/01/21 en todo el mundo
filtered_content = full_content[full_content['date'].dt.strftime('%Y-%m-%d') == '2021-01-29']
filtered_content[['date','daily_vaccinations']].groupby('date').sum(numeric_only = True)

#g. ConDiferencias, daily_vaccinations vs daily_vaccinations_raw
conDiferencias = full_content.copy()
conDiferencias['diferencias'] = conDiferencias['daily_vaccinations'] - conDiferencias['daily_vaccinations_raw']
conDiferencias[['country','daily_vaccinations','daily_vaccinations_raw','diferencias']]

#h. Registro con fecha mas reciente vs registro con fecha mas antigua
min_fecha = full_content['date'].min()
max_fecha = full_content['date'].max()
diferencia = max_fecha - min_fecha

print('fecha reciente: ' + max_fecha.strftime('%Y-%m-%d') + ', fecha antigua: ' + min_fecha.strftime('%Y-%m-%d') + ', diferencia:' + str(diferencia))

#i. cantidad de vacunas utilizadas
conCantidad = full_content.copy()
conCantidad['canVac'] = conCantidad['vaccines'].str.split(',').str.len()
conCantidad[['vaccines','canVac']].head

#j. registros antes del 20 de diciembre 2020
antes20 = full_content[full_content['date'] < datetime.strptime('2020-12-20','%Y-%m-%d')]
antes20['date'].head

#k. solo registros con vacunas pfizer
pfizer =full_content[full_content['vaccines'].str.contains('pfizer', case=False)]

#l. mover a excel

with pd.ExcelWriter('resultadosReto.xlsx') as writer:
    conDiferencias.to_excel(writer, sheet_name = 'con diferencias')
    conCantidad.to_excel(writer, sheet_name = 'con cantidad')
    antes20.to_excel(writer, sheet_name = 'antes 20')
    pfizer.to_excel(writer, sheet_name = 'pfizer')

