In [37]:
import csv
import pandas as pd

def leer_csv(ruta_archivo):
    try:
        with open(ruta_archivo, 'r', newline='') as archivo_csv:
            lector_csv = csv.DictReader(archivo_csv)
            return list(lector_csv)
    except FileNotFoundError:
        print("El archivo no fue encontrado.")
        return None

########################################################################################

# Ruta del CSV en Drive
ruta_archivo_csv = '/content/drive/MyDrive/Colab Notebooks/DataSets/country_vaccinations.csv'

# A) Cargar el archivo CSV en un DataFrame
df = pd.read_csv(ruta_archivo_csv)

# B) Mostrar la estructura de la tabla y los tipos de datos y convertir columna "date" en tipo datetime64
print(df.info())
df['date'] = pd.to_datetime(df['date'])
#Verificacmos que haya cambiado de type
print(df.info())

# C) Agrupación por vacunas y sumatoria
vaccinesTypeGroup = df['vaccines'].value_counts()
print(vaccinesTypeGroup)
#Para mejor visualización del print, se exporta en csv
#vaccinesTypeGroup.to_csv('/content/drive/MyDrive/Colab Notebooks/DataSets/vaccinesTypeGroup.csv')

# D) Agrupación por vacunas en tdo el mundo
vaccinesTotales = df['total_vaccinations'].sum()
print(vaccinesTotales)

# E) Calcular el promedio de vacunas por pais
vaccinesAvgCountry = df.groupby('country')['total_vaccinations'].mean()
# Para que no muestre resultados en notación científica
pd.set_option('display.float_format', lambda x: '%.2f' % x)
print(vaccinesAvgCountry)

# F) Determinar la cantidad de vacunas aplicadas el día 29/01/21 en todo el mundo.
searchDate = '29/01/2021'
avgDate = df[df['date'] == searchDate]['total_vaccinations'].mean()
print("El promedio de vacunas para la fecha", searchDate, "es:", avgDate)

# G) Crear un dataframe nuevo denominado conDiferencias que contenga los datos originales
# y una columna derivada (diferencias) con las diferencias de aplicación entre las columnas daily_vaccionations y daily_vaccionations_raw
df_conDiferencias  = df[['daily_vaccinations_raw', 'daily_vaccinations']].copy()
df_conDiferencias ['diferencia'] = df['daily_vaccinations'] - df['daily_vaccinations_raw']
print(df_conDiferencias )

# H) Obtener el periodo de tiempo entre el registro con fecha más reciente y el registro con fecha más antigua.
oldDate = df['date'].min()
recentDate = df['date'].max()
dateDif = recentDate - oldDate
print(dateDif)

# I) Crear un dataframe nuevo denominado conCantidad que contenga los datos originales
#y una columna derivada (canVac) con la cantidad de vacunas utilizadas cada día (usar la columna vaccines y separar por el carácter , ).
df_conCantidad = df[['date', 'vaccines']].copy()
df_conCantidad['vaccines'] = df_conCantidad['vaccines'].str.split(',')
df_conCantidad['canVac'] = df_conCantidad['vaccines'].apply(len)
print(df_conCantidad)


# J) Generar un dataframe denominado antes20 con todos los registros que se hayan realizado antes del 20 de diciembre de 2020.
df_antes20 = df[df['date'] < '20/12/2020']
cantidad_antes20 = len(df_antes20)
print("La cantidad de registros antes del 20/12/2020 es:", cantidad_antes20)

# K) Obtener un dataframe denominado pfizer con todos los registros donde se haya utilizado la vacuna Pfizer
df_Pzifer = df[df['vaccines'].str.contains('Pfizer/BioNTech', case=False)]
print(df_Pzifer)

# L) Almacenar los dataframes generados (conDiferencias, conCantidad, antes20 y pfizer)
# en un archivo de Excel denominado resultadosReto.xlsx, donde cada dataframe ocupe una hoja diferente.
with pd.ExcelWriter('/content/drive/MyDrive/Colab Notebooks/DataSets/resultadosReto.xlsx') as writer:
    df_conDiferencias.to_excel(writer, sheet_name='conDiferencias', index=False)
    df_conCantidad.to_excel(writer, sheet_name='conCantidad', index=False)
    df_antes20.to_excel(writer, sheet_name='antes20', index=False)
    df_Pzifer.to_excel(writer, sheet_name='pfizer', index=False)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86512 entries, 0 to 86511
Data columns (total 15 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   country                              86512 non-null  object 
 1   iso_code                             86512 non-null  object 
 2   date                                 86512 non-null  object 
 3   total_vaccinations                   43607 non-null  float64
 4   people_vaccinated                    41294 non-null  float64
 5   people_fully_vaccinated              38802 non-null  float64
 6   daily_vaccinations_raw               35362 non-null  float64
 7   daily_vaccinations                   86213 non-null  float64
 8   total_vaccinations_per_hundred       43607 non-null  float64
 9   people_vaccinated_per_hundred        41294 non-null  float64
 10  people_fully_vaccinated_per_hundred  38802 non-null  float64
 11  daily_vaccinations_per_milli