## a. extraer la información del arcivo

In [65]:
import pandas as pd

# extraer los datos
country_vaccinations = pd.read_csv('country_vaccinations.csv')

## b. mostrar la estructura y tipos de dato en cada columna

In [66]:
# revision de estructura de datos
country_vaccinations['date'] = pd.to_datetime(country_vaccinations['date'])
int_columns = [
    'total_vaccinations',
    'people_vaccinated',
    'people_fully_vaccinated',
    'daily_vaccinations_raw',
    'daily_vaccinations',
]

for col in int_columns:
    country_vaccinations[col] = country_vaccinations[col].astype('Int64')

for col in country_vaccinations.columns:
    print(f"{col}: {country_vaccinations[col].dtype}")

country: object
iso_code: object
date: datetime64[ns]
total_vaccinations: Int64
people_vaccinated: Int64
people_fully_vaccinated: Int64
daily_vaccinations_raw: Int64
daily_vaccinations: Int64
total_vaccinations_per_hundred: float64
people_vaccinated_per_hundred: float64
people_fully_vaccinated_per_hundred: float64
daily_vaccinations_per_million: float64
vaccines: object
source_name: object
source_website: object


## c. Cantidad de vacunas por cada compañia

In [67]:
#variable que suma la cantidad de vacunas aplicadas por cada compañia

vaccines_sum = (
    country_vaccinations
    .assign(vaccine=country_vaccinations["vaccines"].str.split(", "))
    .explode("vaccine")
    .groupby("vaccine")["total_vaccinations"]
    .sum()
    .sort_values(ascending=False)
)

print("cantidad de vacunas aplicadas por cada compañia", vaccines_sum.apply(lambda x: f"{x:,.0f}"))

cantidad de vacunas aplicadas por cada compañia vaccine
Oxford/AstraZeneca    1,037,662,957,161
Sinovac               1,035,083,863,563
Sinopharm/Beijing       946,012,065,121
Pfizer/BioNTech         905,599,547,886
CanSino                 803,579,688,743
Sinopharm/Wuhan         714,921,701,786
ZF2001                  712,264,589,919
Moderna                 699,246,982,558
Johnson&Johnson         584,664,753,161
Sputnik V               499,130,713,958
Covaxin                 351,975,295,619
Novavax                 144,353,112,428
Turkovac                 33,923,100,933
EpiVacCorona             28,399,776,405
Abdala                   24,920,956,419
Soberana02               17,701,253,753
Sputnik Light            13,450,291,156
SpikoGen                 10,694,796,486
COVIran Barekat          10,694,796,486
FAKHRAVAC                10,694,796,486
Razi Cov Pars            10,694,796,486
Soberana Plus             6,405,165,573
Medigen                   5,591,280,901
QazVac                  

## d. obtener la candidad de vacunas aplicadas en todo el mundo

In [68]:


total_vaccines = country_vaccinations["total_vaccinations"].sum()
print("el total de vacunas aplicadas en el mundo ha sido: "f"{total_vaccines:,.0f}")
#

el total de vacunas aplicadas en el mundo ha sido: 2,002,854,013,761


## e. calcular el promedio de vacunas aplicadas por país

In [69]:
vacunas_por_pais = (
    country_vaccinations
    .groupby("country")["total_vaccinations"]
    .sum()
)

promedio_vacunas = vacunas_por_pais.mean()

print("El promedio de vacunas aplicadas por país es:", f"{promedio_vacunas:,.0f}")


El promedio de vacunas aplicadas por país es: 8,981,408,133


## f. cantidad de vacunas aplicadas en 29/01/21

In [70]:
vacunas_29_de_enero_21 = country_vaccinations[country_vaccinations["date"] == "2021-01-29"]
total_vacunas_29_enero_21 = vacunas_29_de_enero_21["total_vaccinations"].sum()
print("La cantidad de vacunas aplicadas en 29/01/21 es:", f"{total_vacunas_29_enero_21:,.0f}")
#

La cantidad de vacunas aplicadas en 29/01/21 es: 82,952,931


## g. dataframe nuevo; condiferencias

In [71]:
#crear copia de dataframe

conDiferencias = country_vaccinations.copy()

conDiferencias["vaccines_dif"] = conDiferencias["daily_vaccinations_raw"] - conDiferencias["daily_vaccinations"]
print(conDiferencias["vaccines_dif"].sum())


159242255


## i. obtener la diferencia de tiempo entre el archivo más reciente y el más antiguo (desde la base original)

In [72]:
fecha_min = country_vaccinations["date"].min()
fecha_max = country_vaccinations["date"].max()

print("La diferencia de tiempo entre el archivo más reciente y el más antiguo es:", fecha_max - fecha_min)
#

La diferencia de tiempo entre el archivo más reciente y el más antiguo es: 482 days 00:00:00


## j.generación de dataframe antes20

In [73]:
antes20 = country_vaccinations[country_vaccinations["date"] < "2020-12-20"].copy()
print("la base antes20 tiene", antes20.shape[0], "filas")

la base antes20 tiene 70 filas


## k. obtener registros de vacuna pfizer

In [74]:
pfizer = country_vaccinations[country_vaccinations["vaccines"].str.contains("Pfizer")]
print("la base pfizer tiene", pfizer.shape[0], "filas")
#

la base pfizer tiene 64193 filas


In [76]:
!pip install openpyxl



## l. pd.excelwriter

In [78]:
with pd.ExcelWriter("resultadosReto.xlsx", engine="openpyxl") as writer:
    antes20.to_excel(writer, sheet_name="Antes_20Dic2020", index=False)
    conDiferencias.to_excel(writer, sheet_name="Diferencias", index=False)
    pfizer.to_excel(writer, sheet_name="Pfizer", index=False)

In [80]:
from google.colab import files
files.download("resultadosReto.xlsx")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>