Capstone

In [2]:
import pandas as pd

In [3]:
# Leer los primeros archivos para ver su estructura
file_paths = [
    "producto88/vacunacion_fabricantes_edad_1eraDosis.csv",
    "producto88/vacunacion_fabricantes_edad_1eraDosis_std.csv",
    "producto88/vacunacion_fabricantes_edad_1eraDosis_T.csv",
    "producto88/vacunacion_fabricantes_edad_2daDosis.csv",
    "producto88/vacunacion_fabricantes_edad_2daDosis_std.csv",
    "producto88/vacunacion_fabricantes_edad_2daDosis_T.csv",
    "producto88/vacunacion_fabricantes_edad_4taDosis.csv",
    "producto88/vacunacion_fabricantes_edad_4taDosis_std.csv",
    "producto88/vacunacion_fabricantes_edad_4taDosis_T.csv"
]

# Visualizar las primeras filas de cada archivo
sample_data = {}
for path in file_paths:
    df = pd.read_csv(path)
    sample_data[path.split("/")[-1]] = df.head()

sample_data


{'vacunacion_fabricantes_edad_1eraDosis.csv':                          Fabricante    3    4       5       6      7      8  \
 0  Campaña SARS-CoV-2 (AstraZeneca)  0.0  0.0     0.0     0.0    0.0    0.0   
 1                           CanSino  0.0  0.0     0.0     0.0    0.0    0.0   
 2      Campaña SARS-CoV-2 (Janssen)  0.0  0.0     0.0     0.0    0.0    0.0   
 3      Campaña SARS-CoV-2 (Moderna)  0.0  0.0     0.0     0.0    0.0    0.0   
 4       Campaña SARS-CoV-2 (Pfizer)  1.0  2.0  1346.0  1372.0  786.0  602.0   
 
        9     10     11  ...  132  133  134  135  136  137  138  139  140  141  
 0    0.0    0.0    0.0  ...  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
 1    0.0    0.0    0.0  ...  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
 2    0.0    0.0    0.0  ...  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
 3    0.0    0.0    0.0  ...  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  
 4  638.0  605.0  707.0  ...  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0

In [4]:
# Función para transformar el archivo original al formato estándar
def transform_to_standard_format(df, dose_type):
    # Melting the dataframe to long format
    melted_df = df.melt(id_vars=["Fabricante"], var_name="Edad", value_name=dose_type)
    melted_df["Edad"] = melted_df["Edad"].astype(int)
    return melted_df

# Transformar los archivos de la 1era dosis
df_1era_original = pd.read_csv("producto88/vacunacion_fabricantes_edad_1eraDosis.csv")
df_1era_transformed = transform_to_standard_format(df_1era_original, "Primera Dosis")

# Los archivos _std ya están en el formato deseado, así que solo leemos y renombramos columnas
df_1era_std = pd.read_csv("producto88/vacunacion_fabricantes_edad_1eraDosis_std.csv")
df_1era_std = df_1era_std.rename(columns={"Primera Dosis": "Primera Dosis (std)"})

# Combinar los datos de la 1era dosis
df_1era_combined = df_1era_transformed.merge(df_1era_std, on=["Fabricante", "Edad"], how="outer")

df_1era_combined.head()


Unnamed: 0,Fabricante,Edad,Primera Dosis,Primera Dosis (std)
0,Campaña SARS-CoV-2 (AstraZeneca),3,0.0,0.0
1,CanSino,3,0.0,0.0
2,Campaña SARS-CoV-2 (Janssen),3,0.0,0.0
3,Campaña SARS-CoV-2 (Moderna),3,0.0,0.0
4,Campaña SARS-CoV-2 (Pfizer),3,1.0,1.0


In [5]:
# Transformar los archivos de la 2da dosis
df_2da_original = pd.read_csv("producto88/vacunacion_fabricantes_edad_2daDosis.csv")
df_2da_transformed = transform_to_standard_format(df_2da_original, "Segunda Dosis")

# Los archivos _std ya están en el formato deseado, así que solo leemos y renombramos columnas
df_2da_std = pd.read_csv("producto88/vacunacion_fabricantes_edad_2daDosis_std.csv")
df_2da_std = df_2da_std.rename(columns={"Segunda Dosis": "Segunda Dosis (std)"})

# Combinar los datos de la 2da dosis
df_2da_combined = df_2da_transformed.merge(df_2da_std, on=["Fabricante", "Edad"], how="outer")

# Transformar los archivos de la 4ta dosis
df_4ta_original = pd.read_csv("producto88/vacunacion_fabricantes_edad_4taDosis.csv")
df_4ta_transformed = transform_to_standard_format(df_4ta_original, "Cuarta Dosis")

# Los archivos _std ya están en el formato deseado, así que solo leemos y renombramos columnas
df_4ta_std = pd.read_csv("producto88/vacunacion_fabricantes_edad_4taDosis_std.csv")
df_4ta_std = df_4ta_std.rename(columns={"Cuarta Dosis": "Cuarta Dosis (std)"})

# Combinar los datos de la 4ta dosis
df_4ta_combined = df_4ta_transformed.merge(df_4ta_std, on=["Fabricante", "Edad"], how="outer")

# Combinar todos los DataFrames en uno solo
combined_df = pd.concat([df_1era_combined, df_2da_combined, df_4ta_combined], axis=1)

# Eliminar columnas duplicadas (Fabricante y Edad se repiten debido a la concatenación)
combined_df = combined_df.loc[:, ~combined_df.columns.duplicated()]

combined_df.head()


Unnamed: 0,Fabricante,Edad,Primera Dosis,Primera Dosis (std),Segunda Dosis,Segunda Dosis (std),Cuarta Dosis,Cuarta Dosis (std)
0,Campaña SARS-CoV-2 (AstraZeneca),3,0.0,0.0,0.0,0.0,0.0,0.0
1,CanSino,3,0.0,0.0,0.0,0.0,0.0,0.0
2,Campaña SARS-CoV-2 (Janssen),3,0.0,0.0,0.0,0.0,0.0,0.0
3,Campaña SARS-CoV-2 (Moderna),3,0.0,0.0,0.0,0.0,0.0,0.0
4,Campaña SARS-CoV-2 (Pfizer),3,1.0,1.0,0.0,0.0,189.0,189.0


In [6]:
# Transformar los archivos de la dosis de refuerzo
df_refuerzo_original = pd.read_csv("producto88/vacunacion_fabricantes_edad_Refuerzo.csv")
df_refuerzo_transformed = transform_to_standard_format(df_refuerzo_original, "Dosis Refuerzo")

# Los archivos _std ya están en el formato deseado, así que solo leemos y renombramos columnas
df_refuerzo_std = pd.read_csv("producto88/vacunacion_fabricantes_edad_Refuerzo_std.csv")
df_refuerzo_std = df_refuerzo_std.rename(columns={"Dosis Refuerzo": "Dosis Refuerzo (std)"})

# Combinar los datos de la dosis de refuerzo
df_refuerzo_combined = df_refuerzo_transformed.merge(df_refuerzo_std, on=["Fabricante", "Edad"], how="outer")

# Transformar los archivos de la dosis única
df_unicadosis_original = pd.read_csv("producto88/vacunacion_fabricantes_edad_UnicaDosis.csv")
df_unicadosis_transformed = transform_to_standard_format(df_unicadosis_original, "Dosis Única")

# Los archivos _std ya están en el formato deseado, así que solo leemos y renombramos columnas
df_unicadosis_std = pd.read_csv("producto88/vacunacion_fabricantes_edad_UnicaDosis_std.csv")
df_unicadosis_std = df_unicadosis_std.rename(columns={"Dosis Única": "Dosis Única (std)"})

# Combinar los datos de la dosis única
df_unicadosis_combined = df_unicadosis_transformed.merge(df_unicadosis_std, on=["Fabricante", "Edad"], how="outer")

# Combinar todos los DataFrames en uno solo
final_combined_df = pd.concat([combined_df, df_refuerzo_combined, df_unicadosis_combined], axis=1)

# Eliminar columnas duplicadas (Fabricante y Edad se repiten debido a la concatenación)
final_combined_df = final_combined_df.loc[:, ~final_combined_df.columns.duplicated()]

final_combined_df.head()


Unnamed: 0,Fabricante,Edad,Primera Dosis,Primera Dosis (std),Segunda Dosis,Segunda Dosis (std),Cuarta Dosis,Cuarta Dosis (std),Dosis Refuerzo,Dosis Refuerzo (std),Dosis Única,Unica Dosis
0,Campaña SARS-CoV-2 (AstraZeneca),3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,CanSino,3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,Campaña SARS-CoV-2 (Janssen),3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,Campaña SARS-CoV-2 (Moderna),3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,Campaña SARS-CoV-2 (Pfizer),3,1.0,1.0,0.0,0.0,189.0,189.0,102.0,102.0,0.0,0.0


In [7]:
# Guardar el DataFrame en un archivo CSV
output_path = "Vacunas.csv"
final_combined_df.to_csv(output_path, index=False)

output_path


'vacunas.csv'