# PROYECTO INTEGRADOR

## Avance 01

In [None]:
import pandas as pd
import numpy as np

In [None]:
#importacion al archivo csv
archivo_data_latinoamerica="C:/Users/asantiago/Desktop/data_latinoamerica.csv"

df_data_latinoamerica=pd.read_csv(archivo_data_latinoamerica)


In [None]:
#filtrado por paises solicitados
paises_seleccionados=['Colombia','Argentina','Chile','Mexico','Peru','Brazil']
df_data_latinoamerica_f1=df_data_latinoamerica[df_data_latinoamerica['country_name'].isin(paises_seleccionados)]

In [None]:
df_data_latinoamerica_f1.head()

In [None]:
#filtrado por fechas solicitadas ('> 2021-01-01')
df_data_latinoamerica_f1['date']=pd.to_datetime(df_data_latinoamerica_f1['date'])
df_data_latinoamerica_f2=df_data_latinoamerica_f1[df_data_latinoamerica_f1['date'] > '2021-01-01']

In [None]:
df_data_latinoamerica_f2.head()

In [None]:
# revision de datos en columnas vacias
columnas_vacias = df_data_latinoamerica_f2.columns[df_data_latinoamerica_f2.isna().all()]
print("Columnas vacías:", columnas_vacias.tolist())


In [None]:
#cantidad de registros por columa que estan vacios
df_data_latinoamerica_f2.isna().sum().sort_values(ascending=False)


In [None]:
#verificacion de porcentajes de datos nulos para limpieza
porcentaje_nulos = df_data_latinoamerica_f2.isnull().mean() * 100
print(porcentaje_nulos.sort_values(ascending=False))

In [None]:
#limpieza y eliminacion de columnas con mas de un 90% de filas en NaN
limite_nulos = 0.97
df_data_latinoamerica_f2 = df_data_latinoamerica_f2.loc[:, df_data_latinoamerica_f2.isnull().mean() < limite_nulos]


In [None]:
# revision de NaN en columnas nuevamente para asegurar que se haya ejecutado bien la limpieza
porcentaje_nulos = df_data_latinoamerica_f2.isnull().mean() * 100
print(porcentaje_nulos.sort_values(ascending=False))

In [None]:
# llenado de filas con NaN en columnas que tengas datos de tipo numericos, esto sera hecho con la media
columnas_a_rellenar=['cumulative_deceased',
'cumulative_confirmed',
'new_deceased',
'new_confirmed',
'area_sq_km',
'population_age_00_09',
'population_age_60_69',
'population_age_70_79',
'population_age_20_29',
'population_age_30_39',
'population_age_10_19',
'population_age_50_59',
'population_age_80_and_older',
'population_age_40_49',
'population_male',
'population_female',
'rainfall_mm',
'population',
'relative_humidity',
'minimum_temperature_celsius',
'maximum_temperature_celsius',
'average_temperature_celsius',
'latitude',
'longitude',
'cumulative_recovered',
'new_recovered',
'human_development_index',
'cumulative_vaccine_doses_administered']

In [None]:
#correcion de nulos para las las columnas con un porcentaje menor al 90%
df_data_latinoamerica_f2[columnas_a_rellenar] = df_data_latinoamerica_f2[columnas_a_rellenar].fillna(
    df_data_latinoamerica_f2[columnas_a_rellenar].mean()
)


In [None]:
#revision de nulos nuevamente
porcentaje_nulos = df_data_latinoamerica_f2.isnull().mean() * 100
print(porcentaje_nulos.sort_values(ascending=False))

In [None]:
df_data_latinoamerica_f2.dtypes

In [None]:
# Seleccionar solo columnas numéricas
columnas_numericas = df_data_latinoamerica_f2.select_dtypes(include='number').columns

# Contar valores negativos en cada columna numérica
valores_negativos = (df_data_latinoamerica_f2[columnas_numericas] < 0).sum()

# Filtrar solo las columnas que tienen al menos un valor negativo
valores_negativos = valores_negativos[valores_negativos > 0]

print("🔎 Columnas con valores negativos:")
print(valores_negativos)


In [None]:
#codigo para corregir valores negativos donde no deberia haberlos
df_data_latinoamerica_f2['new_confirmed'] = df_data_latinoamerica_f2['new_confirmed'].abs()
df_data_latinoamerica_f2['new_deceased'] = df_data_latinoamerica_f2['new_deceased'].abs()
df_data_latinoamerica_f2['new_recovered']= df_data_latinoamerica_f2['new_recovered'].abs()


In [None]:
#calculo de metricas en general
columnas_a_analizar=['new_confirmed',
'new_deceased',
'new_recovered',
'population',
'area_sq_km',
'cumulative_confirmed',
'cumulative_deceased',
'human_development_index',
'cumulative_recovered',
'population_male',
'population_female',
'cumulative_vaccine_doses_administered']
for col in columnas_a_analizar:
    serie = df_data_latinoamerica_f2[col]
    
    media = serie.mean()
    mediana = serie.median()
    desviacion = serie.std()
    varianza = serie.var()
    minimo = serie.min()
    maximo = serie.max()
    rango = maximo - minimo
    p25 = serie.quantile(0.25)
    p75 = serie.quantile(0.75)

    print(f"📊 Estadísticas para '{col}':")
    print(f"  - Media: {media:,.2f}")
    print(f"  - Mediana: {mediana:,.2f}")
    print(f"  - Desviación estándar: {desviacion:,.2f}")
    print(f"  - Varianza: {varianza:,.2f}")
    print(f"  - Mínimo: {minimo:,.2f}")
    print(f"  - Máximo: {maximo:,.2f}")
    print(f"  - Rango (Máx - Mín): {rango:,.2f}")
    print(f"  - Percentil 25%: {p25:,.2f}")
    print(f"  - Percentil 75%: {p75:,.2f}")
    print("-" * 60)



In [None]:
#calculo de mertricas filtrado por cada pais
for pais, grupo in df_data_latinoamerica_f2.groupby('country_name'):
    print(f"\n📍 Estadísticas para {pais}:\n")
    for columna in columnas_a_analizar:
        datos = grupo[columna]
        media = datos.mean()
        mediana = datos.median()
        desviacion = datos.std()
        varianza = datos.var()
        minimo = datos.min()
        maximo = datos.max()
        rango = maximo - minimo
        p25 = datos.quantile(0.25)
        p75 = datos.quantile(0.75)

        print(f"📊 {columna}:")
        print(f"  - Media: {media:,.2f}")
        print(f"  - Mediana: {mediana:,.2f}")
        print(f"  - Desviación estándar: {desviacion:,.2f}")
        print(f"  - Varianza: {varianza:,.2f}")
        print(f"  - Mínimo: {minimo:,.2f}")
        print(f"  - Máximo: {maximo:,.2f}")
        print(f"  - Rango: {rango:,.2f}")
        print(f"  - Percentil 25%: {p25:,.2f}")
        print(f"  - Percentil 75%: {p75:,.2f}")
        print("------------------------------------------------------------")


In [None]:
#calculo de metricas con los datos antes extraidos

# Datos de los países
data = {
    'pais': ['Argentina', 'Brazil', 'Chile', 'Colombia', 'Mexico', 'Peru'],
    'new_confirmed': [84.60, 102.80, 68.50, 74.84, 68.60, 75.37],
    'new_deceased': [1.07, 1.65, 1.44, 1.46, 1.50, 0.84],
    'population': [239421.57, 145239.69, 187172.09, 133588.20, 46368.04, 33300.00],
    'area_sq_km': [15850.69, 5749.70, 6206.32, 4951.50, 2116.63, 3281.90],
    'cumulative_confirmed': [33517.52, 32229.92, 26516.94, 25765.33, 24839.63, 15585.02],
    'cumulative_deceased': [693.03, 819.78, 794.18, 817.78, 899.59, 558.84],
    'cumulative_recovered': [16600.00, 15890.00, 16000.00, 14000.00, 18000.00, 13000.00],
    'population_male': [117000.00, 74000.00, 93000.00, 67000.00, 57000.00, 16000.00],
    'population_female': [122000.00, 71000.00, 94000.00, 67000.00, 64000.00, 17000.00]
}

# Crear DataFrame
df_metricas = pd.DataFrame(data)

# Calcular las métricas
df_metricas['Tasa Recuperación (%)'] = (df_metricas['cumulative_recovered'] / df_metricas['cumulative_confirmed']) * 100
df_metricas['Tasa Incidencia Casos Nuevos (por 100k)'] = (df_metricas['new_confirmed'] / df_metricas['population']) * 100000
df_metricas['Tasa Mortalidad por 100k'] = (df_metricas['new_deceased'] / df_metricas['population']) * 100000
df_metricas['Proporción Hombres/Mujeres'] = df_metricas['population_male'] / df_metricas['population_female']
df_metricas['Casos Activos'] = df_metricas['cumulative_confirmed'] - (df_metricas['cumulative_recovered'] + df_metricas['cumulative_deceased'])
df_metricas['Tasa Mortalidad Diaria (por 100k)'] = (df_metricas['new_deceased'] / df_metricas['population']) * 100000
df_metricas['Relación Nuevos Recuperados / Nuevos Confirmados'] = df_metricas['cumulative_recovered'] / df_metricas['new_confirmed']
df_metricas['Tasa de Confirmación (%)'] = (df_metricas['new_confirmed'] / df_metricas['population']) * 100

# Mostrar el DataFrame con las métricas calculadas
print(df_metricas[['pais', 'Tasa Recuperación (%)', 'Tasa Incidencia Casos Nuevos (por 100k)', 
          'Tasa Mortalidad por 100k', 'Proporción Hombres/Mujeres', 'Casos Activos', 
          'Tasa Mortalidad Diaria (por 100k)', 'Relación Nuevos Recuperados / Nuevos Confirmados', 
          'Tasa de Confirmación (%)']])


In [None]:
print(df_data_latinoamerica_f2.head())

In [None]:
#guardado de archivo de con limpieza
df_data_latinoamerica_f2.to_csv('data_latinoamerica_modificada2.csv',index=False)

In [23]:
df_data_latinoamerica_f2[['location_key', 'cumulative_vaccine_doses_administered']].to_csv('data_latinoamerica_3.csv', index=False)


## Avance 02


In [None]:
# importacion de librerias 
import matplotlib.pyplot as plt
import seaborn as sns 

In [None]:
# Configuración general
sns.set(style="whitegrid", palette="pastel")
plt.figure(figsize=(14, 6))

# Gráfico de barras para la Tasa de Recuperación
sns.barplot(x='pais', y='Tasa Recuperación (%)', data=df_metricas)
plt.title('Tasa de Recuperación (%) por País')
plt.ylabel('Tasa de Recuperación (%)')
plt.xlabel('País')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
df_numeric = df_metricas.select_dtypes(include=['float64', 'int64'])

# Calculamos la matriz de correlación solo con las columnas numéricas
correlation_matrix = df_numeric.corr()

# Creamos una máscara para filtrar valores menores a 0.5
mask = correlation_matrix > 0.5

# Aplicamos la máscara a la matriz de correlación
filtered_matrix = correlation_matrix[mask]

# Configuramos el gráfico
plt.figure(figsize=(10, 8))
sns.heatmap(filtered_matrix, annot=True, cmap='coolwarm', mask=filtered_matrix.isnull(), cbar_kws={"shrink": 0.75})

# Mostramos el gráfico
plt.title('Matriz de Correlación Filtrada (valores > 0.5)')
plt.show()

In [None]:
columns_with_changes = df_metricas.columns[df_metricas.nunique() > 1]

# Generamos un histograma para cada columna que tenga cambios de valores
plt.figure(figsize=(12, 10))
for i, col in enumerate(columns_with_changes):
    plt.subplot(len(columns_with_changes)//3 + 1, 3, i+1)  # Disposición de subgráficos
    df_metricas[col].hist(bins=20, color='skyblue', edgecolor='black')
    plt.title(f'Histograma de {col}')
    plt.xlabel(col)
    plt.ylabel('Frecuencia')

plt.tight_layout()  # Ajusta la disposición para que no se solapen los subgráficos
plt.show()

In [None]:
plt.figure(figsize=(8, 6))


plt.scatter(df_data_latinoamerica_f2['average_temperature_celsius'], df_data_latinoamerica_f2['cumulative_confirmed'], color='blue', alpha=0.6)


plt.title('Diagrama de Dispersión: Temperatura Media vs Casos Confirmados Acumulados')
plt.xlabel('Temperatura Media (°C)')
plt.ylabel('Casos Confirmados Acumulados')

plt.show()

In [None]:
plt.figure(figsize=(8, 6))


plt.scatter(df_data_latinoamerica_f2['average_temperature_celsius'], df_data_latinoamerica_f2['cumulative_deceased'], color='red', alpha=0.6)


plt.title('Diagrama de Dispersión: Temperatura Media vs Muertes Confirmados Acumuladas')
plt.xlabel('Temperatura Media (°C)')
plt.ylabel('Muertes Confirmadas Acumuladas')

plt.show()

In [None]:
df_data_latinoamerica_f2['month'] = df_data_latinoamerica_f2['date'].dt.to_period('M')

# Agrupamos por país y mes, sumando las muertes
deaths_by_month = df_data_latinoamerica_f2.groupby(['country_name', 'month'])['cumulative_deceased'].sum().unstack()

# Graficamos las muertes por mes para cada país
plt.figure(figsize=(12, 8))
deaths_by_month.plot(kind='line', marker='o', figsize=(12, 8), colormap='tab10')

# Título y etiquetas
plt.title('Muertes por Mes de Cada País')
plt.xlabel('Mes')
plt.ylabel('Muertes Totales')
plt.legend(title='País', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar gráfico
plt.tight_layout()
plt.show()


In [None]:
df_data_latinoamerica_f2['month'] = df_data_latinoamerica_f2['date'].dt.to_period('M')

confirmed_by_month = df_data_latinoamerica_f2.groupby(['country_name', 'month'])['cumulative_confirmed'].sum().unstack()

plt.figure(figsize=(12, 8))
confirmed_by_month.plot(kind='line', marker='o', figsize=(12, 8), colormap='tab10')

# Título y etiquetas
plt.title('Confirmados por Mes de Cada País')
plt.xlabel('Mes')
plt.ylabel('Confirmados Totales')
plt.legend(title='País', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar gráfico
plt.tight_layout()
plt.show()

In [None]:
df_data_latinoamerica_f2['month'] = df_data_latinoamerica_f2['date'].dt.to_period('M')

recovered_by_month = df_data_latinoamerica_f2.groupby(['country_name', 'month'])['cumulative_recovered'].sum().unstack()

plt.figure(figsize=(12, 8))
recovered_by_month.plot(kind='line', marker='o', figsize=(12, 8), colormap='tab10')

# Título y etiquetas
plt.title('Recuperados por Mes de Cada País')
plt.xlabel('Mes')
plt.ylabel('Recuperados Totales')
plt.legend(title='País', bbox_to_anchor=(1.05, 1), loc='upper left')

# Mostrar gráfico
plt.tight_layout()
plt.show()

In [None]:
new_cases_by_country = df_data_latinoamerica_f2.groupby('country_name')['new_confirmed'].sum()

# Graficamos la comparación de casos nuevos entre países
plt.figure(figsize=(12, 8))
new_cases_by_country.sort_values(ascending=False).plot(kind='bar', color='skyblue', edgecolor='black')

# Título y etiquetas
plt.title('Comparación del Número de Casos Nuevos entre Países')
plt.xlabel('País')
plt.ylabel('Casos Nuevos Totales')
plt.xticks(rotation=45)  # Rota las etiquetas del eje X si es necesario

# Mostrar gráfico
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(12, 8))

# Creamos el boxplot
sns.boxplot(x='country_name', y='average_temperature_celsius', data=df_data_latinoamerica_f2, palette='Set2')

# Título y etiquetas
plt.title('Boxplot de Temperatura Media de Cada País')
plt.xlabel('País')
plt.ylabel('Temperatura Media (°C)')
plt.xticks(rotation=45)  # Rota las etiquetas del eje X si es necesario

# Mostrar gráfico
plt.tight_layout()
plt.show()

In [None]:
df = df_metricas.copy()

# Calculamos tasas estimadas por sexo
df['female_mortality_rate_est'] = df['Tasa Mortalidad por 100k'] / (1 + df['Proporción Hombres/Mujeres'])
df['male_mortality_rate_est'] = df['Tasa Mortalidad por 100k'] - df['female_mortality_rate_est']

# Preparamos el DataFrame para graficar
df_plot = df[['pais', 'male_mortality_rate_est', 'female_mortality_rate_est']].set_index('pais')

# Gráfico de barras apiladas
plt.figure(figsize=(12, 8))
df_plot.plot(kind='bar', stacked=True, color=['steelblue', 'lightcoral'], edgecolor='black')

# Título y etiquetas
plt.title('Comparación Estimada de Tasa de Mortalidad Masculina vs. Femenina por País')
plt.xlabel('País')
plt.ylabel('Tasa de Mortalidad por 100,000 Habitantes (Estimación)')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

In [None]:
df_metrics = df_metricas.select_dtypes(include=['float64', 'int64'])

# Si es necesario, aseguramos que 'country' está presente y la usamos como índice
df_metrics = df_metrics.set_index(df_metricas['pais'])

# Creamos el mapa de calor
plt.figure(figsize=(12, 8))
sns.heatmap(df_metrics, annot=True, cmap='coolwarm', cbar_kws={'shrink': 0.75})

# Título y etiquetas
plt.title('Mapa de Calor de Métricas por País')
plt.xlabel('Métricas')
plt.ylabel('País')

# Mostrar gráfico
plt.tight_layout()
plt.show()

In [None]:
columnas_interes = [
    'new_confirmed', 'new_deceased', 'population', 'area_sq_km',
    'cumulative_confirmed', 'cumulative_deceased', 'cumulative_recovered',
    'population_male', 'population_female', 'Tasa Recuperación (%)',
    'Tasa Incidencia Casos Nuevos (por 100k)', 'Tasa Mortalidad por 100k',
    'Proporción Hombres/Mujeres', 'Casos Activos',
    'Tasa Mortalidad Diaria (por 100k)', 
    'Relación Nuevos Recuperados / Nuevos Confirmados',
    'Tasa de Confirmación (%)'
]

# Filtrar DataFrame
df_corr = df_metricas[columnas_interes].copy()

# Calcular correlación
corr = df_corr.corr()

# Graficar
plt.figure(figsize=(14, 12))
sns.heatmap(corr, annot=True, fmt=".2f", cmap='coolwarm', center=0,
            linewidths=0.5, cbar_kws={"shrink": 0.7}, square=True)
plt.title('Matriz de Correlación - Indicadores Demográficos y de Salud')
plt.tight_layout()
plt.show()


In [None]:
print(df_data_latinoamerica_f2.columns.tolist())
print(df_metricas.columns.tolist())

## Avance 3


In [None]:
# importacion de librerias 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Estilo general
sns.set_style('darkgrid')
plt.rcParams['figure.figsize'] = (12, 5)

# === 1. Filtrar y agrupar por fecha ===
df_arg = df_data_latinoamerica_f2[df_data_latinoamerica_f2['country_name'] == 'Argentina']

# Convertir a datetime y agrupar por fecha
df_arg['date'] = pd.to_datetime(df_arg['date'])
df_arg = df_arg.groupby('date').sum(numeric_only=True).asfreq('D')

# Interpolar valores faltantes si los hay
df_arg['cumulative_confirmed'] = df_arg['cumulative_confirmed'].interpolate()

# === 2. Visualización de casos acumulados ===
plt.plot(df_arg['cumulative_confirmed'], label='Casos acumulados')
plt.title('Evolución de casos confirmados acumulados en Argentina')
plt.xlabel('Fecha')
plt.ylabel('Casos confirmados')
plt.legend()
plt.show()

# === 3. Casos diarios ===
df_arg['daily_cases'] = df_arg['cumulative_confirmed'].diff()

plt.plot(df_arg['daily_cases'], label='Casos diarios', color='orange')
plt.title('Casos diarios en Argentina')
plt.xlabel('Fecha')
plt.ylabel('Casos diarios')
plt.legend()
plt.show()

# === 4. Media móvil de 7 días ===
df_arg['7d_avg'] = df_arg['daily_cases'].rolling(window=7).mean()

plt.plot(df_arg['daily_cases'], alpha=0.4, label='Casos diarios')
plt.plot(df_arg['7d_avg'], color='red', label='Media móvil (7 días)')
plt.title('Casos diarios con media móvil en Argentina')
plt.xlabel('Fecha')
plt.ylabel('Casos')
plt.legend()
plt.show()

# === 5. Estacionalidad semanal ===
df_arg['weekday'] = df_arg.index.day_name()
weekday_avg = df_arg.groupby('weekday')['daily_cases'].mean().reindex(
    ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
)

sns.barplot(x=weekday_avg.index, y=weekday_avg.values)
plt.title('Promedio de casos diarios por día de la semana')
plt.ylabel('Casos promedio')
plt.xticks(rotation=45)
plt.show()

# === 6. Autocorrelación manual (hasta 30 días) ===
def autocorr(x, lag):
    return x.autocorr(lag=lag)

autocorrs = [autocorr(df_arg['daily_cases'].dropna(), lag) for lag in range(1, 31)]

sns.barplot(x=list(range(1, 31)), y=autocorrs)
plt.title('Autocorrelación de casos diarios (1 a 30 días)')
plt.xlabel('Rezago (días)')
plt.ylabel('Autocorrelación')
plt.show()

In [None]:


sns.set_style('darkgrid')
plt.rcParams['figure.figsize'] = (12, 5)

def analyze_country_timeseries(df, country):
    print(f"\n📊 Análisis de: {country}")

    # Filtrar y preparar datos
    df_country = df[df['country_name'] == country].copy()
    df_country['date'] = pd.to_datetime(df_country['date'])
    df_country = df_country.groupby('date').sum(numeric_only=True).asfreq('D')

    # Interpolación para rellenar valores faltantes
    df_country['cumulative_confirmed'] = df_country['cumulative_confirmed'].interpolate()

    # === 1. Casos acumulados ===
    plt.plot(df_country.index, df_country['cumulative_confirmed'], label='Casos acumulados')
    plt.title(f'{country} - Casos confirmados acumulados')
    plt.xlabel('Fecha')
    plt.ylabel('Casos acumulados')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # === 2. Casos diarios ===
    df_country['daily_cases'] = df_country['cumulative_confirmed'].diff()

    plt.plot(df_country.index, df_country['daily_cases'], label='Casos diarios', color='orange')
    plt.title(f'{country} - Casos diarios')
    plt.xlabel('Fecha')
    plt.ylabel('Casos diarios')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # === 3. Media móvil de 7 días ===
    df_country['7d_avg'] = df_country['daily_cases'].rolling(window=7).mean()

    plt.plot(df_country.index, df_country['daily_cases'], alpha=0.4, label='Casos diarios')
    plt.plot(df_country.index, df_country['7d_avg'], color='red', label='Media móvil 7 días')
    plt.title(f'{country} - Casos diarios con media móvil')
    plt.xlabel('Fecha')
    plt.ylabel('Casos')
    plt.legend()
    plt.tight_layout()
    plt.show()

    # === 4. Estacionalidad semanal ===
    df_country['weekday'] = df_country.index.day_name()
    weekday_avg = df_country.groupby('weekday')['daily_cases'].mean().reindex(
        ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    )

    sns.barplot(x=weekday_avg.index, y=weekday_avg.values)
    plt.title(f'{country} - Promedio de casos diarios por día de la semana')
    plt.ylabel('Casos promedio')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

    # === 5. Autocorrelación manual (1 a 30 días) ===
    autocorrs = [df_country['daily_cases'].autocorr(lag=lag) for lag in range(1, 31)]

    sns.barplot(x=list(range(1, 31)), y=autocorrs)
    plt.title(f'{country} - Autocorrelación de casos diarios (1-30 días)')
    plt.xlabel('Rezago (días)')
    plt.ylabel('Autocorrelación')
    plt.tight_layout()
    plt.show()

# === Lista de países únicos ===
paises = df_data_latinoamerica_f2['country_name'].unique()

# === Ejecutar análisis para cada país ===
for pais in paises:
    analyze_country_timeseries(df_data_latinoamerica_f2, pais)


In [None]:
cols = ['pais', 
        'Tasa Recuperación (%)', 
        'Tasa Incidencia Casos Nuevos (por 100k)', 
        'Tasa Mortalidad por 100k', 
        'Proporción Hombres/Mujeres', 
        'Casos Activos', 
        'Tasa Mortalidad Diaria (por 100k)', 
        'Relación Nuevos Recuperados / Nuevos Confirmados', 
        'Tasa de Confirmación (%)']

df_merged = pd.merge(
    df_data_latinoamerica_f2,
    df_metricas[cols],
    left_on='country_name',
    right_on='pais',
    how='outer'
)

# Eliminar columna 'pais' si no la querés en el resultado final
df_merged.drop(columns='pais', inplace=True)


In [None]:
print(df_merged.columns.tolist())

In [None]:

df_merged['Casos Activos'] = df_merged['cumulative_confirmed'] - df_merged['cumulative_recovered']

# Graficar evolución de casos activos vs recuperados
plt.figure(figsize=(12, 6))

# Obtener los países únicos en el DataFrame
paises = df_merged['country_name'].unique()

# Iterar sobre cada país y graficar la evolución
for country in paises:
    df_country = df_merged[df_merged['country_name'] == country]
    
    # Graficar los casos activos
    plt.plot(df_country['date'], df_country['Casos Activos'], label=f'{country} - Casos Activos')
    
    # Graficar los casos recuperados
    plt.plot(df_country['date'], df_country['cumulative_recovered'], label=f'{country} - Casos Recuperados')

# Añadir título, etiquetas y leyenda
plt.title('Evolución de Casos Activos vs Recuperados')
plt.xlabel('Fecha')
plt.ylabel('Cantidad de Casos')
plt.legend(loc='best')
plt.grid(True)

# Mejorar la presentación de las fechas
plt.xticks(rotation=45)
plt.tight_layout()

# Mostrar la gráfica
plt.show()


In [None]:
df_merged.sort_values(by=['country_name', 'date'], inplace=True)

# Calcular la tasa de crecimiento para los casos activos y recuperados
df_merged['active_cases_growth_rate'] = df_merged.groupby('country_name')['Casos Activos'].pct_change() * 100
df_merged['recovered_cases_growth_rate'] = df_merged.groupby('country_name')['cumulative_recovered'].pct_change() * 100


# Graficar la tasa de crecimiento de los casos activos vs los recuperados
plt.figure(figsize=(12, 6))
for country in paises:
    df_country = df_merged[df_merged['country_name'] == country]
    plt.plot(df_country['date'], df_country['active_cases_growth_rate'], label=f'{country} - Active Cases Growth Rate')
    plt.plot(df_country['date'], df_country['recovered_cases_growth_rate'], label=f'{country} - Recovered Cases Growth Rate')

plt.title('Tasa de Crecimiento de Casos Activos vs Recuperados')
plt.xlabel('Fecha')
plt.ylabel('Tasa de Crecimiento (%)')
plt.legend(loc='best')
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_merged, x='average_temperature_celsius', y='new_confirmed', hue='country_name')
plt.title('Relación entre Temperatura Promedio y Nuevos Casos')
plt.xlabel('Temperatura Promedio (°C)')
plt.ylabel('Nuevos Casos Confirmados')
plt.grid(True)
plt.tight_layout()
plt.show()

In [None]:
# Densidad poblacional
df_merged['densidad_poblacional'] = df_merged['population'] / df_merged['area_sq_km']

# Casos confirmados por cada 100 mil habitantes
df_merged['casos_por_100k'] = df_merged['cumulative_confirmed'] / df_merged['population'] * 100000

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_merged, x='densidad_poblacional', y='casos_por_100k', hue='country_name')
plt.title('Relación entre Densidad Poblacional y Casos Confirmados por 100k hab.')
plt.xlabel('Densidad Poblacional (hab/km²)')
plt.ylabel('Casos Confirmados por 100k habitantes')
plt.grid(True)
plt.tight_layout()
plt.show()

for country in paises:
    df_country = df_merged[df_merged['country_name'] == country]
    corr = df_country['densidad_poblacional'].corr(df_country['casos_por_100k'])
    print(f'{country}: correlación densidad vs casos/100k = {corr:.3f}')


In [None]:
df_merged['date'] = pd.to_datetime(df_merged['date'])

# Crear una columna de semana (ISO) para agrupar
df_merged['week'] = df_merged['date'].dt.to_period('W').apply(lambda r: r.start_time)

# Agrupar por semana y país, sumando casos nuevos
df_semanal = df_merged.groupby(['country_name', 'week'])['new_confirmed'].sum().reset_index()

plt.figure(figsize=(14, 6))
sns.lineplot(data=df_semanal, x='week', y='new_confirmed', hue='country_name')
plt.title('Evolución Semanal de Casos Nuevos por País')
plt.xlabel('Semana')
plt.ylabel('Casos Nuevos')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:

plt.figure(figsize=(12, 6))

# Lista de países
paises = df_merged['country_name'].unique()

# Graficar cada país
for country in paises:
    df_country = df_merged[df_merged['country_name'] == country]
    plt.plot(df_country['date'], df_country['new_deceased'], label=country)

# Títulos y etiquetas
plt.title('Evolución del Número de Muertes Diarias por COVID-19')
plt.xlabel('Fecha')
plt.ylabel('Muertes Diarias')
plt.legend(loc='best')
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()

# Mostrar el gráfico
plt.show()


In [None]:

# Crear columna 'month' a partir de la fecha
df_merged['month'] = df_merged['date'].dt.to_period('M').astype(str)

# Agrupar por país y mes, sumando casos y muertes
df_mensual = df_merged.groupby(['country_name', 'month'])[['new_confirmed', 'new_deceased']].sum().reset_index()

# Gráfico de casos nuevos mensuales
plt.figure(figsize=(14, 6))
sns.lineplot(data=df_mensual, x='month', y='new_confirmed', hue='country_name')
plt.title('Variación Mensual de Casos Nuevos por País')
plt.xlabel('Mes')
plt.ylabel('Casos Nuevos')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Gráfico de muertes nuevas mensuales
plt.figure(figsize=(14, 6))
sns.lineplot(data=df_mensual, x='month', y='new_deceased', hue='country_name')
plt.title('Variación Mensual de Muertes por País')
plt.xlabel('Mes')
plt.ylabel('Muertes Nuevas')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:

# Calculamos la tasa de mortalidad diaria por cada 100k habitantes
df_merged['tasa_mortalidad_diaria_100k'] = (df_merged['new_deceased'] / df_merged['population']) * 100000

# Graficar la evolución de muertes diarias nuevas por fecha
plt.figure(figsize=(14, 6))
for country in df_merged['country_name'].unique():
    df_country = df_merged[df_merged['country_name'] == country]
    plt.plot(df_country['date'], df_country['new_deceased'], label=f'{country} - Muertes Diarias')

plt.title('Evolución de Muertes Diarias Nuevas por País')
plt.xlabel('Fecha')
plt.ylabel('Muertes Diarias Nuevas')
plt.legend(loc='upper left')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Graficar la tasa de mortalidad diaria por cada 100,000 habitantes
plt.figure(figsize=(14, 6))
for country in df_merged['country_name'].unique():
    df_country = df_merged[df_merged['country_name'] == country]
    plt.plot(df_country['date'], df_country['tasa_mortalidad_diaria_100k'], label=f'{country} - Tasa Mortalidad Diaria')

plt.title('Evolución de la Tasa de Mortalidad Diaria (por 100k habitantes) por País')
plt.xlabel('Fecha')
plt.ylabel('Tasa Mortalidad Diaria (por 100k habitantes)')
plt.legend(loc='upper left')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
