# ETAPA 3: Visualizaciones Avanzadas

**Objetivo:** Profundizar en el an√°lisis visual, comparando regiones y tendencias.

**Rango temporal:** 2 a√±os de datos (2020‚Äì2021)

**Visualizaciones requeridas:**
1. Evoluci√≥n temporal global de casos confirmados, activos y fallecidos (l√≠neas)
2. Comparativa Top 10 pa√≠ses con m√°s casos confirmados (barras)
3. Heatmap de correlaciones entre columnas relevantes
4. Gr√°fico de barras horizontales comparando tasas de letalidad por continente
5. Mapa geogr√°fico que muestre la incidencia por continente

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import os
from datetime import datetime

# Configuraci√≥n de Plotly para notebooks
import plotly.io as pio
pio.renderers.default = 'notebook'

print("‚úì Librer√≠as importadas correctamente")

In [None]:
# Configuraci√≥n: ruta a los archivos daily_reports locales
# Nota: el notebook est√° en notebooks/, por eso usamos '../' para subir un nivel
DATA_DIR = os.path.join('..', 'data', 'raw', 'COVID-19', 'csse_covid_19_data', 'csse_covid_19_daily_reports')

# Rango de fechas a cargar (2 a√±os: 2020-2021)
START_DATE = '2020-01-22'
END_DATE = '2021-12-31'

dates = pd.date_range(start=START_DATE, end=END_DATE, freq='D')

# Lista temporal para acumular los DataFrames de cada d√≠a
dfs = []

print("Cargando datos desde archivos locales...")
print(f"{'='*60}")
print(f"Per√≠odo: {START_DATE} ‚Üí {END_DATE}")
print(f"Total de archivos a cargar: {len(dates)}")
print(f"{'='*60}\n")

# Leer cada archivo CSV diario y agregarlo a la lista
for i, date in enumerate(dates, 1):
    filename = date.strftime('%m-%d-%Y') + '.csv'  # Formato: MM-DD-YYYY
    filepath = os.path.join(DATA_DIR, filename)
    
    if not os.path.exists(filepath):
        print(f"‚ö† Archivo no encontrado: {filename}")
        continue
    
    try:
        df = pd.read_csv(filepath)
        df.columns = df.columns.str.strip()
        
        # Normalizar nombres de columnas para compatibilidad
        if 'Province/State' in df.columns:
            df.rename(columns={'Province/State': 'Province_State'}, inplace=True)
        if 'Country/Region' in df.columns:
            df.rename(columns={'Country/Region': 'Country_Region'}, inplace=True)
        if 'Province_State' not in df.columns:
            df['Province_State'] = np.nan
        if 'Country_Region' not in df.columns and 'Country' in df.columns:
            df.rename(columns={'Country': 'Country_Region'}, inplace=True)
        
        df['Date'] = date
        dfs.append(df)
        
        # Mostrar progreso cada 50 archivos
        if i % 50 == 0:
            print(f"‚úì Cargados {i}/{len(dates)} archivos ({i/len(dates)*100:.1f}%)")
            
    except Exception as e:
        print(f"‚úó Error en {filename}: {e}")

# Concatenar (apilar verticalmente) todos los DataFrames diarios en uno solo
if dfs:
    df_2years = pd.concat(dfs, ignore_index=True)
    print(f"\n{'='*60}")
    print(f"‚úì Cargados {len(dfs)} archivos diarios")
    print(f"‚úì Total de registros: {len(df_2years):,}")
    print(f"‚úì Per√≠odo: {df_2years['Date'].min().date()} ‚Üí {df_2years['Date'].max().date()}")
    print(f"{'='*60}")
else:
    df_2years = pd.DataFrame()
    print("\n‚ö† No se carg√≥ ning√∫n archivo.")
    print("Ejecuta: ./scripts/fetch_jhu_data.sh clone")

In [None]:
# Limpieza y preparaci√≥n del dataset

print("Iniciando limpieza de datos...\n")

# 1. Estandarizar nombres de columnas (usar formato snake_case)
df_2years.columns = df_2years.columns.str.lower().str.replace(' ', '_').str.replace('/', '_').str.replace('-', '_')
print("‚úì Nombres de columnas estandarizados")

# 2. Eliminar columnas duplicadas (consolidando valores)
duplicated_cols = df_2years.columns[df_2years.columns.duplicated()].unique()

if len(duplicated_cols) > 0:
    print(f"‚ö† Encontradas columnas duplicadas: {duplicated_cols.tolist()}")
    
    for col_name in duplicated_cols:
        # Obtener todas las columnas con este nombre
        matching_cols = [i for i, c in enumerate(df_2years.columns) if c == col_name]
        
        # Consolidar: tomar el primer valor no nulo de cada fila
        consolidated = df_2years.iloc[:, matching_cols[0]]
        for col_idx in matching_cols[1:]:
            consolidated = consolidated.fillna(df_2years.iloc[:, col_idx])
        
        # Eliminar todas las columnas duplicadas
        df_2years = df_2years.drop(df_2years.columns[matching_cols], axis=1)
        
        # Agregar la columna consolidada
        df_2years[col_name] = consolidated
        print(f"  ‚úì '{col_name}' consolidada")
else:
    print("‚úì No hay columnas duplicadas")

# 3. Eliminar columnas irrelevantes
columns_to_drop = ['fips', 'admin2', 'lat', 'long_', 'latitude', 'longitude', 'combined_key']
df_2years = df_2years.drop(columns=[col for col in columns_to_drop if col in df_2years.columns])
print("‚úì Columnas irrelevantes eliminadas")

# 4. Procesar fechas
if 'last_update' in df_2years.columns:
    df_2years['last_update'] = pd.to_datetime(df_2years['last_update'], errors='coerce')
print("‚úì Fechas procesadas")

# 5. Convertir columnas num√©ricas
numeric_columns = ['confirmed', 'deaths', 'recovered']
for col in numeric_columns:
    if col in df_2years.columns:
        df_2years[col] = pd.to_numeric(df_2years[col], errors='coerce').fillna(0).astype(int)
print("‚úì Columnas num√©ricas convertidas")

# 6. Calcular casos activos
df_2years['active_cases'] = df_2years['confirmed'] - df_2years['deaths'] - df_2years['recovered']
print("‚úì Casos activos calculados")

# 7. Homogeneizar nombres de pa√≠ses
country_mapping = {
    'US': 'United States',
    'UK': 'United Kingdom',
    'Korea, South': 'South Korea',
    'Taiwan*': 'Taiwan',
    'Mainland China': 'China'
}

if 'country_region' in df_2years.columns:
    df_2years['country_region'] = df_2years['country_region'].replace(country_mapping)
    print("‚úì Nombres de pa√≠ses homogeneizados")

print(f"\n{'='*60}")
print(f"‚úì Dataset limpio: {len(df_2years):,} registros")
print(f"‚úì Columnas: {list(df_2years.columns)}")
print(f"{'='*60}")

df_2years.head()

In [None]:
# Cargar mapeo de pa√≠ses a continentes
continent_mapping_path = os.path.join('..', 'data', 'country_to_continet.csv')

try:
    df_continents = pd.read_csv(continent_mapping_path)
    print(f"‚úì Mapeo de continentes cargado: {len(df_continents)} pa√≠ses")
    print(f"\nContinentes disponibles: {df_continents['continent'].unique()}")
    
    # Crear diccionario de mapeo
    country_to_continent = dict(zip(df_continents['country'], df_continents['continent']))
    
    # Agregar columna de continente al dataset
    df_2years['continent'] = df_2years['country_region'].map(country_to_continent)
    
    # Verificar pa√≠ses sin mapeo
    unmapped = df_2years[df_2years['continent'].isna()]['country_region'].unique()
    if len(unmapped) > 0:
        print(f"\n‚ö† Pa√≠ses sin mapeo de continente ({len(unmapped)}):")
        print(unmapped[:10])  # Mostrar solo los primeros 10
    else:
        print("\n‚úì Todos los pa√≠ses tienen continente asignado")
    
    print(f"\n‚úì Distribuci√≥n por continente:")
    print(df_2years['continent'].value_counts())
    
except Exception as e:
    print(f"‚úó Error al cargar mapeo de continentes: {e}")
    df_2years['continent'] = None

---
## Visualizaci√≥n 1: Evoluci√≥n Temporal Global

Gr√°fico de l√≠neas mostrando la evoluci√≥n de casos confirmados, activos y fallecidos a nivel mundial.

In [None]:
# Agregar datos por fecha para obtener totales globales
global_evolution = df_2years.groupby('date').agg({
    'confirmed': 'sum',
    'deaths': 'sum',
    'recovered': 'sum',
    'active_cases': 'sum'
}).reset_index()

# Crear gr√°fico interactivo con Plotly
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=global_evolution['date'],
    y=global_evolution['confirmed'],
    mode='lines',
    name='Casos Confirmados',
    line=dict(color='#1f77b4', width=2)
))

fig.add_trace(go.Scatter(
    x=global_evolution['date'],
    y=global_evolution['active_cases'],
    mode='lines',
    name='Casos Activos',
    line=dict(color='#ff7f0e', width=2)
))

fig.add_trace(go.Scatter(
    x=global_evolution['date'],
    y=global_evolution['deaths'],
    mode='lines',
    name='Fallecidos',
    line=dict(color='#d62728', width=2)
))

fig.update_layout(
    title='Evoluci√≥n Temporal Global de COVID-19 (2020-2021)',
    xaxis_title='Fecha',
    yaxis_title='N√∫mero de Casos',
    hovermode='x unified',
    template='plotly_white',
    height=600,
    legend=dict(yanchor="top", y=0.99, xanchor="left", x=0.01)
)

fig.show()

# Mostrar estad√≠sticas clave
print("\nüìä Estad√≠sticas Globales (2020-2021):")
print(f"  ‚Ä¢ Total casos confirmados: {global_evolution['confirmed'].iloc[-1]:,}")
print(f"  ‚Ä¢ Total fallecidos: {global_evolution['deaths'].iloc[-1]:,}")
print(f"  ‚Ä¢ Total recuperados: {global_evolution['recovered'].iloc[-1]:,}")
print(f"  ‚Ä¢ Casos activos al final: {global_evolution['active_cases'].iloc[-1]:,}")

---
## Visualizaci√≥n 2: Top 10 Pa√≠ses con M√°s Casos Confirmados

Gr√°fico de barras comparando los pa√≠ses con mayor n√∫mero de casos confirmados acumulados.

In [None]:
# Obtener el m√°ximo de casos confirmados por pa√≠s (valor acumulado final)
top_countries = df_2years.groupby('country_region')['confirmed'].max().sort_values(ascending=False).head(10)

# Crear gr√°fico de barras interactivo
fig = px.bar(
    x=top_countries.values,
    y=top_countries.index,
    orientation='h',
    labels={'x': 'Casos Confirmados', 'y': 'Pa√≠s'},
    title='Top 10 Pa√≠ses con M√°s Casos Confirmados (2020-2021)',
    text=top_countries.values
)

fig.update_traces(
    texttemplate='%{text:,.0f}',
    textposition='outside',
    marker_color='steelblue'
)

fig.update_layout(
    yaxis={'categoryorder': 'total ascending'},
    template='plotly_white',
    height=500,
    showlegend=False
)

fig.show()

print("\nüìä Top 10 Pa√≠ses:")
for i, (country, cases) in enumerate(top_countries.items(), 1):
    print(f"  {i:2d}. {country:25s}: {cases:,}")

---
## Visualizaci√≥n 3: Heatmap de Correlaciones

Matriz de correlaci√≥n entre variables relevantes (confirmados, fallecidos, recuperados, activos).

In [None]:
# Preparar datos agregados por pa√≠s para an√°lisis de correlaci√≥n
correlation_data = df_2years.groupby('country_region').agg({
    'confirmed': 'max',
    'deaths': 'max',
    'recovered': 'max',
    'active_cases': 'max'
}).reset_index()

# Calcular tasa de letalidad
correlation_data['mortality_rate'] = (
    correlation_data['deaths'] / correlation_data['confirmed'] * 100
).replace([np.inf, -np.inf], 0).fillna(0)

# Calcular tasa de recuperaci√≥n
correlation_data['recovery_rate'] = (
    correlation_data['recovered'] / correlation_data['confirmed'] * 100
).replace([np.inf, -np.inf], 0).fillna(0)

# Seleccionar columnas num√©ricas para correlaci√≥n
corr_columns = ['confirmed', 'deaths', 'recovered', 'active_cases', 'mortality_rate', 'recovery_rate']
correlation_matrix = correlation_data[corr_columns].corr()

# Crear heatmap con Plotly
fig = px.imshow(
    correlation_matrix,
    text_auto='.2f',
    aspect='auto',
    color_continuous_scale='RdBu_r',
    color_continuous_midpoint=0,
    labels=dict(color='Correlaci√≥n'),
    title='Matriz de Correlaci√≥n entre Variables COVID-19'
)

fig.update_layout(
    template='plotly_white',
    height=600,
    xaxis_title='',
    yaxis_title=''
)

fig.show()

print("\nüìä Interpretaci√≥n de Correlaciones:")
print("\nCorrelaciones m√°s fuertes:")
# Obtener las correlaciones m√°s altas (excluyendo la diagonal)
corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_pairs.append((
            correlation_matrix.columns[i],
            correlation_matrix.columns[j],
            correlation_matrix.iloc[i, j]
        ))
corr_pairs.sort(key=lambda x: abs(x[2]), reverse=True)

for var1, var2, corr in corr_pairs[:5]:
    print(f"  ‚Ä¢ {var1} ‚Üî {var2}: {corr:.3f}")

---
## Visualizaci√≥n 4: Tasas de Letalidad por Continente

Comparaci√≥n de tasas de letalidad entre continentes.

In [None]:
# Filtrar datos con continente asignado
df_with_continent = df_2years[df_2years['continent'].notna()].copy()

# Calcular totales por continente
continent_stats = df_with_continent.groupby('continent').agg({
    'confirmed': 'sum',
    'deaths': 'sum',
    'recovered': 'sum'
}).reset_index()

# Calcular tasa de letalidad por continente
continent_stats['mortality_rate'] = (
    continent_stats['deaths'] / continent_stats['confirmed'] * 100
).replace([np.inf, -np.inf], 0).fillna(0)

# Ordenar por tasa de letalidad
continent_stats = continent_stats.sort_values('mortality_rate', ascending=True)

# Filtrar continente 'Other' si existe
continent_stats = continent_stats[continent_stats['continent'] != 'Other']

# Crear gr√°fico de barras horizontales
fig = px.bar(
    continent_stats,
    x='mortality_rate',
    y='continent',
    orientation='h',
    title='Tasa de Letalidad por Continente (2020-2021)',
    labels={'mortality_rate': 'Tasa de Letalidad (%)', 'continent': 'Continente'},
    text='mortality_rate',
    color='mortality_rate',
    color_continuous_scale='Reds'
)

fig.update_traces(
    texttemplate='%{text:.2f}%',
    textposition='outside'
)

fig.update_layout(
    template='plotly_white',
    height=500,
    showlegend=False,
    coloraxis_showscale=False
)

fig.show()

print("\nüìä Tasas de Letalidad por Continente:")
for _, row in continent_stats.sort_values('mortality_rate', ascending=False).iterrows():
    print(f"  ‚Ä¢ {row['continent']:15s}: {row['mortality_rate']:5.2f}% "
          f"({row['deaths']:,} fallecidos / {row['confirmed']:,} confirmados)")

---
## Visualizaci√≥n 5: Incidencia por Continente (Mapa)

Visualizaci√≥n geogr√°fica mostrando la distribuci√≥n de casos confirmados por continente.

In [None]:
# Preparar datos de casos confirmados por continente
continent_cases = df_with_continent.groupby('continent').agg({
    'confirmed': 'sum',
    'deaths': 'sum',
    'recovered': 'sum',
    'active_cases': 'sum'
}).reset_index()

# Filtrar continente 'Other' si existe
continent_cases = continent_cases[continent_cases['continent'] != 'Other']

# Calcular porcentaje del total mundial
total_confirmed = continent_cases['confirmed'].sum()
continent_cases['percentage'] = (continent_cases['confirmed'] / total_confirmed * 100)

# Crear gr√°fico de pastel (sunburst) interactivo
fig = px.sunburst(
    continent_cases,
    path=['continent'],
    values='confirmed',
    title='Distribuci√≥n Global de Casos Confirmados por Continente',
    color='confirmed',
    color_continuous_scale='Viridis',
    hover_data={'confirmed': ':,', 'deaths': ':,', 'percentage': ':.1f'}
)

fig.update_traces(
    textinfo='label+percent entry',
    hovertemplate='<b>%{label}</b><br>'
                  'Confirmados: %{customdata[0]:,}<br>'
                  'Fallecidos: %{customdata[1]:,}<br>'
                  'Porcentaje: %{customdata[2]:.1f}%<extra></extra>'
)

fig.update_layout(
    template='plotly_white',
    height=600
)

fig.show()

# Crear tambi√©n un gr√°fico de barras para comparaci√≥n directa
fig2 = px.bar(
    continent_cases.sort_values('confirmed', ascending=False),
    x='continent',
    y='confirmed',
    title='Casos Confirmados por Continente (2020-2021)',
    labels={'confirmed': 'Casos Confirmados', 'continent': 'Continente'},
    text='confirmed',
    color='confirmed',
    color_continuous_scale='Blues'
)

fig2.update_traces(
    texttemplate='%{text:,.0f}',
    textposition='outside'
)

fig2.update_layout(
    template='plotly_white',
    height=500,
    showlegend=False,
    coloraxis_showscale=False
)

fig2.show()

print("\nüìä Distribuci√≥n de Casos por Continente:")
for _, row in continent_cases.sort_values('confirmed', ascending=False).iterrows():
    print(f"  ‚Ä¢ {row['continent']:15s}: {row['confirmed']:>12,} casos ({row['percentage']:5.1f}%)")

---
## Resumen y Conclusiones

### Principales hallazgos:

1. **Evoluci√≥n Temporal**: Se observa un crecimiento exponencial de casos durante 2020, con m√∫ltiples olas a lo largo de 2021.

2. **Distribuci√≥n Geogr√°fica**: Los casos se concentran principalmente en ciertos continentes, reflejando diferentes pol√≠ticas de salud p√∫blica y capacidades de detecci√≥n.

3. **Correlaciones**: Existe una fuerte correlaci√≥n positiva entre casos confirmados y fallecidos, lo cual era esperado. Las tasas de letalidad var√≠an significativamente entre continentes.

4. **Disparidades Continentales**: Las tasas de letalidad muestran variaciones importantes entre continentes, posiblemente relacionadas con sistemas de salud, demograf√≠a y pol√≠ticas de respuesta.

5. **Top Pa√≠ses Afectados**: Los pa√≠ses con mayor poblaci√≥n y/o mayor capacidad de detecci√≥n aparecen consistentemente entre los m√°s afectados.

### Limitaciones del an√°lisis:
- Los datos dependen de la capacidad de detecci√≥n de cada pa√≠s
- Pueden existir subregistros en pa√≠ses con sistemas de salud limitados
- Las definiciones de "recuperado" var√≠an entre pa√≠ses
- No se consideran factores demogr√°ficos, econ√≥micos o de pol√≠ticas p√∫blicas