In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date, datediff, when, avg, row_number
from pyspark.sql.window import Window
import pandas as pd
import matplotlib.pyplot as plt
from pyspark.sql import functions as F

import numpy as np
import seaborn as sns

In [None]:
spark = SparkSession.builder \
    .master("yarn") \
    .config("spark.executor.instances", "4") \
    .config("spark.executor.cores", "4") \
    .config("spark.executor.memory", "16g") \
    .config("spark.driver.memory", "8g") \
    .config("spark.sql.shuffle.partitions", "200") \
    .appName("onset_icu") \
    .getOrCreate()

spark

## Cargar base SEGCOVID

In [None]:
def cargar_datos(archivo, columnas):
    try:
        return spark.read.parquet(archivo).select(*columnas)
    except Exception as e:
        print(f"Error al procesar {archivo}: {e}")
        return None

In [None]:
dir_segcovid = {
    "df_2020": "hdfs:///rawdata/segcovid/segcovid_parquet_2020",
    "df_2021": "hdfs:///rawdata/segcovid/segcovid_parquet_2021",
    "df_2022": "hdfs:///rawdata/segcovid/segcovid_parquet_2022",
    "df_2023": "hdfs:///rawdata/segcovid/segcovid_parquet_2023"
}

# Columnas de interés
columnas_segcovid = ["PersonaBasicaID", 
                     "AmbitoAtencion", 
                     "FechaIngresoAtencion",
                     "DepartamentoAtencion"]

In [None]:
# Cargar todos los DataFrames
dfs_segcovid = []
for nombre, archivo in dir_segcovid.items():
    df = cargar_datos(archivo, columnas_segcovid)
    if df is not None:
        dfs_segcovid.append(df)

# Concatenar
if dfs_segcovid:
    df_segcovid = dfs_segcovid[0]
    for df in dfs_segcovid[1:]:
        df_segcovid = df_segcovid.unionByName(df, allowMissingColumns=True)
        
    # SEGCOVID filtrada por Cuidado Intensivo y Bogotá
    df_icu = df_segcovid.filter(col("AmbitoAtencion") == "Cuidado Intensivo")
    df_icu = df_icu.filter(col("DepartamentoAtencion") == "11 - Bogotá D.C.").drop_duplicates().persist()

else:
    df_segcovid = None
    df_icu = None

In [None]:
# Cómo es la estructura de la base
total_registros = df_icu.count()
ids_unicos = df_icu.select('PersonaBasicaID').distinct().count()
print(f"Total de registros en df_icu: {total_registros}")
print(f"Total de columnas en df_icu: {len(df_icu.columns)}")
print(f"Número de ids únicos en df_icu: {ids_unicos}")

In [None]:
# Crear una lista con los IDs únicos de personas que estuvieron en UCI de acuerdo a SEGCOVID
ids_list = df_icu.select("PersonaBasicaID").distinct().rdd.flatMap(lambda x: x).collect()

## Cargar base SIVIGILA346

In [None]:
df_sivigila346 = pd.read_csv("../Github/dl-covid19-descriptive-reports/MinSalud/sivigila346/data/ExtraccionEv346.txt",
                             low_memory=False,
                             on_bad_lines='skip',
                             sep='|',
                             usecols = ['PersonaBasicaID',
                                        'FechaNotificacion',
                                        'FechaInicioSintomas',
                                        'DepartamentoNotificacion'])

print('Número filas y columnas: ', df_sivigila346.shape)

In [None]:
# Eliminar registros basura (son 2)
df_sivigila346 = df_sivigila346.dropna(subset=['FechaInicioSintomas'])
print('Número filas y columnas: ', df_sivigila346.shape)

## Análisis para Bogotá

In [None]:
# Seleccionar los datos de Bogotá
df_bog = df_sivigila346[df_sivigila346['DepartamentoNotificacion'] == 'Bogotá, D.C.'].copy()

In [None]:
# Convertir las fechas a formato 'datetime'
df_bog['FechaInicioSintomas'] = pd.to_datetime(df_bog['FechaInicioSintomas'].astype(int), format='%Y%m%d')
df_bog['FechaNotificacion'] = pd.to_datetime(df_bog['FechaNotificacion'].astype(int), format='%Y%m%d')

In [None]:
# Eliminar fechas de inicio de síntomas erróneas
df_bog = df_bog[df_bog['FechaInicioSintomas'] != '19000101']

In [None]:
# ============================================
# Descartar los casos donde el ID es igual a 1
# ============================================
df_bog = df_bog[df_bog['PersonaBasicaID'] != '1']

In [None]:
# Seleccionad IDs únicos
df_bog_filtrado = df_bog[df_bog["PersonaBasicaID"].isin(ids_list)].copy()

# Convertir base a df de pySpark
df_sivigila_spark = spark.createDataFrame(df_bog_filtrado)

In [None]:
# Cómo es la estructura de la base
total_registros = df_sivigila_spark.count()
ids_unicos = df_sivigila_spark.select('PersonaBasicaID').distinct().count()
print(f"Total de registros en df_sivigila_spark: {total_registros}")
print(f"Total de columnas en df_sivigila_spark: {len(df_sivigila_spark.columns)}")
print(f"Número de ids únicos en df_sivigila_spark: {ids_unicos}")

## Cruce

In [None]:
# Convertir columnas de fecha a tipo fecha en Spark
df_icu = df_icu.withColumn("FechaIngresoAtencion", to_date(col("FechaIngresoAtencion"), "yyyy-MM-dd"))

df_sivigila_spark = df_sivigila_spark.withColumn("FechaInicioSintomas", to_date(col("FechaInicioSintomas"), "yyyy-MM-dd"))
df_sivigila_spark = df_sivigila_spark.withColumn("FechaNotificacion", to_date(col("FechaNotificacion"), "yyyy-MM-dd"))

In [None]:
# Unir por PersonaBasicaID
df_join = df_icu.join(df_sivigila_spark, on="PersonaBasicaID", how="inner")

In [None]:
# Cómo es la estructura de la base
total_registros = df_join.count()
ids_unicos = df_join.select('PersonaBasicaID').distinct().count()
print(f"Total de registros en df_join: {total_registros}")
print(f"Total de columnas en df_join: {len(df_join.columns)}")
print(f"Número de ids únicos en df_join: {ids_unicos}")

In [None]:
# Filtrar registros donde FechaIngresoAtencion >= FechaInicioSintomas
df_join2 = df_join.filter(F.col("FechaIngresoAtencion") >= F.col("FechaInicioSintomas"))

# Calcular la diferencia de días "Onset_icu"
df_join2 = df_join2.withColumn("Onset_icu", datediff(col("FechaIngresoAtencion"), col("FechaInicioSintomas")))

# Definir la ventana particionada por PersonaBasicaID y FechaInicioSintomas, ordenando por "Onset_icu"
window_Onset_icu = Window.partitionBy("PersonaBasicaID", "FechaInicioSintomas").orderBy("Onset_icu")

# Asignar un número de fila en cada partición
df_con_rn = df_join2.withColumn("rn", F.row_number().over(window_Onset_icu))

# Seleccionar la fila con rn = 1 (la de menor diferencia) y eliminar la columna auxiliar
df_con_onset = df_con_rn.filter(F.col("rn") == 1).drop("rn", "AmbitoAtencion", "DepartamentoNotificacion")

In [None]:
df_con_rn.select("PersonaBasicaID", "FechaIngresoAtencion", "FechaNotificacion", "FechaInicioSintomas", "Onset_icu", "rn").show()

In [None]:
df_con_onset.show()

In [None]:
# Cómo es la estructura de la base
total_registros = df_con_onset.count()
ids_unicos = df_con_onset.select('PersonaBasicaID').distinct().count()
print(f"Total de registros en df_con_onset: {total_registros}")
print(f"Total de columnas en df_con_onset: {len(df_con_onset.columns)}")
print(f"Número de ids únicos en df_con_onset: {ids_unicos}")

In [None]:
# Definir las olas de COVID-19
# Crear columna de ola
expr_ola = when(col("FechaInicioSintomas").between("2020-02-26", "2020-09-25"), "Ola_1") \
          .when(col("FechaInicioSintomas").between("2020-11-01", "2021-03-01"), "Ola_2") \
          .when(col("FechaInicioSintomas").between("2021-03-01", "2021-09-14"), "Ola_3") \
          .when(col("FechaInicioSintomas").between("2021-11-20", "2022-03-24"), "Ola_4") \
          .otherwise("Fuera_Ola")

# Omitiendo la primera ola
# expr_ola = when(col("FechaInicioSintomas").between("2020-11-01", "2021-03-01"), "Ola_2") \
#     .when(col("FechaInicioSintomas").between("2021-03-01", "2021-09-14"), "Ola_3") \
#     .when(col("FechaInicioSintomas").between("2021-11-20", "2022-03-24"), "Ola_4") \
#     .otherwise("Fuera_Ola")

df_para_olas = df_con_onset.withColumn("Ola_COVID", expr_ola)
df_para_olas = df_para_olas.filter((col("Ola_COVID") != 'Fuera_Ola'))

# ##########$%&"%#$#$#$$$$"
# # FILTROS
df_para_olas = df_para_olas[df_para_olas['Onset_icu'] >= 0]
df_para_olas = df_para_olas[df_para_olas['Onset_icu'] <= 100]

# Contar el número de casos por ola
df_avg = df_para_olas.groupBy("Ola_COVID").agg(avg("Onset_icu").alias("AVG_Onset_icu"))

In [None]:
df_para_olas.show()

In [None]:
# Mostrar resultados 
df_avg.show()

In [None]:
proms = df_avg.sort("Ola_COVID").select('AVG_Onset_icu').rdd.flatMap(lambda x: x).collect()

In [None]:
promedios = proms
promedios

In [None]:
# promedios.insert(0, np.nan)
# promedios

In [None]:
waves = ['Wave 1', 'Wave 2', 'Wave 3', 'Wave 4']
colors = ['#6b6ca3', '#87bcbd', '#6f9954', '#b1615c']

# Crear figura
plt.figure(figsize=(4, 5))

# Graficar barras, ignorando las NaN
for i, (wave, promedio, color) in enumerate(zip(waves, promedios, colors)):
    if not np.isnan(promedio):
        # Dibuja la barra normal si hay datos
        plt.bar(wave, promedio, color=color, width=1.0)
        plt.text(i, promedio + 0.2, f'{promedio:.2f}', ha='center', fontsize=9)
    else:
        # Dibuja una barra con patrón (o sin relleno) para marcar la falta de datos
        plt.bar(wave, 0, color='none', edgecolor=color, width=1.0, hatch='//')
        # Coloca el texto indicando la insuficiencia de datos
        plt.text(i, 0.9, 'There is not', ha='center', fontsize=7.5, color='#6b6ca3')
        plt.text(i, 0.2, 'enough data', ha='center', fontsize=7.5, color='#6b6ca3')

# Etiquetas
# plt.xlabel('COVID-19 waves')
plt.ylabel('Avg value of delay time (Days)', fontsize=14)
plt.title('Onset to ICU Bogotá')
plt.yticks([0.0, 2.5, 5.0, 7.5, 10.0, 12.5, 15.0, 17.5])

# Mostrar gráfico
plt.show()

In [None]:
df_para_olas.groupBy("Ola_COVID").count().show()

---
---
---
---
---
---

## Análisis Nacional

In [None]:
from pyspark.sql import Window
from pyspark.sql.functions import col, to_date, datediff, when, row_number, avg
import pyspark.sql.functions as F
import pandas as pd

# -------------------------------
# 2. Filtrar SEGCOVID para "Cuidado Intensivo" (sin filtrar por departamento aún)
df_icu_global = df_segcovid.filter(col("AmbitoAtencion") == "Cuidado Intensivo") \
                           .drop_duplicates() \
                           .persist()

# Diccionario para almacenar resultados finales
resultados = {}

# Definir las condiciones para asignar la ola de COVID (según FechaInicioSintomas)
expr_ola = when(col("FechaInicioSintomas").between("2020-02-26", "2020-09-25"), "Ola_1") \
          .when(col("FechaInicioSintomas").between("2020-11-01", "2021-03-01"), "Ola_2") \
          .when(col("FechaInicioSintomas").between("2021-03-01", "2021-09-14"), "Ola_3") \
          .when(col("FechaInicioSintomas").between("2021-11-20", "2022-03-24"), "Ola_4") \
          .otherwise("Fuera_Ola")

df_icu_dep = df_icu_global.drop_duplicates() \
                          .persist()

# Crear la lista de IDs únicos de personas en UCI para el departamento
ids_list_dep = df_icu_dep.select("PersonaBasicaID").distinct() \
                         .rdd.flatMap(lambda x: x).collect()

# Filtrar los datos de Sivigila para el departamento actual (usando DepartamentoNotificacion)
df_col = df_sivigila346.copy()

# Convertir las fechas a formato datetime en Pandas
df_col['FechaInicioSintomas'] = pd.to_datetime(df_col['FechaInicioSintomas'].astype(int), format='%Y%m%d')
df_col['FechaNotificacion'] = pd.to_datetime(df_col['FechaNotificacion'].astype(int), format='%Y%m%d')

# Eliminar fechas erróneas y registros no válidos
df_col = df_col[df_col['FechaInicioSintomas'] != '19000101']
df_col = df_col[df_col['PersonaBasicaID'] != '1']

# Filtrar para que solo queden los IDs que estuvieron en UCI
df_dep_filtrado = df_col[df_col["PersonaBasicaID"].isin(ids_list_dep)].copy()

# Convertir el DataFrame filtrado de Pandas a DataFrame de PySpark
df_sivigila_spark = spark.createDataFrame(df_dep_filtrado)

# Convertir las columnas de fecha a tipo date en Spark
df_icu_dep = df_icu_dep.withColumn("FechaIngresoAtencion", to_date(col("FechaIngresoAtencion"), "yyyy-MM-dd"))
df_sivigila_spark = df_sivigila_spark.withColumn("FechaInicioSintomas", to_date(col("FechaInicioSintomas"), "yyyy-MM-dd"))
df_sivigila_spark = df_sivigila_spark.withColumn("FechaNotificacion", to_date(col("FechaNotificacion"), "yyyy-MM-dd"))

# -------------------------------
# 4. Unir ambas fuentes por PersonaBasicaID
df_join = df_icu_dep.join(df_sivigila_spark, on="PersonaBasicaID", how="inner")

# Filtrar registros donde FechaIngresoAtencion >= FechaInicioSintomas
df_join2 = df_join.filter(col("FechaIngresoAtencion") >= col("FechaInicioSintomas"))

# Calcular la diferencia en días entre la fecha de ingreso y el inicio de síntomas
df_join2 = df_join2.withColumn("Onset_icu", datediff(col("FechaIngresoAtencion"), col("FechaInicioSintomas")))

# Usar ventana para quedarse con el registro de menor diferencia por PersonaBasicaID y FechaInicioSintomas
window_Onset_icu = Window.partitionBy("PersonaBasicaID", "FechaInicioSintomas").orderBy("Onset_icu")
df_con_rn = df_join2.withColumn("rn", row_number().over(window_Onset_icu))
df_con_onset = df_con_rn.filter(col("rn") == 1) \
                        .drop("rn", "AmbitoAtencion", "DepartamentoNotificacion")

# Asignar la ola correspondiente a cada registro
df_para_olas = df_con_onset.withColumn("Ola_COVID", expr_ola)
df_para_olas = df_para_olas.filter((col("Ola_COVID") != 'Fuera_Ola'))

# Aplicar filtros para considerar Onset_icu entre 0 y 100 días
df_para_olas = df_para_olas.filter((col("Onset_icu") >= 0) & (col("Onset_icu") <= 100))

# Calcular el promedio de Onset_icu por cada ola
df_avg = df_para_olas.groupBy("Ola_COVID").agg(avg("Onset_icu").alias("AVG_Onset_icu"))

In [None]:
# Mostrar resultados 
df_avg.show()

In [None]:
proms = df_avg.sort("Ola_COVID").select('AVG_Onset_icu').rdd.flatMap(lambda x: x).collect()
promedios = proms

In [None]:
# promedios.insert(0, np.nan)
# promedios

In [None]:
waves = ['Ola 1', 'Ola 2', 'Ola 3', 'Ola 4']
colors = ['#6a5acd', '#66c2a5', '#4daf4a', '#d95f02']

plt.figure(figsize=(6, 4))

for i, (wave, promedio, color) in enumerate(zip(waves, promedios, colors)):
    if not np.isnan(promedio):
        plt.bar(wave, promedio, color=color, width=0.7, zorder=3)
        plt.text(i, promedio + 0.2, f'{promedio:.1f}', ha='center', fontsize=9)
    else:
        plt.bar(wave, 0, color='none', edgecolor=color, width=1.0, hatch='//')

        plt.text(i, 0.9, 'There is not', ha='center', fontsize=7.5, color='#6b6ca3')
        plt.text(i, 0.2, 'enough data', ha='center', fontsize=7.5, color='#6b6ca3')

# Etiquetas
# plt.xlabel('COVID-19 waves')
plt.ylabel('Promedio (días)', fontsize=12)
plt.title('Inicio de síntomas hasta UCI', fontsize=14)
plt.yticks([0, 5, 10, 15, 20, 25], fontsize=10)

plt.grid(True, linestyle='--', alpha=0.6, zorder=0)
plt.show()

In [None]:
df_para_olas.groupBy("Ola_COVID").count().sort("Ola_COVID").show()

---
---
---
# Análisis para todos los departamentos

In [None]:
df_sivigila346_v2 = df_sivigila346[df_sivigila346['DepartamentoNotificacion'] != 'NO REPORTADO'].copy()

In [None]:
# https://dgn.isolutions.iso.org/obp/ui#iso:code:3166:CO
df_sivigila346_v2['DepartamentoNotificacion'].replace({'Bogotá, D.C.': 'DC', 
                                                       'Antioquia': 'ANT', 
                                                       'Valle del Cauca': 'VAC', 
                                                       'Cundinamarca': 'CUN', 
                                                       'Santander': 'SAN', 
                                                       'Atlántico': 'ATL', 
                                                       'Boyacá': 'BOY', 
                                                       'Norte de Santander': 'NSA', 
                                                       'Córdoba': 'COR', 
                                                       'Tolima': 'TOL', 
                                                       'Caldas': 'CAL', 
                                                       'Cesar': 'CES', 
                                                       'Meta': 'MET', 
                                                       'Risaralda': 'RIS', 
                                                       'Huila': 'HUI', 
                                                       'Bolívar': 'BOL', 
                                                       'Cauca': 'CAU', 
                                                       'Sucre': 'SUC', 
                                                       'Quindio': 'QUI', 
                                                       'Nariño': 'NAR', 
                                                       'Magdalena': 'MAG', 
                                                       'Casanare': 'CAS', 
                                                       'La Guajira': 'LAG', 
                                                       'Caquetá': 'CAQ', 
                                                       'Putumayo': 'PUT', 
                                                       'Chocó': 'CHO', 
                                                       'Arauca': 'ARA', 
                                                       'Archipiélago de San Andrés, Providencia y Santa Catalina': 'SAP', 
                                                       'Amazonas': 'AMA', 
                                                       'Guaviare': 'GUV', 
                                                       'Guainía': 'GUA', 
                                                       'Vichada': 'VIC', 
                                                       'Vaupés': 'VAU'}, inplace=True)

In [None]:
from pyspark.sql import Window
from pyspark.sql.functions import col, to_date, datediff, when, row_number, avg
import pyspark.sql.functions as F
import pandas as pd

# -------------------------------
# 1. Cargar y unir los DataFrames de SEGCOVID
dfs_segcovid = []
for nombre, archivo in dir_segcovid.items():
    df = cargar_datos(archivo, columnas_segcovid)
    if df is not None:
        dfs_segcovid.append(df)

if dfs_segcovid:
    df_segcovid = dfs_segcovid[0]
    for df in dfs_segcovid[1:]:
        df_segcovid = df_segcovid.unionByName(df, allowMissingColumns=True)
else:
    df_segcovid = None

df_segcovid = df_segcovid.filter(col("DepartamentoAtencion") != "-1 - NO DEFINIDO")

df_segcovid_v2 = df_segcovid.withColumn(
    'DepartamentoAtencion',
     when(df_segcovid['DepartamentoAtencion'] == '11 - Bogotá D.C.', 'DC')
    .when(df_segcovid['DepartamentoAtencion'] == '05 - Antioquia', 'ANT')
    .when(df_segcovid['DepartamentoAtencion'] == '76 - Valle del Cauca', 'VAC')
    .when(df_segcovid['DepartamentoAtencion'] == '08 - Atlántico', 'ATL')
    .when(df_segcovid['DepartamentoAtencion'] == '25 - Cundinamarca', 'CUN')
    .when(df_segcovid['DepartamentoAtencion'] == '68 - Santander', 'SAN')
    .when(df_segcovid['DepartamentoAtencion'] == '13 - Bolívar', 'BOL')
    .when(df_segcovid['DepartamentoAtencion'] == '47 - Magdalena', 'MAG')
    .when(df_segcovid['DepartamentoAtencion'] == '15 - Boyacá', 'BOY')
    .when(df_segcovid['DepartamentoAtencion'] == '17 - Caldas', 'CAL')
    .when(df_segcovid['DepartamentoAtencion'] == '52 - Nariño', 'NAR')
    .when(df_segcovid['DepartamentoAtencion'] == '20 - Cesar', 'CES')
    .when(df_segcovid['DepartamentoAtencion'] == '23 - Córdoba', 'COR')
    .when(df_segcovid['DepartamentoAtencion'] == '73 - Tolima', 'TOL')
    .when(df_segcovid['DepartamentoAtencion'] == '50 - Meta', 'MET')
    .when(df_segcovid['DepartamentoAtencion'] == '41 - Huila', 'HUI')
    .when(df_segcovid['DepartamentoAtencion'] == '54 - Norte de Santander', 'NSA')
    .when(df_segcovid['DepartamentoAtencion'] == '66 - Risaralda', 'RIS')
    .when(df_segcovid['DepartamentoAtencion'] == '19 - Cauca', 'CAU')
    .when(df_segcovid['DepartamentoAtencion'] == '44 - La Guajira', 'LAG')
    .when(df_segcovid['DepartamentoAtencion'] == '70 - Sucre', 'SUC')
    .when(df_segcovid['DepartamentoAtencion'] == '63 - Quindio', 'QUI')
    .when(df_segcovid['DepartamentoAtencion'] == '85 - Casanare', 'CAS')
    .when(df_segcovid['DepartamentoAtencion'] == '18 - Caquetá', 'CAQ')
    .when(df_segcovid['DepartamentoAtencion'] == '86 - Putumayo', 'PUT')
    .when(df_segcovid['DepartamentoAtencion'] == '27 - Chocó', 'CHO')
    .when(df_segcovid['DepartamentoAtencion'] == '81 - Arauca', 'ARA')
    .when(df_segcovid['DepartamentoAtencion'] == '91 - Amazonas', 'AMA')
    .when(df_segcovid['DepartamentoAtencion'] == '88 - Archipiélago de San Andrés Providencia y Santa Catalina', 'SAP')
    .when(df_segcovid['DepartamentoAtencion'] == '95 - Guaviare', 'GUV')
    .when(df_segcovid['DepartamentoAtencion'] == '99 - Vichada', 'VIC')
    .when(df_segcovid['DepartamentoAtencion'] == '94 - Guainía', 'GUA')
    .when(df_segcovid['DepartamentoAtencion'] == '97 - Vaupés', 'VAU')
    .otherwise(df_segcovid['DepartamentoAtencion'])
)

# -------------------------------
# 2. Filtrar SEGCOVID para "Cuidado Intensivo" (sin filtrar por departamento aún)
df_icu_global = df_segcovid_v2.filter(col("AmbitoAtencion") == "Cuidado Intensivo") \
                           .drop_duplicates() \
                           .persist()

# Obtener la lista única de departamentos (columna DepartamentoAtencion)
departamentos = [row[0] for row in df_segcovid_v2.select("DepartamentoAtencion").distinct().collect()]

# Lista para almacenar resultados finales
results = []
conteos = []

# Definir las condiciones para asignar la ola de COVID (según FechaInicioSintomas)
expr_ola = when(col("FechaInicioSintomas").between("2020-02-26", "2020-09-25"), "Wave 1") \
           .when(col("FechaInicioSintomas").between("2020-11-01", "2021-03-01"), "Wave 2") \
           .when(col("FechaInicioSintomas").between("2021-03-01", "2021-09-14"), "Wave 3") \
           .when(col("FechaInicioSintomas").between("2021-11-20", "2022-03-24"), "Wave 4") \
           .otherwise("Fuera_Ola")

# -------------------------------
# 3. Iterar sobre cada departamento
for dept in departamentos:
    # Filtrar df_icu para el departamento actual
    df_icu_dep = df_icu_global.filter(col("DepartamentoAtencion") == dept) \
                              .drop_duplicates() \
                              .persist()
    
    # Crear la lista de IDs únicos de personas en UCI para el departamento
    ids_list_dep = df_icu_dep.select("PersonaBasicaID").distinct() \
                             .rdd.flatMap(lambda x: x).collect()
    
    # Filtrar los datos de Sivigila para el departamento actual (usando DepartamentoNotificacion)
    df_dep = df_sivigila346_v2[df_sivigila346_v2['DepartamentoNotificacion'] == dept].copy()
    
    # Convertir las fechas a formato datetime en Pandas
    df_dep['FechaInicioSintomas'] = pd.to_datetime(df_dep['FechaInicioSintomas'].astype(int), format='%Y%m%d')
    df_dep['FechaNotificacion'] = pd.to_datetime(df_dep['FechaNotificacion'].astype(int), format='%Y%m%d')
    
    # Eliminar fechas erróneas y registros no válidos
    df_dep = df_dep[df_dep['FechaInicioSintomas'] != '19000101']
    df_dep = df_dep[df_dep['PersonaBasicaID'] != '1']
    
    # Filtrar para que solo queden los IDs que estuvieron en UCI
    df_dep_filtrado = df_dep[df_dep["PersonaBasicaID"].isin(ids_list_dep)].copy()
    
    if len(df_dep_filtrado) == 0:
        continue
    
    # Convertir el DataFrame filtrado de Pandas a DataFrame de PySpark
    df_sivigila_spark = spark.createDataFrame(df_dep_filtrado)
    
    # Convertir las columnas de fecha a tipo date en Spark
    df_icu_dep = df_icu_dep.withColumn("FechaIngresoAtencion", to_date(col("FechaIngresoAtencion"), "yyyy-MM-dd"))
    df_sivigila_spark = df_sivigila_spark.withColumn("FechaInicioSintomas", to_date(col("FechaInicioSintomas"), "yyyy-MM-dd"))
    df_sivigila_spark = df_sivigila_spark.withColumn("FechaNotificacion", to_date(col("FechaNotificacion"), "yyyy-MM-dd"))
    
    # -------------------------------
    # 4. Unir ambas fuentes por PersonaBasicaID
    df_join = df_icu_dep.join(df_sivigila_spark, on="PersonaBasicaID", how="inner")
    
    # Filtrar registros donde FechaIngresoAtencion >= FechaInicioSintomas
    df_join2 = df_join.filter(col("FechaIngresoAtencion") >= col("FechaInicioSintomas"))
    
    # Calcular la diferencia en días entre la fecha de ingreso y el inicio de síntomas
    df_join2 = df_join2.withColumn("Onset_icu", datediff(col("FechaIngresoAtencion"), col("FechaInicioSintomas")))
    
    # Usar ventana para quedarse con el registro de menor diferencia por PersonaBasicaID y FechaInicioSintomas
    window_Onset_icu = Window.partitionBy("PersonaBasicaID", "FechaInicioSintomas").orderBy("Onset_icu")
    df_con_rn = df_join2.withColumn("rn", row_number().over(window_Onset_icu))
    df_con_onset = df_con_rn.filter(col("rn") == 1) \
                            .drop("rn", "AmbitoAtencion", "DepartamentoNotificacion")
    
    # Asignar la ola correspondiente a cada registro
    df_para_olas = df_con_onset.withColumn("Ola_COVID", expr_ola)
    df_para_olas = df_para_olas.filter((col("Ola_COVID") != 'Fuera_Ola'))
    
    # Aplicar filtros para considerar Onset_icu entre 0 y 100 días
    df_para_olas = df_para_olas.filter((col("Onset_icu") >= 0) & (col("Onset_icu") <= 100))
    
    # Calcular el promedio de Onset_icu por cada ola
    df_avg = df_para_olas.groupBy("Ola_COVID").agg(avg("Onset_icu").alias("AVG_Onset_icu")).sort("Ola_COVID")
   
    # Guardar en el diccionario final usando el departamento como clave
    for row in df_avg.collect():
        results.append({
            'Departamento': dept,
            'Wave': row["Ola_COVID"],
            'MeanDelay': row["AVG_Onset_icu"]
        })
        
    for row in df_para_olas.groupBy("Ola_COVID").count().sort("Ola_COVID").collect():
        conteos.append({
            'Departamento': dept,
            'Wave': row["Ola_COVID"],
            'Registros': row["count"]
        })

In [None]:
df_avg.show()

In [None]:
# Crear un DataFrame con los resultados
df_results = pd.DataFrame(results)
pivot_table = df_results.pivot(index="Departamento", columns="Wave", values="MeanDelay")
pivot_table

In [None]:
df_conteos = pd.DataFrame(conteos)
tabla_conteos = df_conteos.pivot(index="Departamento", columns="Wave", values="Registros")
tabla_conteos

In [None]:
# Grafica heatmap
plt.figure(figsize=(3, len(pivot_table)*0.25)) 
sns.heatmap(pivot_table, 
            annot=True, 
            cmap="coolwarm", #RdYlGr coolwarm summer
            fmt=".2f",
            annot_kws={"size": 8})
plt.title("Avg Delay from \nOnset to ICU", fontsize=12)
plt.xlabel("")
plt.xticks(rotation=60)
plt.ylabel("Department")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(6, 5))
sns.boxplot(x='Wave', y='MeanDelay', data=df_results, palette="Set3", hue='Wave', legend=False, showfliers=False)
sns.swarmplot(x='Wave', y='MeanDelay', data=df_results, color=".25")
plt.title("Onset to ICU")
plt.xlabel("")
plt.ylabel("Avg value of delay time (Days)")
plt.tight_layout()
plt.show()

---
---
---
## Análisis para todos los departamentos POR REGIONES

In [None]:
df_sivigila346_v2 = df_sivigila346[df_sivigila346['DepartamentoNotificacion'] != 'NO REPORTADO'].copy()

# https://dgn.isolutions.iso.org/obp/ui#iso:code:3166:CO
df_sivigila346_v2['DepartamentoNotificacion'].replace({'Bogotá, D.C.': 'DC', 
                                                       'Antioquia': 'ANT', 
                                                       'Valle del Cauca': 'VAC', 
                                                       'Cundinamarca': 'CUN', 
                                                       'Santander': 'SAN', 
                                                       'Atlántico': 'ATL', 
                                                       'Boyacá': 'BOY', 
                                                       'Norte de Santander': 'NSA', 
                                                       'Córdoba': 'COR', 
                                                       'Tolima': 'TOL', 
                                                       'Caldas': 'CAL', 
                                                       'Cesar': 'CES', 
                                                       'Meta': 'MET', 
                                                       'Risaralda': 'RIS', 
                                                       'Huila': 'HUI', 
                                                       'Bolívar': 'BOL', 
                                                       'Cauca': 'CAU', 
                                                       'Sucre': 'SUC', 
                                                       'Quindio': 'QUI', 
                                                       'Nariño': 'NAR', 
                                                       'Magdalena': 'MAG', 
                                                       'Casanare': 'CAS', 
                                                       'La Guajira': 'LAG', 
                                                       'Caquetá': 'CAQ', 
                                                       'Putumayo': 'PUT', 
                                                       'Chocó': 'CHO', 
                                                       'Arauca': 'ARA', 
                                                       'Archipiélago de San Andrés, Providencia y Santa Catalina': 'SAP', 
                                                       'Amazonas': 'AMA', 
                                                       'Guaviare': 'GUV', 
                                                       'Guainía': 'GUA', 
                                                       'Vichada': 'VIC', 
                                                       'Vaupés': 'VAU'}, inplace=True)

def classify_region(department):
    region_map = {
        "Amazónica": ["AMA", "CAQ", "GUA", "GUV", "PUT", "VAU"],
        "Andina": ["ANT", "BOY", "CAL", "CUN", "DC", "HUI", "NSA", "QUI", "RIS", "SAN", "TOL"],
        "Pacífica": ["VAC", "CHO", "CAU", "NAR"],
        "Caribe e Insular": ["ATL", "BOL", "CES", "COR", "LAG", "MAG", "SUC", "SAP"],
        "Orinoquía": ["ARA", "CAS", "MET", "VIC"]
    }
    
    for region, departments in region_map.items():
        if department in departments:
            return region
    return "Desconocido"  # En caso de que haya códigos no contemplados

# Aplicar la función a la columna DepartamentoNotificacion
df_sivigila346_v2["Region"] = df_sivigila346_v2["DepartamentoNotificacion"].apply(classify_region)

from pyspark.sql import Window
from pyspark.sql.functions import col, to_date, datediff, when, row_number, avg
import pyspark.sql.functions as F
import pandas as pd

# -------------------------------
# 1. Cargar y unir los DataFrames de SEGCOVID
dfs_segcovid = []
for nombre, archivo in dir_segcovid.items():
    df = cargar_datos(archivo, columnas_segcovid)
    if df is not None:
        dfs_segcovid.append(df)

if dfs_segcovid:
    df_segcovid = dfs_segcovid[0]
    for df in dfs_segcovid[1:]:
        df_segcovid = df_segcovid.unionByName(df, allowMissingColumns=True)
else:
    df_segcovid = None

df_segcovid = df_segcovid.filter(col("DepartamentoAtencion") != "-1 - NO DEFINIDO")

df_segcovid_v2 = df_segcovid.withColumn(
    'DepartamentoAtencion',
     when(df_segcovid['DepartamentoAtencion'] == '11 - Bogotá D.C.', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '05 - Antioquia', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '76 - Valle del Cauca', 'Pacífica')
    .when(df_segcovid['DepartamentoAtencion'] == '08 - Atlántico', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '25 - Cundinamarca', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '68 - Santander', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '13 - Bolívar', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '47 - Magdalena', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '15 - Boyacá', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '17 - Caldas', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '52 - Nariño', 'Pacífica')
    .when(df_segcovid['DepartamentoAtencion'] == '20 - Cesar', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '23 - Córdoba', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '73 - Tolima', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '50 - Meta', 'Orinoquía')
    .when(df_segcovid['DepartamentoAtencion'] == '41 - Huila', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '54 - Norte de Santander', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '66 - Risaralda', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '19 - Cauca', 'Pacífica')
    .when(df_segcovid['DepartamentoAtencion'] == '44 - La Guajira', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '70 - Sucre', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '63 - Quindio', 'Andina')
    .when(df_segcovid['DepartamentoAtencion'] == '85 - Casanare', 'Orinoquía')
    .when(df_segcovid['DepartamentoAtencion'] == '18 - Caquetá', 'Amazónica')
    .when(df_segcovid['DepartamentoAtencion'] == '86 - Putumayo', 'Amazónica')
    .when(df_segcovid['DepartamentoAtencion'] == '27 - Chocó', 'Pacífica')
    .when(df_segcovid['DepartamentoAtencion'] == '81 - Arauca', 'Orinoquía')
    .when(df_segcovid['DepartamentoAtencion'] == '91 - Amazonas', 'Amazónica')
    .when(df_segcovid['DepartamentoAtencion'] == '88 - Archipiélago de San Andrés Providencia y Santa Catalina', 'Caribe e Insular')
    .when(df_segcovid['DepartamentoAtencion'] == '95 - Guaviare', 'Amazónica')
    .when(df_segcovid['DepartamentoAtencion'] == '99 - Vichada', 'Orinoquía')
    .when(df_segcovid['DepartamentoAtencion'] == '94 - Guainía', 'Amazónica')
    .when(df_segcovid['DepartamentoAtencion'] == '97 - Vaupés', 'Amazónica')
    .otherwise(df_segcovid['DepartamentoAtencion'])
)

# -------------------------------
# 2. Filtrar SEGCOVID para "Cuidado Intensivo" (sin filtrar por departamento aún)
df_icu_global = df_segcovid_v2.filter(col("AmbitoAtencion") == "Cuidado Intensivo") \
                           .drop_duplicates() \
                           .persist()

# Obtener la lista única de departamentos (columna DepartamentoAtencion)
departamentos = [row[0] for row in df_segcovid_v2.select("DepartamentoAtencion").distinct().collect()]

# Lista para almacenar resultados finales
results = []
conteos = []

# Definir las condiciones para asignar la ola de COVID (según FechaInicioSintomas)
expr_ola = when(col("FechaInicioSintomas").between("2020-02-26", "2020-09-25"), "Wave 1") \
           .when(col("FechaInicioSintomas").between("2020-11-01", "2021-03-01"), "Wave 2") \
           .when(col("FechaInicioSintomas").between("2021-03-01", "2021-09-14"), "Wave 3") \
           .when(col("FechaInicioSintomas").between("2021-11-20", "2022-03-24"), "Wave 4") \
           .otherwise("Fuera_Ola")

# -------------------------------
# 3. Iterar sobre cada departamento
for dept in departamentos:
    # Filtrar df_icu para el departamento actual
    df_icu_dep = df_icu_global.filter(col("DepartamentoAtencion") == dept) \
                              .drop_duplicates() \
                              .persist()
    
    # Crear la lista de IDs únicos de personas en UCI para el departamento
    ids_list_dep = df_icu_dep.select("PersonaBasicaID").distinct() \
                             .rdd.flatMap(lambda x: x).collect()
    
    # Filtrar los datos de Sivigila para el departamento actual (usando DepartamentoNotificacion)
    df_dep = df_sivigila346_v2[df_sivigila346_v2['Region'] == dept].copy()
    
    # Convertir las fechas a formato datetime en Pandas
    df_dep['FechaInicioSintomas'] = pd.to_datetime(df_dep['FechaInicioSintomas'].astype(int), format='%Y%m%d')
    df_dep['FechaNotificacion'] = pd.to_datetime(df_dep['FechaNotificacion'].astype(int), format='%Y%m%d')
    
    # Eliminar fechas erróneas y registros no válidos
    df_dep = df_dep[df_dep['FechaInicioSintomas'] != '19000101']
    df_dep = df_dep[df_dep['PersonaBasicaID'] != '1']
    
    # Filtrar para que solo queden los IDs que estuvieron en UCI
    df_dep_filtrado = df_dep[df_dep["PersonaBasicaID"].isin(ids_list_dep)].copy()
    
    if len(df_dep_filtrado) == 0:
        continue
    
    # Convertir el DataFrame filtrado de Pandas a DataFrame de PySpark
    df_sivigila_spark = spark.createDataFrame(df_dep_filtrado)
    
    # Convertir las columnas de fecha a tipo date en Spark
    df_icu_dep = df_icu_dep.withColumn("FechaIngresoAtencion", to_date(col("FechaIngresoAtencion"), "yyyy-MM-dd"))
    df_sivigila_spark = df_sivigila_spark.withColumn("FechaInicioSintomas", to_date(col("FechaInicioSintomas"), "yyyy-MM-dd"))
    df_sivigila_spark = df_sivigila_spark.withColumn("FechaNotificacion", to_date(col("FechaNotificacion"), "yyyy-MM-dd"))
    
    # -------------------------------
    # 4. Unir ambas fuentes por PersonaBasicaID
    df_join = df_icu_dep.join(df_sivigila_spark, on="PersonaBasicaID", how="inner")
    
    # Filtrar registros donde FechaIngresoAtencion >= FechaInicioSintomas
    df_join2 = df_join.filter(col("FechaIngresoAtencion") >= col("FechaInicioSintomas"))
    
    # Calcular la diferencia en días entre la fecha de ingreso y el inicio de síntomas
    df_join2 = df_join2.withColumn("Onset_icu", datediff(col("FechaIngresoAtencion"), col("FechaInicioSintomas")))
    
    # Usar ventana para quedarse con el registro de menor diferencia por PersonaBasicaID y FechaInicioSintomas
    window_Onset_icu = Window.partitionBy("PersonaBasicaID", "FechaInicioSintomas").orderBy("Onset_icu")
    df_con_rn = df_join2.withColumn("rn", row_number().over(window_Onset_icu))
    df_con_onset = df_con_rn.filter(col("rn") == 1) \
                            .drop("rn", "AmbitoAtencion", "DepartamentoNotificacion", "Region")
    
    # Asignar la ola correspondiente a cada registro
    df_para_olas = df_con_onset.withColumn("Ola_COVID", expr_ola)
    df_para_olas = df_para_olas.filter((col("Ola_COVID") != 'Fuera_Ola'))
    
    # Aplicar filtros para considerar Onset_icu entre 0 y 100 días
    df_para_olas = df_para_olas.filter((col("Onset_icu") >= 0) & (col("Onset_icu") <= 100))
    
    # Calcular el promedio de Onset_icu por cada ola
    df_avg = df_para_olas.groupBy("Ola_COVID").agg(avg("Onset_icu").alias("AVG_Onset_icu")).sort("Ola_COVID")
    print(df_avg.show())
    
    # Guardar en el diccionario final usando el departamento como clave
    for row in df_avg.collect():
        results.append({
            'Region': dept,
            'Wave': row["Ola_COVID"],
            'MeanDelay': row["AVG_Onset_icu"]
        })
    for row in df_para_olas.groupBy("Ola_COVID").count().sort("Ola_COVID").collect():
        conteos.append({
            'Region': dept,
            'Wave': row["Ola_COVID"],
            'Registros': row["count"]
        })

In [None]:
# Crear un DataFrame con los resultados
df_results = pd.DataFrame(results)
pivot_table = df_results.pivot(index="Region", columns="Wave", values="MeanDelay")
pivot_table

In [None]:
df_conteos = pd.DataFrame(conteos)
tabla_conteos = df_conteos.pivot(index="Region", columns="Wave", values="Registros")
tabla_conteos

In [None]:
# Grafica heatmap
plt.figure(figsize=(4, 3.5)) 
sns.heatmap(pivot_table, 
            annot=True, 
            cmap="coolwarm", #RdYlGr coolwarm summer
            fmt=".2f",
            annot_kws={"size": 9})
plt.title("Avg Delay from \nOnset to ICU", fontsize=12)
plt.xticks(rotation=45)
plt.xlabel("")
plt.ylabel("")
plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(6, 4))

# Crear líneas para cada departamento
for reg in pivot_table.index:
    plt.plot(pivot_table.columns, pivot_table.loc[reg], marker='o', linestyle='-', label=reg)

plt.title("Onset to ICU entrance", fontsize=14)
plt.xlabel("")
plt.ylabel('Avg value of delay time (Days)', fontsize=12)
plt.legend(title="Region", loc='upper right', fontsize=9, bbox_to_anchor=(1.34, 1.02)) 
plt.grid(True, linestyle='--', alpha=0.7)

plt.show()

In [None]:
plt.figure(figsize=(8, 4))

num_regions = len(pivot_table)
num_waves = len(pivot_table.columns)

x = np.arange(num_regions)
width = 0.15  

# Barras
colors = ['#6b6ca3', '#87bcbd', '#6f9954', '#b1615c']
for i, wave in enumerate(pivot_table.columns):
    plt.bar(x + i * width, pivot_table[wave], width=width, label=wave, color=colors[i])

plt.xticks(x + width * (num_waves / 2 - 0.5), pivot_table.index, rotation=0, fontsize=9)
plt.ylabel('Avg value of delay time (Days)')
plt.title("Onset to ICU entrance")
plt.legend(title="COVID-19 Wave", fontsize=9, bbox_to_anchor=(1.25, 1.02))
plt.yticks([0, 2.5, 5.0, 7.5, 10.0, 12.5, 15.0, 17.5])

plt.tight_layout()
plt.show()