<a href="https://colab.research.google.com/github/PedroChumpitaz/A-Multilingual-Human-Agent-Interaction-System-for-Enhanced-International-Dining-Experiences/blob/main/data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install lifelines

Collecting lifelines
  Downloading lifelines-0.28.0-py3-none-any.whl (349 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/349.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━[0m [32m194.6/349.2 kB[0m [31m5.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m349.2/349.2 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
Collecting autograd-gamma>=0.3 (from lifelines)
  Downloading autograd-gamma-0.5.0.tar.gz (4.0 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting formulaic>=0.2.2 (from lifelines)
  Downloading formulaic-1.0.1-py3-none-any.whl (94 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m94.2/94.2 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
Collecting interface-meta>=1.2.0 (from formulaic>=0.2.2->lifelines)
  Downloading interface_meta-1.3.0-py3-none-any.whl (14 kB)
Building wheels for collected packages: autog

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd
import numpy as np
from lifelines import KaplanMeierFitter

# Funciones para cargar datos de cada módulo
def mean_survival_time_km(group):
    T = group['TVIDA']
    E = np.ones_like(T)  # Suponemos que todos los eventos están censurados

    kmf = KaplanMeierFitter()
    kmf.fit(T, event_observed=E, label='Kaplan-Meier')

    kmf_times = kmf.survival_function_.index
    kmf_probabilities = kmf.survival_function_['Kaplan-Meier']
    mean_survival_time = np.sum(np.diff(kmf_times) * kmf_probabilities.iloc[:-1])

    return mean_survival_time

def cargar_datos_mod_18(year):
    ruta = f'/content/drive/MyDrive/Survival-modeling-2024/data/mod-18/Enaho01-{year}.csv'
    df = pd.read_csv(ruta, encoding='latin1')
    df = df[df['P612N'] == 2]
    variables_cualitativas = ['AÑO', 'MES', 'CONGLOME', 'VIVIENDA', 'HOGAR', 'UBIGEO', 'DOMINIO', 'ESTRATO', 'P612N', 'P612', 'P612B', 'P612C', 'P612C1', 'FACTOR07', 'NCONGLOME']
    variables_cuantitativas = ['P612A', 'P612G', 'P612H', 'D612G', 'D612H', 'I612G', 'I612H', 'TICUEST01']
    variables_cualitativas = [col for col in variables_cualitativas if col in df.columns]
    variables_cuantitativas = [col for col in variables_cuantitativas if col in df.columns]
    df = df[variables_cualitativas + variables_cuantitativas]
    for col in variables_cuantitativas:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    df['AÑO'] = pd.to_numeric(df['AÑO'], errors='coerce')
    df['P612C'] = pd.to_numeric(df['P612C'], errors='coerce')
    valores_a_eliminar = [99, 999, 9999, 99999, 999999, 999999.99, 9]
    for valor in valores_a_eliminar:
        df = df.replace(valor, np.nan)
    df = df.dropna(subset=['P612C'])

    df['TVIDA'] = df['AÑO'] - df['P612C']
    df = df[df['TVIDA'] > 0]

    grouped = df.groupby('UBIGEO')

    resumen_cualitativo = grouped[variables_cualitativas].agg(moda)
    resumen_cuantitativo = grouped[variables_cuantitativas].agg(mediana)

    # Calcular el tiempo medio de supervivencia para cada grupo y agregarlo al resumen
    mean_survival_times = grouped.apply(mean_survival_time_km)
    mean_survival_times.name = 'mean_survival_time_km'

    resumen = pd.concat([resumen_cualitativo, resumen_cuantitativo, mean_survival_times], axis=1)
    columnas_seleccionadas = ['AÑO', 'P612A', 'P612B', 'P612C', 'FACTOR07', 'P612G', 'P612H', 'D612G', 'D612H', 'I612G', 'I612H', 'mean_survival_time_km']
    resumen = resumen[columnas_seleccionadas]
    resumen = resumen.reset_index()
    resumen = resumen.rename(columns={'FACTOR07': 'FACTOR07_MOD18'})
    return resumen

def cargar_datos_mod_32(year):
    ruta_sumaria = f'/content/drive/MyDrive/Survival-modeling-2024/data/mod-32/Sumaria-{year}.csv'
    df = pd.read_csv(ruta_sumaria, encoding='latin1')
    col_m32 = ['AÑO', 'UBIGEO', 'INGMO2HD', 'FACTOR07', 'SG42', 'SG42D']
    df = df[col_m32]
    variables_cualitativas = ['AÑO']
    variables_cuantitativas = ['INGMO2HD', 'FACTOR07']
    variables_excluyentes = ['SG42', 'SG42D']
    for col in variables_cuantitativas + variables_excluyentes:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    df['AÑO'] = pd.to_numeric(df['AÑO'], errors='coerce')
    grouped = df.groupby('UBIGEO')
    resumen_cualitativo = grouped[variables_cualitativas].agg(moda)
    resumen_cuantitativo = grouped[variables_cuantitativas].agg(mediana)
    resumen_excluyente = grouped[variables_excluyentes].agg(mediana_excluyendo_ceros)
    resumen = pd.concat([resumen_cualitativo, resumen_cuantitativo, resumen_excluyente], axis=1)
    resumen = resumen.reset_index()
    resumen = resumen.rename(columns={'FACTOR07': 'FACTOR07_SUMARIA'})
    return resumen

def cargar_datos_mod_01(year):
    ruta_sumaria = f'/content/drive/MyDrive/Survival-modeling-2024/data/mod-1/Enaho01-{year}.csv'
    df = pd.read_csv(ruta_sumaria, encoding='latin1')
    variables_cualitativas = ['AÑO', 'P101', 'P102', 'P103', 'P103A', 'P1143', 'P1144']
    variables_cuantitativas = ['P104']
    for col in variables_cuantitativas:
        df[col] = pd.to_numeric(df[col], errors='coerce')
    df['AÑO'] = pd.to_numeric(df['AÑO'], errors='coerce')
    grouped = df.groupby('UBIGEO')
    resumen_cualitativo = grouped[variables_cualitativas].agg(moda)
    resumen_cuantitativo = grouped[variables_cuantitativas].agg(mediana)
    resumen = pd.concat([resumen_cualitativo, resumen_cuantitativo], axis=1)
    resumen = resumen.reset_index()
    return resumen

def cargar_datos_mod_05(year):
    ruta_sumaria = f'/content/drive/MyDrive/Survival-modeling-2024/data/mod-5/Enaho01-{year}.csv'
    df = pd.read_csv(ruta_sumaria, encoding='latin1')
    variables_cualitativas = ['AÑO', 'P510']
    df['AÑO'] = pd.to_numeric(df['AÑO'], errors='coerce')
    df['P510'] = pd.to_numeric(df['P510'], errors='coerce')
    grouped = df.groupby('UBIGEO')
    resumen_cualitativo = grouped[variables_cualitativas].agg(moda_excluyendo_ceros)
    resumen_cualitativo = resumen_cualitativo.reset_index()
    return resumen_cualitativo

def cargar_datos_mod_03(year):
    ruta_sumaria = f'/content/drive/MyDrive/Survival-modeling-2024/data/mod-3/Enaho01-{year}.csv'
    df = pd.read_csv(ruta_sumaria, encoding='latin1')
    variables_cualitativas = ['AÑO', 'P301A']
    df['AÑO'] = pd.to_numeric(df['AÑO'], errors='coerce')
    df['P301A'] = pd.to_numeric(df['P301A'], errors='coerce')
    grouped = df.groupby('UBIGEO')
    resumen_cualitativo = grouped[variables_cualitativas].agg(moda_excluyendo_ceros)
    resumen_cualitativo = resumen_cualitativo.reset_index()
    return resumen_cualitativo

# Definir funciones de agregación
def moda(series):
    series = series.dropna()
    return series.mode().iloc[0] if not series.mode().empty else np.nan

def mediana(series):
    series = series.dropna()
    return series.median() if not series.empty else np.nan

def mediana_excluyendo_ceros(series):
    series = series.replace(0, np.nan).dropna()
    return series.median() if not series.empty else np.nan

def moda_excluyendo_ceros(series):
    series = series.replace(0, np.nan).dropna()
    return series.mode().iloc[0] if not series.mode().empty else np.nan

# Procesar los datos de cada módulo para los años 2008 a 2023 y concatenar los resultados
all_years_data = []

for year in range(2016, 2023 + 1):
    resumen_mod18 = pd.DataFrame()
    resumen_mod32 = pd.DataFrame()
    resumen_mod01 = pd.DataFrame()
    resumen_mod05 = pd.DataFrame()
    resumen_mod03 = pd.DataFrame()

    resumen_mod18 = cargar_datos_mod_18(year)
    resumen_mod32 = cargar_datos_mod_32(year)
    resumen_mod01 = cargar_datos_mod_01(year)
    resumen_mod05 = cargar_datos_mod_05(year)
    resumen_mod03 = cargar_datos_mod_03(year)

    # Fusionar los DataFrames usando 'UBIGEO' y 'AÑO'
    df_combinado = resumen_mod18.merge(resumen_mod32, on=['UBIGEO', 'AÑO'], how='inner')
    df_combinado = df_combinado.merge(resumen_mod01, on=['UBIGEO', 'AÑO'], how='inner')
    df_combinado = df_combinado.merge(resumen_mod05, on=['UBIGEO', 'AÑO'], how='inner')
    df_combinado = df_combinado.merge(resumen_mod03, on=['UBIGEO', 'AÑO'], how='inner')

    all_years_data.append(df_combinado)

# Concatenar todos los resultados en un único DataFrame
df_final = pd.concat(all_years_data, ignore_index=True)

# Cargar DataFrame de ubigeo desde el archivo
ruta_ubigeo = '/content/drive/MyDrive/Survival-modeling-2024/data/ubigeo_lima.csv'
ubigeo = pd.read_csv(ruta_ubigeo, encoding='latin1')

# Filtrar los datos para Lima usando el DataFrame de ubigeo
df_lima = df_final[df_final['UBIGEO'].isin(ubigeo['UBIGEO'])]

# Agregar columnas de "DISTRITO", "PROVINCIA", "PERFIL ZONAL" del DataFrame ubigeo
df_lima = df_lima.merge(ubigeo[['UBIGEO', 'DISTRITO', 'PROVINCIA', 'PERFIL ZONAL']], on='UBIGEO', how='left')

  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, encoding='latin1')
  df = pd.read_csv(ruta_sumaria, enc

In [None]:
# Especifica la ruta donde quieres guardar el archivo
file_path = '/content/drive/MyDrive/Survival-modeling-2024/df_lima.csv'

# Guarda el DataFrame como un archivo CSV
df_lima.to_csv(file_path, index=False)