
# Modelo Random Forest: Clasificaci√≥n de Nivel de Contagios
## Paso 1: Definici√≥n del Problema y Preparaci√≥n Inicial

### üéØ Objetivo de la Actividad
En este primer cap√≠tulo, sentaremos las bases para construir un modelo de clasificaci√≥n. Aprenderemos a definir correctamente nuestro problema de Machine Learning y a preparar el entorno y los datos para el an√°lisis.

### üìã Tareas de este cap√≠tulo:
1.  **Cargar las librer√≠as** necesarias para el an√°lisis de datos.
2.  **Importar el conjunto de datos** desde un archivo formato Stata (`.dta`).
3.  **Realizar una exploraci√≥n inicial** para entender la dimensionalidad y estructura de los datos.
4.  **Crear la variable dependiente (objetivo)**, que es la variable que nuestro modelo intentar√° predecir.


### 1.1. Importaci√≥n de Librer√≠as

In [None]:

import pandas as pd
import numpy as np
print("‚úÖ Librer√≠as importadas correctamente.")


### 1.2. Carga del Conjunto de Datos

In [None]:

nombre_archivo = 'merge_RENAMU_GASTO_V.dta'
try:
    df = pd.read_stata(nombre_archivo)
    print(f"‚úÖ Base de datos '{nombre_archivo}' cargada exitosamente.")
    print(f"üìä El conjunto de datos tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
except FileNotFoundError:
    print(f"‚ùå Error: No se pudo encontrar el archivo '{nombre_archivo}'.")


### 1.3. Exploraci√≥n Inicial de Datos

In [None]:
df.head()

### 1.4. Creaci√≥n de la Variable Dependiente (Objetivo)

In [None]:

mediana_contagiados = df['contagiados'].median()
print(f"üìä La mediana de la variable 'contagiados' es: {mediana_contagiados}")

df['nivel_contagios'] = df['contagiados'].apply(lambda x: 'ALTO' if x > mediana_contagiados else 'BAJO')
print("\n‚úÖ Columna 'nivel_contagios' creada exitosamente.")



# Paso 2: Preprocesamiento y Limpieza de Datos

### üéØ Objetivo de la Actividad
En esta secci√≥n, prepararemos todos los datos para que puedan ser utilizados por el modelo de Machine Learning. Realizaremos una limpieza exhaustiva para manejar valores faltantes, corregir inconsistencias y asegurar que todas las variables est√©n en formato num√©rico.

### üìã Tareas de este cap√≠tulo:
1.  **Limpieza Global de Datos**: Aplicaremos un conjunto de reglas para limpiar todas las variables del dataset en un solo paso.
2.  **Selecci√≥n Final de Variables**: Definiremos los conjuntos `X` (predictoras) y `y` (objetivo) a partir de los datos ya limpios.



### 2.1. Limpieza y Preparaci√≥n Exhaustiva de Datos

A continuaci√≥n, ejecutaremos una celda de c√≥digo que realiza todas las tareas de limpieza necesarias. Aunque el c√≥digo es extenso, las acciones principales son:
- **Eliminar columnas no informativas**: Se descartan identificadores √∫nicos, metadatos y variables de texto libre.
- **Evitar Fuga de Datos**: Se elimina la variable `contagiados`, ya que se us√≥ para crear nuestro objetivo.
- **Corregir datos an√≥malos**: Se ajustan valores il√≥gicos, como montos negativos.
- **Manejar valores faltantes**: La mayor√≠a de las variables de encuesta (`P66`, `P67`, etc.) tienen muchos datos faltantes. Asumiremos que un dato faltante significa "No" o "Cero" y los rellenaremos con `0`.
- **Estandarizar la codificaci√≥n**: Nos aseguraremos de que todas las variables de tipo "S√≠/No" usen un formato binario consistente (1 para "S√≠", 0 para "No").
- **Convertir todo a num√©rico**: Se asegura que todas las columnas finales sean de tipo num√©rico.


In [None]:

# Crear una copia del DataFrame para no alterar el original.
df_clean = df.copy()

# --- 1. Eliminar columnas no informativas o problem√°ticas ---
# Se eliminan identificadores, metadatos, texto libre y la variable de fuga de datos.
cols_to_drop = [
    'UBIGEO', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO', # Identificadores
    'VFI_P66', 'VFI_P67', 'VFI_P68', '_merge',       # Metadatos de la encuesta
    'P67_11_O', 'P68_8_O',                           # Columnas de texto "Otro"
    'contagiados'                                   # ¬°Variable de fuga de datos!
]
df_clean = df_clean.drop(columns=cols_to_drop)
print(f"‚úÖ Se eliminaron {len(cols_to_drop)} columnas no informativas.")


# --- 2. Corregir y transformar variables espec√≠ficas ---
# Corregir valores negativos en MONTO_GIRADO.
df_clean.loc[df_clean['MONTO_GIRADO'] < 0, 'MONTO_GIRADO'] = 0

# Convertir 'mes' y 'year' de texto a n√∫mero.
df_clean[['mes', 'year']] = df_clean[['mes', 'year']].apply(pd.to_numeric, errors='coerce')
print("‚úÖ Se corrigi√≥ MONTO_GIRADO y se convirtieron 'mes' y 'year' a num√©rico.")


# --- 3. Manejo de Valores Faltantes (Imputaci√≥n) ---
# En las variables de encuesta (PXX), los valores faltantes se imputar√°n con 0.
# Esto asume que si no hay respuesta, la actividad no se realiz√≥.
p_cols = [col for col in df_clean.columns if col.startswith('P')]
df_clean[p_cols] = df_clean[p_cols].fillna(0)
print(f"‚úÖ Se imputaron valores faltantes con 0 en {len(p_cols)} columnas de encuesta.")


# --- 4. Estandarizaci√≥n de la Codificaci√≥n Binaria ---
# Algunas preguntas usan 2 para "No". Las convertimos a 0 para mantener el est√°ndar 0=No, 1=S√≠.
p66_recode_2_to_0 = ['P66_1', 'P66_2', 'P66_3', 'P66_4', 'P66_5', 'P66_6', 'P66_7', 'P66_8', 'P66_9', 'P66_10']
for col in p66_recode_2_to_0:
    if col in df_clean.columns:
        df_clean[col] = df_clean[col].replace(2, 0)

# Otras preguntas usan valores > 1 para "S√≠". Las convertimos a 1.
p_recode_gt0_to_1 = [col for col in df_clean.columns if col.startswith(('P67_', 'P68_'))]
for col in p_recode_gt0_to_1:
    df_clean[col] = df_clean[col].apply(lambda x: 1 if x > 0 else 0)
print("‚úÖ Se estandariz√≥ la codificaci√≥n de variables binarias (0=No, 1=S√≠).")


# --- 5. Verificaci√≥n Final ---
# Comprobar que todas las columnas son num√©ricas y no hay valores nulos.
print("\n--- Verificaci√≥n Final del DataFrame Limpio ---")
df_clean.info()

print("\n‚úÖ ¬°El preprocesamiento y la limpieza de datos han finalizado!")



### 2.2. Selecci√≥n Final de Conjuntos de Datos (X, y)

Con el DataFrame `df_clean` completamente procesado, el √∫ltimo paso es separar nuestras variables predictoras (`X`) de nuestra variable objetivo (`y`).


In [None]:

# 1. Crear el vector objetivo 'y', codificando "ALTO" como 1 y "BAJO" como 0.
y = df_clean['nivel_contagios'].apply(lambda nivel: 1 if nivel == 'ALTO' else 0)

# 2. Crear la matriz de caracter√≠sticas 'X' eliminando la columna objetivo.
X = df_clean.drop(columns=['nivel_contagios'])

print("‚úÖ Conjuntos de datos X e y creados a partir de los datos limpios.")
print(f"Forma de X (predictoras): {X.shape}")
print(f"Forma de y (objetivo): {y.shape}")

print("\n--- Primeras 5 filas de X (variables predictoras) ---")
print(X.head())



### üéì Resumen del Paso 2

**Logros de este cap√≠tulo:**
- **Datos Listos para el Modelo**: Hemos procesado todas las variables disponibles, creando un conjunto de datos robusto y limpio.
- **Estrategia de Limpieza Aplicada**: Se manejaron valores faltantes, se corrigieron datos y se estandariz√≥ la codificaci√≥n de manera eficiente.
- **Conjuntos Finales Definidos**: Tenemos nuestros datos `X` (con 62 variables predictoras) y `y` listos para la siguiente fase: entrenamiento y evaluaci√≥n del modelo.
