# Evaluaci√≥n Predictiva antes y despu√©s de la Limpieza de Datos

Este notebook tiene como objetivo comparar el desempe√±o de un modelo predictivo utilizando un conjunto de datos **antes y despu√©s** de aplicar una limpieza adecuada.

Analizaremos el impacto de la imputaci√≥n, codificaci√≥n y escalado de variables, mostrando c√≥mo cada decisi√≥n afecta la calidad del modelo.

La variable objetivo ser√° `Alta_conectividad`, una clasificaci√≥n binaria basada en el tiempo de uso de internet por d√≠a.


# üß© Estudio de caso: Conectividad y bienestar social

## üìò Contexto general

La Fundaci√≥n Datos para el Progreso Social est√° trabajando en un programa que busca **mejorar el acceso a internet en comunidades vulnerables** de zonas urbanas y rurales. Para justificar futuras inversiones, el equipo de an√°lisis ha recolectado datos de **1.300 personas** a trav√©s de encuestas presenciales y registros administrativos.

El objetivo es entender c√≥mo la **edad**, el **ingreso mensual**, el **nivel educativo** y el **uso diario de internet** se relacionan con la **posibilidad de acceder a oportunidades de formaci√≥n, empleo remoto o tr√°mites digitales**.

---

## üìä Descripci√≥n del dataset

El archivo `dataset_ejemplo_1300.csv` contiene las siguientes variables:

| Variable            | Tipo          | Descripci√≥n |
|---------------------|---------------|-------------|
| `ID`                | Entero        | Identificador √∫nico por persona |
| `Edad`              | Num√©rica      | Edad en a√±os |
| `Ingreso`           | Num√©rica      | Ingreso mensual en pesos |
| `Nivel_Educativo`   | Ordinal       | B√°sico, Medio, Superior |
| `Genero`            | Categ√≥rica    | Hombre / Mujer |
| `Horas_Internet`    | Num√©rica      | Promedio de horas de uso diario de internet |
| `Ciudad`            | Categ√≥rica    | Nombre de la ciudad de residencia |

---

## üéØ Problema a resolver

Antes de construir un modelo predictivo que clasifique si una persona tiene alta conectividad (por ejemplo, m√°s de 3.5 horas al d√≠a en internet), **es fundamental preparar los datos adecuadamente**.

El dataset presenta varios desaf√≠os:
- **Valores faltantes** en ingresos y edad.
- **Codificaci√≥n no num√©rica** en g√©nero y nivel educativo.
- **Posibles duplicados o inconsistencias** por errores en captura manual.

---

## üîß ¬øQu√© haremos en esta sesi√≥n?

Aplicaremos un flujo de trabajo de limpieza de datos inspirado en la metodolog√≠a **CRISP-DM**, espec√≠ficamente en la etapa de *Preparaci√≥n de los Datos*. Vamos a:

1. Diagnosticar problemas comunes en el dataset.
2. Imputar valores faltantes.
3. Codificar variables categ√≥ricas.
4. Eliminar duplicados.
5. Generar una versi√≥n limpia y lista para modelar.


## 1. Cargar el dataset y crear variable objetivo

In [1]:
import pandas as pd

# Cargar el dataset
df_raw = pd.read_csv('../../datos/dataset_ejemplo_1300.csv')

# Crear variable objetivo: Alta conectividad
df_raw["Alta_conectividad"] = (df_raw["Horas_Internet"] > 3.5).astype(int)

df_raw.head()

Unnamed: 0,ID,Edad,Genero,Ingreso,Nivel_Educativo,Horas_Internet,Ciudad,CodigoID,Alta_conectividad
0,1,22.0,Femenino,4842.42,Secundaria,1.6,Cali,1-Cal,0
1,2,47.0,Masculino,5742.02,Posgrado,5.6,Medell√≠n,2-Med,1
2,3,38.0,Otro,4335.12,T√©cnico,2.3,Villavicencio,3-Vil,0
3,4,17.0,Otro,4515.57,Tecn√≥logo,3.2,Bogot√°,4-Bog,0
4,5,28.0,Otro,3846.49,Primaria,1.3,Pasto,5-Pas,0


### üìò Explicaci√≥n del c√≥digo

- `import pandas as pd`:  
  Importa la librer√≠a `pandas`, usada para manipular datos en formato tabular.

- `pd.read_csv(...)`:  
  Carga el archivo CSV y lo convierte en un DataFrame llamado `df_raw`, que es una tabla de datos que permite filtrado, estad√≠sticas, etc.

- `df_raw["Alta_conectividad"] = ...`:  
  Crea una nueva columna llamada `Alta_conectividad`, que ser√° nuestra **variable objetivo**:
  - Asigna el valor `1` si la persona usa m√°s de 3.5 horas diarias de internet.
  - Asigna el valor `0` en caso contrario.
  - Se convierte el resultado booleano en entero con `.astype(int)`.

- `df_raw.head()`:  
  Muestra las primeras 5 filas del DataFrame, √∫til para verificar que la carga de datos fue exitosa y que la nueva columna fue creada correctamente.


## 2. Evaluaci√≥n del modelo antes de limpiar los datos

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Usamos solo Edad e Ingreso, eliminando nulos
df_before = df_raw[["Edad", "Ingreso"]].dropna()
Xb = df_before
yb = df_raw.loc[df_before.index, "Alta_conectividad"]

Xb_train, Xb_test, yb_train, yb_test = train_test_split(Xb, yb, test_size=0.3, random_state=42)

model_before = LogisticRegression(max_iter=200)
model_before.fit(Xb_train, yb_train)
yb_pred = model_before.predict(Xb_test)
acc_before = accuracy_score(yb_test, yb_pred)

print("‚úÖ Exactitud antes de la limpieza:", round(acc_before, 4))

‚úÖ Exactitud antes de la limpieza: 0.5778


### Explicaci√≥n detallada del bloque de c√≥digo: modelo antes de la limpieza

Este bloque eval√∫a el rendimiento de un modelo de regresi√≥n log√≠stica antes de realizar cualquier tipo de limpieza, escalado o codificaci√≥n de datos. Se trabaja √∫nicamente con las columnas `Edad` e `Ingreso`, eliminando registros con datos faltantes. El objetivo es establecer una l√≠nea base para comparar con el modelo que se construir√° despu√©s de preparar los datos correctamente.

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Usamos solo Edad e Ingreso, eliminando nulos
df_before = df_raw[["Edad", "Ingreso"]].dropna()
Xb = df_before
yb = df_raw.loc[df_before.index, "Alta_conectividad"]

Xb_train, Xb_test, yb_train, yb_test = train_test_split(Xb, yb, test_size=0.3, random_state=42)

model_before = LogisticRegression(max_iter=200)
model_before.fit(Xb_train, yb_train)
yb_pred = model_before.predict(Xb_test)
acc_before = accuracy_score(yb_test, yb_pred)

print("‚úÖ Exactitud antes de la limpieza:", round(acc_before, 4))


### ¬øQu√© significa este resultado?

`Exactitud antes de la limpieza: 0.5778`

Este valor indica que el modelo de regresi√≥n log√≠stica logr√≥ una **exactitud del 57.78%** al predecir si una persona tiene o no alta conectividad, utilizando √∫nicamente las variables `Edad` e `Ingreso`, y **sin aplicar limpieza, imputaci√≥n o transformaci√≥n de los datos**.

---

### ¬øQu√© es la exactitud?

La **exactitud (accuracy)** es una m√©trica de evaluaci√≥n que indica qu√© proporci√≥n de predicciones del modelo fueron correctas. Se calcula as√≠:

**Exactitud = predicciones correctas / total de predicciones**

En este caso, el modelo acert√≥ en aproximadamente **58 de cada 100 predicciones**.

---

### ¬øC√≥mo interpretar este valor?

- El modelo tiene un rendimiento **b√°sico o limitado**.
- Aunque supera el azar (50% si las clases est√°n balanceadas), a√∫n est√° lejos de ser un modelo confiable.
- Esto sugiere que el modelo **no est√° capturando patrones relevantes en los datos**.

---

### ¬øPor qu√© la exactitud es baja?

- Solo se usaron dos variables (`Edad` e `Ingreso`).
- Se eliminaron filas con valores faltantes (`dropna()`), lo que **reduce el tama√±o de la muestra**.
- No se aplic√≥ ning√∫n tipo de **escalado**, **codificaci√≥n de variables categ√≥ricas**, ni **imputaci√≥n de valores**.

---

### ¬øPara qu√© sirve este resultado?

Este resultado act√∫a como una **l√≠nea base**.  
Servir√° como referencia para comparar con un segundo modelo entrenado despu√©s de aplicar t√©cnicas de preparaci√≥n de datos.  
Si ese segundo modelo obtiene una mayor exactitud, podremos concluir que **la preparaci√≥n de datos mejora la capacidad predictiva del modelo**.


## 3. Preparaci√≥n del dataset: limpieza, imputaci√≥n y codificaci√≥n

In [3]:
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler

df_clean = df_raw.copy()

# Imputaci√≥n
imputer_edad = SimpleImputer(strategy='median')
df_clean['Edad'] = imputer_edad.fit_transform(df_clean[['Edad']])

imputer_ingreso = SimpleImputer(strategy='mean')
df_clean['Ingreso'] = imputer_ingreso.fit_transform(df_clean[['Ingreso']])

# Codificaci√≥n de variables categ√≥ricas
df_clean = pd.get_dummies(df_clean, columns=['Genero', 'Nivel_Educativo', 'Ciudad'], drop_first=True)

# Escalado
scaler = MinMaxScaler()
df_clean[['Edad', 'Ingreso']] = scaler.fit_transform(df_clean[['Edad', 'Ingreso']])

### üßº Limpieza y preparaci√≥n del dataset

- `from sklearn.impute import SimpleImputer`:  
  Importa la clase `SimpleImputer` para rellenar valores faltantes en columnas num√©ricas.

- `from sklearn.preprocessing import MinMaxScaler`:  
  Importa el escalador `MinMaxScaler` para normalizar valores entre 0 y 1.

- `df_clean = df_raw.copy()`:  
  Crea una copia del DataFrame original para no modificar los datos en bruto.

---

#### üîß Imputaci√≥n de valores faltantes

- `SimpleImputer(strategy='median')`:  
  Crea un imputador que reemplaza los valores nulos en la variable `Edad` por la mediana de la columna.

- `SimpleImputer(strategy='mean')`:  
  Reemplaza los valores nulos en la variable `Ingreso` por la media de la columna.

> Se utiliza `.fit_transform(...)` para ajustar el imputador y aplicar la transformaci√≥n directamente.

---

#### üè∑Ô∏è Codificaci√≥n de variables categ√≥ricas

- `pd.get_dummies(..., drop_first=True)`:  
  Convierte las variables categ√≥ricas (`Genero`, `Nivel_Educativo`, `Ciudad`) en variables binarias usando codificaci√≥n *one-hot*.  
  La opci√≥n `drop_first=True` elimina una categor√≠a por cada variable para evitar colinealidad.

---

#### üìè Escalado de variables num√©ricas

- `MinMaxScaler()`:  
  Escala los valores de `Edad` e `Ingreso` entre 0 y 1, lo cual es √∫til para algoritmos sensibles a la magnitud de los datos (como KNN o regresi√≥n log√≠stica).

- `scaler.fit_transform(...)`:  
  Ajusta el escalador a los datos y transforma simult√°neamente los valores.

---

El resultado final es un DataFrame `df_clean` sin valores nulos, con variables categ√≥ricas codificadas y variables num√©ricas escaladas, listo para usar en un modelo predictivo.


## 4. Evaluaci√≥n del modelo despu√©s de la limpieza

In [4]:
Xc = df_clean.drop(columns=['ID', 'CodigoID', 'Horas_Internet', 'Alta_conectividad'])
yc = df_clean['Alta_conectividad']

Xc_train, Xc_test, yc_train, yc_test = train_test_split(Xc, yc, test_size=0.3, random_state=42)

model_after = LogisticRegression(max_iter=200)
model_after.fit(Xc_train, yc_train)
yc_pred = model_after.predict(Xc_test)
acc_after = accuracy_score(yc_test, yc_pred)

print("‚úÖ Exactitud despu√©s de la limpieza:", round(acc_after, 4))

‚úÖ Exactitud despu√©s de la limpieza: 0.6205


### ü§ñ Modelado con datos limpios ‚Äì Regresi√≥n log√≠stica

- `Xc = df_clean.drop(columns=['ID', 'CodigoID', 'Horas_Internet', 'Alta_conectividad'])`:  
  Se seleccionan como variables predictoras (`Xc`) todas las columnas del dataset limpio excepto identificadores, la variable a predecir (`Alta_conectividad`) y la columna `Horas_Internet` (que se us√≥ para crear la variable objetivo).

- `yc = df_clean['Alta_conectividad']`:  
  Define la variable objetivo (`yc`), es decir, lo que se quiere predecir: si una persona tiene o no alta conectividad.

---

#### üì¶ Divisi√≥n del dataset

- `train_test_split(...)`:  
  Se divide el conjunto de datos en entrenamiento (70%) y prueba (30%) usando una semilla aleatoria fija (`random_state=42`) para garantizar resultados reproducibles.

---

#### üîç Entrenamiento del modelo

- `LogisticRegression(max_iter=200)`:  
  Se crea un modelo de regresi√≥n log√≠stica para clasificaci√≥n binaria. El par√°metro `max_iter=200` define el n√∫mero m√°ximo de iteraciones para ajustar el modelo si los datos son complejos.

- `model_after.fit(Xc_train, yc_train)`:  
  Se entrena el modelo con los datos de entrenamiento.

---

#### üß† Predicci√≥n y evaluaci√≥n

- `yc_pred = model_after.predict(Xc_test)`:  
  El modelo genera predicciones para el conjunto de prueba.

- `accuracy_score(yc_test, yc_pred)`:  
  Se calcula la **exactitud** del modelo: la proporci√≥n de predicciones correctas sobre el total.

- `print(...)`:  
  Imprime en pantalla la exactitud obtenida redondeada a 4 cifras decimales.

---

Este bloque permite evaluar el impacto de la limpieza sobre el rendimiento del modelo. Una mayor exactitud respecto al modelo sin limpiar indica que la preparaci√≥n de datos fue beneficiosa.


### ¬øQu√© significa este resultado?

`Exactitud despu√©s de la limpieza: 0.6205`

Este valor indica que el modelo de regresi√≥n log√≠stica logr√≥ una **exactitud del 62.05%** al predecir si una persona tiene o no alta conectividad, utilizando un conjunto de datos que fue previamente **preparado y limpiado**.

---

### ¬øQu√© se hizo antes de este resultado?

Antes de entrenar este modelo, se aplicaron varias t√©cnicas de **preparaci√≥n de datos**:

- **Imputaci√≥n de valores faltantes**:  
  Se reemplazaron los valores nulos en `Edad` con la mediana y en `Ingreso` con la media.

- **Codificaci√≥n de variables categ√≥ricas**:  
  Se transformaron las variables como `G√©nero`, `Nivel_Educativo` y `Ciudad` en variables num√©ricas usando `one-hot encoding`.

- **Escalado de variables num√©ricas**:  
  `Edad` e `Ingreso` fueron normalizadas con **Min-Max Scaling** para que est√©n en la misma escala (entre 0 y 1).

---

### ¬øPor qu√© mejor√≥ la exactitud?

- El modelo ahora tiene acceso a **m√°s informaci√≥n √∫til**, no solo `Edad` e `Ingreso`.
- Se retuvieron registros con datos faltantes gracias a la **imputaci√≥n**, evitando la p√©rdida de datos.
- Las variables categ√≥ricas est√°n representadas num√©ricamente, lo que mejora la capacidad del modelo para identificar patrones.
- El escalado garantiza que ninguna variable domine por su magnitud.

---

### ¬øC√≥mo interpretar este valor?

- Una exactitud del **62.05%** es **superior al modelo anterior** (57.78%), aunque no representa una mejora extrema.
- La diferencia muestra que preparar los datos **tiene un impacto positivo**, pero tambi√©n que el modelo puede beneficiarse a√∫n m√°s con t√©cnicas adicionales o mejores variables.

---

### ¬øPor qu√© es importante esta comparaci√≥n?

Comparar este resultado con el obtenido antes de la limpieza permite **cuantificar el impacto real de preparar bien los datos**.  
Aunque la mejora no es dr√°stica, demuestra que **incluso mejoras modestas pueden hacer que el modelo sea m√°s confiable**.

---

### Conclusi√≥n

El modelo despu√©s de la limpieza supera en precisi√≥n al modelo inicial.  
Esto valida que **limpiar, imputar, codificar y escalar adecuadamente los datos mejora el rendimiento predictivo**, y es una parte cr√≠tica del proceso de an√°lisis predictivo.

La comparaci√≥n entre ambos enfoques demuestra c√≥mo una limpieza adecuada mejora la capacidad del modelo para generalizar.

Antes de la limpieza: solo dos variables, filas eliminadas por nulos.
Despu√©s de la limpieza: m√°s variables, nulos imputados, todo escalado
Esta diferencia se refleja directamente en la exactitud del modelo.

üëâ Las decisiones de preparaci√≥n de datos son tan importantes como el modelo mismo.
