<a href="https://colab.research.google.com/github/joctan-tec/machine-learning/blob/master/TC04_IA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto de Machine Learning
#### Integrantes:
- Fiorella Zelaya - 2021453615
- Joctan Esquivel - 2021069671
- Justin Acuña    - 2018093451

---

## 1. Entendimiento del Negocio

### 1.1. Objetivos

#### 1.1.1. Objetivo de Negocio
- Identificar a los estudiantes universitarios provenientes de hogares en situación de pobreza para priorizar su acceso a ayudas económicas.
- Distribuir los fondos disponibles para becas de manera eficiente procurando asignaciones justas entre las 4 categorías existentes.

#### 1.1.2 Criterios de éxito

- Al menos el 90% de los estudiantes en condición de vulnerabilidad o condiciones menos favorables deben ser correctamente identificados y considerados para recibir un monto justo de beca.
  
#### 1.1.3. Objetivo de Minería
- Predecir si un estudiante pertenece a un hogar en situación de pobreza (por ejemplo, clase 1 o 2) con base en las variables ...
- Asegurar que el modelo tenga alta sensibilidad (recall) para no dejar por fuera a estudiantes necesitados.

### 1.1.4. Criterios de éxito

- Lograr una sensibilidad mínima del 90% en la detección de estudiantes provenientes de hogares en condición de pobreza, asegurando una alta cobertura de los casos reales de vulnerabilidad socioeconómica.

## 2. Entendimiento de los datos

### 2.1. Recopilación inicial

#### 2.1.1. Lista de fuentes de datos requeridos

Para el desarrollo del sistema de predicción de pobreza enfocado en la asignación de becas universitarias, se utilizó como fuente principal el conjunto de datos provisto por la competencia “Costa Rican Household Poverty Prediction” de la plataforma Kaggle.

Los datos se encuentran disponibles en formato CSV, específicamente en tres archivos:
1. `train.csv`: Contiene la información etiquetada para entrenamiento del modelo
2. `test.csv`: Contiene los datos sin la variable objetivo (Target)

Sin embargo, para este proyecto necesitamos tener la columna "Target" de los datos de testing para saber si el modelo que entrenamos esta bien ajustado. Por lo tanto, se utilizara unicamente los datos de `train.csv`, tomando un 80% para training y 20% para testing.


#### 2.1.2. Método de Acceso

El acceso a los datos se realiza mediante descarga directa desde el sitio web de Kaggle, y el procesamiento de los archivos se realizó mediante herramientas de análisis como Python y la librería pandas.

#### 2.1.3. Decripción de los datos

El archivo principal (train.csv) incluye registros por persona, por lo que una misma vivienda puede aparecer múltiples veces. La variable Target indica el nivel de pobreza del hogar al que pertenece cada individuo, clasificado en cuatro categorías: 1 (extrema pobreza), 2 (pobreza moderada), 3 (vulnerabilidad) y 4 (no vulnerable).

El conjunto de datos seleccionado contiene una amplia variedad de variables asociadas a las condiciones de vida de los hogares costarricenses. Para este proyecto, se realizó una selección de variables relevantes desde el punto de vista socioeconómico, orientadas a evaluar el nivel de pobreza de los estudiantes y sus familias, con el objetivo de facilitar una asignación justa y eficiente de ayudas económicas en el contexto universitario.

Entre las variables incluidas se encuentran indicadores de infraestructura básica, como v14a, que indica la presencia de un baño en la vivienda, y refrig, que señala si el hogar dispone de refrigerador. Ambas variables reflejan el acceso a servicios esenciales y bienes duraderos, lo cual puede ser un indicador indirecto del nivel de bienestar.

También se incorporó r4t3, que representa el total de personas en el hogar, lo cual permite estimar la carga poblacional y posibles situaciones de hacinamiento. Complementariamente, la variable meaneduc cuantifica el promedio de años de escolaridad de los adultos en el hogar, permitiendo asociar el nivel educativo con las condiciones económicas de la familia.

Se incluyeron variables relacionadas con los materiales de construcción de la vivienda, como el tipo de pared, techo y piso, que se encuentran codificadas como variables binarias (por ejemplo, paredblolad, techocane, pisomoscer), las cuales indican si la vivienda presenta características consideradas adecuadas o precarias.

Asimismo, se seleccionaron variables relacionadas con el acceso a servicios públicos y condiciones sanitarias. Entre ellas destacan las variables que indican si el hogar cuenta con electricidad (elec) o acceso a agua potable (abastagua). También se consideraron las distintas categorías del tipo de sanitario (sanitario1 a sanitario6) y del tipo de fuente de energía para cocinar (energcocinar1 a energcocinar4), que permiten diferenciar entre hogares con instalaciones modernas y aquellos con servicios deficientes o inseguros.

En cuanto al tipo de vivienda, se incluyeron las variables tipovivi1 a tipovivi5, que identifican si la vivienda es propia, alquilada, prestada u otro tipo. También se consideró la ubicación geográfica mediante las variables lugar1 a lugar6, que representan distintas regiones del país, y la variable area1/area2, que indica si el hogar está en zona urbana o rural. Finalmente, se incorporó idhogar, un identificador único por hogar que permite agrupar correctamente a los individuos y asegurar que las predicciones se hagan a nivel de vivienda, no de individuo.

#### 2.1.4. Exploración de los datos

Durante la exploración inicial de las variables seleccionadas, se observaron patrones relevantes para el objetivo del proyecto. Por ejemplo, una proporción considerable de los hogares que se encuentran en situación de pobreza carecen de acceso a servicios esenciales como baño (v14a = 0) o refrigerador (refrig = 0). Del mismo modo, los hogares con menor promedio de años de escolaridad (meaneduc) tienden a estar en las clases socioeconómicas más bajas, lo cual es consistente con la literatura sobre pobreza multidimensional.

Al analizar las condiciones de las viviendas, se identificó que ciertos materiales, como pisos de tierra (pisonotiene = 1) o techos de palma (techocane = 1), están altamente correlacionados con las clases 1 y 2 del objetivo (Target), que representan pobreza extrema y moderada respectivamente.

En relación con los servicios básicos, la falta de electricidad o el uso de leña como principal fuente de energía para cocinar (energcocinar3 = 1) también se asocian con niveles más altos de pobreza. En cuanto al tipo de sanitario, se observó que los hogares con inodoros no conectados al alcantarillado (sanitario2, sanitario3) o sin ningún tipo de servicio (sanitario6) se concentran en las clases más bajas.

Finalmente, la variable area mostró una fuerte división entre zonas urbanas y rurales, con una mayor proporción de hogares en pobreza en áreas rurales (area2 = 1). Esta diferencia también se reflejó en las variables de ubicación (lugar), donde ciertas regiones presentan una incidencia más alta de pobreza que otras.

#### 2.1.5. Calidad de datos

__Se detectaron algunos problemas de calidad de datos como registros inconsistentes (por ejemplo, personas con alta escolaridad a edades poco realistas) y redundancias en variables derivadas (por ejemplo, variables que son el cuadrado de otras).__

__También se observó que varias variables presentan valores faltantes, las cuales deben ser eliminados o reemplazados mediante estrategias estadísticas apropiadas, como la mediana o el valor más frecuente, según el caso.__

## Preparación de los datos

### Selección de datos

- v14a, =1 has bathroom in the household
- refrig, =1 if the household has refrigerator
- r4t3, Total persons in the household
- meaneduc,average years of education for adults
- todas las de materiales
- todas las de agua y electricidad (si tiene o no)
- sanitario 1,2,3,5,6
- energcocinar 1,2,3,4
- tipovivi 1,2,3,4,5
- lugar 1,2,3,4,5,6
- area 1,2
- idhogar, Household level identifier

### Limpieza de datos

### Construcción de nuevos datos

### Transformaciones aplicadas a los datos

## Modelado

En esta fase del proyecto se entrenaron y evaluaron cuatro modelos de clasificación supervisada con el objetivo de predecir el nivel de pobreza de un hogar, de manera que la institución pueda asignar becas universitarias de forma justa. El modelado se realizó utilizando los modelos Random Forest, Logistic Regression, KNN y Gradient Boosting. Finalmente, se aplicó validación cruzada e identificación del mejor modelo mediante búsqueda de hiperparámetros.

### Selección

Los modelos seleccionados fueron los siguientes:

1. Random Forest Classifier
2. Logistic Regression
3. k-Nearest Neighbors (KNN)
4. Gradient Boosting Classifier

La elección se fundamentó en que estos modelos tienen una buena capacidad predictiva para problemas de clasificación, ideales para clasificar el nivel de pobreza de un hogar según distintas variables.

Además, se cubre una gran variedad de algoritmos basados en árboles, distancias, optimización lineal y ensambles, que permitieron determinar el mejor modelo para este conjunto de datos y problema específico.

Para cada uno se construyó un pipeline compuesto por:

- **SimpleImputer**: Imputación de valores faltantes usando la mediana
- **StandardScaler**: para modelos sensibles a magnitudes (Logistic Regression y KNN)

### Experimentación

Se decidió dividir el conjunto de datos en un set de training (80%) y set de testing (20%) para entrenar los modelos. Luego, se va a hacer el testing de los modelos utilizando validación cruzada utilizando GridSearchCV. Finalmente, se evaluarán los modelos según las métricas resultante y se escogerá el mejor modelo.

Para ajustar los modelos y encontrar los mejores hiperparámetros se utilizaron los siguientes espacios de búsqueda para la búsqueda de hiperparámetros:

1. Random Forest: n_estimators ∈ {100, 200}, max_depth ∈ {None, 10}
2. Logistic Regression: C ∈ {0.1, 1, 10}
3. KNN: n_neighbors ∈ {3, 5, 7}, weights ∈ {uniform, distance}
4. Gradient Boosting: n_estimators ∈ {100, 150}, learning_rate ∈ {0.1, 0.05}

Para cada modelo se utilizó GridSearchCV con validación cruzada de 5 particiones (cv=5), empleando como métrica de optimización el f1_macro, con el objetivo de equilibrar **precision** y **recall**.

### Validación

La validación se aplicó exclusivamente sobre el conjunto de entrenamiento (80%) utilizando validación cruzada para asegurar que la selección del modelo no estuviera sesgada por la estructura de los datos o por una sola partición. Luego, el mejor estimador resultante de GridSearchCV fue evaluado en el conjunto de prueba (20%), el cual se mantuvo completamente aislado durante todo el proceso de entrenamiento.

Este enfoque permitió controlar el riesgo de sobreajuste (overfitting) o sesgo, y observar la relación sesgo-varianza al comparar el desempeño en validación cruzada vs desempeño final en el conjunto de prueba.

Los resultados fueron los siguientes:

### Evaluación

Para la evaluación final se utilizaron las siguientes métricas, todas medidas en el conjunto de prueba:

1. F1-score macro: Promedio no ponderado del F1-score por clase
2. Recall macro: Capacidad del modelo para capturar todos los casos reales de pobreza
3. Precision macro: Exactitud en las predicciones clasificadas como pobreza

## Criterio de Selección y Conclusiones

### Análisis y justificación del modelo

### Nueva información

## Columnas Interesantes
- r4m3, Total females in the household

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, f1_score, precision_score, recall_score

In [None]:
# Constantes (Hiperparámetros)
SEED = 42
TEST_SIZE = 0.2


In [None]:
# Load dataset
df = pd.read_csv('train.csv')
# Dividir train en training y testing
train_df = df.sample(frac=1-TEST_SIZE, random_state=SEED)
test_df = df.drop(train_df.index)

print(f"Train shape: {train_df.shape}")
print(f"Test shape: {test_df.shape}")



Train shape: (7646, 143)
Test shape: (1911, 143)


In [None]:
"""
  Columnas a considerar:

  v14a, =1 has bathroom in the household
  refrig, =1 if the household has refrigerator
  r4t3, Total persons in the household
  meaneduc,average years of education for adults
  todas las de materiales
  todas las de agua y electricidad (si tiene o no)
  sanitario 1,2,3,5,6
  energcocinar 1,2,3,4
  tipovivi 1,2,3,4,5
  lugar 1,2,3,4,5,6
  area 1,2
  idhogar, Household level identifier
"""

# Obtener un subset con estas estádisticas solo con los datos de la primer aparición
cols_to_keep = [
    "v14a", "refrig",

    "r4t3", "meaneduc",

    "paredblolad", "paredzocalo", "paredpreb", "pareddes", "paredmad",
    "paredzinc", "paredfibras", "paredother",

    "pisomoscer", "pisocemento", "pisoother", "pisonatur",
    "pisonotiene", "pisomadera",

    "techozinc", "techoentrepiso", "techocane", "techootro",

    "epared1", "epared2", "epared3",
    "etecho1", "etecho2", "etecho3",
    "eviv1", "eviv2", "eviv3",

    "abastaguadentro", "abastaguafuera", "abastaguano",


    "public", "planpri", "noelec", "coopele",

    "sanitario1", "sanitario2", "sanitario3", "sanitario5", "sanitario6",

    "energcocinar1", "energcocinar2", "energcocinar3", "energcocinar4",

    "tipovivi1", "tipovivi2", "tipovivi3", "tipovivi4", "tipovivi5",

    "lugar1", "lugar2", "lugar3", "lugar4", "lugar5", "lugar6",

    "area1", "area2",

    "idhogar", "Target"
]

train_df_subset = train_df[cols_to_keep]
test_df_subset = test_df[cols_to_keep]
test_df_subset_true = test_df[cols_to_keep]

# Mantener solo la primer aparición de idhogar
train_df_subset = train_df_subset.drop_duplicates(subset='idhogar', keep='first')
test_df_subset = test_df_subset.drop_duplicates(subset='idhogar', keep='first')

# Obtener target
test_target = test_df_subset['Target']
test_df_subset.drop('Target', axis=1, inplace=True)

print(f"Train subset shape: {train_df_subset.shape}")
print(f"Test subset shape: {test_df_subset.shape}")

Train subset shape: (2883, 62)
Test subset shape: (1455, 61)


In [None]:
# Verificar que no hayan nans o nulos en los datasets
print(f"Train nans: {train_df_subset.isnull().sum().sum()}")
print(f"Test nans: {test_df_subset.isnull().sum().sum()}")
# Encontrar nans o nulos y guardar indices para buscarlos
train_nans = train_df_subset[train_df_subset.isnull().any(axis=1)].index
test_nans = test_df_subset[test_df_subset.isnull().any(axis=1)].index
print(f"Train nans indices: {train_nans}")
print(f"Test nans indices: {test_nans}")
# Cuando hay nulos en meaneduc en alguno de los resultados, cambiar por la mean de los otros resultados de cada idhogar o si no hay, poner 0
train_df_subset['meaneduc'] = train_df_subset['meaneduc'].fillna(train_df_subset.groupby('idhogar')['meaneduc'].transform('mean'))
train_df_subset['meaneduc'] = train_df_subset['meaneduc'].fillna(0)
test_df_subset['meaneduc'] = test_df_subset['meaneduc'].fillna(test_df_subset.groupby('idhogar')['meaneduc'].transform('mean'))
test_df_subset['meaneduc'] = test_df_subset['meaneduc'].fillna(0)

# Verificar que no hayan nans o nulos en los datasets
print(f"Train nans: {train_df_subset.isnull().sum().sum()}")
print(f"Test nans: {test_df_subset.isnull().sum().sum()}")

# Ver valor ahora
train_df_subset.loc[train_nans]
test_df_subset.loc[test_nans]


Train nans: 1
Test nans: 3
Train nans indices: Index([1840], dtype='int64')
Test nans indices: Index([1291, 1841, 2049], dtype='int64')
Train nans: 0
Test nans: 0


Unnamed: 0,v14a,refrig,r4t3,meaneduc,paredblolad,paredzocalo,paredpreb,pareddes,paredmad,paredzinc,...,tipovivi5,lugar1,lugar2,lugar3,lugar4,lugar5,lugar6,area1,area2,idhogar
1291,1,1,1,0.0,0,0,0,0,1,0,...,0,1,0,0,0,0,0,1,0,1b31fd159
1841,1,1,2,0.0,1,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,a874b7ce7
2049,1,1,2,0.0,0,0,1,0,0,0,...,0,1,0,0,0,0,0,1,0,faaebf71a


In [None]:
# Dividir los datos
X_train = train_df_subset.drop(['idhogar', 'Target'], axis=1)
y_train = train_df_subset['Target']

# Testear el modelo
X_test = test_df_subset.drop(['idhogar'], axis=1)
y_test = test_target

# Definir los modelos
models = {
    "Random Forest": {
        "pipeline": Pipeline([
            ('model', RandomForestClassifier(random_state=42))
        ]),
        "params": {
            'model__n_estimators': [100, 150, 200, 250],
            'model__max_depth': [None, 10]
        }
    },
    "Logistic Regression": {
        "pipeline": Pipeline([
            ('scaler', StandardScaler()),
            ('model', LogisticRegression(max_iter=1000))
        ]),
        "params": {
            'model__C': [0.1, 5, 10, 15, 20]
        }
    },
    "KNN": {
        "pipeline": Pipeline([
            ('scaler', StandardScaler()),
            ('model', KNeighborsClassifier())
        ]),
        "params": {
            'model__n_neighbors': [4, 5, 6],
            'model__weights': ['uniform', 'distance']
        }
    },
    "Gradient Boosting": {
        "pipeline": Pipeline([
            ('model', GradientBoostingClassifier(random_state=42))
        ]),
        "params": {
            'model__n_estimators': [100, 150, 200, 250],
            'model__learning_rate': [0.2, 0.15, 0.1, 0.05]
        }
    }
}

results = {}

for name, entry in models.items():
    print(f"\n{name}...")
    pipeline = entry['pipeline']
    params = entry['params']

    grid = GridSearchCV(pipeline, params, cv=5, scoring='f1_macro', n_jobs=-1)
    grid.fit(X_train, y_train)

    best_model = grid.best_estimator_

    # Evaluación en el conjunto de prueba (no visto durante entrenamiento)
    y_pred = best_model.predict(X_test)

    print("Best parameters:", grid.best_params_)
    print("Evaluation on test set:")
    print(classification_report(y_test, y_pred))

    results[name] = {
        "model": best_model,
        "f1_macro": f1_score(y_test, y_pred, average='macro'),
        "precision_macro": precision_score(y_test, y_pred, average='macro'),
        "recall_macro": recall_score(y_test, y_pred, average='macro')
    }

    train_cv_score = grid.best_score_  # Promedio CV en entrenamiento
    test_f1_score = f1_score(y_test, y_pred, average='macro')  # Desempeño en test real

    print(f"{name} - CV f1_macro: {train_cv_score:.4f} vs Test f1_macro: {test_f1_score:.4f}")


summary = pd.DataFrame(results).T
summary = summary[["f1_macro", "precision_macro", "recall_macro"]]
print("\nModel Comparison on Test Set:")
print(summary.sort_values(by="f1_macro", ascending=False))



Random Forest...
Best parameters: {'model__max_depth': None, 'model__n_estimators': 150}
Evaluation on test set:
[4 4 4 ... 1 2 2]


KeyError: "None of [Index(['f1_macro', 'precision_macro', 'recall_macro'], dtype='object')] are in the [columns]"