# Proyecto 2-Parte II (Core)
## Proyecto 2: Análisis y Selección de Problema

### Parte II: Preprocesamiento y Optimización

**Objetivo:** Realizar el preprocesamiento de datos y la optimización de modelos de machine learning para el conjunto de datos seleccionado. La meta es elegir la técnica de machine learning más adecuada y optimizar sus hiperparámetros para obtener el mejor rendimiento posible.

---

### Instrucciones Detalladas

#### Parte 1: Preprocesamiento de Datos

1. **Limpieza de Datos:**
   - Tratar los valores nulos utilizando técnicas adecuadas (imputación, eliminación, etc.).
   - Manejar los outliers mediante técnicas de filtrado o transformación.

2. **Transformación de Columnas:**
   - Utilizar `ColumnTransformer` para aplicar transformaciones específicas a diferentes columnas.
   - Realizar codificación de variables categóricas utilizando técnicas como One-Hot Encoding.
   - Escalar las variables numéricas usando `StandardScaler` u otros métodos de normalización.

3. **Creación de Pipelines:**
   - Crear pipelines utilizando `Pipeline` de `sklearn` para automatizar el preprocesamiento de datos y asegurar la reproducibilidad.
   - Incluir todos los pasos de preprocesamiento en el pipeline.

---

#### Parte 2: Selección de Técnica de Machine Learning

1. **Entrenamiento Inicial:**
   - Entrenar múltiples modelos de machine learning (por ejemplo, Regresión Lineal, KNN, Árbol de Decisión, Random Forest, XGBoost, LGBM).
   - Evaluar los modelos utilizando validación cruzada y seleccionar el modelo con el mejor rendimiento inicial.

2. **Comparación de Modelos:**
   - Comparar los modelos utilizando métricas de rendimiento relevantes (exactitud, precisión, recall, F1-Score, ROC-AUC, etc.).
   - Seleccionar la técnica de machine learning más adecuada basándose en las métricas y la naturaleza del problema.

---

#### Parte 3: Optimización de Hiperparámetros

1. **GridSearchCV:**
   - Implementar `GridSearchCV` para realizar una búsqueda exhaustiva de los mejores hiperparámetros para el modelo seleccionado.
   - Definir el espacio de búsqueda para los hiperparámetros relevantes.

2. **RandomizedSearchCV:**
   - Implementar `RandomizedSearchCV` para realizar una búsqueda aleatoria de los mejores hiperparámetros, especialmente útil si el espacio de búsqueda es grande.

3. **Optuna:**
   - Implementar `Optuna` para una optimización avanzada de los hiperparámetros, aprovechando técnicas como la optimización bayesiana y el pruning.

4. **Evaluación de Modelos Optimizados:**
   - Entrenar el modelo con los mejores hiperparámetros encontrados y evaluar su rendimiento en el conjunto de prueba.
   - Comparar el rendimiento del modelo optimizado con el modelo inicial.

---

#### Parte 4: Documentación y Entrega

1. **Documentación del Proceso:**
   - Documentar todos los pasos del preprocesamiento, selección de técnica y optimización en un notebook de Jupyter.
   - Incluir explicaciones detalladas y justificaciones para cada decisión tomada.

2. **Subida a GitHub:**
   - Actualizar el repositorio de GitHub con los notebooks de preprocesamiento, selección de técnica y optimización.
   - Incluir los resultados de la optimización y la comparación de modelos.
   - Crear un tag de liberación (`v2.0.0`) para esta versión del proyecto.

---
 **Estructura del Repositorio en GitHub**



## DATASET 1

## 1. **Conjunto de Datos de Seguro de Salud**
Este conjunto de datos tiene como objetivo predecir los costos del seguro de salud en función de diversas características del asegurado. 

[Medical Cost Personal Datasets](https://www.kaggle.com/datasets/mirichoi0218/insurance)

---

### Contexto:
El conjunto de datos contiene información sobre beneficiarios de seguros de salud y sus características, tales como edad, sexo, índice de masa corporal (IMC), número de hijos cubiertos, si fuman o no, la región de residencia, y los costos médicos facturados por el seguro.

### Columnas:
- **age**: Edad del asegurado.
- **sex**: Género del asegurado (masculino, femenino).
- **bmi**: Índice de masa corporal.
- **children**: Número de dependientes cubiertos por el seguro.
- **smoker**: Indica si el asegurado fuma o no.
- **region**: Área residencial del asegurado en EE. UU. (noreste, sureste, suroeste, noroeste).
- **charges**: Costos médicos facturados por el seguro de salud.



## DESARROLLO

### Parte 1: Preprocesamiento de Datos

1. **Limpieza de Datos:**
   - Tratar los valores nulos utilizando técnicas adecuadas (imputación, eliminación, etc.).
   - Manejar los outliers mediante técnicas de filtrado o transformación.

2. **Transformación de Columnas:**
   - Utilizar `ColumnTransformer` para aplicar transformaciones específicas a diferentes columnas.
   - Realizar codificación de variables categóricas utilizando técnicas como One-Hot Encoding.
   - Escalar las variables numéricas usando `StandardScaler` u otros métodos de normalización.

3. **Creación de Pipelines:**
   - Crear pipelines utilizando `Pipeline` de `sklearn` para automatizar el preprocesamiento de datos y asegurar la reproducibilidad.
   - Incluir todos los pasos de preprocesamiento en el pipeline.


In [36]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sys
sys.path.append('C:/Users/GIGABYTE/Documents/tareas_bootcamp_coding_dojo/Proyecto_2')
# Importar las funciones desde el archivo utils.py
from utils import calculate_null, val_cat_unicos
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
# Importar modelos
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
params = {
    'objective': 'binary',
    'metric': 'binary_error',
    'verbosity': -1,
    'learning_rate': 0.05  # Ajusta este valor
}
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
import optuna

In [22]:
# Cargar el dataset
data1 = pd.read_csv(
    r'C:\\Users\\GIGABYTE\\Documents\\tareas_bootcamp_coding_dojo\\Proyecto_2\\data\\insurance.csv',
    encoding='latin1'
)
data1.head().T  # Primeras 5 filas

Unnamed: 0,0,1,2,3,4
age,19,18,28,33,32
sex,female,male,male,male,male
bmi,27.9,33.77,33.0,22.705,28.88
children,0,1,3,0,0
smoker,yes,no,no,no,no
region,southwest,southeast,southeast,northwest,northwest
charges,16884.924,1725.5523,4449.462,21984.47061,3866.8552


In [23]:
data1.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [24]:
# Renombrar columnas del dataset
data1.columns = (
    data1.columns
    .str.strip()               # Elimina espacios iniciales y finales
    .str.replace("'", "")      # Elimina comillas simples
    .str.replace("-", "_")     # Reemplaza guiones por guiones bajos
    .str.replace(" ", "_")     # Reemplaza espacios por guiones bajos
    .str.lower()               # Convierte todo a minúsculas
)

# Mostrar nombres de las columnas normalizados
print(data1.columns)

Index(['age', 'sex', 'bmi', 'children', 'smoker', 'region', 'charges'], dtype='object')


In [25]:
df=data1.copy() 

In [26]:
# Identificar duplicados
duplicados = df.duplicated()
# Contar el número de duplicados
num_duplicados = duplicados.sum()
print(f"Número de registros duplicados: {num_duplicados}")
df = df.drop_duplicates()

Número de registros duplicados: 1


In [None]:
# 1.1 Manejo de valores nulos
# Para columnas numéricas, se utiliza la media para la imputación
imputer = SimpleImputer(strategy='mean')
df['age'] = imputer.fit_transform(df[['age']])
df['bmi'] = imputer.fit_transform(df[['bmi']])
df['children'] = imputer.fit_transform(df[['children']])
df['charges'] = imputer.fit_transform(df[['charges']])

# 1.2 Detectar y manejar outliers (usando el IQR)
Q1 = df['charges'].quantile(0.25)
Q3 = df['charges'].quantile(0.75)
IQR = Q3 - Q1
outlier_condition = (df['charges'] < (Q1 - 1.5 * IQR)) | (df['charges'] > (Q3 + 1.5 * IQR))
df = df[~outlier_condition]  # Eliminamos outliers

# 1.3 Creación del preprocesador
num_features = ['age', 'bmi', 'children']
cat_features = ['sex', 'smoker', 'region']

preprocessor = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('imputer', SimpleImputer(strategy='mean')),
            ('scaler', StandardScaler())
        ]), num_features),
        ('cat', Pipeline([
            ('imputer', SimpleImputer(strategy='most_frequent')),
            ('onehot', OneHotEncoder())
        ]), cat_features)
    ])


In [28]:
# Creamos el pipeline que incluye el preprocesador
model_pipeline = Pipeline([
    ('preprocessor', preprocessor)
])

# Aplicamos el pipeline a los datos
X = df.drop(columns=['charges'])  # Características
y = df['charges']  # Variable objetivo
X_processed = model_pipeline.fit_transform(X)


### Parte 2: Selección de Técnica de Machine Learning

1. **Entrenamiento Inicial:**
   - Entrenar múltiples modelos de machine learning (por ejemplo, Regresión Lineal, KNN, Árbol de Decisión, Random Forest, XGBoost, LGBM).
   - Evaluar los modelos utilizando validación cruzada y seleccionar el modelo con el mejor rendimiento inicial.

2. **Comparación de Modelos:**
   - Comparar los modelos utilizando métricas de rendimiento relevantes (exactitud, precisión, recall, F1-Score, ROC-AUC, etc.).
   - Seleccionar la técnica de machine learning más adecuada basándose en las métricas y la naturaleza del problema.


In [None]:

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_processed, y, test_size=0.2, random_state=42)

# Inicializar los modelos
models = {
    'Linear Regression': LinearRegression(),
    'Decision Tree': DecisionTreeRegressor(),
    'Random Forest': RandomForestRegressor(),
    'XGBoost': XGBRegressor(),
    'LightGBM': LGBMRegressor()
}

# Evaluar los modelos usando validación cruzada
model_scores = {}
for model_name, model in models.items():
    cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_absolute_error')
    model_scores[model_name] = np.mean(cv_scores)

# Mostrar las puntuaciones de validación cruzada
print(model_scores)


[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000083 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 314
[LightGBM] [Info] Number of data points in the train set: 766, number of used features: 11
[LightGBM] [Info] Start training from score 9741.562041
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000115 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 316
[LightGBM] [Info] Number of data points in the train set: 766, number of used features: 11
[LightGBM] [Info] Start training from score 9986.278805
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000048 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 312
[LightGBM] [Info] Number of data points in the train set:

In [30]:
# Seleccionamos el modelo con el mejor desempeño
best_model_name = min(model_scores, key=model_scores.get)
best_model = models[best_model_name]

# Entrenamos el mejor modelo
best_model.fit(X_train, y_train)


### Parte 3: Optimización de Hiperparámetros

1. **GridSearchCV:**
   - Implementar `GridSearchCV` para realizar una búsqueda exhaustiva de los mejores hiperparámetros para el modelo seleccionado.
   - Definir el espacio de búsqueda para los hiperparámetros relevantes.

2. **RandomizedSearchCV:**
   - Implementar `RandomizedSearchCV` para realizar una búsqueda aleatoria de los mejores hiperparámetros, especialmente útil si el espacio de búsqueda es grande.

3. **Optuna:**
   - Implementar `Optuna` para una optimización avanzada de los hiperparámetros, aprovechando técnicas como la optimización bayesiana y el pruning.

4. **Evaluación de Modelos Optimizados:**
   - Entrenar el modelo con los mejores hiperparámetros encontrados y evaluar su rendimiento en el conjunto de prueba.
   - Comparar el rendimiento del modelo optimizado con el modelo inicial.



In [None]:
# Definimos los parámetros para GridSearchCV (ejemplo para Random Forest)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None]
}

grid_search = GridSearchCV(RandomForestRegressor(), param_grid, cv=5, scoring='neg_mean_absolute_error')
grid_search.fit(X_train, y_train)

# Mostramos los mejores hiperparámetros
print(f"Mejores parámetros: {grid_search.best_params_}")


Mejores parámetros: {'max_depth': 10, 'n_estimators': 200}


In [None]:
# Parámetros para RandomizedSearchCV
param_dist = {
    'n_estimators': randint(50, 100),
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': randint(2, 20)
}

random_search = RandomizedSearchCV(RandomForestRegressor(), param_distributions=param_dist, n_iter=100, cv=5, scoring='neg_mean_absolute_error')
random_search.fit(X_train, y_train)

# Mostramos los mejores hiperparámetros
print(f"Mejores parámetros: {random_search.best_params_}")


Mejores parámetros: {'max_depth': None, 'min_samples_split': 16, 'n_estimators': 65}


In [39]:
# Definir la función objetivo para Optuna
def objective(trial):
    # Parámetros a optimizar
    n_estimators = trial.suggest_int('n_estimators', 50, 200)
    max_depth = trial.suggest_int('max_depth', 10, 30)
    
    model = RandomForestRegressor(n_estimators=n_estimators, max_depth=max_depth)
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)  # Usamos R^2 como métrica
    return score

# Crear el estudio Optuna y optimizar
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Mostrar el mejor resultado encontrado
print(f"Mejor hiperparámetro: {study.best_params}")


[I 2024-11-26 00:36:00,488] A new study created in memory with name: no-name-85b01a13-c02b-4c3c-bb95-70144a1ea050
[I 2024-11-26 00:36:00,686] Trial 0 finished with value: 0.5804569821531931 and parameters: {'n_estimators': 78, 'max_depth': 14}. Best is trial 0 with value: 0.5804569821531931.
[I 2024-11-26 00:36:00,988] Trial 1 finished with value: 0.5811636071300937 and parameters: {'n_estimators': 116, 'max_depth': 27}. Best is trial 1 with value: 0.5811636071300937.
[I 2024-11-26 00:36:01,202] Trial 2 finished with value: 0.5838317388882606 and parameters: {'n_estimators': 87, 'max_depth': 12}. Best is trial 2 with value: 0.5838317388882606.
[I 2024-11-26 00:36:01,591] Trial 3 finished with value: 0.5800642230087465 and parameters: {'n_estimators': 148, 'max_depth': 28}. Best is trial 2 with value: 0.5838317388882606.
[I 2024-11-26 00:36:01,946] Trial 4 finished with value: 0.5805439814766684 and parameters: {'n_estimators': 155, 'max_depth': 11}. Best is trial 2 with value: 0.583831

Mejor hiperparámetro: {'n_estimators': 144, 'max_depth': 26}
