# Clasificación y Optimización de Hiperparámetros (Core)

**Objetivo**  
Implementar un pipeline completo de machine learning para un problema de clasificación utilizando técnicas de preprocesamiento, modelado y optimización de hiperparámetros. El enfoque estará especialmente centrado en la limpieza de datos y la optimización mediante GridSearchCV y RandomizedSearchCV.

**Dataset**: Medical Cost Personal Dataset

**Descripción del Dataset:**  
El dataset de costos médicos personales contiene información sobre diversos factores que afectan los costos de seguros médicos, como la edad, el sexo, el índice de masa corporal, y el hábito de fumar. Este dataset es ideal para practicar técnicas de preprocesamiento y optimización de modelos debido a la presencia de datos sucios y variables tanto categóricas como numéricas.

**Instrucciones**:  

1. **Carga y Exploración Inicial de Datos:**
   - Cargar el dataset desde Kaggle.
   - Realizar una exploración inicial para entender la estructura del dataset y las características disponibles.
   - Identificar y documentar los valores faltantes y outliers en el dataset.

2. **Preprocesamiento de Datos:**
   - Imputar valores faltantes utilizando técnicas adecuadas (media, mediana, moda, imputación avanzada).
   - Codificar variables categóricas utilizando One-Hot Encoding.
   - Escalar características numéricas utilizando StandardScaler.

3. **Implementación de Modelos de Clasificación:**
   - Entrenar y evaluar al menos tres modelos de clasificación diferentes: Regresión Logística, K-Nearest Neighbors (KNN), y Árbol de Decisión.
   - Utilizar validación cruzada para evaluar el rendimiento inicial de los modelos.

4. **Optimización de Hiperparámetros:**
   - Implementar GridSearchCV para optimizar los hiperparámetros de los modelos seleccionados.
   - Implementar RandomizedSearchCV como método alternativo de optimización.
   - Comparar los resultados de GridSearchCV y RandomizedSearchCV para los modelos optimizados.

5. **Evaluación de Modelos:**
   - Evaluar los modelos optimizados utilizando métricas de rendimiento como exactitud, precisión, recall, F1-Score y ROC-AUC.
   - Generar y analizar la matriz de confusión para los modelos optimizados.
   - Crear y visualizar la curva ROC para evaluar la capacidad del modelo para distinguir entre clases.

6. **Documentación y Entrega:**
   - Documentar todos los pasos del proceso en un notebook de Jupyter, incluyendo explicaciones detalladas y justificaciones para cada decisión tomada.
   - Subir el notebook y los resultados a un repositorio de GitHub.
   - Crear un tag de liberación (v1.0.0) para esta versión del proyecto en GitHub.

**Entregables:**

- Notebook de Jupyter con todo el análisis y resultados.
- Documentación completa del proceso de preprocesamiento, modelado y optimización.
- Visualizaciones y análisis de las métricas de rendimiento.
- Repositorio de GitHub con el notebook y los resultados, incluyendo un tag de liberación.

**Nota:** Asegúrate de documentar cada paso del proceso, incluyendo la justificación de las decisiones tomadas durante el preprocesamiento, la selección de modelos y la evaluación de los resultados. Esto proporcionará una visión completa y estructurada del trabajo realizado.

## *****************************************************************
## Contexto de las columnas:
Este DataFrame contiene las siguientes columnas:

### Variables de entrada:
1. **edad**
2. **sexo**
3. **IMC (Índice de Masa Corporal)**
4. **hábito de fumar**
5. **número de hijos**
6. **región**

### Variable de salida:
7. **costos médicos**
