## Objetivo:
Realizar un modelado completo para un problema de clasificación y un problema de regresión, comparando diferentes técnicas y procedimientos explicados durante el desarrollo de la materia.
## Instrucciones Generales:
1.	Cada grupo deberá **elegir un dataset de clasificación y otro de regresión** (cada grupo deberá trabajar con datasets distintos). Se les sugiere usar datasets de fuentes como Kaggle, UCI Machine Learning Repository o cualquier otro repositorio que consideren relevante.
2.	El objetivo es comparar distintos modelos y técnicas vistas en la materia. Deberán aplicar técnicas de preprocesamiento, selección de características, y validar el rendimiento de los modelos elegidos utilizando las métricas adecuadas.
3.	El trabajo se debe entregar en formato Jupyter Notebook, o cualquier otro que consideren conveniente, e incluir todas las etapas de un análisis de minería de datos, desde la exploración inicial hasta la evaluación del rendimiento de los modelos.


## Secciones del Trabajo Práctico
**1. Descripción del Problema:**
* Describir el problema de clasificación y regresión seleccionados.
* Comenzar efectuando un resumen del dataset y de sus características (para entenderlo antes de comenzar a trabajar con él).
* Justificar por qué los datasets son adecuados para aplicar los modelos vistos en la materia.
* Detallar el objetivo del análisis para cada dataset (ej. ¿Qué se espera predecir?).

**2. Análisis Exploratorio de Datos (EDA):**
* Realizar una exploración inicial de los datasets.
    * Estadísticas descriptivas: revisar los datos, dimensiones de los datos, tipos de datos, resumen (media, desviación estándar, mediana, etc.)
    * Distribución entre clases.    
    * Asimetría.
    * Visualización de distribuciones de variables (Histograma, Gráfico de Densidad o KDE).
    * Obtención de Matriz y Visualización de correlaciones entre variables.
    * Visualización de la matriz de dispersión (regresión) y matriz de dipersión por clase (clasificación).
    * Boxplots (regresión) y Boxplots por clase (clasificación).
* Identificar valores atípicos y valores faltantes. 
* Manejo de valores faltantes, limpiar los datos, eliminación de duplicados, corrección de inconsistencias de formato (si los hubiera), según sea necesario explicando el proceso.

**3. Preprocesamiento de Datos:**
* Dividir el dataset en entrenamiento y prueba (train/test split).
* Aplicar por lo menos 1 técnica de transformación de datos (pueden ser de las vistas en clase u otras que consideren convenientes, pueden ser 2 o más también):
  * Escalamiento, estandarización o normalización.
  * Binarización.
  * Box-Cox o Yeo-Johnson.
  * Codificación de variables categóricas (para los atributos que lo requieran tanto en clasificación como en regresión, y para el atributo clase para problemas de clasificación, en caso de ser necesario). --> Usar Label Encoding, One-Hot Encoding o Target Encoding.
  * **En caso de aplicar 2 o más transformaciones al conjunto de datos es importante el orden en el que se aplican. ej: 1ro Box-Cox / 2do estandarización.**
* **Es importante que las transformaciones se ajusten solo con los datos de entrenamiento y luego se apliquen al conjunto de prueba.**
* Visualizar (el DF y también gráficamente) el antes y después de cada transformación aplicada.
* Aplicar al problema de regresión 1 técnica (a elección del grupo) entre todas las vistas de Feature Selection y Feature Importance.
* Aplicar al problema de clasificación 1 técnica (a elección del grupo) entre todas las vistas de Feature Selection y Feature Importance (la técnica debe ser distinta a la elegida para el problema de regresión).
* Deberá aplicar, tanto para el problema de clasificación como para el de regresión, la técnica de Reducción de Dimensiones (PCA)

**4. Entrenamiento y Comparación de Modelos:**
* Para regresión deberá implementar *LinearRegression* como modelo de taxonomía lineal y un modelo de taxonomía no lineal (a elección del grupo).
* Para clasificación deberá implementar *LogisticRegression* como modelo de taxonomía lineal y un modelo de taxonomía no lineal (a elección del grupo).
* Comparar cada modelo (2 para regresión y 2 para clasificación) mediante:
    * Validación cruzada k-fold con n_splits=10.
    * Utilizar el mismo scoring en 'cross_val_score' para todos los modelos por igual. Pueden utilizar algunas de las métricas relevantes vistas en clase: 'accuracy' o 'roc_auc' (para clasificación) y 'neg_mean_absolute_error', 'neg_mean_squared_error' o 'r2' (para regresión).
    * Deberán comparar cada modelo, según lo indicado anteriormente, con todas las características, luego con las características seleccionadas por Feature Selection/Importance y por último con las componentes principales obtenidas al aplicar PCA (obtendrán de este proceso 12 modelos en total, 6 para regresión y 6 para clasificación).

**5. Optimización de Hiperparámetros y Selección del Mejor Modelo:**
* *Aquí vendría la etapa de Optimización de Hiperparámetros que no realizaremos. Deberían seleccionarse los modelos más prometedores y en función de la modificación de sus hiperparámetros quedarnos con el mejor modelo.*
* Lo que sí realizaremos es: De todos los modelos entrenados y comparados deberán seleccionar 1 para regresión y 1 para clasificación. **Deberán fundamentar el motivo de la selección aplicada** (ya sea por mejor rendimiento, mejor eficiencia computacional, etc...).

**6. Entrenar el modelo con el conjunto de entrenamiento completo:**
* Deberán entrenar tanto el modelo de regresión como el de clasificación con todo el conjunto de entrenamiento.

**7. Evaluación Final del Modelo:**
* Evaluar los modelos con los conjuntos de datos de test no utilizados previamente.
* Para regresión deberá implementar la misma métrica de evaluación que la elegida en el punto 4 ('neg_mean_absolute_error', 'neg_mean_squared_error' o 'r2').
* Para clasificación deberá presentar el Reporte de clasificación (obtener conclusiones del mismo).

**8. Entrenar con todos los datos disponibles (opcional antes de producción):**
* Una vez que hemos validado y evaluado el modelo, podemos entrenarlo con **todos los datos disponibles** (entrenamiento + prueba) para tener un modelo más robusto antes de pasarlo a producción.

**Conclusiones:**
* Comparar los modelos y sacar conclusiones sobre cuál fue el más adecuado para cada tarea. 
* Expresar las limitaciones del análisis y posibles mejoras.
## Grupos:
* Serán 5 grupos de 4 integrantes y 1 grupo de 5 integrantes (la clase del 28 de Mayo deben presentar por grupos los datasets con los que trabajarán).
* Entrega del trabajo realizado: Según lo indicado en el Aula Virtual.

## Criterios de Evaluación: 

* Claridad en la explicación de los pasos y las técnicas aplicadas.
* Justificación de la elección de los modelos y técnicas.
* Precisión en los resultados obtenidos (métricas de evaluación).
* Calidad de las visualizaciones y del análisis de los resultados.
* Rigor en la comparación de los modelos.
* Creatividad en las conclusiones y en la presentación final.

