## Objetivo:
Realizar un modelado completo para un problema de clasificación y un problema de regresión, comparando diferentes técnicas y procedimientos explicados durante el desarrollo de la materia.
## Instrucciones Generales:
1.	Cada grupo deberá **elegir un dataset de clasificación y otro de regresión** (cada grupo deberá trabajar con datasets distintos). Se les sugiere usar datasets de fuentes como Kaggle, UCI Machine Learning Repository o cualquier otro repositorio que consideren relevante.
2.	El objetivo es comparar distintos modelos y técnicas vistas en la materia. Deberán aplicar técnicas de preprocesamiento, selección de características, y validar el rendimiento de los modelos elegidos utilizando las métricas adecuadas.
3.	El trabajo se debe entregar en formato Jupyter Notebook, o cualquier otro que consideren conveniente, e incluir todas las etapas de un análisis de minería de datos, desde la exploración inicial hasta la evaluación del rendimiento de los modelos.


## Secciones del Trabajo Práctico
**1. Descripción del Problema:**
* Describir el problema de clasificación y regresión seleccionados.
* Comenzar efectuando un resumen del dataset y de sus características (para entenderlo antes de comenzar a trabajar con él).
* Justificar por qué los datasets son adecuados para aplicar los modelos vistos en la materia.
* Detallar el objetivo del análisis para cada dataset (ej. ¿Qué se espera predecir?).

**2. Análisis Exploratorio de Datos (EDA):**
* Realizar una exploración inicial de los datasets.
    * Estadísticas descriptivas: revisar los datos, dimensiones de los datos, tipos de datos, resumen (media, desviación estándar, mediana, etc.)
    * Distribución entre clases.    
    * Asimetría.
    * Visualización de distribuciones de variables (Histograma, Gráfico de Densidad o KDE).
    * Obtención de Matriz y Visualización de correlaciones entre variables.
    * Visualización de la matriz de dispersión (regresión) y matriz de dipersión por clase (clasificación).
    * Boxplots (regresión) y Boxplots por clase (clasificación).
* Identificar valores atípicos y valores faltantes. 
* Manejo de valores faltantes, limpiar los datos, eliminación de duplicados, corrección de inconsistencias de formato (si los hubiera), según sea necesario explicando el proceso.

**3. Preprocesamiento de Datos:**
* Dividir el dataset en entrenamiento y prueba (train/test split).
* Aplicar a lo sumo 1 técnica de transformación de datos (pueden ser de las vistas en clase u otras que consideren convenientes, pueden ser 2 o más también):
  * Escalamiento, estandarización o normalización.
  * Binarización.
  * Box-Cox o Yeo-Johnson.
  * Codificación de variables categóricas (para los atributos que lo requieran tanto en clasificación como en regresión, y para el atributo clase para problemas de clasificación, en caso de ser necesario). --> Usar Label Encoding, One-Hot Encoding o Target Encoding.
  * **En caso de aplicar 2 o más transformaciones al conjunto de datos es importante el orden en el que se aplican. ej: 1ro Box-Cox / 2do estandarización.**
* **Es importante que las transformaciones se ajusten solo con los datos de entrenamiento y luego se apliquen al conjunto de prueba.**
* Visualizar (el DF y también gráficamente) el antes y después de cada transformación aplicada.

#### --> Los siguientes puntos se agregarán en clases siguientes...

**Conclusiones:**
* Comparar los modelos y sacar conclusiones sobre cuál fue el más adecuado para cada tarea. 
* Expresar las limitaciones del análisis y posibles mejoras.
## Grupos:
* Serán 5 grupos de 4 integrantes y 1 grupo de 5 integrantes (la clase del 28 de Mayo deben presentar por grupos los datasets con los que trabajarán).
* Entrega del trabajo realizado: A determinar.

## Criterios de Evaluación: 

* Claridad en la explicación de los pasos y las técnicas aplicadas.
* Justificación de la elección de los modelos y técnicas.
* Precisión en los resultados obtenidos (métricas de evaluación).
* Calidad de las visualizaciones y del análisis de los resultados.
* Rigor en la comparación de los modelos.
* Creatividad en las conclusiones y en la presentación final.


El problema de clasificación seleccionado es el del Titanic, 

El dataset de clasificación es el de entrenamiento (train.csv) de la competición de Kaggle (https://www.kaggle.com/competitions/titanic) en la que se propone predecir la columna Survived (que determina si un pasajero del Titanic sobrevivió o no al accidente de este transatlántico) basándose en un set de prueba (test.csv) de la competición para subir las predicciones a Kaggle y ver el accuracy del modelo entrenado en este set de prueba.  

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('titanic.csv')

df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
