### Preparación de los datos del Titanic con scikit-learn

**Objetivo:**
Aplicar técnicas de preprocesamiento de datos utilizando las herramientas de Scikit-learn para preparar el conjunto de datos del Titanic para el análisis predictivo y el modelado de aprendizaje automático.


### Instrucciones para el Estudiante:
- Completa el código  que falte en las siguientes celdas


**Importr librerias**

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline


**Cargar datos**

In [None]:
titanic = pd.read_csv('../../ejercicios/datos/titanic/train.csv', sep=',')

**Imputación de Valores Faltantes:**
   - Usa `SimpleImputer` de Scikit-learn para reemplazar los valores faltantes en la columna 'Age' con la mediana.
   - Imputa los valores faltantes en la columna 'Embarked' con la moda.

In [None]:
# Imputador para la columna 'Age'
age_imputer = ## COMPLETA EL CÓDIGO ##
age_imputer.fit_transform(titanic[['Age']])

In [None]:
# Imputador para la columna 'Embarked'
embarked_imputer = ## COMPLETA EL CÓDIGO ##
embarked_imputer.fit_transform(titanic[['Embarked']])


**Conversión de Variables Categóricas:**
   - Emplea `LabelEncoder` o `OneHotEncoder` de Scikit-learn para convertir la variable 'Sex' en una forma numérica adecuada para el modelado.
   - Aplica `OneHotEncoder` para convertir 'Embarked' en variables dummy.

In [None]:
# Codificador para la variable 'Sex'
sex_encoder = ## COMPLETA EL CÓDIGO ##
sex_encoder.fit_transform(titanic['Sex'])

In [None]:
# Codificador one-hot para la variable 'Embarked'
embarked_one_hot_encoder = ## COMPLETA EL CÓDIGO ##
embarked_one_hot_encoder.fit_transform(titanic[['Embarked']]).toarray()


**Estandarización de Características Numéricas:**
   - Utiliza `StandardScaler` o `MinMaxScaler` para normalizar la columna 'Fare'.

In [None]:
fare_scaler = ## COMPLETA EL CÓDIGO ##
fare_scaler.fit_transform(titanic[['Fare']])

**Construcción de Pipelines de Preprocesamiento:**
   - Crea un pipeline que combine todos los pasos anteriores para automatizar el proceso de limpieza.

In [None]:
# Pipeline para las transformaciones numéricas
num_pipeline = Pipeline(steps=[
    ('imputer', ## COMPLETA EL CÓDIGO ##),
    ('scaler', MinMaxScaler())
])

# Pipeline para las transformaciones categóricas
cat_pipeline = Pipeline(steps=[
    ('imputer', ## COMPLETA EL CÓDIGO ##),
    ('onehot', ## COMPLETA EL CÓDIGO ##)
])

# Combinación de los pipelines en un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', num_pipeline, ['Age', 'Fare']),
        ('cat', cat_pipeline, ['Sex', 'Embarked'])
    ])


**División de Datos:**
   - Divide el conjunto de datos en conjuntos de entrenamiento y prueba usando `train_test_split`.

In [None]:
# Celda 7: División de Datos en Conjuntos de Entrenamiento y Prueba

X = titanic.drop('Survived', axis=1)  # Características
y = titanic['Survived']  # Variable objetivo

# Dividir el conjunto de datos en un conjunto de entrenamiento y otro de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Aplicación del Pipeline:**
   - Ajusta el pipeline al conjunto de entrenamiento y transforma tanto los datos de entrenamiento como de prueba.


In [None]:
# Ajuste del preprocesador al conjunto de entrenamiento y transformación de los conjuntos de datos
preprocessor.fit(X_train)

X_train_processed = preprocessor.transform(X_train)
X_test_processed = preprocessor.transform(X_test)