# Pre-procesamiento 💻

Proceso de limpieza de datos para obtener un conjunto final de datos útil para nuestros algoritmos.
- Eliminamos inconsistencias y datos duplicados, manejamos datos faltantes, etc.

**Librerías**

In [None]:
# Librerías
import pandas as pd
import numpy as np

In [None]:
# Experimentos reproducibles
np.random.seed(42)

**Titanic dataset**

![Titanic](https://drive.google.com/uc?id=1jXmRjZMbhFFbHouzq7vry0C8AehL0Jsy)

*Descripción:*

Se recolectaron datos para predecir qué pasajeros **sobrevivieron** al naufragio del Titanic. Tenemos información sobre el lugar de embarque, clase, sexo, edad, hijos...

Importamos el conjunto de datos y visualizamos los datos

In [None]:
dataset = pd.read_csv('https://raw.githubusercontent.com/miryamelizabeth/datasets/main/Datasets%20ML/dataset_titanic_seaborn.csv')
dataset.head()

Unnamed: 0,sex,age,who,adult_male,class,alive,alone,sibsp,parch,fare,deck,embark_town,survived?
0,male,22.0,man,True,Third,no,False,1,0,7.25,,Southampton,NO
1,female,38.0,woman,False,First,yes,False,1,0,71.2833,C,Cherbourg,YES
2,female,26.0,woman,False,Third,yes,True,0,0,7.925,,Southampton,YES
3,female,35.0,woman,False,First,yes,False,1,0,53.1,C,Southampton,YES
4,male,35.0,man,True,Third,no,True,0,0,8.05,,Southampton,NO


In [None]:
# (número de filas, número de columnas)
dataset.shape

(891, 13)

## Procesando datos categóricos

![Titanic](https://drive.google.com/uc?id=1njnIvPbP-vMcAfD7b7nkAspy25PI5Laj)

Se realiza después de rellenar valores faltantes, y antes de empezar a entrenar los modelos

### Valores categóricos

*  **Label Encoder**

`LabelEncoder()`

![](https://drive.google.com/uc?id=1H7Qy0ontLzi08VJyXdXZnmRc_nmnraRZ)

*  **One Hot Encoder**

`OneHotEncoder(handle_unknown='ignore')`

![](https://drive.google.com/uc?id=1r9rbq_1Q9E4tKk5yUGuxayMD7IZgGBlN)

## Juntando todo...

![Titanic](https://drive.google.com/uc?id=1TJFJhlhaT75OsL1j1uVpZbFfF4A8Z5L5)

In [None]:
from sklearn.preprocessing import OneHotEncoder # Pre-procesamiento (categórico)
from sklearn.compose import make_column_transformer # Transformar (columnas)

In [None]:
finalDataset = dataset[['sex', 'class', 'survived?']]
finalDataset.head()

Unnamed: 0,sex,class,survived?
0,male,Third,NO
1,female,First,YES
2,female,Third,YES
3,female,First,YES
4,male,Third,NO


Separamos dos listas las variables numéricas y categóricas. ***survived?* es la variable a predecir, esa JAMÁS se incluye en esas listas para pre-procesar.**

In [None]:
# Hacemos una lista con los atributos categóricos
categoric_features = ['sex', 'class']

transformer = make_column_transformer( (OneHotEncoder(handle_unknown='ignore'), categoric_features) )

In [None]:
from sklearn.model_selection import train_test_split # Dividir datos

In [None]:
# Separo predictores de la clase
X = finalDataset.drop(['survived?'], axis=1)
y = finalDataset['survived?']

# Divido en conjunto de entrenamiento y pruebas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
X_train

Unnamed: 0,sex,class
331,male,First
733,male,Second
382,male,Third
704,male,Third
813,female,Third
...,...,...
106,female,Third
270,male,First
860,male,Third
435,female,First


Procesamiento!

In [None]:
# Se ajusta con los datos de entrenamiento
transformer.fit(X_train)

X_train = transformer.transform(X_train) # Transforma los datos de entrenamiento
X_test = transformer.transform(X_test) # Transforma los datos de prueba

In [None]:
#@title Conjunto de datos transformado
cols = [x.replace('minmaxscaler__', '').replace('onehotencoder__', '') for x in transformer.get_feature_names_out()]
temporal = pd.DataFrame(X_train, columns=cols, dtype='int')
temporal.head()

Unnamed: 0,sex_female,sex_male,class_First,class_Second,class_Third
0,0,1,1,0,0
1,0,1,0,1,0
2,0,1,0,0,1
3,0,1,0,0,1
4,1,0,0,0,1




---


📝 **Referencias**

*Dataset obtenido de Seaborn:* [Titanic](https://github.com/mwaskom/seaborn-data/blob/master/titanic.csv)