<a href="https://colab.research.google.com/github/dtoralg/INESDI_Data-Science_ML_IA/blob/main/%5B01%5D%20-%20Preparaci%C3%B3n%20de%20datos%20y%20EDA/Transformacion_Ejercicio_4_transformacion_titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Transformación - Ejercicio 4: transformacion_titanic.ipynb

En este ejercicio aprenderás cómo aplicar transformaciones básicas a las variables de un dataset para prepararlo para un modelo de machine learning.

Trabajaremos con el dataset clásico de Titanic y aplicaremos técnicas de normalización, estandarización y codificación de variables categóricas.

### Objetivos
- Aplicar escalado Min-Max y Z-score sobre variables numéricas.
- Realizar codificación one-hot y label encoding sobre variables categóricas.
- Identificar qué variables deben ser transformadas y cómo.

### Descripción del dataset
Usaremos el dataset de Titanic disponible públicamente. Contiene información de los pasajeros como edad, sexo, clase, tarifa pagada y si sobrevivieron o no.

In [None]:
# Importar librerías necesarias
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Cargar el dataset Titanic desde GitHub
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
df.head()

### 1. Selección de variables para transformar

In [None]:
# Seleccionamos variables numéricas y categóricas relevantes
vars_numericas = df.select_dtypes(include= ['int']).columns
vars_categoricas = df.select_dtypes(include=['object']).columns

In [None]:
vars_numericas

In [None]:
# Visualizamos valores nulos
df.isnull().mean().sort_values(ascending=False) * 100

In [None]:
# Imputamos valores nulos antes de transformar
df['Age'] = df['Age'].fillna(df['Age'].median())
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# Como Cabin tiene muchos valores nulos, lo deshechamos
df = df.drop("Cabin", axis = 1)

In [None]:
# Comprobamos que ya no quedan valores null
df.isnull().mean().sort_values(ascending=False) * 100

In [None]:
df.head(10)

### 2. Normalización (Min-Max Scaling)

In [None]:
# Aplicamos Min-Max Scaling a las variables numéricas
scaler_minmax = MinMaxScaler()
df_minmax = df.copy()
df_minmax[vars_numericas] = scaler_minmax.fit_transform(df[vars_numericas])
df_minmax[vars_numericas].describe()

### 3. Estandarización StandardScaler

In [None]:
# Aplicamos StandardScaler
scaler_std = StandardScaler()
df_std = df.copy()
df_std[vars_numericas] = scaler_std.fit_transform(df[vars_numericas])
df_std[vars_numericas].describe()

### 4. Codificación de variables categóricas

In [None]:
# Label Encoding para 'Sex'
le = LabelEncoder()
df['Sex_encoded'] = le.fit_transform(df['Sex'])
df[['Sex', 'Sex_encoded']].head()

In [None]:
df.head(5)

In [None]:
# One-Hot Encoding para 'Embarked'
df_encoded = pd.get_dummies(df, columns=['Embarked'])

df_encoded[['Embarked_S', 'Embarked_Q', 'Embarked_C']].head(5)

### Conclusión
Hemos aprendido a aplicar transformaciones básicas de preparación de datos:
- Escalado con MinMaxScaler y StandardScaler
- Codificación con LabelEncoder y One-Hot Encoding

Estas transformaciones son necesarias antes de alimentar modelos de machine learning que no pueden procesar variables categóricas o son sensibles a las escalas numéricas.