# üßº Limpieza y Preparaci√≥n del Dataset del Titanic
Este notebook tiene como objetivo preparar el dataset del Titanic para an√°lisis exploratorio y modelado predictivo. A continuaci√≥n se detallan los pasos realizados:

### üì• 1. Carga del Dataset
Se comienza cargando el archivo CSV que contiene los datos de los pasajeros del Titanic.

In [None]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('/Users/paulamartinezmora/Proyecto final herramientas de trabajo/trabajo-final-hdtc/datasets/Titanic-Dataset.csv')


### üßπ 2. Eliminaci√≥n de Columnas Irrelevantes

Se eliminan columnas que no aportan valor directo al an√°lisis o que contienen informaci√≥n dif√≠cil de procesar sin un tratamiento adicional. Estas incluyen identificadores √∫nicos, nombres, n√∫meros de ticket y cabinas.

In [None]:
# Eliminar columnas que no son √∫tiles para el an√°lisis
df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)


### üß© 3. Tratamiento de Valores Faltantes

Se manejan los valores nulos en las siguientes columnas:

- **Edad (`Age`)**: se reemplaza con la mediana para mantener la distribuci√≥n.
- **Tarifa (`Fare`)**: se reemplaza con la mediana.
- **Puerto de embarque (`Embarked`)**: se reemplaza con la moda (valor m√°s frecuente).

In [None]:
# Imputar valores faltantes
df['Age'].fillna(df['Age'].median(), inplace=True)
df['Fare'].fillna(df['Fare'].median(), inplace=True)
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)


### üîÑ 4. Conversi√≥n de Variables Categ√≥ricas

Para facilitar el an√°lisis y modelado, se convierten las variables categ√≥ricas en num√©ricas:

- **Sexo (`Sex`)**: se codifica como 0 para hombre y 1 para mujer.
- **Puerto de embarque (`Embarked`)**: se transforma en variables dummy (one-hot encoding), eliminando una categor√≠a para evitar multicolinealidad.

In [None]:
# Convertir 'Sex' a variable num√©rica
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Convertir 'Embarked' a variables dummy
df = pd.get_dummies(df, columns=['Embarked'], drop_first=True)


### ‚úÖ 5. Vista Previa del Dataset Limpio

Se muestra una vista previa de las primeras filas del dataset ya limpio para verificar que los cambios se han aplicado correctamente.

In [None]:
# Mostrar las primeras filas del dataset limpio
df.head()
