# üö¢ Titanic EDA - An√°lisis Exploratorio de Datos

**Objetivo**: ¬øQu√© factores determinaron qui√©n sobrevivi√≥ al hundimiento del Titanic?

En este notebook vas a:
- Explorar y entender los datos del Titanic
- Limpiar y preparar los datos
- Crear visualizaciones para encontrar patrones
- Responder preguntas sobre la supervivencia

## üõ†Ô∏è Paso 0: Configuraci√≥n Inicial

Importa todas las librer√≠as necesarias para el an√°lisis.

**Librer√≠as a importar:**
- `pandas` (como pd)
- `numpy` (como np)
- `matplotlib.pyplot` (como plt)
- `seaborn` (como sns)
- `kagglehub`
- `os`

**Configuraci√≥n de gr√°ficos:**
- Establece el estilo de seaborn como "whitegrid"
- Configura el tama√±o de figura por defecto: (10, 6)

In [1]:
# Escribe aqu√≠ tu c√≥digo para importar las librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import kagglehub
import os

# Configuraci√≥n para que los gr√°ficos se vean mejor
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

## üì• Paso 1: Cargar los Datos

Descarga el dataset del Titanic usando kagglehub y c√°rgalo en un DataFrame.

**Tareas:**
1. Usa `kagglehub.dataset_download("yasserh/titanic-dataset")` para descargar
2. Guarda la ruta en una variable `path`
3. Carga el archivo 'Titanic-Dataset.csv' usando `pd.read_csv()`
4. Guarda el DataFrame en la variable `df`

In [2]:
# Escribe aqu√≠ tu c√≥digo para descargar y cargar el dataset
import kagglehub
import os

# Descargar el dataset del Titanic desde Kaggle
path = kagglehub.dataset_download("yasserh/titanic-dataset")
print("Path to dataset files:", path)

# Cargar el archivo Titanic-Dataset.csv
df = pd.read_csv(os.path.join(path, 'Titanic-Dataset.csv'))

Using Colab cache for faster access to the 'titanic-dataset' dataset.
Path to dataset files: /kaggle/input/titanic-dataset


## üëÄ Paso 2: Primera Exploraci√≥n

Examina las primeras filas del dataset para familiarizarte con los datos.

### 2.1 Ver las primeras filas

Usa `df.head()` para ver las primeras 5 filas del dataset.

In [3]:
# Escribe aqu√≠ tu c√≥digo
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 2.2 Dimensiones del dataset

Imprime cu√°ntas filas (pasajeros) y columnas (caracter√≠sticas) tiene el dataset.

**Pista:** Usa `df.shape`

In [5]:
# Escribe aqu√≠ tu c√≥digo
df.shape
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")

Filas: 891, Columnas: 12


### 2.3 Informaci√≥n general

Usa `df.info()` para ver:
- Tipos de datos de cada columna
- Cantidad de valores no nulos
- Memoria que ocupa

In [6]:
# Escribe aqu√≠ tu c√≥digo
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 2.4 Columnas disponibles

Muestra la lista de todas las columnas del dataset.

**Pista:** Usa `df.columns.tolist()`

In [7]:
# Escribe aqu√≠ tu c√≥digo
print(df.columns.tolist())

['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


## üìä Paso 3: Estad√≠stica Descriptiva

Obt√©n un resumen estad√≠stico de las variables num√©ricas.

### 3.1 Estad√≠sticas de variables num√©ricas

Usa `df.describe()` para ver:
- Promedio (mean)
- Desviaci√≥n est√°ndar (std)
- Valores m√≠nimo y m√°ximo
- Percentiles (25%, 50%, 75%)

In [8]:
# Escribe aqu√≠ tu c√≥digo
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 3.2 Estad√≠sticas de variables categ√≥ricas

Usa `df.describe(include='object')` para analizar las columnas de texto.

In [9]:
# Escribe aqu√≠ tu c√≥digo
df.describe(include='object')

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Dooley, Mr. Patrick",male,347082,G6,S
freq,1,577,7,4,644


## üßπ Paso 4: Limpieza de Datos

### 4.1 Identificar valores faltantes

Encuentra cu√°ntos valores faltantes (NaN) hay en cada columna.

**Pista:** Usa `df.isnull().sum()`

In [None]:
# Escribe aqu√≠ tu c√≥digo
print(df.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


### 4.2 Visualizar valores faltantes (porcentaje)

Usando el paquete `missigno` para visualizar los datos faltante

Calcula el porcentaje de datos faltantes por columna.

**Formula:** `(valores faltantes / total de filas) * 100`

Muestra solo las columnas que tienen valores faltantes (porcentaje > 0).

In [None]:
# Escribe aqu√≠ tu c√≥digo
missing_percent = (df.isnull().sum() / len(df)) * 100
print(missing_percent[missing_percent > 0])

Age         19.865320
Cabin       77.104377
Embarked     0.224467
dtype: float64


### 4.3 Eliminar columnas irrelevantes

Elimina las siguientes columnas que no aportan al an√°lisis:
- PassengerId
- Name
- Ticket
- Cabin

**Pista:** Usa `df.drop([columnas], axis=1)`

Despu√©s, muestra las primeras filas con `df.head()` para verificar.

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 4.4 Imputar valores faltantes en Age

Rellena los valores faltantes de la columna 'Age' con la **mediana**.

**Pasos:**
1. Calcula la mediana de Age: `df['Age'].median()`
2. Rellena los valores faltantes: `df['Age'].fillna(mediana, inplace=True)`
3. Muestra las primeras 10 filas para verificar

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 4.5 Imputar valores faltantes en Embarked

Rellena los valores faltantes de 'Embarked' con la **moda** (valor m√°s frecuente).

**Pasos:**
1. Calcula la moda: `df['Embarked'].mode()[0]`
2. Rellena los valores faltantes
3. Muestra las primeras 10 filas

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 4.6 Verificar que no queden valores faltantes

Confirma que todas las columnas tienen 0 valores faltantes.

**Pista:** Usa `df.isnull().sum()`

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üè∑Ô∏è Paso 5: Renombrar Columnas

Renombra las siguientes columnas para mayor claridad:
- Pclass ‚Üí Passenger_Class
- SibSp ‚Üí Siblings_Spouses
- Parch ‚Üí Parents_Children

**Pista:** Usa `df.rename(columns={...})`

Despu√©s muestra los nombres de las columnas y las primeras filas.

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üìà Paso 6: An√°lisis Univariado

Analiza cada variable por separado para entender su distribuci√≥n.

### 6.1 Variable categ√≥rica: Survived

**Tareas:**
1. Cuenta cu√°ntos sobrevivieron (1) vs murieron (0): `df['Survived'].value_counts()`
2. Crea un gr√°fico de barras con colores rojo (no sobrevivi√≥) y verde (sobrevivi√≥)

**Configuraci√≥n del gr√°fico:**
- kind='bar'
- color=['red', 'green']
- T√≠tulo: 'Survival Count'
- xlabel: 'Survived (0 = No, 1 = Yes)'
- ylabel: 'Count'

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 6.2 Variable categ√≥rica: Sex

Crea un gr√°fico de barras mostrando la distribuci√≥n de g√©nero.

**Tareas:**
1. Cuenta los valores: `df['Sex'].value_counts()`
2. Crea gr√°fico con colores azul y rosa
3. T√≠tulo: 'Gender Distribution'

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 6.3 Variable num√©rica: Age

Crea un **histograma** para ver la distribuci√≥n de edades.

**Configuraci√≥n:**
- kind='hist'
- bins=30 (divide en 30 rangos)
- edgecolor='black'
- alpha=0.7
- color='skyblue'
- T√≠tulo: 'Age Distribution'
- xlabel: 'Age'
- ylabel: 'Frequency'

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 6.4 Variable num√©rica: Fare

Crea un **boxplot** para detectar valores extremos en los precios.

**Configuraci√≥n:**
- Usa `df.boxplot(column='Fare', patch_artist=True)`
- T√≠tulo: 'Fare Distribution'
- ylabel: 'Fare'

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üîó Paso 7: An√°lisis Bivariado

Analiza la relaci√≥n entre pares de variables.

### 7.1 Survived vs Sex

**Tareas:**
1. Crea una tabla cruzada con porcentajes por sexo:
   - `pd.crosstab(df['Sex'], df['Survived'], normalize='index') * 100`
2. Crea un gr√°fico de barras agrupadas:
   - `pd.crosstab(df['Sex'], df['Survived']).plot(kind='bar', color=['red', 'green'])`
   - A√±ade t√≠tulo, labels y leyenda

**Pregunta a responder:** ¬øQui√©n tuvo m√°s probabilidad de sobrevivir: hombres o mujeres?

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 7.2 Survived vs Passenger_Class

Analiza c√≥mo la clase del pasajero afect√≥ la supervivencia.

**Tarea:**
- Crea un gr√°fico de barras apiladas (stacked=True)
- Usa colores rojo y verde
- T√≠tulo: 'Survival Rate by Passenger Class'

**Pregunta:** ¬øLa primera clase tuvo ventaja?

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 7.3 Age vs Survived

Compara las distribuciones de edad entre sobrevivientes y no sobrevivientes.

**Tareas:**
1. Crea dos histogramas superpuestos:
   - Sobrevivientes (verde, alpha=0.5)
   - No sobrevivientes (rojo, alpha=0.5)
2. bins=30, edgecolor='black'
3. A√±ade leyenda

**Pregunta:** ¬øLos ni√±os tuvieron m√°s probabilidad de sobrevivir?

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 7.4 Fare vs Survived

Compara los precios de tickets entre sobrevivientes y no sobrevivientes.

**Tarea:**
- Crea un boxplot comparativo: `df.boxplot(column='Fare', by='Survived')`
- Usa `plt.suptitle('')` para quitar el t√≠tulo autom√°tico
- A√±ade t√≠tulo y labels

**Pregunta:** ¬øPagar m√°s dinero aument√≥ las chances de sobrevivir?

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üé® Paso 8: An√°lisis Multivariado

Analiza m√∫ltiples variables simult√°neamente.

### 8.1 Matriz de correlaci√≥n

**Tareas:**
1. Selecciona solo las columnas num√©ricas:
   - `numeric_df = df.select_dtypes(include=[np.number])`
2. Calcula la correlaci√≥n:
   - `correlation = numeric_df.corr()`
3. Imprime la matriz

**¬øQu√© buscar?**
- Valores cercanos a 1: correlaci√≥n positiva fuerte
- Valores cercanos a -1: correlaci√≥n negativa fuerte
- Valores cercanos a 0: sin correlaci√≥n

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 8.2 Heatmap de correlaci√≥n

Visualiza la matriz de correlaci√≥n con un mapa de calor.

**Configuraci√≥n:**
- `plt.figure(figsize=(10, 8))`
- `sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0, linewidths=1, fmt='.2f', square=True)`
- T√≠tulo: 'Correlation Matrix - Titanic Dataset'
- Usa `plt.tight_layout()`

**Interpretaci√≥n:**
- Rojo/naranja = correlaci√≥n positiva
- Azul = correlaci√≥n negativa
- Blanco = sin correlaci√≥n

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 8.3 Pairplot

Crea una matriz de gr√°ficos mostrando relaciones entre todas las variables num√©ricas.

**Configuraci√≥n:**
- `sns.pairplot(numeric_df, hue='Survived', palette={0: 'red', 1: 'green'}, diag_kind='hist', plot_kws={'alpha': 0.6})`
- A√±ade t√≠tulo con `plt.suptitle('Pairplot of Numeric Variables by Survival', y=1.02)`

**Nota:** Este gr√°fico puede tardar un poco porque genera muchas visualizaciones.

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üìä Paso 9: Feature Engineering B√°sico

Crea nuevas variables a partir de las existentes.

### 9.1 Crear variable Family_Size

**Tareas:**
1. Crea la columna: `df['Family_Size'] = df['Siblings_Spouses'] + df['Parents_Children'] + 1`
2. Muestra las columnas relacionadas: `df[['Siblings_Spouses', 'Parents_Children', 'Family_Size']].head(10)`
3. Crea un histograma de Family_Size con:
   - bins=10
   - color='orange'
   - edgecolor='black'

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 9.2 Crear variable Is_Alone

**Tareas:**
1. Crea variable binaria: `df['Is_Alone'] = (df['Family_Size'] == 1).astype(int)`
2. Muestra las columnas: `df[['Family_Size', 'Is_Alone']].head(10)`
3. Analiza supervivencia con crosstab y gr√°fico de barras

**Pregunta:** ¬øViajar solo fue ventaja o desventaja?

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 9.3 Crear variable Age_Group

**Tareas:**
1. Categoriza las edades:
```python
df['Age_Group'] = pd.cut(df['Age'],
                         bins=[0, 12, 18, 35, 60, 100],
                         labels=['Child', 'Teenager', 'Young Adult', 'Adult', 'Senior'])
```
2. Muestra: `df[['Age', 'Age_Group']].head(15)`
3. Crea gr√°fico de barras de supervivencia por grupo de edad

**Pregunta:** ¬øLos ni√±os tuvieron prioridad ("mujeres y ni√±os primero")?

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üìù Paso 10: Conclusiones

Escribe c√≥digo para responder estas preguntas clave:

### 10.1 Tasa de supervivencia general

Calcula qu√© porcentaje del total de pasajeros sobrevivi√≥.

**Formula:** `(df['Survived'].sum() / len(df)) * 100`

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 10.2 Supervivencia por sexo

Calcula el porcentaje de supervivencia para hombres y mujeres por separado.

**Pista:** `df.groupby('Sex')['Survived'].mean() * 100`

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 10.3 Supervivencia por clase

Calcula el porcentaje de supervivencia para cada clase (1, 2, 3).

**Pista:** `df.groupby('Passenger_Class')['Survived'].mean() * 100`

In [None]:
# Escribe aqu√≠ tu c√≥digo

### 10.4 Edad promedio por supervivencia

Compara la edad promedio de:
- Los que sobrevivieron
- Los que no sobrevivieron

**Pista:** `df.groupby('Survived')['Age'].mean()`

In [None]:
# Escribe aqu√≠ tu c√≥digo

## üéâ ¬°Felicidades!

Has completado tu primer An√°lisis Exploratorio de Datos.

### üìã Resumen de lo que aprendiste:

1. ‚úÖ Cargar y explorar datos
2. ‚úÖ Identificar y limpiar valores faltantes
3. ‚úÖ Crear estad√≠sticas descriptivas
4. ‚úÖ Visualizar datos con m√∫ltiples tipos de gr√°ficos
5. ‚úÖ Analizar relaciones entre variables
6. ‚úÖ Crear nuevas variables (Feature Engineering)
7. ‚úÖ Extraer conclusiones de los datos

### ü§î Reflexiones finales:

**Escribe tus conclusiones aqu√≠:**
- ¬øQu√© factores fueron m√°s importantes para sobrevivir?
- ¬øQu√© te sorprendi√≥ m√°s del an√°lisis?
- ¬øQu√© otras preguntas te gustar√≠a investigar?

### üöÄ Pr√≥ximos pasos:

1. Crear un modelo de Machine Learning para predecir supervivencia
2. Probar con otros datasets de Kaggle
3. Crear visualizaciones m√°s avanzadas con Plotly
4. Compartir tu an√°lisis en un blog o GitHub

---

**Dataset:** [Titanic Dataset by Yasserh](https://www.kaggle.com/datasets/yasserh/titanic-dataset)