# Investigación del Titanic: Una historia con datos

Eres un analista de datos contratado para investigar el desastre del Titanic. Tu misión es descubrir patrones ocultos en los datos de supervivencia y presentar un informe completo.

La historia se desarrolla en 5 capítulos progresivos.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

sns.set_theme(style="whitegrid")

# Cargar datos
df = pd.read_csv("data/titanic.csv", sep=",")

## Capítulo 1: El primer vistazo a la tragedia

Acabas de recibir los datos. Antes de investigar, necesitas entender que información tienes.

**Tu misión:**
1. ¿Cuántos pasajeros había en total?
2. ¿Cuántos sobrevivieron?
3. ¿Cuál fue la tasa de supervivencia global (en porcentaje)?
4. ¿Hay datos faltantes? ¿En qué columnas?

In [None]:
df.shape

df.loc[df["survived"]==1,"Survived"].count()

count = df.count()
n_survived = df.loc[df["survived"]==1].count()
porc_survived = 100 * n_survived.values / count.values

df.describe(include="all")
df.isna().sum()

## Capítulo 2: La hipótesis de la clase social

Escuchaste rumores de que en el Titanic "los ricos se salvaron primero". Es hora de investigar si la clase social influyó en la supervivencia.

**Tu misión:**
1. Calcula la tasa de supervivencia por cada clase (Pclass: 1, 2, 3), y la edad máxima
2. Crea un gráfico de barras que muestre la supervivencia por clase, un gráfico de lineas que muestre la edad maxima para cada clase
3. ¿Cuál fue la clase con mayor tasa de supervivencia?
4. Escribe tu conclusión: ¿Los rumores eran ciertos?

In [None]:
agg_agregado = (
    df.groupby(["Pclass"], as_index=False)
         .agg(survival_rate=("Survived", "mean"), max_age=("Age", "max"))
         .sort_values(["survival_rate"], ascending=False)
)

plt.figure(figsize=(8, 4))
sns.barplot(data=agg_agregado, x="Pclass", y="survival_rate")
plt.title("Tasa de supervivencia por clase")
plt.ylim(0, 1)
plt.tight_layout()

plt.figure(figsize=(8, 4))
sns.lineplot(data=agg_agregado, x="Pclass", y="max_age", marker="o")
plt.title("Edad máxima para cada clase")
plt.tight_layout()

## Capítulo 3: Mujeres y niños primero

Se dice que durante la evacuación se priorizó a mujeres y niños. Vamos a verificar esta historia.

**Tu misión:**
1. Calcula la tasa de supervivencia por sexo (Sex: male, female)
2. Crea una columna nueva 'age_group' que clasifique:
   - 'child' si Age < 18
   - 'adult' si Age >= 18
3. Calcula supervivencia por grupo de edad
4. Crea un gráfico que muestre supervivencia por sexo y clase juntos
5. Tu conclusión: ¿Se cumplió la regla de «mujeres y niños primero»?

In [None]:
agg_Sex = (
    df.groupby(["Sex"], as_index=False)
         .agg(survival_rate=("Survived", "mean"))
         .sort_values(["survival_rate"], ascending=False)
)

df["age_group"] = (df["Age"] < 18).replace(True,"Child").replace(False,"Adult").astype("category")

df2  = (
    df.groupby(["Sex", "age_group"], as_index=False)
         .agg(survival=("Survived", "count"))
         .sort_values(["survival"], ascending=False)
)

agg_agregado = (
    df.groupby(["Pclass"], as_index=False)
         .agg(survival_rate=("Survived", "mean"), max_age=("Age", "max"))
         .sort_values(["survival_rate"], ascending=False)
)

## Capítulo 4: El factor precio del billete

Ahora quieres saber si el precio pagado por el billete tuvo alguna relación con sobrevivir.

**Tu misión:**
1. Calcula el precio promedio del billete para:
   - Los que sobrevivieron
   - Los que no sobrevivieron
2. Crea categorías de precio:
   - 'low' si Fare < 20
   - 'medium' si 20 <= Fare < 50
   - 'high' si Fare >= 50
3. Calcula supervivencia por categoría de precio
4. Crea un boxplot de Fare por Survived
5. Conclusión: ¿Pagar más aumentó las probabilidades de sobrevivir?

In [None]:
# Tu código aquí


## Capítulo 5: El perfil del superviviente ideal

Es hora de crear el perfil completo del pasajero con mayores probabilidades de haber sobrevivido.

**Tu misión:**
1. Encuentra la combinación de Pclass + Sex con MAYOR tasa de supervivencia
2. Encuentra la combinación con MENOR tasa de supervivencia
3. Calcula la edad promedio de supervivientes vs no supervivientes
4. Crea un perfil de "superviviente ideal" con:
   - Clase
   - Sexo
   - Rango de edad
   - Rango de precio de billete
5. Crea un perfil de «víctima más probable»
6. BONUS: Visualiza estos perfiles con un gráfico creativo

In [None]:
# Tu código aquí
