In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('./data/titanic_clean.csv')


In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df, x='Age', kde=True)
plt.title('Distribución de edades de los pasajeros')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Pclass', hue='Survived', palette='viridis')
plt.title('Sobrevivientes por clase de pasajero')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.legend(title='Supervivencia', labels=['No sobrevivió', 'Sí sobrevivió'])
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Sex', hue='Survived', palette='magma')
plt.title('Sobrevivientes por género')
plt.xlabel('Sexo')
plt.ylabel('Cantidad')
plt.legend(title='Supervivencia', labels=['No sobrevivió', 'Sí sobrevivió'])
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Embarked', hue='Survived', palette='coolwarm')
plt.title('Sobrevivientes por puerto de embarque')
plt.xlabel('Puerto de embarque')
plt.ylabel('Cantidad')
plt.legend(title='Supervivencia', labels=['No sobrevivió', 'Sí sobrevivió'])
plt.show()


In [None]:
bins = [0, 2, 12, 17, 30, 60, 100]
labels = ['Infante', 'Niño', 'Adolescente', 'Joven Adulto', 'Adulto', 'Mayor']
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)

surv_by_agegroup = df.groupby('AgeGroup')['Survived'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(data=surv_by_agegroup, x='AgeGroup', y='Survived', palette='crest')
plt.title('Tasa de supervivencia por grupo de edad')
plt.xlabel('Grupo de edad')
plt.ylabel('Tasa de supervivencia')
plt.ylim(0, 1)
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Pclass', palette='viridis')
plt.title('Conteo de pasajeros por clase')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Pclass', hue='Sex', palette='Set2')
plt.title('Distribución de género por clase de pasajero')
plt.xlabel('Clase')
plt.ylabel('Cantidad')
plt.legend(title='Sexo')
plt.show()


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='Embarked', hue='Pclass', palette='Set3')
plt.title('Clases de pasajero por puerto de embarque')
plt.xlabel('Puerto de embarque')
plt.ylabel('Cantidad')
plt.legend(title='Clase')
plt.show()


In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(df, x='Sex', palette='pastel')
plt.title('Conteo de pasajeros por género')
plt.xlabel('Sexo')
plt.ylabel('Cantidad')
plt.show()


In [None]:
print(f"Edad máxima: {df['Age'].max()}")
print(f"Edad mínima: {df['Age'].min()}")


In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df, x='Age', kde=True)
plt.title('Distribución de edades con medidas de tendencia central')

plt.axvline(df['Age'].mean(), color='red', label=f"Media: {df['Age'].mean():.2f}")
plt.axvline(df['Age'].median(), color='green', label=f"Mediana: {df['Age'].median():.2f}")
plt.axvline(df['Age'].mode()[0], color='black', label=f"Moda: {df['Age'].mode()[0]:.2f}")

plt.legend()
plt.show()


In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(df, y='Age')
plt.title('Boxplot de la edad')
plt.ylabel('Edad')
plt.show()


In [None]:
print(f"Tarifa máxima: {df['Fare'].max()}")
print(f"Tarifa mínima: {df['Fare'].min()}")


In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df, x='Fare', kde=True)
plt.title('Distribución de tarifas')
plt.axvline(df['Fare'].mean(), color='red', label=f"Media: {df['Fare'].mean():.2f}")
plt.axvline(df['Fare'].median(), color='green', label=f"Mediana: {df['Fare'].median():.2f}")
plt.axvline(df['Fare'].mode()[0], color='black', label=f"Moda: {df['Fare'].mode()[0]:.2f}")
plt.legend()
plt.show()


In [None]:
plt.figure(figsize=(8, 5))
sns.boxplot(df, y='Fare')
plt.title('Boxplot de la tarifa')
plt.ylabel('Tarifa')
plt.show()


In [None]:
df[df['Fare'] == 0]


In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(df, x='SibSp', palette='Blues')
plt.title('Conteo de pasajeros por número de hermanos/esposos a bordo (SibSp)')
plt.xlabel('Número de SibSp')
plt.ylabel('Cantidad')
plt.show()


In [None]:
surv_by_sibsp = df.groupby('SibSp')['Survived'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(data=surv_by_sibsp, x='SibSp', y='Survived', palette='Oranges')
plt.title('Tasa de supervivencia según número de SibSp')
plt.xlabel('Número de SibSp')
plt.ylabel('Tasa de supervivencia')
plt.ylim(0, 1)
plt.show()


In [None]:
surv_percent_sibsp = df.groupby('SibSp')['Survived'].mean() * 100
print(surv_percent_sibsp.round(2))


In [None]:
plt.figure(figsize=(10, 6))
corr = df.select_dtypes(include=['int64', 'float64']).corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matriz de correlación')
plt.show()
