In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('./data/titanic.csv')

In [None]:
df.sample(4)

In [None]:
df['Survived'].value_counts()

In [None]:
plt.figure(figsize=(12, 8))

sns.barplot(x = df['Survived'].value_counts().index, y = df['Survived'].value_counts())
plt.title('Value Counts of Survived')
plt.xlabel('Survived')
plt.ylabel('Count')
plt.show()

In [None]:
plt.figure(figsize = (12, 8))

# colores para cada una de las clases
color = ['#240750', '#344C64']

sns.countplot(df, x = 'Embarked', hue = 'Survived', palette=color) 
plt.legend(title = 'Supervivencia', labels = ['No sobrevivió', 'Sí sobrevivió'])
plt.show()

In [None]:
plt.figure(figsize = (12, 8))

sns.histplot(df, x = 'Age', kde = True)
plt.title('Distribución de Edades')
plt.axvline(df['Age'].mean(), color = 'red')
plt.axvline(df['Age'].median(), color = 'green')
plt.axvline(df['Age'].mode()[0], color = 'black')
plt.show()

# Print the results
print(f"Media: {df['Age'].mean()}")
print(f"Mediana: {df['Age'].median()}")
print(f"Moda: {df['Age'].mode()[0]}")

In [None]:
plt.figure(figsize = (12, 8))
sns.heatmap(df[['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']].corr(), 
            annot=True, 
            cbar=True,  # Activar la barra de colores
            cmap='coolwarm',  # Cambiar la paleta de colores
            cbar_kws={'label': 'Nivel de correlación'})  # Etiqueta para la barra de colores
plt.title('Correlación de variables numéricas')
plt.show()

In [None]:
# Conteo de pasajeros por clase (Pclass)
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='Pclass', palette='viridis')
plt.title('Conteo de Pasajeros por Clase')
plt.show()


In [None]:
# Conteo de pasajeros por género (Sex)
plt.figure(figsize=(8, 6))
sns.countplot(data=df, x='Sex', palette='pastel')
plt.title('Conteo de Pasajeros por Género')
plt.show()


In [None]:
# Valores Mínimo y Máximo de Edad
print(f"Edad Mínima: {df['Age'].min()}")
print(f"Edad Máxima: {df['Age'].max()}")


In [None]:
# Diagrama de caja de Edades (Outliers)
plt.figure(figsize=(10, 6))
sns.boxplot(x=df['Age'], color='lightblue')
plt.title('Diagrama de Caja de Edades')
plt.show()


In [None]:
# Sobrevivientes por Clase
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Pclass', hue='Survived', palette='Set1')
plt.title('Sobrevivientes por Clase')
plt.show()


In [None]:
# Sobrevivientes por Género
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Sex', hue='Survived', palette='Set2')
plt.title('Sobrevivientes por Género')
plt.show()


In [None]:
# Tasas de supervivencia por grupo de edad
bins = [0, 5, 12, 18, 35, 60, 100]
labels = ['Infante', 'Niño', 'Adolescente', 'Joven Adulto', 'Adulto', 'Mayor']
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels)

plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='AgeGroup', y='Survived', palette='magma', errorbar=None)
plt.title('Tasa de Supervivencia por Grupo de Edad')
plt.show()


In [None]:
# Distribución de género dentro de cada clase
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Pclass', hue='Sex', palette='coolwarm')
plt.title('Distribución de Género por Clase')
plt.show()


In [None]:
# Distribución de clase por puerto de embarque
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='Embarked', hue='Pclass', palette='viridis')
plt.title('Distribución de Clase por Puerto de Embarque')
plt.show()


In [None]:
# Valores Mínimo y Máximo de Tarifa (Fare)
print(f"Tarifa Mínima: {df['Fare'].min()}")
print(f"Tarifa Máxima: {df['Fare'].max()}")


In [None]:
# Distribución de Tarifas con media, mediana y moda
plt.figure(figsize=(12, 6))
sns.histplot(df['Fare'], kde=True, color='skyblue')
plt.axvline(df['Fare'].mean(), color='red', linestyle='--', label='Media')
plt.axvline(df['Fare'].median(), color='green', linestyle='-', label='Mediana')
plt.axvline(df['Fare'].mode()[0], color='black', linestyle=':', label='Moda')
plt.title('Distribución de Tarifas')
plt.legend()
plt.show()


In [None]:
# Diagrama de caja de Tarifas (Outliers)
plt.figure(figsize=(10, 6))
sns.boxplot(x=df['Fare'], color='lightgreen')
plt.title('Diagrama de Caja de Tarifas')
plt.show()


In [None]:
# Pasajeros con Tarifa 0
print("Pasajeros que pagaron 0 tarifa:")
display(df[df['Fare'] == 0])


In [None]:
# Conteo de pasajeros por SibSp
plt.figure(figsize=(10, 6))
sns.countplot(data=df, x='SibSp', palette='autumn')
plt.title('Conteo de Pasajeros por SibSp')
plt.show()


In [None]:
# Tasa de supervivencia por SibSp
plt.figure(figsize=(10, 6))
sns.barplot(data=df, x='SibSp', y='Survived', palette='cool', errorbar=None)
plt.title('Tasa de Supervivencia por SibSp')
plt.show()


In [None]:
# Porcentaje de supervivencia por SibSp
survival_sibsp = df.groupby('SibSp')['Survived'].mean() * 100
print("Porcentaje de supervivencia por SibSp:")
print(survival_sibsp)
