<a href="https://colab.research.google.com/github/delfibarros-lab/ds-portfolio-eda-titanic/blob/main/EDA_Titanic_Portfolio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Importamos las herramientas clave para manipulación y visualización
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración visual para que los gráficos se vean profesionales
sns.set_theme(style="whitegrid")
import warnings
warnings.filterwarnings('ignore') # Ocultar advertencias molestas

In [None]:
# Usamos un link crudo de GitHub que contiene el dataset clásico del Titanic
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# Vemos las primeras 5 filas para entender qué tenemos
display(df.head())

In [None]:
print("--- Valores Nulos antes de la limpieza ---")
print(df.isnull().sum())

# 1. Rellenamos la 'Edad' faltante con la mediana (es más robusto que el promedio frente a outliers)
df['Age'] = df['Age'].fillna(df['Age'].median())

# 2. La columna 'Cabin' tiene demasiados nulos, no aporta valor general, la eliminamos
df.drop(columns=['Cabin'], inplace=True)

# 3. 'Embarked' tiene solo 2 nulos, los rellenamos con el puerto más común (moda)
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

print("\n--- Valores Nulos después de la limpieza ---")
print(df.isnull().sum())

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='Survived', hue='Sex', palette='pastel')
plt.title('Supervivencia según Género (0 = No sobrevivió, 1 = Sobrevivió)', fontsize=14)
plt.ylabel('Cantidad de Pasajeros')
plt.show()

In [None]:
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='Pclass', hue='Survived', palette='Set2')
plt.title('Supervivencia según Clase del Pasajero', fontsize=14)
plt.xlabel('Clase (1 = Alta, 2 = Media, 3 = Baja)')
plt.ylabel('Cantidad de Pasajeros')
plt.show()

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data=df, x='Age', hue='Survived', kde=True, bins=30, palette='husl')
plt.title('Distribución de Edades según Supervivencia', fontsize=14)
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
# Seleccionamos solo columnas numéricas para la correlación
numeric_df = df.select_dtypes(include=['float64', 'int64'])
# Calculamos correlación
correlation_matrix = numeric_df.corr()

# Graficamos un Heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Matriz de Correlación de Variables Numéricas', fontsize=14)
plt.show()