
# An√°lisis de los pasajeros del Titanic

In [None]:

# Importar librer√≠as necesarias
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# Cargar el dataset de Titanic desde seaborn
titanic = sns.load_dataset('titanic')
titanic.head()


In [None]:

# Verificar datos faltantes
titanic.info()

# Llenar los valores perdidos de 'embarked' y 'fare' con la moda
titanic['embarked'].fillna(titanic['embarked'].mode()[0], inplace=True)
titanic['fare'].fillna(titanic['fare'].median(), inplace=True)

# Comprobamos si ya no hay nulos en esas columnas
titanic[['embarked', 'fare']].isnull().sum()


## 1Ô∏è‚É£ Tasa global de supervivencia

In [None]:

total_pasajeros = len(titanic)
sobrevivientes = titanic['survived'].sum()
tasa_supervivencia = sobrevivientes / total_pasajeros * 100

print(f"Total de pasajeros con datos: {total_pasajeros}")
print(f"Sobrevivientes: {sobrevivientes}")
print(f"Tasa global de supervivencia: {tasa_supervivencia:.2f}%")


## 2Ô∏è‚É£ Distribuci√≥n por sexo y clase de billete

In [None]:

# Conteo por sexo
sexo_counts = titanic['sex'].value_counts()
print(sexo_counts)

# Distribuci√≥n por clase y sexo
sns.countplot(data=titanic, x='class', hue='sex')
plt.title('Distribuci√≥n de pasajeros por clase y sexo')
plt.show()


## 3Ô∏è‚É£ Supervivencia por sexo

In [None]:

supervivencia_sexo = titanic.groupby('sex')['survived'].mean() * 100
print(supervivencia_sexo)

sns.barplot(x=supervivencia_sexo.index, y=supervivencia_sexo.values)
plt.title('Tasa de supervivencia por sexo (%)')
plt.ylabel('Porcentaje')
plt.show()


## 4Ô∏è‚É£ Informaci√≥n sobre edades

In [None]:

# Cantidad de edades conocidas
edades_conocidas = titanic['age'].notnull().sum()
faltantes_edad = titanic['age'].isnull().sum()
print(f"Edades conocidas: {edades_conocidas}, Faltantes: {faltantes_edad}")

# Distribuci√≥n de edades
plt.hist(titanic['age'].dropna(), bins=20, edgecolor='black')
plt.title('Distribuci√≥n de edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


## 5Ô∏è‚É£ Distribuci√≥n de edad por clase y sexo

In [None]:

sns.boxplot(data=titanic, x='class', y='age', hue='sex')
plt.title('Distribuci√≥n de edad por clase y sexo')
plt.show()


## 6Ô∏è‚É£ Efecto del sexo, clase y edad sobre la supervivencia

In [None]:

sns.catplot(data=titanic, x='class', y='survived', hue='sex', col='alive', kind='bar')
plt.suptitle('Supervivencia seg√∫n clase, sexo y edad')
plt.show()


## 7Ô∏è‚É£ Distribuci√≥n del n√∫mero de familiares a bordo

In [None]:

titanic['family'] = titanic['sibsp'] + titanic['parch']
sns.countplot(data=titanic, x='family')
plt.title('N√∫mero de familiares por pasajero')
plt.show()

viajaban_solos = len(titanic[titanic['family'] == 0])
print(f"La mayor√≠a viajaba sola: {viajaban_solos / len(titanic) * 100:.2f}%")


## 8Ô∏è‚É£ Familias numerosas y clase de billete

In [None]:

familias_numerosas = titanic[titanic['family'] >= 3]
sns.countplot(data=familias_numerosas, x='class')
plt.title('Clases con familias numerosas')
plt.show()

# Mujeres solas
mujeres_solas = titanic[(titanic['sex'] == 'female') & (titanic['family'] == 0)]
sns.countplot(data=mujeres_solas, x='class')
plt.title('Mujeres solas por clase')
plt.show()


## 9Ô∏è‚É£ Tarifa media por persona (corrigiendo billetes compartidos)

In [None]:

# Calcular el n√∫mero de personas por ticket
titanic['group_size'] = titanic.groupby('ticket')['ticket'].transform('count')
titanic['fare_per_person'] = titanic['fare'] / titanic['group_size']

tarifa_media = titanic['fare_per_person'].mean()
print(f"Tarifa media por persona (aproximada): {tarifa_media:.2f}")


## üîü Distribuci√≥n de la tarifa por clase

In [None]:

sns.boxplot(data=titanic, x='class', y='fare_per_person')
plt.title('Distribuci√≥n de la tarifa por clase de billete')
plt.show()



# ‚úÖ Conclusiones Generales
- La tasa global de supervivencia ronda el **38%**.  
- Las **mujeres** tuvieron una probabilidad de supervivencia mucho mayor que los hombres.  
- Los pasajeros de **primera clase** sobrevivieron m√°s que los de tercera.  
- La edad media fue cercana a los **30 a√±os**, y la mayor√≠a viajaba **sin familiares**.  
- La tarifa media corregida fue de aproximadamente **30 unidades monetarias**.  
