# Análisis de superpivivientes del Titanic

## Cargar librerias necesarias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Carga de datos en Python

In [None]:
datos= pd.read_csv('titanic.csv')

## Revisión del Dataset

In [None]:
# Revisión inicial de los datos

datos.head(5)

In [None]:
# Dimensiones del DF

datos.shape

In [None]:
# Información general sobre los datos

datos.info()

In [None]:
# Estadísticas descriptivas

datos.describe().round(0)

In [None]:
# Revisión de valores nulos

nulo= datos.isnull().sum().sort_values(ascending = False)

nulo

In [None]:
# Sumatorio de valores no nulos

nonulo= datos.notnull().sum().sort_values(ascending = False)

nonulo

In [None]:
# Conocer el porcentaje de valores nulos por cada columna

porcentaje_nulo= (datos.isnull().sum() / datos.isnull().count()).sort_values(ascending = False).round(3)

porcentaje_nulo

In [None]:
# Visión completa de los valores nulos en el dataset

nulo_completo= pd.concat([nulo, porcentaje_nulo], axis=1, keys= ['Datos nulos', ' Porcentaje de nulos'])
nulo_completo

## Análisis del Dataset

El **dataset** contiene un total de **418 registros (filas)** y **12 columnas**. 

#### Tipos de Datos:
- **2 columnas** con tipo de datos `float64`:
  - `Age`
  - `Fare`
  
- **5 columnas** con tipo de datos `int64` (numéricas):
  - `PassengerId`
  - `Survived`
  - `Pclass`
  - `SibSp`
  - `Parch`
  
- **5 columnas** con tipo de datos `object` (categóricas):
  - `Name`
  - `Sex`
  - `Ticket`
  - `Cabin`
  - `Embarked`

#### Descripción de las Columnas:

| **Columna**    | **Descripción**                                                                                      |
|----------------|------------------------------------------------------------------------------------------------------|
| **PassengerId**| Identificador único para cada pasajero.                                                             |
| **Survived**   | `0` significa que el pasajero **no sobrevivió** y `1` significa que **sobrevivió**.                  |
| **Pclass**     | Clase del pasajero: 1, 2 o 3.                                                                        |
| **Name**       | Nombre del pasajero.                                                                                 |
| **Sex**        | Género del pasajero: `male` o `female`.                                                               |
| **Age**        | Edad del pasajero, variable numérica.                                                                |
| **SibSp**      | Número de hermanos o esposas a bordo. Variable numérica.                                              |
| **Parch**      | Número de padres o hijos a bordo. Variable numérica.                                                 |
| **Ticket**     | Número de billete.                                                                                  |
| **Fare**       | Tarifa del billete. Variable numérica.                                                              |
| **Cabin**      | Número de camarote.                                                                                 |
| **Embarked**   | Puerto de embarque del pasajero: `C` = Cherbourg; `Q` = Queenstown; `S` = Southampton.                                           |

#### Resumen de valores nulos:
- **Age**: 177 valores nulos.
- **Embarked**: 2 valores nulo.
- **Cabin**: 687 valores nulos.

## Consideraciones después del Análisis de dataset

- **Age:** imputar con la mediana de `Age`.
- **Embarked:** imputar con la moda de `Embarked`.
- **Cabin:** eliminar la esta columna ya que el 70% son valores nulos.

In [None]:
# Imputar 'Age' y 'Fare' con la mediana

datos['Age'] = datos['Age'].fillna(datos['Age'].median())
datos['Embarked'] = datos['Embarked'].fillna(datos['Embarked'].mode()[0])

In [None]:
# Comprobación si han sido modificados los nulos

datos.isnull().sum()

In [None]:
# Quitar la columna `Cabin'

datos.drop('Cabin', axis=1, inplace= True)

In [None]:
# Comprobación de que la columna ha sido eliminada

datos.columns

## Análisis y creación de visualizaciones de los datos

### Pasajeros según Clase

In [None]:
# Obtención de los pasajeros totales según Clase

primera_clase = (datos['Pclass'] == 1).sum()
segunda_clase = (datos['Pclass'] == 2).sum()
tercera_clase = (datos['Pclass'] == 3).sum()

print('Total de pasajeros en Primera Clase:', primera_clase)
print('Total de pasajeros en Segunda Clase:', segunda_clase)
print('Total de pasajeros en Tercera Clase:', tercera_clase)

In [None]:
# Creación del Gráfico de Tarta


plt.figure(figsize=(5,6))
colores= ['#7eb1e2', '#529f83', '#f47f30']

labels=['Primera clase', 'Segunda clase', 'Tercera clase']
sizes= [primera_clase, segunda_clase, tercera_clase]

plt.pie(sizes, labels=labels, autopct='%1.1f%%', colors=colores)
plt.title('Distribución de pasajeros según Clase', fontsize=14)

# Visualización del gráfico

plt.show()


### Supervivientes según Clase

In [None]:
# Creación del Gráfico con Seaborn de Countplot

plt.figure(figsize=(5,6))
sns.set_style("whitegrid")
colores = ['#f47f30', '#7eb1e2'] 

# Creación del gráfico de barras
sns.countplot(x ='Pclass', hue ='Survived', data=datos, palette= colores)

# Creación de títulos
plt.title('Supervivientes según Clase')
plt.xlabel('Clase')
plt.ylabel('Total')
plt.legend(['Fallecidos', 'Supervivientes'])

# Visualización del gráfico
plt.show()


Como se puede observar, la clase con mayor número de fallecidos fue la Tercera Clase, con una cifra que casi triplica a la de la Primera y Segunda Clase. En contraste, la Primera Clase fue la que registró el mayor número de supervivientes.

### Superviviencia según Género y Clase

In [None]:
# Creación de un dataframe para visualizar mejor los datos antes de graficarlos.
# 0 significa que el pasajero no sobrevivió y 1 significa que sobrevivió.

pd.crosstab(index=[datos['Sex'], datos['Survived']],
            columns=datos['Pclass'], 
            margins=True).style.background_gradient(cmap='PuBu')


### Gráficos de Supervivencia por Clase y Sexo de los Pasajeros

In [None]:
# Creación de los gráficos

# Estilo y colores
sns.set_style("whitegrid")
colores = ['#c1145c', '#7eb1e2']

# Gráfico con catplot
graficobarras = sns.catplot(x='Pclass', hue='Sex', col='Survived', data=datos, kind='count', palette=colores, height=4, aspect=1)

# Ejes y títulos
graficobarras.set_axis_labels("Clase", "Total")
graficobarras.set_titles(col_template="{col_name}")

# Títulos personalizados para cada columna
for ax, title in zip(graficobarras.axes.flat, ["Fallecidos según Clase y Género", "Supervivientes según Clase y Género"]):
    ax.set_title(title)

# Mostrar gráfico
plt.show()


En ambos gráficos se aprecia claramente que las mujeres presentan una tasa de supervivencia considerablemente mayor en todas las clases sociales. Esta diferencia es especialmente marcada si se compara con los hombres, lo que sugiere que el género fue un factor determinante en las probabilidades de sobrevivir al naufragio, independientemente de la clase del pasajero.

#### ¿Qué proporciones de supervivientes hubo con respecto al total de pasajeros?

In [None]:
# Total de pasajeros
total_pasajeros = len(datos)

# Total de pasajeros que sobrevivieron
total_supervivientes = datos['Survived'].sum()

# Porcentaje
porcentaje_supervivientes = (total_supervivientes / total_pasajeros) * 100

# Mostrar resultado redondeado
print(f"Porcentaje de pasajeros que sobrevivieron: {porcentaje_supervivientes:.2f}%")


#### ¿Qué porcentaje de los supervivientes fueron hombres y mujeres respecto al total de pasajeros?

In [None]:
# Calculamos el porcentaje de supervivientes por género
supervivencia_genero = datos.groupby('Sex')['Survived'].mean() * 100

# Extraemos los valores
mujeres = supervivencia_genero['female']
hombres = supervivencia_genero['male']

# Creación del texto 
print(f"El {mujeres:.2f}% de las mujeres sobrevivieron al naufragio, mientras que solo el {hombres:.2f}% de los hombres lo hizo.")




### Análisis según Género

In [None]:
# Conteo de hombres y mujeres

datos['Sex'].value_counts().to_frame(name='Total').style.background_gradient(cmap='PuBu')


#### Gráfico de barras según género de los pasajeros

In [None]:
# Creación de la visualización

# Estilo y colores
sns.set_style("whitegrid")
colores = ['#7eb1e2','#c1145c']

# Gráfico con countplot
plt.figure(figsize=(6, 4))
sns.countplot(x='Sex', data=datos, palette=colores)

# Creación de títulos
plt.title('Distribución de Género en los Pasajeros')
plt.xlabel('Género')
plt.ylabel('Total de Pasajeros')

# Mostrar gráfico
plt.xticks(ticks=[0, 1], labels=['Masculino', 'Femenino'])
plt.show()

#### Gráfico de barras apiladas que muestra por género si sobrevivio o no




In [None]:
#Creación del gráfico

# Agrupamos los datos por género y supervivencia
genero_supervivencia = datos.groupby(['Sex', 'Survived']).size().unstack()

# Colores:
colores = ['#f47f30', '#7eb1e2']  

# Crear gráfico de barras apiladas
genero_supervivencia.plot(kind='bar', stacked=True, color=colores, figsize=(6, 4))

# Títulos y etiquetas
plt.title('Supervivientes y fallecidos por Género')
plt.xlabel('Género')
plt.ylabel('Total de Pasajeros')
plt.legend(['Fallecidos', 'Supervivientes'])
plt.xticks(rotation=0, ticks=[0, 1], labels=['Femenino','Masculino'])

# Mostrar gráfico
plt.tight_layout()
plt.show()


### Análisis según la Edad de los pasajeros

In [None]:
# Creación de la visualización

datos.hist(column='Age', bins = 60, color = "#d7ad48", alpha = 0.7)

# Agregamos los titulos del gráfico
plt.title('Distribución según Edad')
plt.xlabel ('Edad')
plt.ylabel('Total')

# Visualización del gráfico
plt.show()

In [None]:
# Edad mínima

min= datos.Age.min()

# Edad máxima

max= datos.Age.max()

# Edad média

media= datos.Age.mean().round(2)

print(f'La edad mínima de los pasajeros es {min}, la edad máxima es {max}  y la edad media es {media}.')

In [None]:
# Crear columnas para clasificar como 'Mayor de edad' o 'Menor de edad'

datos['Edad categoria'] = datos['Age'].apply(lambda x: 'Mayor de edad' if x >= 18 else 'Menor de edad' if pd.notnull(x) else 'Desconocido')

# Crear tabla cruzada
tabla_edad = pd.crosstab(index= datos['Edad categoria'], columns='Total', margins=False)

# Aplicar estilo
tabla_edad.style.background_gradient(cmap='PuBu')


#### ¿Qué porcentaje de menores de edad sobrevivieron según su género?

In [None]:
# Filtramos solo los menores de edad
menores = datos[datos['Age'] < 18]

# Calculamos la tasa de supervivencia por género dentro de los menores
supervivencia_menores = menores.groupby('Sex')['Survived'].mean() * 100

# Extraemos los valores
porcentaje_menores_mujeres = supervivencia_menores.get('female', 0)
porcentaje_menores_hombres = supervivencia_menores.get('male', 0)

# Mostramos el resultado en texto
print(f"Entre los menores de edad, sobrevivieron el {porcentaje_menores_mujeres:.2f}% de las niñas y el {porcentaje_menores_hombres:.2f}% de los niños.")



### Gráfico de distribución de fallecidos y supervivientes según edad

In [None]:
# Creación del gráfico

plt.figure(figsize=(8,5))

axs = sns.kdeplot(datos.Age[datos.Survived == 0], fill = True, color = '#f47f30', label = 'Fallecido')
axs = sns.kdeplot(datos.Age[datos.Survived == 1], color = '#7eb1e2', label = 'Supervivientes')

# Titulos del gráfico
plt.title('Distribución de supervivientes y fallecidos según edad')
plt.xlabel('Edad')
plt.ylabel('Distribución')
plt.legend({'Fallecidos', 'Supervivientes'})

# Mostramos el gráfico
plt.show()


#### Clasificación de los pasajeros según su rango de edad

##### Teniendo en cuenta las siguientes consideraciones:
###### - La esperanza de vida era más baja (~50 años).
###### - Se viajaba mucho en familia, con presencia notable de niños.
###### - Había una clara distinción entre niños, jóvenes adultos, adultos y ancianos.

##### He creado la siguiente clasificación según rango de edad de los pasajeros:
###### Niño (0-12)
###### Adolescente (13-19)
###### Joven Adulto (20-35)
###### Adulto (36-50)
###### Mayor (51+)

###### 

In [None]:
# Creación de los rangos de edad

datos ['rango_edad'] = 0
datos.loc[ datos['Age'] <= 12, 'rango_edad' ] = 0
datos.loc[ (datos['Age'] > 13) & (datos['Age'] <= 19), 'rango_edad' ] = 1
datos.loc[ (datos['Age'] > 20) & (datos['Age'] <= 35), 'rango_edad' ] = 2
datos.loc[ (datos['Age'] > 36) & (datos['Age'] <= 50), 'rango_edad' ] = 3
datos.loc[ datos['Age'] > 51 ,'rango_edad' ] = 4

datos.head()

In [None]:
# Crear columnas para clasificar según rango de edad

datos['rango_edad'].value_counts().to_frame().style.background_gradient(cmap='PuBu')


In [None]:
# Definir paleta personalizada para Pclass

colores_clase = {
    1: '#529f83',
    2: '#7eb1e2',
    3: '#f47f30' }

sns.catplot(x ='rango_edad', y ='Survived', data = datos, hue= 'Pclass', kind='point', palette=colores_clase, height=5, aspect=1.5)

# Agregamos los títulos
plt.title('Supervivencia según Rango Edad')
plt.xlabel('Rangos de Edad')
plt.ylabel('Porcentaje de Supervivencia')

# Visualizar el gráfico

plt.show()

In [None]:
# Calcular porcentaje de supervivencia por rango_edad
porcentaje_supervivencia = datos.groupby('rango_edad')['Survived'].mean()

# Convertimos a porcentaje y lo pasamos a un DataFrame
porcentaje_supervivencia = (porcentaje_supervivencia * 100).round(2).to_frame()

# Renombramos la columna para mayor claridad
porcentaje_supervivencia.columns = ['% Supervivencia']

# Visualizar
porcentaje_supervivencia.style.background_gradient(cmap='PuBu')

### Análisis según el coste del billete

In [None]:
# Valor máximo y mínimo del billete

print('El billete más caro:', datos['Fare'].max())
print('El billete más económico:', datos['Fare'].min())

#### Clasificación de los billetes según el precio y tasa de supervivencia

In [None]:
# Crear una nueva columna con los cuartiles del precio del billete
datos['Rango_Fare'] = pd.qcut(datos['Fare'], 4, labels=["Muy Bajo", "Bajo", "Alto", "Muy Alto"])

# Agrupar por rango y calcular tasa de supervivencia y total de pasajeros
supervivencia_por_billete = datos.groupby('Rango_Fare', observed=False).agg(
    Tasa_Supervivencia=('Survived', 'mean'),
    Total_Pasajeros=('Survived', 'count')
)

# Visualizar con estilo
supervivencia_por_billete.style.background_gradient(cmap='PuBu', subset=['Tasa_Supervivencia'])


#### Supervivientes con los billetes más caros

In [None]:
superviviente_billete_caro= ((datos['Fare']>500)&(datos['Survived']==1)).sum()
total_pasajeros_billeter_caro= ((datos['Fare']>500)&(datos['Survived'])).sum()
nombre_billete_caro = datos[(datos['Fare'] > 500) & (datos['Survived'] == 1)]['Name'].tolist()

print(f'La cantidad de supervivientes con un billete superior a 500usd es de {superviviente_billete_caro} de un total de {total_pasajeros_billeter_caro}')
print(f'Se llaman: {nombre_billete_caro}')

### Análisis según la puerto de salida

In [None]:
# Creación de la visualización

# Estilo y colores
sns.set_style("whitegrid")
colores = ['#d7ad48', '#529f83', '#7eb1e2']

# Gráfico con countplot
plt.figure(figsize=(6, 4))
sns.countplot(x='Embarked', data=datos, palette=colores)

# Creación de títulos
plt.title('Total de pasajeros según puerto de salida')
plt.xlabel('Puerto de salida')
plt.ylabel('Total de Pasajeros')
plt.xticks(np.arange(3),['Southampton', 'Cherbourg', 'Queenstown'])

# Mostrar gráfico
plt.show()

#### Supervivientes y fallecidos según su puerto de salida

In [None]:
# Gráfico
sns.countplot(data=datos, x='Embarked', hue='Survived', palette=['#7eb1e2', '#f47f30'])

# Títulos y etiquetas
plt.title('Supervivientes y fallecidos según su puerto de salida')
plt.xlabel('Puerto de salida')
plt.ylabel('Total de Pasajeros')

# Renombrar las etiquetas del eje X
plt.xticks([0, 1, 2], ['Southampton', 'Cherbourg', 'Queenstown'])

# Leyenda personalizada
plt.legend(labels=['Supervivientes', 'Fallecidos'])

# Mostrar gráfico
plt.show()
