# Análisis Exploratorio del Titanic

En este notebook vamos a explorar la base de datos de los pasajeros del Titanic.

<div>
<img src="./media/titanic.jpeg" width="500"/>
</div>

Se emplearán los siguientes módulos:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

Los datos se encuentran almacenados en un archivo csv:

In [None]:
raw_data = pd.read_csv('./data/titanic.csv')

Observamos que los datos se han cargado correctamente:

In [None]:
raw_data.head()

In [None]:
raw_data.shape

La base de dato está compuesta por 891 registros y 12 variables, es decir, tenemos 891 pasajeros de los que conocemos 12 características.

## Diccionario de datos

A continuación se enumeran y explican las 12 variables que componen este dataset:

* **PassengerId**. Es el índica de pasajeros.
* **Survived**. Es una variable binaria que nos indica si la persona ha sobrevivido (1) o no (0).
* **PClass**. Es una variable categórica que nos indica la clase en la que viajaba el pasajero. Tiene tres niveles: primera clase (1), segunda clase (2) o tercera clase (3).
* **Name**. Indica el nombre y apellido del pasajero.
* **Sex**. Indica el sexo de la persona, solo considera hombre o mujer.
* **Age**. Indica la edad en años de la persona.
* **Sibsp**. Número de hermanos/esposos que la persona tiene a bordo del barco.
* **Parch**. Número de padres o  hijos que la persona tiene a bordo del barco.
* **Ticket**. Indica el número del ticket.
* **Fare**. El billete del pasajero.
* **Cabin**. Indica el número de cabina del pasajero.
* **Embarked**. Indica el puerto en el que embarcó el pasajero y toma tres posibles valores Cherbourg (C), Queenstown (Q) y Southampton (S).

## Estadísticos relevantes

Observamos los estadísticos más importantes para las variables cuantitativas:

In [None]:
raw_data.describe()

## Valores perdidos

A continuación estudiamos los valores perdidos de nuestra base de datos:

In [None]:
raw_data.isna().sum()

Observamos que la mayor parte de las variables se encuentran completas a excepción de tres:

* La edad que presenta 177 huecos.
* La cabina que preseta 687 huecos.
* La variable de embarcado que presenta 2 huecos.

## Visualización de datos

Reutilizamos las funciones de visualización que vimos en la segunda sección:

### Datos categóricos

In [None]:
def plot_categorical_variables(dataframe, list_categorical_columns):
    for variable in list_categorical_columns:
        plt.figure()
        dataframe[variable].value_counts().sort_index().plot(kind='bar', title=variable)

In [None]:
list_categorical_columns = ['Survived', 'Pclass', 'Sex', 'Embarked']

In [None]:
plot_categorical_variables(raw_data, list_categorical_columns)

Observamos que las variables categóricas se encuentran bastante desbalanceadas. Debemos prestar especial atención a la variable `survived` que será nuestra variable objetivo en este problema. La variable se encuentra muy desbalanceada (como todos sabemos el Titanic fue una tragedia con un gran número de fallecidos). Podemos extraer las cifras exactas:

In [None]:
raw_data['Survived'].value_counts()

Tenemos 549 fallecidos y 342 supervivientes. Este desbalanceo debe ser tenido en cuenta a la hora de resolver el problema de clasificación.

### Datos cuantitativos

In [None]:
def plot_quantitative_variables(dataframe, list_quantitative_columns):
    for variable in list_quantitative_columns:
        plt.figure()
        dataframe[variable].plot(kind = 'hist', title=variable)

In [None]:
list_quantitative_columns = ['Age', 'Fare']

In [None]:
plot_quantitative_variables(raw_data, list_quantitative_columns)

## Correlación

Comenzamos extrayendo la matriz de correlación:

In [None]:
corr_matrix = raw_data.corr()
corr_matrix

A partir de esta matriz podemos construir un mapa de calor para comprender mejor los datos de correlación:

In [None]:
# Generamos una máscara para el triángulo superior
mask = np.zeros_like(corr_matrix, dtype=np.bool)
mask[np.triu_indices_from(mask)] = True

# Construimos la figura en matplotlib
f, ax = plt.subplots(figsize=(11, 9))

# Generamos el mapa de calor
cmap = sns.diverging_palette(220, 10, as_cmap=True)

# Dibujamos el mapa usando la máscara y añadiendo algunos parámetros que mejoran la visualización
sns.heatmap(corr_matrix, mask=mask, cmap=cmap, vmax=1,vmin=-1, center=0, square=True, linewidths=.5, cbar_kws={"shrink": .5});


Gracias a la gráfica podemos observar que en general las variables están poco correlacionadas a excepción de tres pares:

* La variabe fare está correlacionada con survived y con Pclass. Una explicación razonable es que los billetes comienzan numerándose por la tercera clase por lo que billetes más elevados tiene una clase superior.
* El par de variables  parch y sibsp están algo correlacionados y tiene también bastante sentido, resulta razonable pensar que cuando una persona viaja con su pareja o sus hermanos es más probable que viaje con otros miembros de la familia como padres o hijos.

***

Con esta primera aproximación a los datos podemos empezar a comprender los datos con los que trabajamos y algunas de las relaciones que existen entre ellos. En los siguientes notebooks construiremos modelos para predecir la probabilidad de que un pasajero sobreviva.