*Creado por:*

*Isabel Maniega*

# Titanic Dataset - Predicción

Para competir en Kaggle será necesario descargar de esta página los csv de: train.csv, test.csv, gender_submission.csv

https://www.kaggle.com/competitions/titanic/data

In [None]:
# pip install seaborn

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

**Importamos el dataset train.csv**

In [None]:
df = pd.read_csv("./data/train.csv")
df.head()

**Borramos la columna de PassengerId**

In [None]:
df = df.drop("PassengerId", axis=1)
df

## Exploratory Data Analysis (EDA)

In [None]:
df.tail()

In [None]:
len(df)

In [None]:
df.shape

In [None]:
df.describe()

**Conclusiones:**

 * Existen columnas de "missing values" (Valores que faltan)

In [None]:
# y aqui vemos cuantas columnas tiene valores que faltan
df.isnull().sum()

In [None]:
df.Cabin.value_counts()

In [None]:
for cabina in df.Cabin:
    print(cabina)

In [None]:
df.info()

In [None]:
df.Survived.value_counts()

In [None]:
df.Survived.value_counts(normalize=True)

In [None]:
df.Survived.value_counts().plot(kind="bar")
plt.show()

## ¿Cómo seleccionar información concreta de nuestro dataset?

**Forma 1**

In [None]:
df["Age"].head()

**Forma 2**

In [None]:
df.Age.head()

**Forma 3**

In [None]:
df[["Age"]].head()

## Crosstab

In [None]:
pd.crosstab(df.Sex, df.Survived)

In [None]:
pd.crosstab(df.Sex, df.Survived).plot(kind="bar")
plt.show()

**Conclusión:**
* La mayoría de las mujeres sobreviven.
* La mayoría de los hombres NO sobrevivieron

In [None]:
pd.crosstab(df.Sex, df.Survived).plot(kind="bar", stacked=True)
plt.show()

**Conclusión:**
* Hay más hombres que mujeres, es casi el doble.

In [None]:
pd.crosstab(df.Pclass, df.Survived)

In [None]:
pd.crosstab(df.Pclass, df.Survived).plot(kind="bar")
plt.show()

**Conclusión:**

* La mayoría de los que NO sobrevivieron eran de la 3ª clase

## groupby

In [None]:
df.groupby("Sex").Survived.value_counts()

In [None]:
df.groupby("Sex").Survived.value_counts().plot(kind="bar")
plt.show()

## por filtrado

* Selecciono aquellas filas donde Pclass == 1
* Me creo un dataframe de la misma forma que tenía antes

In [None]:
# Una forma...

In [None]:
df_sex_uno = df[df.Pclass == 1]
df_sex_uno.head()

In [None]:
# Otra forma...

In [None]:
df_sex_crosstab = df[df.Pclass == 1]["Survived"]
df_sex_crosstab.head()

## Ejemplos de creación de dataframes

In [None]:
df_sobreviven_todos = df[df["Survived"] == 1]
df_sobreviven_ninguno = df[df["Survived"] == 0]
hombres_sobrevivieron = df[(df["Survived"] == 1) & (df["Sex"] == "male")]
hombres__no_sobrevivieron = df[(df["Survived"] == 0) & (df["Sex"] == "male")]
mujeres_sobrevivieron = df[(df["Survived"] == 1) & (df["Sex"] == "female")]
mujeres_no_sobrevivieron = df[(df["Survived"] == 0) & (df["Sex"] == "female")]

In [None]:
df_sobreviven_todos.head()

In [None]:
df_sobreviven_todos.Survived.value_counts(3)

In [None]:
df_sobreviven_ninguno.head()

In [None]:
df_sobreviven_ninguno.Survived.value_counts(3)

In [None]:
hombres_sobrevivieron.head()

In [None]:
hombres__no_sobrevivieron.head()

In [None]:
mujeres_sobrevivieron.head()

In [None]:
mujeres_no_sobrevivieron.head()

# Obtenemos información de los gráficos

In [None]:
df.head()

In [None]:
opciones = ["Pclass", "Sex", "Embarked"]

for opcion in opciones:
    pd.crosstab(df[opcion], df.Survived).plot(kind="bar")
    plt.show()

**SEABORN**

In [None]:
sns.catplot(x="Sex", y="Survived", hue="Pclass", kind="point", height=4, aspect=2, data=df)
plt.show()

In [None]:
sns.catplot(x="Pclass", y="Survived", hue="Sex", kind="point", col="Embarked", data=df)
plt.show()

Algunas conclusiones:
* Nos fijamos en la gráfica de la izquierda, embarked="S" --> las mujeres de 3 clase que embarcaron en "S" fallecieron muchas en comparación con 1 y 2 clase, pese a ello sobrevivieron algo más que los hombres de 1 clase del mismo puerto.
* los hombres con mayor porcentaje e supervivencia embarcaron en "C"
* Los hombres con menor porcentaje de supervivencia embarcaron en "Q"
* Vemos nuevamente como la mayoría de las mujeres sobreviveron, pero no los hombres.


# Edad y supervivencia

In [None]:
# me creo una figura
fig = plt.figure(figsize=(16,6))
# 3 subplots
# 1 fila 3 columnas - gráfica 1
ax1 = fig.add_subplot(131)
# 1 fila 3 columnas - gráfica 2
ax2 = fig.add_subplot(132)
# 1 fila 3 columnas - gráfica 3
ax3 = fig.add_subplot(133)

# violinplot
sns.violinplot(x="Embarked", y="Age", hue="Survived", data=df, ax=ax1)
sns.violinplot(x="Pclass", y="Age", hue="Survived", data=df, ax=ax2)
sns.violinplot(x="Sex", y="Age", hue="Survived", data=df, ax=ax3)

plt.show()

**Hago un split== True, para mostrarlo más visual**

In [None]:
# me creo una figura
fig = plt.figure(figsize=(16,6))
# 3 subplots
# 1 fila 3 columnas - gráfica 1
ax1 = fig.add_subplot(131)
# 1 fila 3 columnas - gráfica 2
ax2 = fig.add_subplot(132)
# 1 fila 3 columnas - gráfica 3
ax3 = fig.add_subplot(133)

# violinplot
sns.violinplot(x="Embarked", y="Age", hue="Survived", data=df, split=True, ax=ax1)
sns.violinplot(x="Pclass", y="Age", hue="Survived", data=df, split=True, ax=ax2)
sns.violinplot(x="Sex", y="Age", hue="Survived", data=df, split=True, ax=ax3)

plt.show()

Conclusiones:
    
   * EMBARKED y Age:
    
      * La gente de unos 18-35 años de Q SI sobrevivieron mayoritariamente,(no todos)
      
      * no hay porcentajes mayoritarios significativos en las otras 2 embarcaciones
    
      * En Q embarcaron bastantes niños los cuales no sobrevivieron. 
      
   * PCLASS y Age:
   
      * De la 2ª clase sobre todo y la 3 sobrevivieron la mayoria de sus niños

   * Sex y Age:
    
      * Hay mas ancianos que ancianas
      
      * Los jovenes (varón) menores de 20 años en general sobrevivieron pero no las mujeres

In [None]:
df.Age.describe()

### barplot

In [None]:
sns.barplot(x="Pclass", y="Survived", data=df)
plt.show()

In [None]:
def funcion_graficas(feat):
    plt.subplot(2, 1, 1)
    df.groupby(feat).Survived.value_counts().plot(kind="bar")
    plt.figure(figsize=(12,8))
    plt.subplot(2, 1, 2)
    sns.barplot(x=feat, y="Survived", data=df)
    plt.show()

In [None]:
funcion_graficas("Pclass")

In [None]:
funcion_graficas("Sex")

In [None]:
funcion_graficas("Age")

In [None]:
funcion_graficas("SibSp")

In [None]:
funcion_graficas("Parch")

In [None]:
funcion_graficas("Embarked")

## Feature Engineering

En esta parte podemos hacer uso de la información obtenida y conclusiones.

Para hacerlo lo más simple posible, lo que haremos será elegir solamente algunas columnas.

In [None]:
df.head()

In [None]:
df.isnull().sum()

**-1-Name- no lo tendremos en cuenta por simplificar**

df["Name"] = df["Name"].str.extract("([A-Za-z]+)", expand=False)

seria posible una posible forma de analizar la columna Name, pero no lo haremos.

**-2-Age- Usamos el valor promedio de la columna para rellernar los valores que faltan**

In [None]:
df.Age.isnull().sum()

In [None]:
df.Age = df.Age.fillna(df.Age.mean())

In [None]:
df.Age.isnull().sum()

In [None]:
df

**-3-Ticket- No la tendremos en cuenta por simplificar**

In [None]:
df.Ticket.value_counts()

**-4-Cabin- No la tendremos en cuenta por falta de información**

In [None]:
df.Cabin.isnull().sum(), len(df)

**-5-Embarked**

In [None]:
df.Embarked.isnull().sum()

In [None]:
df.Embarked.value_counts()

In [None]:
df["Embarked"] = df["Embarked"].fillna("S")

In [None]:
df.Embarked.value_counts()

In [None]:
df.Embarked.isnull().sum()

**BORRAMOS del dataframe las columnas antes mencionadas**

In [None]:
df.head(2)

In [None]:
df = df.drop(["Name", "Ticket", "Cabin"], axis=1)
df.head(2)

Concepto de **datos categóricos**:

* columnas con strings hombre/mujer por ejemplo.
* columnas con strings con 3 opciones ("Embarked")
* en el caso de Pclass 3 hace referencia a "tercera clase"
* y 3 no vale, más que 1, y más en este caso, cuya probabilidad de supervivencia es más baja.

In [None]:
# pd.get_dummies()

In [None]:
df_1 = pd.get_dummies(df, columns=["Sex", "Pclass", "Embarked"], drop_first=True)
df_1.head()

In [None]:
df = pd.get_dummies(df, columns=["Sex", "Pclass", "Embarked"], drop_first=True, dtype=float)
df.head()

## Escalado de los datos

Existen varias formas de hacer el escalado de datos. Normalmente no hay diferencias significativas, pero algunas veces sí.

Por abreviar, trataremos de mencionar 2 tipos (sklearn):
* StandardScaler
* MinMaxScaler

En nuestro caso, no daremos importancia a cuál es el mejor en este caso concreto. (Preporcesamiento)

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

In [None]:
# StandardScaler

# x-mean(x) / std(x)

df.Age = (df.Age - np.mean(df.Age, axis=0)) / (np.std(df.Age, axis=0))
df.Fare = (df.Fare - np.mean(df.Fare, axis=0)) / (np.std(df.Fare, axis=0))
df.head()

In [None]:
df.describe()

## Obtención de X, y

In [None]:
X = df.drop("Survived", axis=1)
X.head()

In [None]:
y = df["Survived"]
y.head()

### Heapmap

In [None]:
plt.figure(figsize=(8,8))
sns.heatmap(df.corr(), annot=True)
plt.show()

*Creado por:*

*Isabel Maniega*