# Predicción de supervivéncia del Titanic

Esta práctica se divide en dos partes:
1. En la primera parte entrenaremos un conjunto de modelos de clasificación de machine learning (perceptron, regression logística y arbol de decisión) para predecir la probabilidad que tendría un pasajero del Titánic de sobrevivir.
2. En la segunda parte realizaremos el *feature importance*, que básicamente consiste en analizar la importancia que tiene cada característica en cada uno de los modelos predictivos

![OHE](https://imgs.search.brave.com/Cn_B5VSZhmV_ElcnW0wlfHZ4rn5MCPijlzLBp2IA5Eo/rs:fit:844:225:1/g:ce/aHR0cHM6Ly90c2Uy/Lm1tLmJpbmcubmV0/L3RoP2lkPU9JUC5y/RGgzRWs0dEl3QXZD/eVQ2RV9ENVpBSGFF/SyZwaWQ9QXBp)


## Parte 1

### 1.1 Importar librerias
Importamos la librerias que usaremos

In [8]:
from sklearn.model_selection import train_test_split
from sklearn import linear_model

import pandas as pd
import numpy as np

### 1.2 Cargamos el dataset
Cargamos el dataset para poder visualizar los datos que usaremos.

In [9]:
df = pd.read_csv("./dades.csv")

Para poder ver todas las columnas usamos la sigüiente instrucción de *pandas*

In [10]:
pd.set_option('display.max_columns',None)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 1.3 Limpieza de datos
Para poder entrenar a nuestros modelos previamente debemos "*masticar*" los datos

#### 1.3.1 Eliminar columnas
Lo primero que haremos será eliminar las columnas que contienen variables que no afectarán a nuestra predicción como el Id, el nombre del pasajero o el identificador del ticket

In [11]:
df = df.drop('PassengerId', axis=1)
df = df.drop('Name', axis=1)
df = df.drop('Ticket', axis=1)

In [37]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


#### 1.3.2 Gestion de valores Nan
Ahora vamos a mostrar la cantidad de valores que hay en cada columna

In [23]:
df.count()

Survived    891
Pclass      891
Sex         891
Age         714
SibSp       891
Parch       891
Ticket      891
Fare        891
Cabin       204
Embarked    889
dtype: int64

El número de filas es 891 y las variables que no alcanzan ese valor nos muestran la cantidad de valores nulos que contienen

La característica 'Cabin', que hace referencia al identificador de la cabina donde se hospedaba el cliente, contiene una gran cantidad de valores Nan

In [33]:
(df['Cabin'].isna().sum()/891)*100 #Porcentaje de valores Nan

77.10437710437711

Como este valor tampoco es relevante, podemos eliminar la columna

In [34]:
df = df.drop('Cabin', axis=1)

In [39]:
df.count()

Survived    891
Pclass      891
Sex         891
Age         714
SibSp       891
Parch       891
Fare        891
Embarked    889
dtype: int64

Otra cantidad un poco más pequeña de falta de valores se encuentra en la columna '*Age*', la cual podemos completar con la media de todos los pasajeros

In [42]:
df['Age'].fillna(df['Age'].median(), inplace = True)
df.count()

Survived    891
Pclass      891
Sex         891
Age         891
SibSp       891
Parch       891
Fare        891
Embarked    889
dtype: int64

Por último nos faltaria gestionar la columna '*Embarked*'. Los valores nulos de esta característica también los podriamos completar con la media si no fuera porque no son un valor numérico. Debido a esto, usaremos otro estadístico que es la moda. Este estadísctico reflejará el valor que mas se repite dentro de la muestra

In [45]:
df['Embarked'].fillna(df['Embarked'].mode(), inplace = True)
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


#### 1.3.3 Valores categóricos
Dentro de este dataset econtramos características como el sexo que son incompatibles con el aprendizaje de los modelos predictivos. Para ello debemos conseguir que todas la columnas de nuestro conjunto de datos contengan valores numéricos.
Para solucionar esto usaremos la técnica de **One hot encoding** que consiste en ampliar el número de columnas según los posibles valores y rellenarlas con un valor binario.
![OHE](https://www.statology.org/wp-content/uploads/2021/09/oneHot1.png)

Realizaremos esto con las columnas '*Sex*' y '*Embarked*' 

In [46]:
#Para el sexo
clb = df.pop("Sex")
ohe_clb = pd.get_dummies(clb, prefix='sexo')
df = pd.concat([df.reset_index(drop=True), ohe_clb.reset_index(drop=True)], axis=1, sort=False)

df.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Embarked,sexo_female,sexo_male
0,0,3,22.0,1,0,7.25,S,0,1
1,1,1,38.0,1,0,71.2833,C,1,0
2,1,3,26.0,0,0,7.925,S,1,0
3,1,1,35.0,1,0,53.1,S,1,0
4,0,3,35.0,0,0,8.05,S,0,1


In [47]:
#Para el Embarque
clb = df.pop("Embarked")
ohe_clb = pd.get_dummies(clb, prefix='embarque')
df = pd.concat([df.reset_index(drop=True), ohe_clb.reset_index(drop=True)], axis=1, sort=False)

df.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,sexo_female,sexo_male,embarque_C,embarque_Q,embarque_S
0,0,3,22.0,1,0,7.25,0,1,0,0,1
1,1,1,38.0,1,0,71.2833,1,0,1,0,0
2,1,3,26.0,0,0,7.925,1,0,0,0,1
3,1,1,35.0,1,0,53.1,1,0,0,0,1
4,0,3,35.0,0,0,8.05,0,1,0,0,1
