# Caso de estudio: el _dataset_ Titanic

En este _notebook_ vamos a estudiar el _dataset_ de la tragedia del Titanic. Aquí tenemos varias _features_ y queremos predecir si un determinado pasajero sobrevivió o murió en la tragedia. Vamos a cargar el _dataset_.

In [39]:
import pandas as pd

df = pd.read_excel('titanic3.xls')
df.head()

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2.0,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11.0,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"


Donde:

- `pclass` es la clase del pasajero (1, 2 o 3).
- `survived` nos indica si sobrevivió (1) o no (0).
- `name`, `sex` y `age` representa el nombre, sexo y edad respectivamente.
- `sibsp` representa el número de hermanos y esposos en el viaje.
- `parch` representa el número de hijos y padres en el viaje.
- `ticket` es el número de ticket del pasajero.
- `fare` es la tarifa del pasajero.
- `cabin` es la cabina del pasajero.
- `embarked` es el puerto desde el que salieron (C: Cherbourg, Q: Queenstown y S: Southampton).
- `boat` es el número de _lifeboat_.
- `body` es el número de identificación del cuerpo.
- `home.dest` es el destino.

Para poder trabajar debemos hacer ciertas cosas:

- Vamos a eliminar el nombre, y el ticket ya que no aportan nada.
- Vamos a eliminar `boat`y `body`, ya que se está filtrando la información de si sobrevivió o no.
- Por ahora, vamos a eliminar `cabin` y `home.dest`, porque son _strings_ que no vamos a procesar.

In [40]:
X = df.drop(columns=['name', 'body', 'boat', 'cabin', 'home.dest', 'ticket'])
X

Unnamed: 0,pclass,survived,sex,age,sibsp,parch,fare,embarked
0,1,1,female,29.0000,0,0,211.3375,S
1,1,1,male,0.9167,1,2,151.5500,S
2,1,0,female,2.0000,1,2,151.5500,S
3,1,0,male,30.0000,1,2,151.5500,S
4,1,0,female,25.0000,1,2,151.5500,S
...,...,...,...,...,...,...,...,...
1304,3,0,female,14.5000,1,0,14.4542,C
1305,3,0,female,,1,0,14.4542,C
1306,3,0,male,26.5000,0,0,7.2250,C
1307,3,0,male,27.0000,0,0,7.2250,C


Ahora vamos a crear columnas "dummy" para las variables categóricas. Esto es equivalente a hacer la representación _one-hot_. Lo vamos a hacer con una función de pandas.

In [41]:
X = pd.get_dummies(X)
X

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,sex_female,sex_male,embarked_C,embarked_Q,embarked_S
0,1,1,29.0000,0,0,211.3375,1,0,0,0,1
1,1,1,0.9167,1,2,151.5500,0,1,0,0,1
2,1,0,2.0000,1,2,151.5500,1,0,0,0,1
3,1,0,30.0000,1,2,151.5500,0,1,0,0,1
4,1,0,25.0000,1,2,151.5500,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,14.5000,1,0,14.4542,1,0,1,0,0
1305,3,0,,1,0,14.4542,1,0,1,0,0
1306,3,0,26.5000,0,0,7.2250,0,1,1,0,0
1307,3,0,27.0000,0,0,7.2250,0,1,1,0,0


Todo va bien hasta ahora. Vamos a _checkear_ si hay algún valor nulo en el _dataset_.

In [42]:
X.isnull().sum()

pclass          0
survived        0
age           263
sibsp           0
parch           0
fare            1
sex_female      0
sex_male        0
embarked_C      0
embarked_Q      0
embarked_S      0
dtype: int64

Vemos que la columna edad tiene muchos nulos. Por simplicidad vamos a hacer drop para las filas que no tienen valor, sin embargo, deberíamos buscar formas de trabajar esta información. Por ejemplo, [hay formas de trabajar los valores nulos con Random Forest](https://www.youtube.com/watch?v=nyxTdL_4Q-Q&t=240s). También existe una [clase de scikit learn](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) que sirve para trabajar estos valores nulos.

In [43]:
X = X.dropna()
X.isnull().sum()

pclass        0
survived      0
age           0
sibsp         0
parch         0
fare          0
sex_female    0
sex_male      0
embarked_C    0
embarked_Q    0
embarked_S    0
dtype: int64

In [44]:
X

Unnamed: 0,pclass,survived,age,sibsp,parch,fare,sex_female,sex_male,embarked_C,embarked_Q,embarked_S
0,1,1,29.0000,0,0,211.3375,1,0,0,0,1
1,1,1,0.9167,1,2,151.5500,0,1,0,0,1
2,1,0,2.0000,1,2,151.5500,1,0,0,0,1
3,1,0,30.0000,1,2,151.5500,0,1,0,0,1
4,1,0,25.0000,1,2,151.5500,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...
1301,3,0,45.5000,0,0,7.2250,0,1,1,0,0
1304,3,0,14.5000,1,0,14.4542,1,0,1,0,0
1306,3,0,26.5000,0,0,7.2250,0,1,1,0,0
1307,3,0,27.0000,0,0,7.2250,0,1,1,0,0


Ahora sacamos la columna _survived_ de nuestro _dataset_.

In [45]:
y = X['survived']
X = X.drop(columns='survived')
X

Unnamed: 0,pclass,age,sibsp,parch,fare,sex_female,sex_male,embarked_C,embarked_Q,embarked_S
0,1,29.0000,0,0,211.3375,1,0,0,0,1
1,1,0.9167,1,2,151.5500,0,1,0,0,1
2,1,2.0000,1,2,151.5500,1,0,0,0,1
3,1,30.0000,1,2,151.5500,0,1,0,0,1
4,1,25.0000,1,2,151.5500,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...
1301,3,45.5000,0,0,7.2250,0,1,1,0,0
1304,3,14.5000,1,0,14.4542,1,0,1,0,0
1306,3,26.5000,0,0,7.2250,0,1,1,0,0
1307,3,27.0000,0,0,7.2250,0,1,1,0,0


In [46]:
y

0       1
1       1
2       0
3       0
4       0
       ..
1301    0
1304    0
1306    0
1307    0
1308    0
Name: survived, Length: 1045, dtype: int64

Muy bien. Ahora separaremos nuestro _dataset_ en _train_ y _test_,

In [47]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Muy bien! Ahora tenemos todo para probar nuestro modelo. Primero vamos a entrenar un `Dummy Classifier` para tener un _baseline_ con el que comparar.

In [54]:
from sklearn.dummy import DummyClassifier

dummy_clf = DummyClassifier(random_state=42)
dummy_clf.fit(X_train, y_train)

DummyClassifier(random_state=42)

Ahora veamos cuál es el puntaje que obtiene este método.

In [55]:
dummy_clf.score(X_test, y_test)

0.5095541401273885

Obtiene 0.509. Dado que este es un clasificador binario, esto es levemente mejor a responder aleatoriamente sí o no. Ahora probemos al entrenar esto con un _Random Forest_.

In [56]:
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(n_estimators=100, random_state=42)
rf_clf.fit(X_train, y_train)
rf_clf.score(X_test, y_test)

0.7611464968152867

Hemos mejorado bastante nuestro puntaje! Una pregunta interesante es saber si podemos hacer esto mejor. Y esto es lo que tendrás que descubrir en la tarea.