# Dataset Titanic

El dataset del Titanic, es un conjunto de datos clásico utilizado para tareas de clasificación binaria. Se basa en información histórica de los pasajeros del RMS Titanic, que se hundió en 1912 tras chocar con un iceberg. El objetivo principal es predecir si un pasajero sobrevivió o no, basado en características como su clase social, edad, género y otros factores socioeconómicos.

El RMS Titanic se hundió el 15 de abril de 1912 durante su viaje inaugural. De las aproximadamente 2,224
personas a bordo, más de 1,500 murieron, convirtiendo este evento en uno de los naufragios más mortíferos en tiempos de paz.

| **Atributo** |                         **Descripción**                          |
| :----------: | :--------------------------------------------------------------: |
| PassengerId  |                 Identificador único del pasajero                 |
|   Survived   | Variable objetivo: Indica si el pasajero sobrevivió (1) o no (0) |
|    Pclass    |        Clase del ticket (proxy de estatus socioeconómico)        |
|     Name     | Nombre completo del pasajero, incluyendo títulos (ej. Mr., Mrs.) |
|     Sex      |                Género del pasajero (male, female)                |
|     Age      |          Edad en años (puede ser fraccional para niños)          |
|    SibSp     |                Número de hermanos/esposos a bordo                |
|    Parch     |                  Número de padres/hijos a bordo                  |
|    Ticket    |                        Número del ticket                         |
|     Fare     |                   Tarifa pagada por el ticket                    |
|    Cabin     |               Número de cabina (muchos faltantes)                |
|   Embarked   |                   Puerto de embarque (C, Q, S)                   |



In [97]:
DATOS_DIR = "./datos/"


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv(DATOS_DIR + 'titanic.csv')

## Ejercicio 7

Realice las siguientes tareas para preparar el dataset para que pueda ser utilizado para entrenar modelos de redes neuronales.

### a) Visualice las primeras 5 filas y el resumen estadístico.

In [98]:
data.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [99]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### b) Identifique los atributos (columnas) con valores nulos y su porcentaje.

In [100]:
print(data.isnull().sum())

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


### c) Analizar los valores faltantes y discutir cuales serían las alternativas posibles para tratarlos.

In [101]:
# Age: Reemplazar por la media

data['Age'] = data['Age'].fillna(data['Age'].mean())

# Cabin: Reemplazar por la moda

data['Cabin'] = data['Cabin'].fillna(data['Cabin'].mode()[0])

# Embarked: Eliminar, solo son 2 filas

data = data.dropna(subset=['Embarked'])

print(data.isnull().sum())

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


### d) Los nombres de los pasajeros van acompañados de títulos que pueden ser importantes para la interpretación de los datos o para completar información faltante:

#### **i.** Extrae el título (como Mr, Miss, Mrs, Master, etc.) del nombre de cada pasajero y crea una nueva columna llamada Title.

In [102]:
data["Title"] = data["Name"].str.extract(r' ([A-Za-z]+)\.')
data["Name"] = data["Name"].str.replace(r' ([A-Za-z]+)\.', '', regex=True)
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Owen Harris",male,22.0,1,0,A/5 21171,7.25,B96 B98,S,Mr
1,2,1,1,"Cumings, John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Laina",female,26.0,0,0,STON/O2. 3101282,7.925,B96 B98,S,Miss
3,4,1,1,"Futrelle, Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs
4,5,0,3,"Allen, William Henry",male,35.0,0,0,373450,8.05,B96 B98,S,Mr
5,6,0,3,"Moran, James",male,29.699118,0,0,330877,8.4583,B96 B98,Q,Mr
6,7,0,1,"McCarthy, Timothy J",male,54.0,0,0,17463,51.8625,E46,S,Mr
7,8,0,3,"Palsson, Gosta Leonard",male,2.0,3,1,349909,21.075,B96 B98,S,Master
8,9,1,3,"Johnson, Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,B96 B98,S,Mrs
9,10,1,2,"Nasser, Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,B96 B98,C,Mrs


#### **ii.** Unifica los valores para que queden Mr, Miss (Mlle, Ms), Mrs (Mme), Master, Others (resto).

In [103]:
data["Title"] = data["Title"].replace(['Mlle', 'Ms'], 'Miss')
data["Title"] = data["Title"].replace('Mme', 'Mrs')
data["Title"] = data["Title"].replace(['Lady', 'Countess','Capt', 'Col',\
									   'Don', 'Dr', 'Major', 'Rev', 'Sir',\
									   'Jonkheer', 'Dona'], 'Others')
print(data["Title"].value_counts())

Title
Mr        517
Miss      184
Mrs       125
Master     40
Others     23
Name: count, dtype: int64


### f) Cree un nuevo atributo FamilySize que contabiliza los integrantes de familia a partir de los atributos SibSp (hermanos y esposo) y Parch (padres e hijos). No olvidar contar a la persona.

In [104]:
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,FamilySize
0,1,0,3,"Braund, Owen Harris",male,22.0,1,0,A/5 21171,7.25,B96 B98,S,Mr,2
1,2,1,1,"Cumings, John Bradley (Florence Briggs Thayer)",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs,2
2,3,1,3,"Heikkinen, Laina",female,26.0,0,0,STON/O2. 3101282,7.925,B96 B98,S,Miss,1
3,4,1,1,"Futrelle, Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs,2
4,5,0,3,"Allen, William Henry",male,35.0,0,0,373450,8.05,B96 B98,S,Mr,1


### g) Numerice los atributos categóricos: Sex, Embarked, y Title.

In [None]:
# new_columns = pd.get_dummies(data['Sex'], prefix="Sex")
# data = pd.concat([data, new_columns], axis=1)
# data.drop(['Sex'], axis=1, inplace=True)
# data.head(10)

# new_columns = pd.get_dummies(data['Embarked'], prefix="Embarked")
# data = pd.concat([data, new_columns], axis=1)
# data.drop(['Embarked'], axis=1, inplace=True)
# data.head(10)

new_columns = pd.get_dummies(data['Title'], prefix="Title")
data = pd.concat([data, new_columns], axis=1)
data.drop(['Title'], axis=1, inplace=True)
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,...,Sex_female,Sex_male,Embarked_C,Embarked_Q,Embarked_S,Title_Master,Title_Miss,Title_Mr,Title_Mrs,Title_Others
0,1,0,3,"Braund, Owen Harris",22.0,1,0,A/5 21171,7.25,B96 B98,...,False,True,False,False,True,False,False,True,False,False
1,2,1,1,"Cumings, John Bradley (Florence Briggs Thayer)",38.0,1,0,PC 17599,71.2833,C85,...,True,False,True,False,False,False,False,False,True,False
2,3,1,3,"Heikkinen, Laina",26.0,0,0,STON/O2. 3101282,7.925,B96 B98,...,True,False,False,False,True,False,True,False,False,False
3,4,1,1,"Futrelle, Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,...,True,False,False,False,True,False,False,False,True,False
4,5,0,3,"Allen, William Henry",35.0,0,0,373450,8.05,B96 B98,...,False,True,False,False,True,False,False,True,False,False
5,6,0,3,"Moran, James",29.699118,0,0,330877,8.4583,B96 B98,...,False,True,False,True,False,False,False,True,False,False
6,7,0,1,"McCarthy, Timothy J",54.0,0,0,17463,51.8625,E46,...,False,True,False,False,True,False,False,True,False,False
7,8,0,3,"Palsson, Gosta Leonard",2.0,3,1,349909,21.075,B96 B98,...,False,True,False,False,True,True,False,False,False,False
8,9,1,3,"Johnson, Oscar W (Elisabeth Vilhelmina Berg)",27.0,0,2,347742,11.1333,B96 B98,...,True,False,False,False,True,False,False,False,True,False
9,10,1,2,"Nasser, Nicholas (Adele Achem)",14.0,1,0,237736,30.0708,B96 B98,...,True,False,True,False,False,False,False,False,True,False


### h) Discuta y responda ¿Por qué one-hot encoding podría ser preferible a label encoding para el atributo Pclass?

Dado que Pclass es "Clase del ticket (proxy de estatus socioeconómico)", es decir, es la clase del pasaje comprado la cual es 1, 2 ó 3. Puesto que el atributo es ordinal puede pensarse que conviene usar el label encoding porque explicita el orden. Este orden es importante porque el objetivo del procesamiento de los datos es "El objetivo principal es predecir si un pasajero sobrevivió o no, basado en características como su clase social, ...", entonces tiene sentido la representación existente.

El problema viene cuando intentamos usar algunos algoritmos como el KNN, el cuál interpreta que 2 está a medio camino entre 1 y 3, lo que puede llevar a conclusiones erróneas. Cómo se puede ver al ejecutar `data["Pclass"].value_counts()` es que los valores más comunes son el 3 y el 1. Si estas personas murieron, puede que se concluya que las que más murieron son de la clase 2, lo cuál esta mal. Por ello, es conveniente utilizar one-hot encoding.

## Ejercicio 8

Calcule la correlación lineal entre los atributos **“Fare”** (Tarifa) y **“PClass”** (clase del ticket). Indique la intensidad de la correlación (no hay correlación/débil/fuerte) y el tipo (positiva/negativa). Explique el significado del valor de correlación obtenido.

<div style="display: flex; justify-content: center;">
  <table border="1" cellpadding="5" cellspacing="0" style="border-collapse: collapse; text-align: center;">
    <thead>
      <tr>
	  	<th></th>
        <th style="background-color:#2E86C1; color:white;">Fare/PClass</th>
        <th style="background-color:#2E86C1; color:white;">PClass</th>
      </tr>
    </thead>
    <tbody>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Valor</td>
        <td>0.5481932852366442</td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Intensidad</td>
        <td>débil</td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Tipo</td>
        <td>negativa</td>
		<td></td>
      </tr>
      <tr>
        <td style="background-color:#2E86C1; color:white;">Significado</td>
        <td>A mayor clase, menor tarifa pagada. Es decir, las clases más altas son las de menor número.</td>
		<td></td>
      </tr>
    </tbody>
  </table>
</div>

In [110]:
corr = data["Pclass"].corr(data["Fare"])
print(corr)

-0.5481932852366442


0.5 < abs(corr) > 0.8 => correlacion debil