# INF265: Aplicaciones de Ciencia de la Computación Lab 05

## Árboles de Decisión

In [0]:
import utils, pickle
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Análisis exploratorio

Titanic dataset: https://www.kaggle.com/c/titanic

**Goal:**

It is your job to predict if a passenger survived the sinking of the Titanic or not.

For each PassengerId in the test set, you must predict a 0 or 1 value for the Survived variable.

Data description:

<table><tbody>
<tr><th><b>Variable</b></th><th><b>Definition</b></th><th><b>Key</b></th></tr>
<tr>
<td>survival</td>
<td>Survival</td>
<td>0 = No, 1 = Yes</td>
</tr>
<tr>
<td>pclass</td>
<td>Ticket class</td>
<td>1 = 1st, 2 = 2nd, 3 = 3rd</td>
</tr>
<tr>
<td>sex</td>
<td>Sex</td>
<td></td>
</tr>
<tr>
<td>Age</td>
<td>Age in years</td>
<td></td>
</tr>
<tr>
<td>sibsp</td>
<td># of siblings / spouses aboard the Titanic</td>
<td></td>
</tr>
<tr>
<td>parch</td>
<td># of parents / children aboard the Titanic</td>
<td></td>
</tr>
<tr>
<td>ticket</td>
<td>Ticket number</td>
<td></td>
</tr>
<tr>
<td>fare</td>
<td>Passenger fare</td>
<td></td>
</tr>
<tr>
<td>cabin</td>
<td>Cabin number</td>
<td></td>
</tr>
<tr>
<td>embarked</td>
<td>Port of Embarkation</td>
<td>C = Cherbourg, Q = Queenstown, S = Southampton</td>
</tr>
</tbody></table>

In [0]:
df = pd.read_csv('data/titanic_train.csv')
df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [0]:
# Tamaño del dataset:  (filas, columnas)
# En la nomenclatura de pandas: (axis 0, axis 1)
df.shape

(891, 12)

In [0]:
# Veamos los tipos de variables
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [0]:
# La cantidad de registros únicos por variable
df.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3
dtype: int64

In [0]:
# % de registros únicos por variable
df.nunique() / len(df)

PassengerId    1.000000
Survived       0.002245
Pclass         0.003367
Name           1.000000
Sex            0.002245
Age            0.098765
SibSp          0.007856
Parch          0.007856
Ticket         0.764310
Fare           0.278339
Cabin          0.164983
Embarked       0.003367
dtype: float64

In [0]:
# % de datos faltantes
df.isna().sum() / len(df)

PassengerId    0.000000
Survived       0.000000
Pclass         0.000000
Name           0.000000
Sex            0.000000
Age            0.198653
SibSp          0.000000
Parch          0.000000
Ticket         0.000000
Fare           0.000000
Cabin          0.771044
Embarked       0.002245
dtype: float64

In [0]:
# Antes de continuar podemos eliminar algunas variables del dataset que filtran informacion acerca de nuestro objetivo.
df.drop(['PassengerId', 'Name', 'Ticket'], axis=1, inplace=True)
# axis=1: aplicamos la función a las columnas
# inplace=True: aplica la función al dataframe
# inplace=False (default): devuelve el dataframe modificado

df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,7.25,,S
1,1,1,female,38.0,1,0,71.2833,C85,C
2,1,3,female,26.0,0,0,7.925,,S
3,1,1,female,35.0,1,0,53.1,C123,S
4,0,3,male,35.0,0,0,8.05,,S


## Variables categóricas y variables numéricas

In [0]:
# Veamos las columnas, este tipo de sintaxis se llama "list comprehensions"
[c for c in df]

['Survived',
 'Pclass',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Fare',
 'Cabin',
 'Embarked']

[list comprehensions documentation](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions)

In [0]:
# Una variable númerica puede tener distintos tipos (int, float, double, ...).
# Para ver si una variables es numérica podemos usar la función pd.api.types.is_numeric_dtype:
pd.api.types.is_numeric_dtype(df['Age'])

True

In [0]:
# Variables numéricas
num_vars = [c for c in df if pd.api.types.is_numeric_dtype(df[c])]
num_vars

['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']

In [0]:
# Variables categóricas
cat_vars = [c for c in df if not pd.api.types.is_numeric_dtype(df[c])]
cat_vars

['Sex', 'Cabin', 'Embarked']

### Transformar las variables  a categoricas

In [0]:
# Si usamos get_dummies, se generan muchas columnas
pd.get_dummies(df).shape

(891, 158)

In [0]:
df[cat_vars].nunique()

Sex           2
Cabin       147
Embarked      3
dtype: int64

La variable "Cabin" tiene muchos valores únicos.

Vamos a aplicar otro método para transformar los valores a numéricos: **label encoding**.

In [0]:
# Usando el metodo "astype" Podemos cambiar el tipo de variable a "category":
t = df['Sex'].astype('category')
t.head()

0      male
1    female
2    female
3    female
4      male
Name: Sex, dtype: category
Categories (2, object): [female, male]

In [0]:
# Cuando una columna se convierte a tipo category, los datos faltantes se completan con -1.
# Es una buena práctica sumar +1 al índice de manera que los datos faltantes usen el indice 0.
t_dict = {i+1:e for i,e in enumerate(t.cat.categories)}
t_dict

{1: 'female', 2: 'male'}

In [0]:
# Ahora vamos a aplicar esta transformación a todas las variables categóricas,
# guardando un diccionario de códigos.

# 1. Creamos un diccionario vacio
cat_dict = {}

for cat in cat_vars:
    # 2. Transformamos la variable a tipo category
    df[cat] = df[cat].astype('category')
    
    # 3. Agregamos el diccionario de códigos
    cat_dict[cat] = {i+1:e for i,e in enumerate(df[cat].cat.categories)}


In [0]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,7.25,,S
1,1,1,female,38.0,1,0,71.2833,C85,C
2,1,3,female,26.0,0,0,7.925,,S
3,1,1,female,35.0,1,0,53.1,C123,S
4,0,3,male,35.0,0,0,8.05,,S


### Data faltante

In [0]:
df[num_vars].isna().sum()

Survived      0
Pclass        0
Age         177
SibSp         0
Parch         0
Fare          0
dtype: int64

Al transformar la data categórica, se asignó un código para los datos faltantes.

En el caso de data numérica debemos hacer un tratamiento especial a la data faltante.

El procedimiento que realizaremos es el siguiente:
1. Obtenemos un diccionario con las medianas de cada variable.
2. Creamos una columna que indique si hay data faltante.
3. Reemplazamos los datos faltantes con la mediana obtenida.

In [0]:
# 1. Obtenemos la mediana de la columna y la almacenamos en un diccionario.
na_dict = df[num_vars].median().to_dict()
na_dict

{'Age': 28.0,
 'Fare': 14.4542,
 'Parch': 0.0,
 'Pclass': 3.0,
 'SibSp': 0.0,
 'Survived': 0.0}

In [0]:
# 2. Creamos una columna que indique si hay data faltante.
df['Age_na'] = df['Age'].isna()
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,Age_na
0,0,3,male,22.0,1,0,7.25,,S,False
1,1,1,female,38.0,1,0,71.2833,C85,C,False
2,1,3,female,26.0,0,0,7.925,,S,False
3,1,1,female,35.0,1,0,53.1,C123,S,False
4,0,3,male,35.0,0,0,8.05,,S,False


In [0]:
# 3. Reemplazamos los datos faltantes con la mediana obtenida.
df.Age.fillna(na_dict['Age'], inplace=True)
df[num_vars].isna().sum()

Survived    0
Pclass      0
Age         0
SibSp       0
Parch       0
Fare        0
dtype: int64

### Guardamos la data preprocesada

In [0]:
# El formato pickle nos permite guardar objetos de python
with open('data/titanic_cat_dict.pkl', 'wb') as f:
    pickle.dump(cat_dict, f)
    
with open('data/titanic_na_dict.pkl', 'wb') as f:
    pickle.dump(na_dict, f)

df.to_pickle('data/titanic_train.pkl')

In [0]:
# Cargar data
with open('data/titanic_cat_dict.pkl', 'rb') as f:
    cat_dict = pickle.load(f)

with open('data/titanic_na_dict.pkl', 'rb') as f:
    na_dict = pickle.load(f)

df_raw = pd.read_pickle('data/titanic_train.pkl')

df_raw.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,Age_na
0,0,3,male,22.0,1,0,7.25,,S,False
1,1,1,female,38.0,1,0,71.2833,C85,C,False
2,1,3,female,26.0,0,0,7.925,,S,False
3,1,1,female,35.0,1,0,53.1,C123,S,False
4,0,3,male,35.0,0,0,8.05,,S,False


### Convertimos las columnas a numéricas

In [0]:
# Hacemos una copia de la data
df = df_raw.copy()

# Convertimos cada columna categórica a numérica
for n,col in df.items():
    # n: nombre de la columna
    # col: data de la columna
    if pd.api.types.is_categorical_dtype(col):
        df[n] = col.cat.codes+1
        
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,Age_na
0,0,3,2,22.0,1,0,7.25,0,3,False
1,1,1,1,38.0,1,0,71.2833,82,1,False
2,1,3,1,26.0,0,0,7.925,0,3,False
3,1,1,1,35.0,1,0,53.1,56,3,False
4,0,3,2,35.0,0,0,8.05,0,3,False


# Entrenar modelo

In [0]:
x = df.drop('Survived', axis=1)
y = df['Survived']

In [0]:
# Entrenamos un arbol con poca profundidad, para visualizarlo comodamente:
from sklearn.tree import DecisionTreeClassifier
m = DecisionTreeClassifier(max_depth=3)
m.fit(x, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

In [0]:
m.score(x, y)

0.8237934904601572

# ¿Cómo saber si el modelo esta haciendo un buen trabajo?

Vamos a separar la data en 2 conjuntos: uno para entrenar el modelo (**train set**) y otro para validar el modelo (**validation set**).

In [0]:
from sklearn.model_selection import train_test_split

# Usamos método "train_test_split" para usar el 20% de la data para validar el modelo.
# El parámetro "random state" nos sirve para poder replicar la misma separación.
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.2, random_state=42)
print(f'Train shape: {x_train.shape}')
print(f'Validation shape: {x_val.shape}')

Train shape: (712, 9)
Validation shape: (179, 9)


# Preguntas para desarrollar

### a. (1 puntos) Entrenar un árbol de decisión con la data de entrenamiento.

In [0]:
##Desarrolle su código
m2 = DecisionTreeClassifier(max_depth=3)
m2.fit(x_train, y_train)


DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=3,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

### b. (1 puntos) Evaluar el resultado con la data de entrenamiento.

In [0]:
## Desarrolle su código
m2.score(x_train,y_train)


0.8342696629213483

### c. (1 puntos) Evaluar el resultado con la data de validación.

In [0]:
## Desarroller su código
m2.score(x_val,y_val)


0.7988826815642458

### d. (4 puntos) Ver la documentacion del metodo DecisionTreeClassifier, experimenta con distintos parámetros y observa los resultados.
  - ¿Qué parámetros te ayudan a incrementar la precisión?
  - ¿Cómo cambia la precisión en el conjunto de prueba?

In [0]:
## Desarrolle su código

m3 = DecisionTreeClassifier(max_depth=7)
m3.fit(x_train, y_train)
m3.score(x_val, y_val)


0.8268156424581006

#### Rpta: El principal parámetro que ayuda es la profundidad del árbol
#### Rpta: En el conjunto de prueba disminuye la precisión porque son elementos que no participaron en el entrenamiento.


### e. (5 puntos) Aplique Random Forest entrenándolo con el conjunto Train. Muestre los resultados y compárelos con la versión de árbol simple mostrando los scores con: Train, Validation. Otorgue una explicación de la optimización de parámetros que realizó para obtener su mejor resultado.

In [0]:
## Desarrolle su código
## Importamos el clasificador Random Forest y probamos
## Siendo que con una profundidad de 10 dió buenos resultados
from sklearn.ensemble import RandomForestClassifier

m4 = RandomForestClassifier(n_estimators=10, n_jobs=-1)
m4.fit(x_train, y_train)

m4.score(x_val, y_val)


0.8156424581005587

### f. (8 puntos) Desarrolle el anterior análisis para el problema de determinación de la calidad de vinos blancos, descargue la data de: https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
- (1 punto)Justifique su elección de tratarlo como un problema de regresión o clasificación.
- (4 puntos)Comience aplicando un arbol simple y luego compare con random forest.
- (3 puntos)Otros análisis adicionales de su creatividad serán considerados en la calificación.


In [0]:
## Desarrolle su código

df2 = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv', delimiter=';')
df2.head()


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [0]:
# Al cargar la data verificamos que todos los valores son numéricos
# entonces está lista para trabajar!!!

df2.shape

(4898, 12)

In [0]:
## Separamos en conjunto de entrenamiento y de prueba
xw = df2.drop('quality', axis=1)
yw = df2['quality']

In [0]:
xw_train, xw_val, yw_train, yw_val = train_test_split(xw, yw, test_size=0.2, random_state=42)
print(f'Train shape: {x_train.shape}')
print(f'Validation shape: {x_val.shape}')

Train shape: (712, 9)
Validation shape: (179, 9)


In [0]:
#Trataremos el problema como regresión por tratarse de targets numéricos
from sklearn.tree import DecisionTreeRegressor

m = DecisionTreeRegressor(max_depth=11)
m.fit(xw_train, yw_train)

DecisionTreeRegressor(criterion='mse', max_depth=11, max_features=None,
           max_leaf_nodes=None, min_impurity_split=1e-07,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, presort=False, random_state=None,
           splitter='best')

In [0]:
def score(m):
    print(f'Scores:')
    print(f'Train      = {m.score(xw_train, yw_train):.4}')
    print(f'Validation = {m.score(xw_val, yw_val):.4}')
    
score(m)  

Scores:
Train      = 0.745
Validation = 0.2491


In [0]:
from sklearn.ensemble import RandomForestRegressor

m5 = RandomForestRegressor(n_estimators=10, n_jobs=-1)
m5.fit(xw_train, yw_train)

score(m5)

Scores:
Train      = 0.905
Validation = 0.4694


In [0]:
# Si tratamos el problema como classificación!!

m6 = RandomForestClassifier(n_estimators=10, n_jobs=-1)
m6.fit(xw_train, yw_train)

score(m6)

Scores:
Train      = 0.9875
Validation = 0.6541
