<a href="https://colab.research.google.com/github/Diogo364/StepsIntoML/blob/master/Dealing_With_Categorical_Fetures_Titanic_Challenge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial Categorical Features - Titanic Dataset



```
@author: Diogo Telheiro do Nascimento
@publication_date: datetime.datetime(2020, 5, 26, 16, 40)
```



### Understanding Categorical Features
---
[PT-BR]

Muitas vezes, quando vamos fazer alguma análise ou trabalhar com algoritmos de Machine Learning, nós temos que lidar com variáveis não numéricas em essencia. 

Essa tarefa pode parecer um pouco complicada, mas existem ferramentas que facilitam esse processo de transformação que veremos a seguir.

Se quiser estudar melhor o conceito de Variávei Categóricas, acesse o link - em [português](http://leg.ufpr.br/~silvia/CE055/node8.html).

[EN-US]

Many times, when workin in data analysis or Machine Learnin algorithms, we have to deal with non-numerical variables.

It may seem a little complicated, but there are a few tools that helps in this transformation process that we'll walk on now.

To understand better the concept of categorical variables check this [link](https://www.saedsayad.com/categorical_variables.htm).

## Basic Libraries
---
[PT-BR]

Primeiramente iremos fazer a importação das bibliotecas clássicas de manipulação de dados do Python.

[EN-US]

First, we will import the classic Python data manipulation libraries.

In [0]:
import pandas as pd
import numpy as np

## Import DataSet
---

[PT-BR]

Acesse o dataset que estou disponibilizando no github rodando a celula a baixo.

OU 

1.   Fazer download do [DataSet do Titanic no Kaggle](https://www.kaggle.com/c/titanic/data);
2.   Subir os arquivos para o Colab;
3.   Continuar o tutorial.

[EN-US]

Access the dataset in my github account by running the cell bellow.

OR 

1.   Download [Titanic Dataset from Kaggle](https://www.kaggle.com/c/titanic/data) from the link;
2.   Upload the files here;
3.   Continue with the tutorial.

In [4]:
try:
  train_set = pd.read_csv('train.csv')
  print('Downloaded dataset!')
except:
  train_set = pd.read_csv('https://raw.githubusercontent.com/Diogo364/StepsIntoML/master/data_sets/titanic/train.csv')
  print('Github dataset!')

Github dataset!


## Finding Categorical Features
---
[PT-BR]

O primeiro passo é dar uma olhada superficial em nossa base de dados para identificar nossos campos categóricos.

[EN-US]

The first step is to take a quick look at our dataset looking for our Categorical Features.


In [5]:
train_set.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


[PT-BR]

Repare que o conceito de 'Variável Categórica' não se trata do tipo de dado, mas sim ao significado do dado, portanto podemos ter campos com dados tipo numérico sendo categóricos.

Para ficar mais claro observe as células a seguir: 

[EN-US]

Notice that the concept of Categorical Feature does not specify the type of the data, but its meaning. Therefore we can have categorical features as numerical type data.

To clarify it take a look at the following cell.


In [6]:
print(train_set['PassengerId'].head())
print(train_set['PassengerId'].dtype)

0    1
1    2
2    3
3    4
4    5
Name: PassengerId, dtype: int64
int64


[PT-BR]

Repare que, mesmo o ID do passageiro sendo do tipo inteiro não faz sentido pensarmos essa variável como grandezas numéricas. 

Alguns testes que podemos fazer para verificar variáveis categóricas são:
- Faz algum sentido pensarmos que o passageiro de ID 2 é o dobro do passageiro de ID 1?
- Faz algum sentido sabermos que a diferença entre o ID 3 e o ID 1 é 2?
- Faz sentido tirarmos a média dos IDs dos passageiros? Essa informação é relevante?

Obs: Cuidado com o teste da média, pois no caso de Categóricas Ordinais ela pode fazer sentido.

[EN-US]

Notice that even though the passanger ID beeing an integer variable we can't make sense of it as a numerical features.

We can make a few tests to atests categorical features:
- Does it make sense to think that the passenger with ID 2 is twice as big as passenger with ID 1?
- Does it make sense knowing that the difference between ID 3 and 1 is 2?
- Does it make sense to take the average ID? Is it usefull?

Obs: Beware that the average test may make sense on Ordinal Categorical Features.

## About Categorical Features

[PT-BR]

Existem dois tipos principais de variáveis categóricas:
1. Nominais
2. Ordinais

[EN-US]

There are two main types of categorical features:
1. Nominal
2. Ordinal

---
### 1. Nominal Categorical Features

[PT-BR]

Como o título indica, são variáveis que trazem nomes - ou categorias diferentes -, mas que não trazem nenhuma informação quantitativa, portanto não podem ser ordenadas.

Nesse exemplo temos nossas Categóricas Nominais listadas abaixo:

[EN-US]

As the name suggests, this are features that contain names - or different categories - , but doesn't bring any quantitative information, therefore cannot be ordered.

In this case we listed our Nominal Features bellow:

In [0]:
nominal_categorical_features = ['PassengerId', 'Survived', 'Name', 'Sex', 'Embarked']

In [8]:
train_set[nominal_categorical_features].head()

Unnamed: 0,PassengerId,Survived,Name,Sex,Embarked
0,1,0,"Braund, Mr. Owen Harris",male,S
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,C
2,3,1,"Heikkinen, Miss. Laina",female,S
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,S
4,5,0,"Allen, Mr. William Henry",male,S


### 2. Ordinal Categorical Features

[PT-BR]

Já as Categóricas Ordinais trazem informações quantitativas, portanto podem ser ordenadas.

Nesse exemplo temos nossas Categóricas Ordinais listadas abaixo:

[EN-US]

Ordinal features brings quantitative information, therefore may be ordered.

In this case we listed our Ordinal Features bellow:

In [0]:
ordinal_categorical_features = ['Pclass', 'Ticket', 'Cabin']

In [10]:
train_set[ordinal_categorical_features].head()

Unnamed: 0,Pclass,Ticket,Cabin
0,3,A/5 21171,
1,1,PC 17599,C85
2,3,STON/O2. 3101282,
3,1,113803,C123
4,3,373450,


[PT-BR]

Note que temos a noção de que a cabine C123 vem depois da cabine C85, muito embora a manipulação algébrica não nos traga informações relevantes.

[EN-US]

Notice that we can assume that the cabin C123 comes after C85, even though its algebric manipulation doesn't bring any addicional information.

## Total Categorical Features

[PT-BR]

Agora vamos juntar nossas variáveis categóricas em apenas uma lista.

[EN-US]

Now lets gather our categorical features in one list.

In [11]:
categorical_features = []
categorical_features.extend(ordinal_categorical_features)
categorical_features.extend(nominal_categorical_features)
categorical_features

['Pclass',
 'Ticket',
 'Cabin',
 'PassengerId',
 'Survived',
 'Name',
 'Sex',
 'Embarked']

In [12]:
train_set[categorical_features].head()

Unnamed: 0,Pclass,Ticket,Cabin,PassengerId,Survived,Name,Sex,Embarked
0,3,A/5 21171,,1,0,"Braund, Mr. Owen Harris",male,S
1,1,PC 17599,C85,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,C
2,3,STON/O2. 3101282,,3,1,"Heikkinen, Miss. Laina",female,S
3,1,113803,C123,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,S
4,3,373450,,5,0,"Allen, Mr. William Henry",male,S


## Transformation
---
[PT-BR]

A forma mais comum que temos de lidar com variáveis categóricas é transformando-as em variáveis numéricas, na forma de uma matriz de presença e ausência. 

Abaixo vamos falar das principais ferramentas que nos auxiliam nesse processo.


[EN-US]

Normally, when dealing with categorical features we usually transform them into numerical ones, like an presence-absence matrix.

We'll walk through the most common tools that helps us in this process.

---
### LabelEncoder

[PT-BR]

Essa classe transforma diretamente o conteúdo das variáveis para números como asseguir.

[EN-US]

This class transforms our labels into numbers as following example:


In [0]:
from sklearn.preprocessing import LabelEncoder

In [0]:
le = LabelEncoder()
train_set['le_Sex'] = le.fit_transform(train_set['Sex'])

In [15]:
train_set[['Sex', 'le_Sex']].head()

Unnamed: 0,Sex,le_Sex
0,male,1
1,female,0
2,female,0
3,female,0
4,male,1


[PT-BR]

Repare que `male` foi convertido em `1`, enquanto `female` foi convertido em `0`.

[EN-US]

Notice that `male` was transformmed in `1`, while `female` in `0`.

#### Problem

[PT-BR]

O maior problema desse método decorre do fato de que estamos atribuindo o peso e o significado numérico nas variáveis ao fazermos essa conversão.

Talvez nesse exemplo de `male`, `female` não tenha ficado bem evidente o problema, mas repare no exemplo abaixo:


[EN-US]

The main problem of this method is that we are adding weight and numerical meaning into our values.

The `male`, `female` example may not show the real magnitude of this problem, but take a look into the next one:

In [16]:
train_set['le_Ticket'] = le.fit_transform(train_set['Ticket'])
np.sort(train_set['le_Ticket'].unique())

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

[PT-BR]

Como você pode ver temos 681 valores diferentes para `ticket`, por isso eles são substituídos pelos valores do intervalo [0, 680].

Temos que levar em consideração que vários algoritmos de Machine Learning funcionam encontrando o melhor conjunto de pesos para nossas features e que ao fazermos essa transformação, intrinsecamente estamos enviesando nossos dados, aplicando diferenças de magnitude em variáveis que não possuem em sua essência.


[EN-US]

As you can see we have 681 unique values for `ticket`, that is why they are replaced by values between [0, 680].

We need to take into account that some Machine Learning algorithms works by finding a set of weights for our features and that as we transform our data like this we are biasing our data, creating magnitude difference between values that doesn't present it.

---
### Dummies with Pandas

[PT-BR]

Uma forma de se evitar o problema do `LabelEncoder` é criando `variáveis dummies`, que funciona como uma matriz de presença/ausência.

O próprio `Pandas` possui uma forma bem elegante para lidar com isso, que é o método `pd.dummies()`


[EN-US]

One alternative to avoid the `LabelEndoder`'s problem is by creating `dummies variables`, that works as a presence/absence matrix.

`Pandas` itself has an elegant way to handle that. The `pd.dummies()` method.

In [0]:
train_set_dummie = train_set.join(pd.get_dummies(train_set['Sex']))

In [26]:
train_set_dummie[['Sex', 'male', 'female']].head()

Unnamed: 0,Sex,male,female
0,male,1,0
1,female,0,1
2,female,0,1
3,female,0,1
4,male,1,0


[PT-BR]

Como pode ver, agora nossa variável `Sex` é representada na forma de uma matrix de presença/ausência.

Cada valor único foi transformado em uma coluna de um DataFrame, onde valores `1` corresponde a presença e valores `0` ausência.

[EN-US]

As you can see now our feature `Sex` is represented in a presence/absence matrix.

It is created one new column for each unique value where `1` represent presence and `0` absence.

#### Problem

[PT-BR]

O principal problema desse método é em relação a reutilização do código. 

Suponha que você construa seu projeto de Machine Learning utilizando as features `[male, female]` que foram criadas pelo método `pd.dummies()` e que depois de um certo tempo os novos dados começam a chegar em um formato diferente: `[male, other]`.

Nesse cenário a coluna `female`, que deveria ser criada, não irá existir mais e o modelo que foi construído irá quebrar.

Veja esse exemplo abaixo:

[EN-US]

The main problem of this method is about the code reuse.

Imagine that you build your Machine Learning project with the `[male, female]` features that were created by `pd.dummies()` method and that after a few months new data comes in a different format: `[male, other]`.

At this moment the `female` feature, that should be created at this point of your code, wouldn't exist. Your code will crash.

See this example bellow:

In [27]:
new_train_set = pd.DataFrame({'Sex': ['male', 'male', 'other', 'male']})
new_train_set.head()

Unnamed: 0,Sex
0,male
1,male
2,other
3,male


In [33]:
train_set_dummie = new_train_set.join(pd.get_dummies(new_train_set['Sex']))
try:
  train_set_dummie[['Sex', 'male', 'female']]
except Exception as err:
  print(f'Erro: {err}')

Erro: "['female'] not in index"


---
### Dummies with OneHotEncoder

[PT-BR]

Uma das formas que temos de trabalhar com `variáveis dummies` e não termos esse problema é com o `OneHotEncoder`.

Veja a diferença no código abaixo.


[EN-US]

One alternative to work with `dummie variables` and avoid this problem is using `OneHotEncoder`.

See the difference bellow:

In [0]:
from sklearn.preprocessing import OneHotEncoder

[PT-BR]

Quando estamos instanciando essa classe nós podemos passar alguns parâmetros. Nesse caso:
- `handle_unknown="ignore"`: Caso seja passado algum valor diferente do que utilizado em treino, ignore-o.
- `sparse=False`: retorna um `array` ao invés de uma `sparse matrix`.

[EN-US]

When instanciating this class we can pass a few parameters. In this case:
- `handle_unknown="ignore"`: Ignore any different value from the fitting set.
- `sparse=False`: return an `array` instead of `sparse matrix`.

In [0]:
onehot = OneHotEncoder(handle_unknown="ignore", sparse=False)

In [38]:
encoded = onehot.fit_transform(train_set['Sex'].values.reshape(-1, 1))
pd.DataFrame(encoded).head()

Unnamed: 0,0,1
0,0.0,1.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,0.0,1.0


[PT-BR]

Como pode ver, as principal diferenças entre os dois métodos: `pd.dummies()` e `OneHotEncoder` são:
- O primeiro retorna um DataFrame enquanto o segundo um array.
- O segundo dá a opção de como você gostaria de lidar com valores desconhecidos.
- O segundo é muito mais prático de se utilizar.

[EN-US]

As you can see, the main differences between the `pd.dummies()` method and the `OneHotEncoder` are:
- The first returns a DataFrame, while the second returns an Array,
- The second gives some options to deal with unknown values
- The second is way easier to use.

---
### FeatureHasher

[PT-BR]

Esse última ferramenta é uma abordagem interessante para lidar com variáveis que possuam muitos valores únicos, como é o caso da nossa `Ticket`.

O problema que ela resolve é o de serem criadas muitas variáveis dummies diferentes, deixando nosso modelo pesado e algumas vezes interferindo em sua eficácia.

[EN-US]

This last tool is an interesting approach to handle features that have many unique values, as ou `Ticket`.

The problem it solves is the creation of many `dummie variables`, causing performance issues and high memory necessities.

In [0]:
from sklearn.feature_extraction import FeatureHasher

[PT-BR]

Quando estamos instanciando essa classe nós podemos passar alguns parâmetros. Nesse caso:
- `n_features=5`: Número de features do output
- `input_type='string'`: determina que serão passados valores de tipo `string` para a conversão.

Essa classe utiliza a função hash `signed 32-bit version of Murmurhash3` para fazer a conversão dos dados.

[EN-US]

When instanciating this class we can pass a few parameters. In this case:
- `n_features=5`: Number of features in the output
- `input_type='string'`: Sets the type of input as `string`

This class uses the `signed 32-bit version of Murmurhash3` hash function to transfrom the our data.

In [0]:
hasher = FeatureHasher(n_features=5, input_type='string')

In [47]:
ticket_transformed = hasher.fit_transform(train_set['Ticket'])
pd.DataFrame(ticket_transformed.toarray()).head()

Unnamed: 0,0,1,2,3,4
0,1.0,1.0,-1.0,1.0,1.0
1,1.0,0.0,0.0,1.0,0.0
2,1.0,2.0,0.0,-3.0,0.0
3,2.0,0.0,-2.0,-1.0,-1.0
4,3.0,0.0,-1.0,1.0,-1.0
