# Utilizando o get_dummies para o One Hot Encoding
- Utilizando o get_dummies para realizar o One Hot Encoding
    - **One Hot Encoding**: é o processo de transformar colunas, onde os dados não possuem relação entre si, em novas colunas com valores 0 ou 1 referente a presença ou não do valor
    - Podemos fazer isso através do OneHotEncoder ou de várias outras formas
<br><br>  
- Vamos usar o dataset obtido no módulo de Data Cleaning, disponível em `train2.csv` no link abaixo:
    - https://drive.google.com/file/d/1Mlqxk_DFbeLghUd4LXOjbQXTPuLWKSIl/view?usp=share_link

In [1]:
# Importando o pandas
import pandas as pd

In [2]:
# Importando os dados do titanic após as etapas de Data Cleaning
titanic = pd.read_csv('train2.csv')

In [3]:
# Visualizando a tabela
titanic.head(2)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Titulos
0,0,3,male,22.0,1,0,7.25,S,Mr
1,1,1,female,38.0,1,0,71.2833,C,Mrs


- **Vamos utilizar o get_dummies para fazer o One Hot Encoding dessas mesmas colunas**
    - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

In [4]:
# Utilizando o get_dummies
pd.get_dummies(titanic[['Embarked','Titulos']])

Unnamed: 0,Embarked_C,Embarked_Q,Embarked_S,Titulos_Master,Titulos_Miss,Titulos_Mr,Titulos_Mrs,Titulos_Outros
0,0,0,1,0,0,1,0,0
1,1,0,0,0,0,0,1,0
2,0,0,1,0,1,0,0,0
3,0,0,1,0,0,0,1,0
4,0,0,1,0,0,1,0,0
...,...,...,...,...,...,...,...,...
886,0,0,1,0,0,0,0,1
887,0,0,1,0,1,0,0,0
888,0,0,1,0,1,0,0,0
889,1,0,0,0,0,1,0,0


In [5]:
# Unindo o get_dummies com nossa base
titanic = pd.concat([titanic,pd.get_dummies(titanic[['Embarked','Titulos']])],axis=1)

In [6]:
# Visualizando a base
titanic.head(3)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,Titulos,Embarked_C,Embarked_Q,Embarked_S,Titulos_Master,Titulos_Miss,Titulos_Mr,Titulos_Mrs,Titulos_Outros
0,0,3,male,22.0,1,0,7.25,S,Mr,0,0,1,0,0,1,0,0
1,1,1,female,38.0,1,0,71.2833,C,Mrs,1,0,0,0,0,0,1,0
2,1,3,female,26.0,0,0,7.925,S,Miss,0,0,1,0,1,0,0,0


- Verificando a quantidade de registros na coluna títulos

In [7]:
# Contando os valores em "Títulos"
titanic.Titulos.value_counts()

Mr        517
Miss      182
Mrs       125
Master     40
Outros     27
Name: Titulos, dtype: int64

- **Utilizando o OneHotEncoder conseguimos limitar o número de categorias (max_categories) e até selecionar o número mínimo de registros para considerarmos uma categoria (min_frequency)**
    - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [8]:
# Importando
from sklearn.preprocessing import OneHotEncoder

In [9]:
# Utilizando o OneHotEncoder limitando as colunas
ohe = OneHotEncoder(max_categories=4)

In [10]:
# Fazendo o fit com os dados
ohe = ohe.fit(titanic[['Titulos']])

In [11]:
# Fazendo a transformação da coluna Titulos
ohe.transform(titanic[['Titulos']]).toarray()

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       ...,
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.]])

In [12]:
# Verificando o nome das colunas
ohe.get_feature_names_out()

array(['Titulos_Miss', 'Titulos_Mr', 'Titulos_Mrs',
       'Titulos_infrequent_sklearn'], dtype=object)

In [13]:
# Agora limitando as linhas
ohe = OneHotEncoder(min_frequency=50)

In [14]:
# Fazendo o fit com os dados
ohe = ohe.fit(titanic[['Titulos','Embarked']])

In [15]:
# Fazendo a transformação da coluna Titulos
ohe.transform(titanic[['Titulos','Embarked']]).toarray()

array([[0., 1., 0., ..., 0., 0., 1.],
       [0., 0., 1., ..., 1., 0., 0.],
       [1., 0., 0., ..., 0., 0., 1.],
       ...,
       [1., 0., 0., ..., 0., 0., 1.],
       [0., 1., 0., ..., 1., 0., 0.],
       [0., 1., 0., ..., 0., 1., 0.]])

In [16]:
# Verificando o nome das colunas
ohe.get_feature_names_out()

array(['Titulos_Miss', 'Titulos_Mr', 'Titulos_Mrs',
       'Titulos_infrequent_sklearn', 'Embarked_C', 'Embarked_Q',
       'Embarked_S'], dtype=object)

- **Além disso, o OneHotEncoder também funciona melhor no caso de termos uma categoria nos dados de produção que não estava nos dados de treinamento / avaliação do modelo**

In [17]:
# Importando novamente o dataset
titanic = pd.read_csv('train2.csv')

In [18]:
# Retirando a coluna de embarque e gênero
titanic = titanic.drop(['Embarked','Sex'],axis=1)

In [19]:
# Visualizando a base
titanic.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Titulos
0,0,3,22.0,1,0,7.25,Mr
1,1,1,38.0,1,0,71.2833,Mrs


- Utilizando o **.get_dummies()**

In [24]:
# Utilizando o get_dummies
titanic = pd.concat([titanic,pd.get_dummies(titanic.Titulos)],axis=1)

In [25]:
# Excluindo a coluna Titulos
titanic = titanic.drop("Titulos",axis=1)

In [26]:
# Visualizando a nova base
titanic.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Master,Miss,Mr,Mrs,Outros
0,0,3,22.0,1,0,7.25,0,0,1,0,0
1,1,1,38.0,1,0,71.2833,0,0,0,1,0


In [27]:
# Importando o DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier

In [28]:
# Criando o classificador
clf = DecisionTreeClassifier(random_state=0)

In [29]:
# Separando X e Y
X = titanic.drop('Survived',axis=1)
y = titanic.Survived

In [30]:
# Fazendo o fit com os dados
clf = clf.fit(X,y)

- Agora vamos usar a base `previsao` para fazer o predict

In [31]:
# Importando o dataset para fazer a previsao
previsao = pd.read_csv('previsao.csv')

In [32]:
# Retirando a coluna de embarque e gênero
previsao = previsao.drop(['Embarked','Sex'],axis=1)
previsao.head(5)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Titulos
0,,2,55.0,0,0,16.0,King
1,,1,58.0,0,0,146.5208,Miss
2,,2,39.0,0,0,26.0,Mr
3,,3,15.0,0,0,7.225,Miss


In [33]:
# Utilizando o get_dummies
previsao = pd.concat([previsao,pd.get_dummies(previsao.Titulos)],axis=1)

In [34]:
# Excluindo a coluna Titulos
previsao = previsao.drop('Titulos',axis=1)

In [35]:
# Visualizando a base
previsao.head(2)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,King,Miss,Mr
0,,2,55.0,0,0,16.0,1,0,0
1,,1,58.0,0,0,146.5208,0,1,0


In [36]:
# Separando X e Y
X = previsao.drop('Survived',axis=1)
y = previsao.Survived

In [38]:
# Utilizando a árvode de classificação para fazer a previsão
clf.predict(X)

Feature names unseen at fit time:
- King
Feature names seen at fit time, yet now missing:
- Master
- Mrs
- Outros



ValueError: X has 8 features, but DecisionTreeClassifier is expecting 10 features as input.

<a id='ohe'></a>
- Utilizando o **OneHotEncoder**

In [None]:
# Importando novamente o dataset

In [None]:
# Retirando a coluna de embarque e gênero

In [None]:
# Visualizando a base

In [None]:
# Utilizando o OneHotEncoder limitando as colunas

In [None]:
# Fazendo o fit com os dados

In [None]:
# Verificando o nome das colunas

In [None]:
# Criando um DataFrame

In [None]:
# Unindo esses valores no dataset do titanic

In [None]:
# Eliminando a coluna Titulos

In [None]:
# Criando o classificador

In [None]:
# Separando X e Y

In [None]:
# Fazendo o fit com os dados

- Novamente utilizando a base `previsao` para fazer o predict

In [None]:
# Importando o dataset para fazer a previsao

In [None]:
# Retirando a coluna de embarque e gênero

In [None]:
# Fazendo a transformação

- [Voltando](#ohe) e trocando o `handle_unknown` por "ignore"

In [None]:
# Visualizando o nome das features geradas

In [None]:
# Criando um DataFrame

In [None]:
# Unindo esses valores no dataset do titanic

In [None]:
# Excluindo a coluna Titulos

In [None]:
# Visualizando a base

In [None]:
# Separando X e Y

In [None]:
# Utilizando a árvode de classificação para fazer a previsão

In [None]:
# Visualizando essa previsão