**Introdução codificação**
---

Neste breve nootebook vamos estudar introdução à técnicas de codificação.




In [3]:
#Importar principais pacotes
import numpy as np
import pandas as pd

Vamos agora criar um exemplo para ilustrar o conceito:

In [4]:
d = {'Curso': ["Engenharia", "Engenharia", "Física", "Jornalismo", "Matemática"], 
     'Idade': [18, 19, 23, 32, 18],
     'Aprovado': ["S", "N", "N", "N", "S"]
     }

df = pd.DataFrame(data=d)

In [5]:
df

Unnamed: 0,Curso,Idade,Aprovado
0,Engenharia,18,S
1,Engenharia,19,N
2,Física,23,N
3,Jornalismo,32,N
4,Matemática,18,S


#Revisão pandas: acessando elementos no dataframe

Você pode selecionar elementos, colunas ou linhas inteiras no pandas por índices, através do iloc:

In [6]:
df.iloc[:,0] #seleciona a primeira coluna

0    Engenharia
1    Engenharia
2        Física
3    Jornalismo
4    Matemática
Name: Curso, dtype: object

In [30]:
df.iloc[1, :] #Seleciona a segunda linha

Curso       Engenharia
Idade               19
Aprovado             N
Name: 1, dtype: object

Alternativamente, você pode selecionar colunas da seguinte maneira:

In [31]:
df["Curso"]

0    Engenharia
1    Engenharia
2        Física
3    Jornalismo
4    Matemática
Name: Curso, dtype: object

# OneHotEncoder

Nessa técnica de codificação, a ideia é essencia é transformar cada uma das colunas categóricas em diversas colunas do tipo one-hot. 

Vamos agora importar **[OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)** do sklearn e aplicar ele para transformar os dados categóricos da coluna "curso". 

In [13]:
from sklearn.preprocessing import OneHotEncoder

cat_encoder = OneHotEncoder()
var_encoded = cat_encoder.fit_transform(pd.DataFrame(data = df["Curso"]))

In [14]:
var_encoded #Matriz esparsa!

<5x4 sparse matrix of type '<class 'numpy.float64'>'
	with 5 stored elements in Compressed Sparse Row format>

In [15]:
df1 = pd.DataFrame(var_encoded.toarray()) #Converter para DataFrame

In [16]:
df1

Unnamed: 0,0,1,2,3
0,1.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,1.0


Observe a importância de usar o método toarray() para fins de visualizar e/ou utlizar no pandas:

In [17]:
pd.DataFrame(var_encoded) #Não queremos!

Unnamed: 0,0
0,"(0, 0)\t1.0"
1,"(0, 0)\t1.0"
2,"(0, 1)\t1.0"
3,"(0, 2)\t1.0"
4,"(0, 3)\t1.0"


 Agora ficará claro porque OneHoteEnconder: cada valor possível do atributo "Curso" é transformado em uma coluna.

 Na tabela a seguir, você deve entender o seguinte:

 Coluna 0 - Engenhar? Sim (hot) = 1, não (cold) = 0.

 Coluna 1 - Física? Sim (hot) = 1, não (cold) = 0.

 Coluna 2 - Jornalismo? ....
 
 Coluna 3 - Matemática? ....


In [22]:
df1

Unnamed: 0,0,1,2,3
0,1.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,0.0,1.0


In [23]:
df

Unnamed: 0,Curso,Idade,Aprovado
0,Engenharia,18,S
1,Engenharia,19,N
2,Física,23,N
3,Jornalismo,32,N
4,Matemática,18,S


#OrdinalEnconder

Agora veremos outra técnica de codificação, chamada de codificação ordinal. De acordo com a documentação do [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html):

A entrada para esse transformador deve ser semelhante a uma matriz de inteiros ou strings, representando uma vetor com dados categóricos (discretos). Dessa forma, os valores são convertidos em inteiros ordinais, resultando em uma **única** coluna de inteiros (0 a n_categorias - 1) para cada feature transformada.


In [19]:
from sklearn.preprocessing import OrdinalEncoder
cat_encoder2 = OrdinalEncoder()
var_encoded2 = cat_encoder2.fit_transform(pd.DataFrame(data = df["Aprovado"]))
df2 = pd.DataFrame(data = var_encoded2) #Converter para DataFrame

Apesar disso é possível usar o [LabelEnconder](https://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets), que terá resultado similar. Mas importante você saber o seguinte:


*   OrdinalEncoder é usado parar converter features (X), enquanto LabelEncoder é para variáveis alvos (y). Aqui o nosso exemplo contém apenas uma feature categórica, o que não faz muita diferença no final das contas.

*   É importante observar que OrdinalEncoder pode ajustar dados que têm a forma de (n_samples, n_features), enquanto LabelEncoder só pode ajustar dados que têm a forma de (n_samples,). Neste


Usando de concatenação do pandas, obtem-se:

In [36]:
df.columns

Index(['Curso', 'Idade', 'Aprovado'], dtype='object')

In [50]:
list(df["Curso"].unique())

['Engenharia', 'Física', 'Jornalismo', 'Matemática']

In [47]:
list(df.columns[1:])

['Idade', 'Aprovado']

In [53]:
df_final = pd.concat([df1, df["Idade"], df2], axis = 1)

df_final.columns = list(df["Curso"].unique()) + list(df.columns[1:]) 
#Não é a maneira mais efetiva de buscar os nomes das colunas, mas resolve rapidamente

In [52]:
df_final

Unnamed: 0,Engenharia,Física,Jornalismo,Matemática,Idade,Aprovado
0,1.0,0.0,0.0,0.0,18,1.0
1,1.0,0.0,0.0,0.0,19,0.0
2,0.0,1.0,0.0,0.0,23,0.0
3,0.0,0.0,1.0,0.0,32,0.0
4,0.0,0.0,0.0,1.0,18,1.0
