# Implementing OHE for a Categorical Feature

Nesse primeiro momento faremos engenharia reversa com a coluna "Education" com o objetivo de obter a classificação em forma de texto que representa os diferentes níveis de educação, após isso usaremos o pandas para criar um OHE.

In [1]:
import pandas as pd

In [2]:
import matplotlib as mpl #additional plotting functionality

In [4]:
mpl.rcParams['figure.dpi'] = 400 #high resolution  figures

In [6]:
df_clean_2 = pd.read_csv('df_clean_2_01.csv')

Agora vamos recriar uma coluna que traga a classificação em forma de texto com os dados abaixo:

**1 = graduate school, 2 = university, 3 = high school, 4 = others**

In [7]:
df_clean_2['EDUCATION_CAT'] ='none'

In [9]:
df_clean_2[['EDUCATION','EDUCATION_CAT']].head(10)

Unnamed: 0,EDUCATION,EDUCATION_CAT
0,2,none
1,2,none
2,2,none
3,2,none
4,2,none
5,1,none
6,1,none
7,2,none
8,3,none
9,3,none


Nesse passo criamos a coluna e incluímos o valor padrão para todas as linhas 'none' e agora vamos usar a função que o pandas tem de mapear toda uma serie em novos valores, função denominada **.map**.

In [13]:
cat_mapping ={1: "graduate school",\
             2: "university",\
             3: "high school",\
             4: "others"}

In [15]:
df_clean_2['EDUCATION_CAT'] = df_clean_2['EDUCATION'].map(cat_mapping)
                                                         

In [16]:
df_clean_2[['EDUCATION','EDUCATION_CAT']].head(10)

Unnamed: 0,EDUCATION,EDUCATION_CAT
0,2,university
1,2,university
2,2,university
3,2,university
4,2,university
5,1,graduate school
6,1,graduate school
7,2,university
8,3,high school
9,3,high school


Agora estamos prontos para o OHE. Usaremos a função get_dummies() do pandas, sendo que essa função tem esse nome devido as colunas OHE serão conhecidas também como **dummy variables**.

In [17]:
edu_ohe = pd.get_dummies(df_clean_2['EDUCATION_CAT'])

In [18]:
edu_ohe.head(10)

Unnamed: 0,graduate school,high school,others,university
0,0,0,0,1
1,0,0,0,1
2,0,0,0,1
3,0,0,0,1
4,0,0,0,1
5,1,0,0,0
6,1,0,0,0
7,0,0,0,1
8,0,1,0,0
9,0,1,0,0


Com base nos dados apresentados acima com a geração do OHE podemos ver que o valor 1 significa que corresponde a categoria educação e que 0 vai para o resto que não corresponde. Agora precisamos garantir que realmente esteja certo essa informação e para isso usaremos a função concat para unir os DataFrames para comparação.

In [19]:
df_with_ohe = pd.concat([df_clean_2,edu_ohe], axis=1)

In [23]:
df_with_ohe[['EDUCATION_CAT','graduate school','high school','university', 'others']].head(10)

Unnamed: 0,EDUCATION_CAT,graduate school,high school,university,others
0,university,0,0,1,0
1,university,0,0,1,0
2,university,0,0,1,0
3,university,0,0,1,0
4,university,0,0,1,0
5,graduate school,1,0,0,0
6,graduate school,1,0,0,0
7,university,0,0,1,0
8,high school,0,1,0,0
9,high school,0,1,0,0


In [24]:
df_with_ohe.to_csv('Chapter_1_cleaned_data.csv', index= False)