# Pré-processamento da base de dados census.csv
**A base de dados census.csv foi criada por Barry Becker em 1996, ele extraiu esses dados de uma *database* de 1994 do Censo. Ela consiste de 14 atributos previsores: age (idade), final-weight (peso final), education (formação), education num (número da formação), marital-status (estado civil), occupation (ocupação), relationship (relacionamento), race (raça), sex (sexo), capital-gain (capital ganho), capital-loss (capital perdido), hours-per-week (horas por semana) e native-country (país de origem). Esta *database* tem por objetivo prever se a renda anual excederá o valor de 50 mil.**

Para essa base de dados utilizaremos técnicas de pré-processamento um pouco diferentes das aplicadas na base de dados credit_data.csv, pois nessa base do censo já foram verificados que não existem valores inconsistentes, e por ela possuir atributos com variáveis categóricas, devemos relizar um tratamento de codificação, para que os cálculos possam ser realizados.

In [1]:
import pandas as pd
base = pd.read_csv('census.csv')
previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

Descrição dos atributos numéricos da base de dados:

In [10]:
base.describe()

Unnamed: 0,age,final-weight,education-num,capital-gain,capital-loos,hour-per-week
count,32561.0,32561.0,32561.0,32561.0,32561.0,32561.0
mean,38.581647,189778.4,10.080679,1077.648844,87.30383,40.437456
std,13.640433,105550.0,2.57272,7385.292085,402.960219,12.347429
min,17.0,12285.0,1.0,0.0,0.0,1.0
25%,28.0,117827.0,9.0,0.0,0.0,40.0
50%,37.0,178356.0,10.0,0.0,0.0,40.0
75%,48.0,237051.0,12.0,0.0,0.0,45.0
max,90.0,1484705.0,16.0,99999.0,4356.0,99.0


O próximo passo será a codificação das variáveis categóricas, para isso podemos utilizar duas classes diferentes da bilioteca sklearn.preprocessing, que são o LabelEncoder e o OneHotEncoder, no caso do OneHotEnconder iremos necessitar de uma classe da biblioteca sklearn.compose chamado ColumnTransformer.

In [2]:
# Importando as classes codificadoras
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

## LabelEncoder
A codificação por meio da classe LabelEncoder é feita pela rotulação das variáveis categóricas em ordem alfabética, onde a váriavel na primeira posição da ordenação é substituída por 0, à segunda por 1 e assim sucessivamente. O algoritmo que obteve ótimos resultados utilizando esse tipo de codificação foi o *Naive bayes*.

Estes são os dez primeiros registros antes da codifição:

In [4]:
base.head(10)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


In [5]:
# Criando um objeto do tipo LabelEncoder
labelencoder_previsores = LabelEncoder()
# Codificando cada uma das colunas que contêm variáveis categóricas
previsores[:, 1] = labelencoder_previsores.fit_transform(previsores[:, 1])
previsores[:, 3] = labelencoder_previsores.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder_previsores.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder_previsores.fit_transform(previsores[:, 6])
previsores[:, 7] = labelencoder_previsores.fit_transform(previsores[:, 7])
previsores[:, 8] = labelencoder_previsores.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder_previsores.fit_transform(previsores[:, 9])
previsores[:, 13] = labelencoder_previsores.fit_transform(previsores[:, 13])

Dez primeiros registros após a codificação:

In [9]:
for i in range(0, 10):
    print(i + 1, 'º) |', end = ' ')
    for j in range(0, 14):
        print(previsores[i][j], end = ' | ')
    print('\n')

1 º) | 39 | 7 | 77516 | 9 | 13 | 4 | 1 | 1 | 4 | 1 | 2174 | 0 | 40 | 39 | 

2 º) | 50 | 6 | 83311 | 9 | 13 | 2 | 4 | 0 | 4 | 1 | 0 | 0 | 13 | 39 | 

3 º) | 38 | 4 | 215646 | 11 | 9 | 0 | 6 | 1 | 4 | 1 | 0 | 0 | 40 | 39 | 

4 º) | 53 | 4 | 234721 | 1 | 7 | 2 | 6 | 0 | 2 | 1 | 0 | 0 | 40 | 39 | 

5 º) | 28 | 4 | 338409 | 9 | 13 | 2 | 10 | 5 | 2 | 0 | 0 | 0 | 40 | 5 | 

6 º) | 37 | 4 | 284582 | 12 | 14 | 2 | 4 | 5 | 4 | 0 | 0 | 0 | 40 | 39 | 

7 º) | 49 | 4 | 160187 | 6 | 5 | 3 | 8 | 1 | 2 | 0 | 0 | 0 | 16 | 23 | 

8 º) | 52 | 6 | 209642 | 11 | 9 | 2 | 4 | 0 | 4 | 1 | 0 | 0 | 45 | 39 | 

9 º) | 31 | 4 | 45781 | 12 | 14 | 4 | 10 | 1 | 4 | 0 | 14084 | 0 | 50 | 39 | 

10 º) | 42 | 4 | 159449 | 9 | 13 | 2 | 4 | 0 | 4 | 1 | 5178 | 0 | 40 | 39 | 



## OneHotEncoder
