# Naive Bayes com Python
### Utilizando as ideias do algoritmo naive bayes para fazer a classificação da renda entre os americanos.

Anteriormete, foi visto como o algoritmo naive bayes é modelado. Nesse arquivo, será feita a parte prática com a linguagem de programação Python, em que todo o processo será feito com a base da base de dados "census.csv".

#### Pré-processamento da base de dados "census.csv"

In [1]:
# importando a biblioteca pandas do Python
import pandas as pd

In [2]:
# atribuindo ao objeto "dataframe" todos os registros do banco de dados
dataframe = pd.read_csv("census.csv", encoding = "utf-8", sep = ",")

In [3]:
# observando as dimensões do dataframe
dataframe.shape

(32561, 15)

In [5]:
# visualizando os registros do dataframe
dataframe

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


In [6]:
# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 0:14].values
meta_classe = dataframe.iloc[:, 14].values

In [7]:
# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder

In [8]:
# criando o objeto labelencoder
labelencoder = LabelEncoder()

In [9]:
# aplicando a transoformação em todos os campos categóricos, visando torná-los numéricos
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder.fit_transform(previsores[:,13])

In [11]:
# visualizando os registros previsores após a transformação
print(previsores)

[[39 7 77516 ... 0 40 39]
 [50 6 83311 ... 0 13 39]
 [38 4 215646 ... 0 40 39]
 ...
 [58 4 151910 ... 0 40 39]
 [22 4 201490 ... 0 20 39]
 [52 5 287927 ... 0 40 39]]


Nõa será necessário aplicar a tranformação nos atributos meta classe, pois eles não vão interferir nos cálculos matemáticos do naive bayes.

In [12]:
# importando a biblioteca sklearn do python
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

In [13]:
# fazendo o treinamento no objeto "onehotencoder" para aplicar a transformação nas variáveis para tipo 
# dummy
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], 
                                  remainder = "passthrough")

In [14]:
# transformando os atributos previsores em variáveis do tipo dummy
previsores = onehotencoder.fit_transform(previsores).toarray()

In [15]:
# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler

In [16]:
# criando o objeto "scaler" para fazer o escalonamento nos registros previsores
scaler = StandardScaler()

In [18]:
# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

In [19]:
# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split

In [20]:
# separando a base de dados para treinamento e outra para teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, test_size = 0.15,
                                                                                             random_state = 0)

In [21]:
# visualinzado a dimensão da base de dados "previsores_treinamento"
previsores_treinamento.shape

(27676, 108)

In [22]:
# visualinzado a dimensão da base de dados "previsores_teste"
previsores_teste.shape

(4885, 108)

In [23]:
# visualinzado a dimensão da base de dados "classe_treinamento"
classe_treinamento.shape

(27676,)

In [24]:
# visualinzado a dimensão da base de dados "classe_teste"
classe_teste.shape

(4885,)

#### Usando o Python para avaliar a renda dos americanos

In [25]:
# importando a biblioteca sklearn do python
from sklearn.naive_bayes import GaussianNB

In [26]:
# criando o objeto "classificador"
classificador = GaussianNB()

In [28]:
# treinando o objeto classificado para gerar a tabela de probabilidades visto na teoria de aprendizagem bayesiana
classificador.fit(previsores_treinamento, classe_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [29]:
# usando a base de dados de teste para analisar a previsão
previsoes = classificador.predict(previsores_teste)

Observe nas próximas linhas de código que obtivemos uma saída desse algoritmo de IA, veja se esses resultados estão próximos da base de dados "classe_teste". Para realmente confirmamos a porcentagem de erros e acertos, será necessário fazer a chamada de mais funções.

In [30]:
print(previsoes)

[' >50K' ' >50K' ' >50K' ... ' <=50K' ' >50K' ' >50K']


In [31]:
print(classe_teste)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


Obviamente essa não é a melhor forma de analisar o rendimento do algoritmo IA feito, vamos usar algumas funções do sklearn para analisar esse problema.

In [34]:
# importando a biblioteca sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score

In [35]:
# compara as duas bases e retorna uma porcentagem de precisão
precisao = accuracy_score(previsoes, classe_teste)

In [36]:
# visualizando a precisão de acertos do algoritmo naive bayes
print(precisao)

0.4767656090071648


Observe que o algoritmo está com uma precisão de 47.68%. Esse resultado é extremamente inaceitável, pois escolher dados randômicos tem mais chances de acerto do que o algoritmo feito. Desse modo, vamos modificar algumas coisas do pré-processamento para tentar melhor os resultados.

#### Tentativa 2 - não fazer a transformação nas variáveis em dummy e nem o escalonamento

Vamos apagar todas as variáveis registradas na memória e refazer todo o processo de pré-processamento. Entretanto, dessa vez não será utilizada a transformação das variáveis numéricas em dummy e nem o escalonamento.

In [37]:
# atribuindo ao objeto "dataframe" todos os registros do banco de dados
dataframe = pd.read_csv("census.csv", encoding = "utf-8", sep = ",")

# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 0:14].values
meta_classe = dataframe.iloc[:, 14].values

# aplicando a transoformação em todos os campos categóricos, visando torná-los numéricos
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder.fit_transform(previsores[:,13])

# separando a base de dados para treinamento e outra para teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, test_size = 0.15,
                                                                                             random_state = 0)

In [38]:
# treinando o objeto classificado para gerar a tabela de probabilidades visto na teoria de aprendizagem bayesiana
classificador.fit(previsores_treinamento, classe_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [39]:
# usando a base de dados de teste para analisar a previsão
previsoes = classificador.predict(previsores_teste)

In [40]:
# compara as duas bases e retorna uma porcentagem de precisão
precisao = accuracy_score(previsoes, classe_teste)

In [41]:
# visualizando a precisão de acertos do algoritmo naive bayes
print(precisao)

0.7952917093142272


Obtivemos uma porcentagem de acertos de 79,53%, um resultado bastante satisfatório em relação a primeira tentativa.

#### Tentativa 3 - Não fazer o escalonamento de atributos

Vamos apagar todas as variáveis registradas na memória e refazer todo o processo de pré-processamento. Entretanto, dessa vez não será utilizado o escalonamento de atributos.

In [47]:
# atribuindo ao objeto "dataframe" todos os registros do banco de dados
dataframe = pd.read_csv("census.csv", encoding = "utf-8", sep = ",")

# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 0:14].values
meta_classe = dataframe.iloc[:, 14].values

# aplicando a transoformação em todos os campos categóricos, visando torná-los numéricos
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder.fit_transform(previsores[:,13])

# transformando os atributos previsores em variáveis do tipo dummy
previsores = onehotencoder.fit_transform(previsores).toarray()

# separando a base de dados para treinamento e outra para teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, test_size = 0.15,
                                                                                             random_state = 0)

In [48]:
# treinando o objeto classificado para gerar a tabela de probabilidades visto na teoria de aprendizagem bayesiana
classificador.fit(previsores_treinamento, classe_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [49]:
# usando a base de dados de teste para analisar a previsão
previsoes = classificador.predict(previsores_teste)

In [50]:
# compara as duas bases e retorna uma porcentagem de precisão
precisao = accuracy_score(previsoes, classe_teste)

In [51]:
# visualizando a precisão de acertos do algoritmo naive bayes
print(precisao)

0.7950870010235415


Obtivemos uma porcentagem de acertos de 79,51%, um resultado inferior a segunda tentativa.

#### Tentativa 4 - não transformar as variáveis numéricas em tipo "dummy"

Vamos apagar todas as variáveis registradas na memória e refazer todo o processo de pré-processamento. Entretanto, dessa vez não será utilizada a transformação das variáveis numéricas em dummy.

In [52]:
# atribuindo ao objeto "dataframe" todos os registros do banco de dados
dataframe = pd.read_csv("census.csv", encoding = "utf-8", sep = ",")

# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 0:14].values
meta_classe = dataframe.iloc[:, 14].values

# aplicando a transoformação em todos os campos categóricos, visando torná-los numéricos
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder.fit_transform(previsores[:,13])

# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# separando a base de dados para treinamento e outra para teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, test_size = 0.15,
                                                                                             random_state = 0)

In [53]:
# treinando o objeto classificado para gerar a tabela de probabilidades visto na teoria de aprendizagem bayesiana
classificador.fit(previsores_treinamento, classe_treinamento)

GaussianNB(priors=None, var_smoothing=1e-09)

In [54]:
# usando a base de dados de teste para analisar a previsão
previsoes = classificador.predict(previsores_teste)

In [55]:
# compara as duas bases e retorna uma porcentagem de precisão
precisao = accuracy_score(previsoes, classe_teste)

In [56]:
# visualizando a precisão de acertos do algoritmo naive bayes
print(precisao)

0.8057318321392016


Obtivemos uma porcentagem de acertos de 80,57%, um resultado superior a todas as tentativas anteriores.

O problema já está claro. O que prejudica o nosso algoritmo é fazer o escalonamento após transformar as variáveis numéricas em tipo "dummy". Aqui fica uma lição importante:

> Não há uma regra fixa para se montar algoritmos em Machine Learning. Mudanças são realizadas constantemente de modo a obter o melhor resultado possível.

### Alguma Dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);