### Algoritmo para teste (somente 14 registros)

In [2]:
## importando bibliotecas

import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder

In [3]:
base = pd.read_csv('risco_credito.csv')
base.head(3)

Unnamed: 0,historia,divida,garantias,renda,c#risco
0,ruim,alta,nenhuma,0_15,alto
1,desconhecida,alta,nenhuma,15_35,alto
2,desconhecida,baixa,nenhuma,15_35,moderado


In [4]:
## X_train // Y_train

previsores = base.iloc[:,0:4].values
classe = base.iloc[:,4].values

## Transformando as variaveis categoricas
## OBS: As variaveis nao serao padronizadas, visto que é apenas um teste inicial
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,1] = labelencoder.fit_transform(previsores[:,1])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])

## Treinando 
classificador = GaussianNB() 
classificador.fit(previsores, classe) 

## Testando o resultado
# 1) Historia de credito == boa // Divida == Alta // Garantias == Nenhuma // Renda == > 35
# 2) Historia de credito == ruim // Divida == Alta // Garantias == Adequadas // renda < 15


resultado = classificador.predict([[0,0,1,2] , [3, 0, 0, 0]])
resultado

array(['baixo', 'moderado'], dtype='<U8')

## Treinando o algoritmo com a base "credit_data.csv"

In [5]:
## Importando as bibliotecas

import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.model_selection import train_test_split

In [6]:
base = pd.read_csv("credit_data.csv")

## Tratando as idades que estavam com 0 pela média
base.loc[base.age < 0, 'age'] = 40.92 

## previsores/classes
previsores = base.iloc[:,1:4].values
classe = base.iloc[:,4].values

## Substitindo os valores nulos pela média
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean') 
imputer = imputer.fit(previsores[:, 1:4])
previsores[:, 1:4] = imputer.transform(previsores[:, 1:4])

## Padronizando as variaveis
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

## Seperando os valores para treinamento e valores para teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size = 0.25, random_state = 0)

## Treinando o modelo
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

## Calculando a acuracia do modelo
precisao = accuracy_score(classe_teste, previsoes) ## Calculo da acuracia
matrix = confusion_matrix(classe_teste, previsoes) ## Matriz de confusao

print(f'O % de precisão foi de {precisao}')

O % de precisão foi de 0.938


## Treinando o algoritmo com a base "census.csv"

In [7]:
## Importando as bibliotecas

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score

In [8]:
base = pd.read_csv('census.csv')
base.head(3)

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K


In [9]:
## Criando as variaveis preditoras e as classes
previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

## Padronizando as variaveis
labelencoder_previsores = LabelEncoder()

previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])


## Transformando as variaveis
labelencoder_previsores = LabelEncoder()
onehotencorder = ColumnTransformer(transformers=[("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])],
                                   remainder='passthrough')
previsores = onehotencorder.fit_transform(previsores).toarray()


### Padronizando as variaveis (valor medio 0 e desvio padrao 1)
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

## Separando os dados de testes e os dados de treino
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size = 0.15, random_state = 0)

## Treinando o modelo
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

## Calculando a acuracia
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)

precisao

0.4767656090071648

### Alterando a padronização das variaveis (Somente LabelEncoder( ) )

In [10]:
## Criando as variaveis preditoras e as classes
previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

## Padronizando as variaveis
labelencoder_previsores = LabelEncoder()

previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])

## Separando os dados de testes e os dados de treino
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size = 0.15, random_state = 0)

## Treinando o modelo
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

## Calculando a acuracia
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)

precisao

0.7952917093142272

### Alterando a padronização das variaveis (Somente OneHotEncoder ) )

In [11]:
## Criando as variaveis preditoras e as classes
previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

## Padronizando as variaveis
labelencoder_previsores = LabelEncoder()

#previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
#previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
#previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
#previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
#previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
#previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
#previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
#previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])


## Transformando as variaveis
labelencoder_previsores = LabelEncoder()
onehotencorder = ColumnTransformer(transformers=[("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])],
                                   remainder='passthrough')
previsores = onehotencorder.fit_transform(previsores).toarray()


### Padronizando as variaveis (valor medio 0 e desvio padrao 1)
#scaler = StandardScaler()
#previsores = scaler.fit_transform(previsores)

## Separando os dados de testes e os dados de treino
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size = 0.15, random_state = 0)

## Treinando o modelo
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

## Calculando a acuracia
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)

precisao

0.7950870010235415

### Alterando a padronização das variaveis (LabelEncoder + StandardScaler ) )

In [12]:
## Criando as variaveis preditoras e as classes
previsores = base.iloc[:, 0:14].values
classe = base.iloc[:, 14].values

## Padronizando as variaveis
labelencoder_previsores = LabelEncoder()

previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])


### Padronizando as variaveis (valor medio 0 e desvio padrao 1)
scaler = StandardScaler()
previsores = scaler.fit_transform(previsores)

## Separando os dados de testes e os dados de treino
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, classe, test_size = 0.15, random_state = 0)

## Treinando o modelo
classificador = GaussianNB()
classificador.fit(previsores_treinamento, classe_treinamento)
previsoes = classificador.predict(previsores_teste)

## Calculando a acuracia
precisao = accuracy_score(classe_teste, previsoes)
matriz = confusion_matrix(classe_teste, previsoes)

precisao

0.8057318321392016

In [13]:
base.shape

(32561, 15)