# Obtendo precisões de acertos reais do algoritmo
#### Usando o método 'cross_valo_score' de validação cruzada na base de dados para visualizar a precisão de acertos do algoritmo.

### Pré-processamento da base de dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# importando a base de dados para o objeto "dataframe"
dataframe = pd.read_csv('Dados de Credito.csv', encoding = 'utf-8', sep = ',')

# substituindo valores inconsistentes no campo idades pela média das idades consistentes
dataframe.loc[dataframe.age < 0, 'age'] = 40.92

# separando os atributos previsores do meta classe
previsores = dataframe.iloc[:, 1:4].values
classe = dataframe.iloc[:, 4].values

# importando a biblioteca sklearn do python
from sklearn.impute import SimpleImputer
# função "SimpleImputer" responsável por corrigir valores faltantes na base de dados

# importando a biblioteca numpy do python
import numpy as np

# criando o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")

# fazendo o treinamento com a base de dados para correção de valores faltantes
imputer = imputer.fit(previsores[:,0:3])

# corrigindo os valores faltantes usando o objeto criado "imputer"
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler
# a função "StandardScaler" tem a função de escalonas toda a base de dados para corrigir a discrepância
# dos valores

# criando o objeto "scaler"
scaler = StandardScaler()

# escalonando todos os atributos para auxiliar no cálculo de distâncias euclidianas
previsores = scaler.fit_transform(previsores)

> Nesse caso, não será preciso separar a base de testes em um modelo de treinamento e outro de teste. O própio algoritmo irá fazer isso automaticamente em N porções informadas, usando diversos testes com essas porções.

### 'cross_val_score' no python

Para testar esse modelo de validação cruzada, vamos usar o algoritmo naive bayes para fazer a previsão na base de dados, dado que a execução é mais rápida. Entretanto, qualquer algoritmo de Machine Learning pode ser usado.

In [2]:
# importando a biblioteca sklearn do python
from sklearn.model_selection import cross_val_score
# 'cross_val_score' aplica o método de validação cruzada que possui esse mesmo nome

# importando a biblioteca sklearn do python
from sklearn.naive_bayes import GaussianNB
# 'GaussianNB' aplica o método do algoritmo naive bayes na base de dados

In [3]:
# criando o objeto 'classificador' responsável por gerar a tabela de probabilidades para a base de dados
classificador = GaussianNB()

In [5]:
# realizando a validação cruzada pelo método 'cross_val_score'
resultados = cross_val_score(classificador, previsores, classe, cv = 10) 
# 'cv' indica o quanto a tabela de dados será fracionada no método 'cross_val_score'

In [7]:
# visualizado a precisão de acertos obtidas em cada um dos fracionamentos feitos na base de dados
print(resultados)

[0.905 0.92  0.955 0.92  0.91  0.96  0.93  0.92  0.89  0.93 ]


In [8]:
# observando um resultado geral para a base de dados usando a média dos dados
resultados.mean()

0.924

Desse modo, é mais preciso dizer que a porcentagem de acertos pelo algoritmo com a base de dados usada é **92.4%**, pois é um valor mais preciso do que usar um modelo somente para teste.

In [9]:
# observando o quanto os dados se desviaram dos valores necessários de serem obtidos
resultados.std()

0.020223748416156664

Com o desvio padrão, é possível visualizar o quão os dados obtidos estão distantes do resultado correto, quanto maior for o valor obtido, mais inconsistente é a precisão do algoritmo para uma determinada base de dados.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);