<a href="https://colab.research.google.com/github/angeruzzi/MachineLearningRef/blob/main/ValidacaoModelos_KFold.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#VALIDAÇÃO CRUZADA : K-FOLD

Autor: [Alessandro S. Angeruzzi](https://www.linkedin.com/in/alessandroangeruzzi/)

In [16]:
#Bibliotecas
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_validate

from sklearn.model_selection import RepeatedKFold

In [17]:
#Base de Dados
fonte = 'https://raw.githubusercontent.com/angeruzzi/Datasource/main/exampleDataInsurance.csv'
dados = pd.read_csv(fonte)

#Transformações
#Variável smoker para 0 e 1
dados['smoker'] = dados['smoker'].map({'yes':1, 'no':0})

#Alterar a escala da variável resposta charges (custo) para mil dólares 
dados['charges'] = dados['charges']/1000

#Faremos as análise utilizando apenas 3 variáveis : charges (custo), bmi (indice de massa corporal) e smoker (fumante)
dados = dados[['bmi', 'smoker', 'charges']]

dados.head()

Unnamed: 0,bmi,smoker,charges
0,27.9,1,16.884924
1,33.77,0,1.725552
2,33.0,0,4.449462
3,22.705,0,21.984471
4,28.88,0,3.866855


In [18]:
X = dados[['bmi', 'charges']]
y = dados['smoker'] 

In [19]:
#VALIDAÇÃO NA REGRESSÃO LOGÍSTICA

modelo = LogisticRegression() 

validacao = KFold(n_splits = 10, shuffle = True)

reglog = cross_validate(modelo, X, y, cv = validacao, 
                        scoring = ['accuracy', 'recall', 'precision']) 

#Acurácia: ou Taxa de Acerto , proporção de previsões corretas (verdadeiro positivo + verdadeiro negativo) sobre o total de previsão. Bom indicar em dados balanceados.
#Recall/Sensibilidade: ou taxa de verdadeiro Positivo, verdadeiro positivo sobre tudo observado como positivo (VP + FN)
#Precisão/Precision: verdadeiro positivo sobre tudo apurado como positivo (VP+,FP)


In [6]:
reglog

{'fit_time': array([0.01663876, 0.00965905, 0.00918603, 0.00923872, 0.00908685,
        0.01399064, 0.0095346 , 0.00918818, 0.00904369, 0.00879097]),
 'score_time': array([0.00420737, 0.0027554 , 0.00278258, 0.00267553, 0.00267935,
        0.00454903, 0.00270438, 0.00265718, 0.00264859, 0.0026505 ]),
 'test_accuracy': array([0.93283582, 0.94776119, 0.8880597 , 0.94029851, 0.95522388,
        0.95522388, 0.95522388, 0.87313433, 0.93984962, 0.92481203]),
 'test_precision': array([0.79310345, 0.86363636, 0.77777778, 0.84615385, 0.94117647,
        0.89285714, 1.        , 0.75757576, 0.85      , 0.84615385]),
 'test_recall': array([0.88461538, 0.82608696, 0.7       , 0.84615385, 0.76190476,
        0.89285714, 0.83333333, 0.73529412, 0.77272727, 0.78571429])}

In [20]:
print('     Acurácia:', round(reglog['test_accuracy'].mean(), 4))
print('Sensibilidade:', round(reglog['test_recall'].mean(), 4))
print('     Precisão:', round(reglog['test_precision'].mean(), 4))

     Acurácia: 0.9305
Sensibilidade: 0.7936
     Precisão: 0.8404


In [22]:
#USANDO O K-FOLD REPETIDO

validacao_r = RepeatedKFold(n_splits = 10, n_repeats = 5)

reglog_r = cross_validate(modelo, X, y, cv = validacao_r, 
                        scoring = ['accuracy', 'recall', 'precision'])

In [23]:
print('     Acurácia:', round(reglog_r['test_accuracy'].mean(), 4))
print('Sensibilidade:', round(reglog_r['test_recall'].mean(), 4))
print('     Precisão:', round(reglog_r['test_precision'].mean(), 4))

     Acurácia: 0.9326
Sensibilidade: 0.8056
     Precisão: 0.86
