<a href="https://colab.research.google.com/github/angeruzzi/MachineLearningRef/blob/main/ValidacaoModelos_KFold.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#VALIDAÇÃO CRUZADA : K-FOLD

Autor: [Alessandro S. Angeruzzi](https://www.linkedin.com/in/alessandroangeruzzi/)

In [None]:
#Bibliotecas
import pandas as pd
import numpy as np

from sklearn.linear_model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_validate

In [None]:
#Base de Dados
fonte = 'https://raw.githubusercontent.com/angeruzzi/Datasource/main/exampleDataInsurance.csv'
dados = pd.read_csv(fonte)

#Transformações
#Variável smoker para 0 e 1
dados['smoker'] = dados['smoker'].map({'yes':1, 'no':0})

#Alterar a escala da variável resposta charges (custo) para mil dólares 
dados['charges'] = dados['charges']/1000

#Faremos as análise utilizando apenas 3 variáveis : charges (custo), bmi (indice de massa corporal) e smoker (fumante)
dados = dados[['bmi', 'smoker', 'charges']]

dados.head()

Unnamed: 0,bmi,smoker,charges
0,27.9,1,16.884924
1,33.77,0,1.725552
2,33.0,0,4.449462
3,22.705,0,21.984471
4,28.88,0,3.866855


In [None]:
X = dados[['bmi', 'charges']]
y = dados['smoker'] 

In [None]:
#VALIDAÇÃO NA REGRESSÃO LOGÍSTICA

modelo = LogisticRegression() 

validacao = KFold(n_splits = 10, shuffle = True)

reglog = cross_validate(modelo, X, y, cv = validacao, 
                        scoring = ['accuracy', 'recall', 'precision']) 

#Acurácia: ou Taxa de Acerto , proporção de previsões corretas (verdadeiro positivo + verdadeiro negativo) sobre o total de previsão. Bom indicar em dados balanceados.
#Recall/Sensibilidade: ou taxa de verdadeiro Positivo, verdadeiro positivo sobre tudo observado como positivo (VP + FN)
#Precisão/Precision: verdadeiro positivo sobre tudo apurado como positivo (VP+,FP)


In [None]:
reglog

{'fit_time': array([0.01823378, 0.01185846, 0.01251507, 0.01208878, 0.01214862,
        0.01244426, 0.01232362, 0.01230669, 0.01285005, 0.01721311]),
 'score_time': array([0.00371671, 0.00328231, 0.00330567, 0.00343251, 0.00341535,
        0.00336337, 0.00340009, 0.00324416, 0.00348592, 0.00484753]),
 'test_accuracy': array([0.91044776, 0.94029851, 0.95522388, 0.95522388, 0.92537313,
        0.94029851, 0.92537313, 0.91791045, 0.90977444, 0.92481203]),
 'test_precision': array([0.8       , 0.85714286, 0.88888889, 0.96      , 0.86956522,
        0.81818182, 0.90625   , 0.875     , 0.7037037 , 0.88      ]),
 'test_recall': array([0.88888889, 0.7826087 , 0.8       , 0.82758621, 0.74074074,
        0.81818182, 0.80555556, 0.72413793, 0.82608696, 0.75862069])}

In [None]:
print('     Acurácia:', round(reglog['test_accuracy'].mean(), 4))
print('Sensibilidade:', round(reglog['test_recall'].mean(), 4))
print('     Precisão:', round(reglog['test_precision'].mean(), 4))

     Acurácia: 0.9305
Sensibilidade: 0.7972
     Precisão: 0.8559
