## Validação Cruzada K-fold

O método de validação crusada denominado k-fold consiste em divir o conjunto total de dados em k subconjuntos mutuamente exclusivos do mesmo tamanho e, a partir daí, um subconjunto é utilizado para teste e os k-1 restantes são utilizados para estimação dos parâmetros, fazendo-se o cálculo de acurácia do modelo. Este processo é realizado k vezes alternando de forma circular o subconjunto de teste. A figura abaixo mostra o esquema realizado pelo k-fold.

![wikikfold](https://bit.ly/3c2fWfZ)

Ao final das k iterações calcula-se a acurácia sobre os erros encontrados, atravéz da equação descrita :

![function](https://wikimedia.org/api/rest_v1/media/math/render/svg/8a5ae32048cdf7fa31caaf6f1d76815d248ba2bb)

Obtendo assim uma medida mais confiável sobrea a capacidade do modelo de representar o processo gerados dos dados.

In [1]:
import pandas as pd
dados = pd.read_csv("/home/gab/MachineLearning-Files/Exercicios/Datasets/Admission_Predict.csv")

In [2]:
dados.drop('Serial No.', axis = 1, inplace=True)

In [3]:
dados.head()

Unnamed: 0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,337,118,4,4.5,4.5,9.65,1,0.92
1,324,107,4,4.0,4.5,8.87,1,0.76
2,316,104,3,3.0,3.5,8.0,1,0.72
3,322,110,3,3.5,2.5,8.67,1,0.8
4,314,103,2,2.0,3.0,8.21,0,0.65


In [5]:
#Separando as variáveis entre preditoras e variável target.
y = dados['Chance of Admit ']
x = dados.drop('Chance of Admit ', axis=1)

In [6]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.linear_model import LinearRegression

## kfold

O parâmetro `n_splits` é o valor do K ou seja em quantas partes vai se divir o dataset. O valor default é `n_splits=3`, neste caso usaremos o valor de 5.

A função `cross_val_score()` necessita de informar alguns parametros vide [Documentação](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html), como modelo de Regressão que será utilizado, como pode ser visto abaixo o `modelo` no caso nós instanciamos como sendo `modelo = LinearRegression()`, ou seja, estamos usando o modelo de Regressão Linear. 

Outro paramentro a ser informado é o `cv` que informa qual é a função que vai ser utilizada para o `cross_val_score`, nessa situação chamamos a `KFold()`.

In [12]:
modelo = LinearRegression()
kfold = KFold(n_splits=5, shuffle=True)
resultado = cross_val_score(modelo, x, y, cv = kfold)

A função kfold vem com o parâmetro `shuffle=False` como default, então é importante estar atento a isso (a melhor prática é informar `shuffle=True`). 

Quando esse parâmetro está marcado como True, o algoritmo irá primeiro embaralhar randomicamente as amostras antes de iniciar os cálculos. Isso é importante pois se as amostras não estão randomicamente distribuídas, a divisão dos dados entre treino e teste pode ficar desbalanceada. 

A função `train_test_split` já faz isso por default (o parâmetro shuffle vem marcado como True por default), enquanto nas funções kfold, o shuffle vem marcado como False por default.

In [13]:
print(resultado) # Determinando o Coeficiente de Determinação  R2

[0.76094834 0.79335707 0.84083446 0.7812414  0.7865867 ]


Como pode ser visto o resultado foi o Coeficiente R2 para cada um dos 5 grupos, ou seja para os cada separação K.

Para obter o valor desejado então vamos tirar uma média entre esses valores.


In [14]:
print(resultado.mean())

0.792593594712957
