# k-Fold Cross-Validation

É uma técnica de reamostragem usada para avaliar a performance de um modelo de ML, usando uma quantidade de dados limitada.

O procedimento tem um único parâmetro chamado **K** que se refere ao número de conjuntos em que o dataset será dividido.

Portando, se k=10, teremos um 10-fold cross-validation.

Cross-validation é usado principalmente em ML aplicado, onde se tenta estimar a habilidade do modelo de classificar dados ainda não vistos, ou seja, sua capacidade de generalização.

Essa técnica é popular pois é símples de entender e aplicar, além disso, a mesma ajuda a diminuir o viés melhor que outras técnicas como o simples divisão do dataset em treino/test. 

Os passos para aplicar esse procedimento são:

1. "Embaralhe" as observações do dataset de forma aleatória;
2. Divida o dataset em k conjuntos;
3. Para cada conjunto:
    1. Reserve o conjunto em questão para teste;
    2. Use os conjuntos restantes como dataset de treino;
    3. Treine o o modelo do dataset de treino e avalie o mesmo no dataset de teste;
    4. Retenha a métrica de avaliação e discarte o modelo.
4. Resuma as skills do modelo usando a amostra das métricas de avaliação dos modelos que foram gerados.

Os resultados de uma execução de validação cruzada k-fold são frequentemente resumidos com a média das métricas de avaliação. Também é uma boa prática incluir a medida da variação e do desvio padrão ou o erro padrão.

# Como escolher **K**

K deve ser escolhido de forma cuidadosa, baseado nos dados que você possue. 

A escolha de um K errado,  pode resultar numa ideia da performance do modelo bem afastada da realidade.

As três táticas mais comuns para escolher o valor de k são:

* **Representativo**: O valor de k é escolhido de modo que cada grupo de treino/teste de amostras dos dados seja grande o suficiente para ser estatisticamente representativo no dataset como um todo.

* **k=10**: esse valor foi encontrado através de experimentação, geralmente resulta em uma estimativa da performance do modelo com baixo viés e variação modesta.

* **k=n**: O valor de k é fixo em n, em que n é o tamanho do conjunto de dados para dar a cada amostra de teste a oportunidade de ser usada como teste. Essa abordagem é chamada de validação cruzada de exclusão única (leave-one-out cross-validation).

Ná dúvida, escolha algo entre e 5-10 para k.

*"The choice of k is usually 5 or 10, but there is no formal rule. As k gets larger, the difference in size between the training set and the resampling subsets gets smaller. As this difference decreases, the bias of the technique becomes smaller"* p.g 70, [Applied Predictive Modeling](https://github.com/mravendi/data-science-machine-learning-ai-resources/blob/master/books/Applied%20Predictive%20Modeling.pdf)

*"To summarize, there is a bias-variance trade-off associated with the choice of k in k-fold cross-validation. Typically, given these considerations, one performs k-fold cross-validation using k = 5 or k = 10, as these values have been shown empirically to yield test error rate estimates that suffer neither from excessively high bias nor from very high variance."* pg. 184, [An Introduction to Statistical Learning](https://github.com/tpn/pdfs/blob/master/An%20Introduction%20To%20Statistical%20Learning%20with%20Applications%20in%20R%20(ISLR%20Sixth%20Printing).pdf)

# Tipos de Cross-Validation

* **Divisão Treino/Teste**: é uma forma de k-folders com k=2.
* **LOOCV**: abreviação para leave-one-out cross-validation. Também é um tipo de k-folders só que com levado ao máximo, ou seja, k é fixo em *n*, em que *n* é o tamanho do conjunto de dados para dar a cada amostra de teste a oportunidade de ser usada como teste.
* **Estratificado**: cada fold deve conter uma amostra representativa de cada classe existente do datset. Por exemplo, em um problema de classificação binária em que cada classe compreende 50% dos dados, é melhor organizar os dados de modo que, metade dos dados, dentro de cada fold, pertença a classe A e a outra metade pertencente a classe B.
* **Repetido**: o k-folders é repetido *n* vezes, antes de cada repetição, o dataset é embaralhado.

Para ver a lista de implementações de diferentes cross-validation do scikit-learning, clique [aqui](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection).

# Usando scikit-learn para gerar o k-folders

Com seguinte instância da classe KFold do sciki-learning, teremos um dataset dividido em 3 partes, e "embaralha" de forma aleatória o dataset com a semente aleatória 1.

```python
kfold = KFold(3, True, 1)
```

In [2]:
# scikit-learn k-fold cross-validation
from numpy import array
from sklearn.model_selection import KFold
# dataset
data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])
# preparando cross validation
kfold = KFold(3, True, 1)

for train, test in kfold.split(data):
	print('train: %s, test: %s' % (data[train], data[test]))

train: [0.1 0.4 0.5 0.6], test: [0.2 0.3]
train: [0.2 0.3 0.4 0.6], test: [0.1 0.5]
train: [0.1 0.2 0.3 0.5], test: [0.4 0.6]
