A ideia desse notebook é dar uma ideia mais pratica de como o particionamento de dados pode ser feito no Python. São exibidas maneiras de se separar dados manualmente, através da biblioteca numpy. Apesar do sklearn fazer isso automaticamente, acho interessante explicar um pouco como isso poderia ser feito

---



Gerando dados de exemplo:

In [1]:
import numpy as np
from sklearn.model_selection import KFold

data = np.arange(0,1000,50)
data = data.reshape(10,2)
print(data)

[[  0  50]
 [100 150]
 [200 250]
 [300 350]
 [400 450]
 [500 550]
 [600 650]
 [700 750]
 [800 850]
 [900 950]]


Selecionando todos os indices disponíveis:

In [2]:
indexes = np.array([0,1,2,3,4,5,6,7,8,9])
print(data[indexes])

[[  0  50]
 [100 150]
 [200 250]
 [300 350]
 [400 450]
 [500 550]
 [600 650]
 [700 750]
 [800 850]
 [900 950]]


Só indices pares:

In [3]:
indexes = np.array([0,2,4,6,8])
print(data[indexes])

[[  0  50]
 [200 250]
 [400 450]
 [600 650]
 [800 850]]


Só indices impares:

In [4]:
indexes = np.array([1,3,5,7,9])
print(data[indexes])

[[100 150]
 [300 350]
 [500 550]
 [700 750]
 [900 950]]


Um exemplo de 5-fold (feito manualmente):

In [0]:
fold1 = np.array([0, 1])
fold2 = np.array([2, 4])
fold3 =  np.array([3, 5])
fold4 =  np.array([7, 8])
fold5 =  np.array([6, 9])

In [6]:
data[fold1]

array([[  0,  50],
       [100, 150]])

In [7]:
data[fold3]

array([[300, 350],
       [500, 550]])

Portanto podemos extrair 5 métricas para um mesmo dataset. Da seguinte foroma:


*   Treina nos folds: 1, 2, 3 e 4. Testa no fold 5
*   Treina nos folds: 1, 2, 3 e 5. Testa no fold 4
*   Treina nos folds: 1, 2, 4 e 5. Testa no fold 3
*   Treina nos folds: 1, 3, 4 e 5. Testa no fold 2
*   Treina nos folds: 2, 3, 4 e 5. Testa no fold 1

Para cada fold de teste gera-se uma métrica. A biblioteca sklearn faz a geração dos folds automaticamente para nós.



## Motivação:

Como motivação, considere o seguinte problema: digamos que deseja-se fazer um estudo com a população brasileira. Não é possível fazer o estudo na população ***inteira***, dessa forma escolhemos uma ***amostra*** significativa da nossa população. 
Considere que nossa amostra possui dados de 10.000 indivíduos, e que não é possível fazer uma nova amostragem. Imagine que vamos treinar um classificador para avaliar se um indivíduo vota no candidato A ou no candidato B, e queremos avaliar esse classificador. 

Podemos separar o conjunto em 9000 indivíduos para treino e 1000 indivíduos para teste. Mas imagine que por algum motivo, o subconjunto escolhido dos 1000 indivíduos vota usando uma **lógica diferente** (essa lógica seria o que nosso classificador tenta *estimar*) dos outros 9000 indivíduos. Embora nosso classificador consiga estimar a lógica dos 9000, ao testar nos outros 1000 nossa métrica apresenta um valor muito baixo e não muito representativo.

Por isso geralmente não se calcula métricas de avaliação apenas em 1 conjunto de teste. Uma técnica possível de ser utilizada é o K-fold cross-validation. No nosso exemplo, para K = 10, separaríamos nossa amostra em 10 subconjuntos de tamanho 1000. Faríamos 10 **treinos** e **testes** diferentes, cada hora escolhendo 9 conjuntos para treino e 1 conjunto para teste, sendo que cada conjunto é testado 1 vez.

Dessa forma, ao invés de extrair apenas 1 métrica, extraímos 10. A média dessas métricas nos fornece uma avaliação melhor do nosso algoritmo sobre a amostra escolhida. Quanto maior o K, melhor será essa aproximação (devido a [Lei dos Grandes Números](https://en.wikipedia.org/wiki/Law_of_large_numbers)). Porém deve-se atentar ao fato de que é custoso treinar muitos classificadores, então geralmente tenta se alcançar um *tradeoff*, escolhendo-se um K não muito pequeno mas também não muito grande.