# USP - EACH - Reconhecimento de Padrões - Abril de 2020
## Grupo 8/H
### Atividade 05 - K Folds
- Implementação de uma função que recebe um conjunto de dados dos atributos, um conjunto de dados do target (variável alvo)
- e a quantidade (k) de folds (conjuntos) de separação
- Separa as bases em k conjuntos de treinamento/verificação
- Conserva a proporção das classes em referência a base original
- Para cada k, a quantidade de amostras entre as classes podem ter, no máximo, 1 elemento a mais ou a menos em relação ao outro k.
- Exemplo:
-- k = 3, Dataset: 80 positivas e 40 negativas (66% x 33%)
-- Fold 1: Pos: 27, Neg: 14, Total: 41, Proporção: 66%;33%
-- Fold 2: Pos: 27, Neg: 13, Total: 40, Proporção: 67%;32%
-- Fold 3: Pos: 26, Neg: 13, Total: 39, Proporção: 66%;33%
- Imprime a quantidade de amostras de cada k

In [21]:
# Bibliotecas
import numpy as np
import pandas as pd
import random
import math
import matplotlib.pyplot as plt

from sklearn.model_selection import KFold
from sklearn.model_selection import GroupKFold
from sklearn.model_selection import StratifiedKFold

In [22]:
df = pd.read_csv('CMCT_20200429.csv', )

X = df.copy()
X = X.drop(['TARGET'], axis=1)
Y = df['TARGET']

In [23]:
########################################
#### Separa uma base em K conjuntos ####
########################################
def splitFolds(data, target, k=10):

    ldata = len(data)              # Quantidade de linhas da base
    nelem = int(ldata / k)         # Quantidade de amostras por fold
    
    uclass = target.value_counts() # Classes e suas quantidades
    uclass.sort_index(inplace=True)
    nclass = uclass.index          # Classes
    qclass = uclass.values         # Quantidade de cada classe
    zclass = zip(nclass, qclass)   # Junção
    dclass = dict(zclass)          # Dicionário de classes e quantidades
    
    # Separação dos conjuntos
    partesK = []    # Conterá todos os conjuntos k de índices, cada um proporcional a cada classe
    for i in range(k):
        pk = []
        ntot = nelem
        for nc, qc in dclass.items():
            # Captura de todos os índices da coluna target
            masc = target == nc
            idclass = list(target[masc].index)
        
            # Montagem dos k subgrupos com a mesma proporção da classe
            propclass = math.ceil(nelem * qc / ldata)
            if (ntot > propclass):
                ntot -= propclass
            else:
                propclass = ntot
            
            rs = random.sample(idclass, propclass)
            pk = pk + rs
        partesK.append(pk)
        
    return (partesK)
           
partesK = splitFolds(X, Y, 10)

In [24]:
partesK

[[95,
  97,
  35,
  87,
  63,
  29,
  81,
  5,
  54,
  12,
  48,
  225,
  189,
  222,
  281,
  227,
  213,
  121,
  266,
  253,
  101,
  203,
  231,
  139,
  195,
  254,
  138,
  237,
  207,
  156,
  346,
  357,
  364,
  287,
  341,
  335,
  334,
  358,
  284,
  302],
 [29,
  86,
  71,
  31,
  40,
  39,
  34,
  75,
  4,
  89,
  37,
  228,
  130,
  268,
  233,
  239,
  113,
  276,
  166,
  225,
  222,
  154,
  208,
  200,
  195,
  165,
  213,
  138,
  202,
  238,
  316,
  293,
  321,
  295,
  345,
  350,
  368,
  326,
  390,
  347],
 [79,
  58,
  24,
  43,
  100,
  85,
  62,
  97,
  55,
  76,
  21,
  114,
  103,
  154,
  172,
  277,
  224,
  208,
  149,
  245,
  248,
  153,
  118,
  125,
  156,
  157,
  148,
  136,
  117,
  241,
  388,
  307,
  331,
  343,
  356,
  284,
  382,
  387,
  372,
  297],
 [79,
  55,
  51,
  54,
  26,
  15,
  53,
  76,
  7,
  66,
  13,
  104,
  177,
  159,
  211,
  223,
  274,
  227,
  121,
  270,
  112,
  143,
  240,
  203,
  122,
  233,
  180,
  247,
  271,
