# Atividade 5 - Grupo 7G

## Bibliotecas utilizadas

In [14]:
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import numpy as np
import numbers

## Funções auxiliares

`split()` : realiza o cálculo para dividir os grupos para datasets binários. Então, considerando duas classes (a e b) e n grupos que queremos dividir mantendo a proporção.

In [2]:
def split(a, b, n):
    k, m = divmod(len(a), n)
    l, p = divmod(len(b), n)
    
    groups = []
    
    for i in range(n):
        g1 = a[i * k + min(i, m):(i + 1) * k + min(i + 1, m)]
        g2 = b[i * l + min(i, p):(i + 1) * l + min(i + 1, p)]
        groups.append((len(g1), len(g2)))
    return groups

`check_k()` : faz um check se o valor de k (quantidade de folds) é válido

In [3]:
def check_k(k, rows):
    if k == 1:
        raise ValueError("Expected number of folds higher than 1. Got %s." % k)
    if not (isinstance(k, numbers.Integral)):
        raise ValueError("Expected number of folds as an integer. Got %s." % k)
    if k > rows:
        raise ValueError("Expected number of folds lower than dataset instances. Got %s." % k)

## Função final

In [4]:
def StratifiedKFold(X, y, k):
    """Stratified K-Folds cross-validator

    Parameters
    ----------
    dataset : dataframe
    
    X : array-like, shape (n_samples, n_features)
        Training data, where n_samples is the number of samples
        and n_features is the number of features.
            
    y : array-like, of length n_samples
        The target variable for supervised learning problems.

    k : int
        Determines the number of folds.


    print information:
        k = 3, dataset: X instances, P positive, N negative (P%, N%)

        Fold 0: pos: xx, neg: yy, total: cc, proportion: P%, N%
        ....

    """

    # get dataset rows: instances , columns: features
    rows, columns = X.shape

    # check if k is a valid number of folds
    check_k(k, rows) 

    # get proportion from target
    (unique, counts) = np.unique(y, return_counts=True) 

    # calculate proportion
    prop_pos = int(counts[1]/rows*100)

    print("k = {}, Dataset: {} positivas, {} negativas ({}% x {}%)".format(k, counts[1], counts[0], prop_pos, prop_neg))

    # map index positions on target for class 0 and class 1
    class_0_index = [idx for idx, j in enumerate(y) if j==unique[0]]
    class_1_index = [idx for idx, j in enumerate(y) if j==unique[1]]

    # map usage of each instance
    bool_0_index = [False] * len(class_0_index)
    bool_1_index = [False] * len(class_1_index)

    # calculate folds size
    fold_size = split(class_0_index, class_1_index, k)   

    folds = []
    for idx, f in enumerate(fold_size):
        count_neg = int(f[0])
        count_pos = int(f[1])
        total = count_neg+count_pos
        prop_temp_neg = int(count_neg/total*100)
        prop_temp_pos = int(count_pos/total*100)
        print("Fold {}: Pos: {}, Neg: {}, Total: {}, Proporção: {}% x {}%".format(idx, count_pos, count_neg, total, prop_temp_pos, prop_temp_neg))

## Rodando a função

In [5]:
# Carga da base original
df = pd.read_csv('dataset/dataset-normalizado.csv', header = 0)

In [6]:
X = df.drop('is_approved',axis=1)
y = df['is_approved']

In [7]:
StratifiedKFold(X, y, 10)

k = 10, Dataset: 557 positivas, 487 negativas (53% x 46%)
Fold 0: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 1: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 2: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 3: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 4: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 5: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 6: Pos: 56, Neg: 49, Total: 105, Proporção: 53% x 46%
Fold 7: Pos: 55, Neg: 48, Total: 103, Proporção: 53% x 46%
Fold 8: Pos: 55, Neg: 48, Total: 103, Proporção: 53% x 46%
Fold 9: Pos: 55, Neg: 48, Total: 103, Proporção: 53% x 46%


In [15]:
StratifiedKFold(X, y, 5)

k = 5, Dataset: 15 positivas, 6 negativas (71% x 28%)
Fold 0: Pos: 3, Neg: 2, Total: 5, Proporção: 60% x 40%
Fold 1: Pos: 3, Neg: 1, Total: 4, Proporção: 75% x 25%
Fold 2: Pos: 3, Neg: 1, Total: 4, Proporção: 75% x 25%
Fold 3: Pos: 3, Neg: 1, Total: 4, Proporção: 75% x 25%
Fold 4: Pos: 3, Neg: 1, Total: 4, Proporção: 75% x 25%
