# Atividade 5

Implementação do K-fold Cross Validation para estimar os erros de estimação dos classificadores que iremos utilizar nas atividades futuras.

## 0. Preparação do ambiente.
Para os trabalhos desta atividade utilizaremos a base de dados previamente carregada no Github, [neste link](https://github.com/danielbdias/pattern-recognition-studies.git), em conjunto com alguns scripts auxiliares

In [None]:
# prepara a máquina local do google colab para receber a base (quando necessário)
# e baixa os scripts auxiliares para a montagem do notebook
!rm -rf ./*

!git clone https://github.com/danielbdias/pattern-recognition-studies.git
!mv ./pattern-recognition-studies/* ./
!rm -rf ./pattern-recognition-studies
!rm -rf ./sample_data

Cloning into 'pattern-recognition-studies'...
remote: Enumerating objects: 73, done.[K
remote: Counting objects: 100% (73/73), done.[K
remote: Compressing objects: 100% (49/49), done.[K
remote: Total 73 (delta 24), reused 70 (delta 21), pack-reused 0[K
Unpacking objects: 100% (73/73), done.


In [1]:
# imports de libs necessárias para as análises
from scripts.database import load_datapoints_with_targets
from scripts.preprocessing import centralize_observations, transform_to_distances

import numpy as np
import pandas as pd

from sklearn.model_selection import StratifiedKFold

## 1. Base de dados

Para o nosso trabalhos, estamos utilizando o dataset [Grammatical Facial Expressions](https://archive.ics.uci.edu/ml/datasets/Grammatical+Facial+Expressions), que descreve expressões faciais gramaticais da linguagem brasileira de sinais (Libras).

A base possui `27965 instâncias`, subdivididas em 9 expressões: `Interrogativa (qu)`,`Interrogativa (s/n)`, `Interrogativa (dúvida)`, `Negativa`, `Afirmativa`, `Condicional`, `Relativa`, `Tópico` e `Foco`. 

Cada instância é estruturada em `300 características`, que representam 100 pontos com coordenadas (x, y, z) da face. Não há missing values nesses pontos e eles não por um processo de normalização.

A classificação de instância é binária onde ela pode ser "Com Expressão" ("Expression", onde os pontos representam a expressão facial) ou "Sem Expressão" ("Not Expression", os pontos não representam uma expressão).

Para esta atividade e as próximas, optamos por utilizar utilizar somente as observações da expressão facial `negativa`, primeiro em sua forma bruta e depois pré-processada.

### 1.1 Base "bruta"

A base com os dados brutos (sem tratamentos) apresenta as seguintes estatísticas descritivas:

In [2]:
category = 'negative'
raw_data = load_datapoints_with_targets(category)

raw_data.describe()

Unnamed: 0,0x,0y,0z,1x,1y,1z,2x,2y,2z,3x,...,97x,97y,97z,98x,98y,98z,99x,99y,99z,target
count,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,...,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0
mean,309.397827,219.230181,1060.284922,306.747875,217.450552,1131.164819,303.378426,216.894622,1193.764597,300.074385,...,336.2139,205.329225,1272.370658,341.628362,207.474289,1184.382114,344.936643,210.218903,986.881744,0.458241
std,10.612048,14.87446,439.370887,10.614432,15.017886,361.55821,10.64303,15.185494,266.93004,10.749632,...,8.731956,13.120294,89.417381,8.828361,12.035667,351.531081,9.283779,11.35009,555.178027,0.498345
min,284.689,180.156,0.0,281.267,177.075,0.0,276.624,176.11,0.0,272.141,...,316.827,160.573,0.0,321.877,164.759,0.0,325.012,169.715,0.0,0.0
25%,298.53925,201.93875,1216.0,295.93575,199.9795,1221.0,292.49425,199.24225,1225.0,288.96825,...,328.49,190.455,1265.0,333.7715,193.95425,1275.0,336.41025,197.584,1208.0,0.0
50%,312.03,229.251,1238.0,309.4205,227.463,1243.0,306.307,227.0815,1256.0,303.3225,...,335.835,213.6415,1284.0,341.306,214.3655,1294.0,345.151,216.028,1294.0,0.0
75%,317.97475,231.949,1261.0,315.219,230.35525,1270.0,311.805,229.97775,1280.0,308.52675,...,342.7095,216.59625,1294.0,348.1305,217.37375,1299.0,351.98175,219.5235,1309.0,1.0
max,331.248,239.845,1299.0,328.514,238.11,1304.0,325.127,237.517,1314.0,321.947,...,356.602,223.18,1329.0,362.141,223.94,1542.0,365.228,225.527,1563.0,1.0


### 1.2 Base normalizada

No processo de normalização da base buscamos centralizar cada frame (observação) em relação a um ponto em comum no frame.
Escolhemos o ponto 89 (`nose tip`) como referência e aplicamos o processo nas seguintes etapas:

1.   Encontramos os valores médios para o ponto 89 nos valores de `x` e `y` (ignoramos o valor de `z` por ele usar uma medida em milimetros ao invés de em pixels, [referência](https://archive.ics.uci.edu/ml/datasets/Grammatical+Facial+Expressions#));
2.   Calculamos os deltas do ponto 89 de cada observação em relação aos valores médios encontrados;
3.   Subtraimos esse delta de todos os pontos de cada observação.

Aplicando essa normalização percebemos que a média permaneceu a mesma, mas a amplitude dos dados diminuiu nas bases, o que pode ser constatado pela diferença entre o mínimo e o máximo de cada variável.

In [3]:
normalized_data = centralize_observations(raw_data)
normalized_data.describe()

Unnamed: 0,0x,0y,0z,1x,1y,1z,2x,2y,2z,3x,...,97x,97y,97z,98x,98y,98z,99x,99y,99z,target
count,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,...,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0,2706.0
mean,309.397827,219.230181,1060.284922,306.747875,217.450552,1131.164819,303.378426,216.894622,1193.764597,300.074385,...,336.2139,205.329225,1272.370658,341.628362,207.474289,1184.382114,344.936643,210.218903,986.881744,0.458241
std,1.625597,2.741896,439.370887,1.766325,2.647455,361.55821,1.909747,2.545192,266.93004,2.06836,...,3.90509,5.389459,89.417381,3.914957,6.521451,351.531081,3.385256,7.330508,555.178027,0.498345
min,303.950854,209.79712,0.0,300.704854,207.54012,0.0,296.182854,206.90412,0.0,291.035854,...,324.399854,191.58812,0.0,329.433854,190.30512,0.0,333.625854,190.42912,0.0,0.0
25%,308.392854,217.15362,1216.0,305.627854,215.37112,1221.0,302.096854,214.94862,1225.0,298.725104,...,332.981354,200.48687,1265.0,338.390354,201.33112,1275.0,342.261354,203.14512,1208.0,0.0
50%,309.606354,219.17962,1238.0,306.972854,217.45062,1243.0,303.588354,217.09362,1256.0,300.290354,...,335.892854,206.15562,1284.0,341.439354,208.10312,1294.0,345.075854,210.95462,1294.0,0.0
75%,310.441854,221.67462,1261.0,307.857104,219.73387,1270.0,304.494854,219.01862,1280.0,301.115854,...,340.044854,210.09087,1294.0,345.416854,213.09812,1299.0,348.082604,216.89537,1309.0,1.0
max,314.504854,224.50212,1299.0,312.710854,222.92012,1304.0,310.230854,222.41312,1314.0,307.853854,...,348.181854,214.91212,1329.0,356.601854,219.07712,1542.0,360.888854,223.07312,1563.0,1.0


## 2. Validação Cruzada

Função que imprime info sobre os folds

In [4]:
def compute_statistics(classes):
  n_classes = len(classes)
  n_positive = len(classes[classes == 1])
  n_negative = len(classes[classes == 0])
  prop_positive = round(n_positive / n_classes, 3)
  prop_negative = round(1.0 - prop_positive, 3)

  return n_classes, n_positive, n_negative, prop_positive, prop_negative

def Stratified_KFold(X, y, K):
  kf = StratifiedKFold(n_splits=K, shuffle=False)
  
  n_classes, n_pos, n_neg, prop_pos, prop_neg = compute_statistics(y)    
  print(f'proporção inicial: pos {prop_pos} neg {prop_neg}')

  train_and_test_indexes = kf.split(X, y)

  for i, indexes in enumerate(train_and_test_indexes, 1):
    train_index, test_index = indexes

    X1_train, X1_test = X[train_index], X[test_index]
    y1_train, y1_test = y[train_index], y[test_index]
    
    n_treino, n_pos_treino, n_neg_treino, prop_pos_treino, prop_neg_treino = compute_statistics(y1_train)    
    n_teste, n_pos_teste, n_neg_teste, prop_pos_teste, prop_neg_teste = compute_statistics(y1_test)
    
    print(f'Fold: {i} nº treino {n_treino} nº pos treino {n_pos_treino} nº neg treino {n_neg_treino} proporção treino pos {prop_pos_treino} neg {prop_neg_treino} Total: {n_classes}')
    print(f'Fold: {i} nº teste {n_teste} nº pos teste {n_pos_teste} nº neg teste {n_neg_teste} proporção teste pos {prop_pos_teste} neg {prop_neg_teste} Total: {n_classes}')
    
  return K

In [5]:
X = normalized_data.values[:,:-1]
y = normalized_data.values[:, -1:].ravel()

Stratified_KFold(X, y, K = 10)

proporção inicial: pos 0.458 neg 0.542
Fold: 1 nº treino 2435 nº pos treino 1116 nº neg treino 1319 proporção treino pos 0.458 neg 0.542 Total: 2706
Fold: 1 nº teste 271 nº pos teste 124 nº neg teste 147 proporção teste pos 0.458 neg 0.542 Total: 2706
Fold: 2 nº treino 2435 nº pos treino 1116 nº neg treino 1319 proporção treino pos 0.458 neg 0.542 Total: 2706
Fold: 2 nº teste 271 nº pos teste 124 nº neg teste 147 proporção teste pos 0.458 neg 0.542 Total: 2706
Fold: 3 nº treino 2435 nº pos treino 1116 nº neg treino 1319 proporção treino pos 0.458 neg 0.542 Total: 2706
Fold: 3 nº teste 271 nº pos teste 124 nº neg teste 147 proporção teste pos 0.458 neg 0.542 Total: 2706
Fold: 4 nº treino 2435 nº pos treino 1116 nº neg treino 1319 proporção treino pos 0.458 neg 0.542 Total: 2706
Fold: 4 nº teste 271 nº pos teste 124 nº neg teste 147 proporção teste pos 0.458 neg 0.542 Total: 2706
Fold: 5 nº treino 2435 nº pos treino 1116 nº neg treino 1319 proporção treino pos 0.458 neg 0.542 Total: 2706

10