<a href="https://colab.research.google.com/github/arnaldojr/cognitivecomputing/blob/master/material/aulas/IA/lab05/validacaocruzada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 2. Aprendizagem de máquina

### Objetivos

  - Entender e praticar validação cruzada: kfold.


## Validação Cruzada

A técnica de validação cruzada consiste em dividir em partes pequenas (fold) a base de dados e realizar diversos treinamentos e validações com partes diferente de treinamento e teste, ao final é feita a média e o desvio padrão do aprendizado.

Prós:
  - Normalmente aumenta a performance do modelo.
  - Reduz aleatoriedade, reduz viez.

Contra:
  - Mais processamento computacional.
  
Dicas:
  - A escolha do `k` numero de folds é determinada tipicamente como sendo 5 ou 10.

## Diagrama do kfold

<img src="https://github.com/arnaldojr/cognitivecomputing/blob/master/material/aulas/IA/lab05/07_cross_validation_diagram.png?raw=1" width="450">


In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics

In [2]:
# importa o dataset iris
iris = load_iris()

# separa os dados em atributos (x) e alvo (y)
X = iris.data
y = iris.target

In [13]:
# divide os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)

# treina o modelo com knn=15
knn = KNeighborsClassifier(n_neighbors=15)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

# resultado da acuracia
metrics.accuracy_score(y_test, y_pred)

0.9

## Melhorando o modelo

Até aqui, sem novidades! Mas... como ficaria o resultado se os grupos de teste e treino fossem alterados? vamos descobrir usando o kfold.


In [4]:
from sklearn.model_selection import KFold

crossvalidation = KFold(n_splits=10,shuffle=True, random_state=7)

knn = KNeighborsClassifier(n_neighbors=5)

In [5]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(knn, X, y, cv=crossvalidation, scoring='accuracy')
print("Array do kfold com os resultados: ",scores)

Array do kfold com os resultados:  [0.86666667 0.86666667 1.         1.         1.         1.
 1.         0.93333333 0.93333333 0.93333333]


In [6]:
print("Acuracia média com kfold: ",scores.mean())

Acuracia média com kfold:  0.9533333333333334


## Pergunta: O Resultado foi praticamente o mesmo, por que?

Poque ao final do Kfold, é feita a média e o desvio padrão do aprendizado de todos os resultados. Assim, não é tão diferente do resultado do KNN

## Desafio: Implementamos kfold para o classificador KNN, implemente kfold para um modelo de regressão

In [17]:
from sklearn.linear_model import LinearRegression

crossvalidation = KFold(n_splits=10,shuffle=True, random_state=7)

linModel = LinearRegression()

scores = cross_val_score(linModel, X, y, cv=crossvalidation, scoring='r2')
print("Array do kfold com os resultados: ",scores)


Array do kfold com os resultados:  [0.82559791 0.81147704 0.95118855 0.96425755 0.92715981 0.96710397
 0.97387761 0.93103036 0.8808125  0.91442276]


In [18]:
print("Acuracia média com kfold: ",scores.mean())

Acuracia média com kfold:  0.9146928063470222


## Bonus: Outras técnicas de avaliação de modelo

- `StratifiedKFold` = Lida melhor com dados desbalanceados, ou seja, possui uma diferça grande entre as frequencias das classes, pois tentar manter a mesma proporção em todos os folds.


- `ShuffleSplit` = Gera folds aleatorios de treino e teste a cada iteração. Um cuidado, pode ser que entre uma iteração e outra os mesmos dados sejam selecionados


In [19]:
from sklearn.model_selection import KFold, StratifiedKFold, ShuffleSplit

In [21]:
skf = StratifiedKFold(n_splits=10)
skf.get_n_splits(X, y)
print(skf)

StratifiedKFold(n_splits=10, random_state=None, shuffle=False)


In [22]:
for i, (X_train, X_test) in enumerate(skf.split(X, y)):
  print(f'Fold {i}:')
  print(f"  Train: index={X_train}")
  print(f"  Test:  index={X_test}")

Fold 0:
  Train: index=[  5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22
  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40
  41  42  43  44  45  46  47  48  49  55  56  57  58  59  60  61  62  63
  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81
  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99
 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122
 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140
 141 142 143 144 145 146 147 148 149]
  Test:  index=[  0   1   2   3   4  50  51  52  53  54 100 101 102 103 104]
Fold 1:
  Train: index=[  0   1   2   3   4  10  11  12  13  14  15  16  17  18  19  20  21  22
  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40
  41  42  43  44  45  46  47  48  49  50  51  52  53  54  60  61  62  63
  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81
  82  83  84  85  86  87  88  89  90

In [23]:
rs = ShuffleSplit(n_splits=5, test_size=5, random_state=0)
rs.get_n_splits(X)

5

In [25]:
ShuffleSplit(n_splits=5, random_state=0, test_size=0.25, train_size=None)
for i, (X_train, X_test) in enumerate(rs.split(X)):
  print(f"Fold{i}:")
  print(f"Train: index={X_train}:")
  print(f"Train: index={X_test}:")



Fold0:
Train: index=[100  40  86  76  71 134  51  73  54  63  37  78  90  45  16 121  66  24
   8 126  22  44  97  93  26 137  84  27 127 132  59  18  83  61  92 112
   2 141  43  10  60 116 144 119 108  69 135  56  80 123 133 106 146  50
 147  85  30 101  94  64  89  91 125  48  13 111  95  20  15  52   3 149
  98   6  68 109  96  12 102 120 104 128  46  11 110 124  41 148   1 113
 139  42   4 129  17  38   5  53 143 105   0  34  28  55  75  35  23  74
  31 118  57 131  65  32 138  14 122  19  29 130  49 136  99  82  79 115
 145  72  77  25  81 140 142  39  58  88  70  87  36  21   9 103  67 117
  47]:
Train: index=[114  62  33 107   7]:
Fold1:
Train: index=[143 122  63  26  64  42 108  91  77  22 148   6  65  47  68  60  15 124
  58 142  12  59 105  89  78  52 131 113  98  30 136  66 133  49  62  74
  17 106   8 135  80 107  90   0  36 112   5  57 102  55  34 128  33  21
  73   7  45 129 103 146 120  94  50 134  99 126 114   9  39  97 101  29
  81  20  46  51  53  23  27   2  28  37 