# k-Fold Cross Validation

**k-Fold Cross Validation** √© uma t√©cnica de valida√ß√£o cruzada amplamente utilizada em *Machine Learning* para avaliar o desempenho de um modelo de forma mais robusta e reduzir o vi√©s relacionado √† divis√£o dos dados.

---

## üìñ O que √©?

O objetivo do **k-Fold Cross Validation** √© avaliar como um modelo generaliza para um conjunto de dados independente. Em vez de usar uma √∫nica divis√£o treino/teste, ele realiza m√∫ltiplas divis√µes e avalia o modelo em cada uma delas.

O processo consiste em:  
1. Dividir o dataset em **k** partes (ou *folds*) de tamanho aproximadamente igual.  
2. Para cada *fold*:  
   - Usar **k-1 folds** para treinar o modelo.  
   - Usar o *fold* restante para testar o modelo.  
3. Repetir o processo **k** vezes, cada vez com um *fold* diferente sendo usado como teste.  
4. Calcular uma m√©trica (ex: acur√°cia, erro m√©dio) para cada itera√ß√£o e, ao final, tirar a **m√©dia** dos resultados.

---

## üî¢ Como Funciona?

1. Escolha o n√∫mero de *folds* \(k\) (ex.: \(k=5\)).  
2. Divida o conjunto de dados em 5 partes iguais.  
3. Execute 5 treinos/testes:  
   - Na 1¬™ itera√ß√£o, use o 1¬∫ fold para teste e os outros 4 para treino.  
   - Na 2¬™ itera√ß√£o, use o 2¬∫ fold para teste e os outros 4 para treino.  
   - ‚Ä¶ repita at√© cada fold ter sido usado como teste uma vez.  

üìä **Exemplo com \(k=5\):**

| Itera√ß√£o | Folds de Treino       | Fold de Teste |
|----------|------------------------|---------------|
| 1        | 2, 3, 4, 5             | 1             |
| 2        | 1, 3, 4, 5             | 2             |
| 3        | 1, 2, 4, 5             | 3             |
| 4        | 1, 2, 3, 5             | 4             |
| 5        | 1, 2, 3, 4             | 5             |

---

## ‚úÖ Vantagens

- Usa todos os dados para treino e teste.
- Fornece uma estimativa mais confi√°vel do desempenho do modelo.
- Reduz o risco de overfitting associado a uma √∫nica divis√£o de dados.

---

## ‚ö†Ô∏è Desvantagens

- Mais caro computacionalmente, pois o modelo √© treinado **k** vezes.
- Se o dataset for muito grande, pode ser demorado.

---

## üìå F√≥rmula para m√©dia da m√©trica

Seja \(M_i\) a m√©trica obtida na itera√ß√£o \(i\), a m√©dia final \(M\) √©:

$$
M = \frac{1}{k} \sum_{i=1}^{k} M_i
$$

---

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [None]:
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

#Aplicando K-fold Croos validation

In [None]:
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 10)
print("Accuracy: {:.2f} %".format(accuracies.mean()*100))
print("Standard Deviation: {:.2f} %".format(accuracies.std()*100))