## COM410 - Aprendizado de Máquinas - Semana 7
### Tutorial da videoaula 18: Comparação de Modelos Preditivos


Nesta aula, vamos comparar o desempenho dos algoritmos de classificação k-NN, SVM e RandomForest usando algumas métricas de desempenho. Vamos usar um conjunto de dados sobre a qualidade de vinhos, muito usado para avaliar algoritmos de classificação. 

Sobre o Google Colab, recomendamos que, se necessário, reveja a videoaula Jupyter Notebook e Colab Google, videoaula 4 do curso COM350 - Introdução à Ciência de Dados (https://youtu.be/ZC8bfSZLl80) ou acesse a ferramenta no site https://colab.research.google.com/. Caso não tenha uma conta Google ou não queira usar, pode fazer também no Jupyter Notebook. 

#### Qualidade de vinhos tintos

#### O conjunto de dados usado neste caderno está disponível em:

https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/vinhos-binario.csv

#### O conjunto de dados modificado para classificação binária está em:
https://www.kaggle.com/datasets/nareshbhat/wine-quality-binary-classification

Fonte: Naresha Bhat, Kaggle.

#### URL original do conjunto de dados
https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv

Fonte: UCI Machine Learning Repository, Centro para Aprendizado de Máquina e Sistemas Inteligentes, Universidade da Califórnia, Irvine.

Descrição dos atributos da base de dados: 
- **fixed acidity** (acidez fixa)
- **volatile acidity** (acidez volátil)
- **citric acid** (acidez cítrica)
- **residual sugar** (açúcar residual)
- **chlorides** (cloretos)
- **free sulfur dioxide** (dióxido de enxofre livre)
- **total sulfur dioxide** (dióxido de enxofre total)
- **density** (densidade)
- **pH**
- **sulphates** (sulfatos)
- **alcohol** (álcool)
Atributo classe:
- **quality (score 0 or 1)** (qualidade - pontuação 0 (ruim, notas <= 5) ou 1 (bom, notas > 5))


#### 1. Nesta atividade, usaremos as bibliotecas **scikit-learn**, **pandas** e **matplotlib**. Importe as bibliotecas.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, RocCurveDisplay
from sklearn.preprocessing import StandardScaler

plt.rcParams['figure.figsize']=[15,10]
plt.rcParams.update({'font.size': 18})

#### 2. Importe a base de dados direto da URL e verifique as primeiras linhas. O arquivo contém 1599 registros. 

In [None]:
url = 'https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/vinhos-binario.csv'
vinhos = pd.read_csv(url, sep=',')
vinhos.head(10)

In [None]:
vinhos.info()

#### 3. Separando os atributos dos rótulos e separando os dados de treinamento (90%) e teste (10%)

In [6]:
vinhos_atributos = vinhos.iloc[:,:11]
vinhos_classes = vinhos['quality']

In [118]:
vinhos_treino, vinhos_teste, classes_treino, classes_teste = train_test_split(vinhos_atributos, vinhos_classes, test_size = 0.1)

#### 4. Diminuindo a escala dos dados para melhorar o treinamento.

In [119]:
scaler = StandardScaler()
vinhos_treino = scaler.fit_transform(vinhos_treino)
vinhos_teste = scaler.transform(vinhos_teste)

#### 5. Vamos começar com o algoritmo k-NN

In [None]:
modelo_kNN = KNeighborsClassifier(n_neighbors = 20)
modelo_kNN.fit(vinhos_treino, classes_treino)

#### 6. Verificando a acurácia de classificação do k-NN

In [None]:
predicao_kNN = modelo_kNN.predict(vinhos_teste)
acuracia_kNN = accuracy_score(classes_teste, predicao_kNN)
print('Acurácia de classificação k-NN: {}'.format(round(acuracia_kNN, 3)*100)+'%')

#### 7. A função **classification_report** traz, além da acurácia, os valores de precisão, revogação e medida F1 obtidas para cada classe

In [None]:
print(classification_report(classes_teste, predicao_kNN))

#### 8. Outra forma de avaliar os resultados é usar a validação cruzada, que permite ver a acurácia de classificação com diferentes partições dos dados

In [None]:
cross_val_score(modelo_kNN, vinhos_treino, classes_treino, cv=10)

#### 9. Vamos olhar também a curva ROC obtida pelo k-NN para esses dados. Aqui, passamos o modelo a ser treinado e os dados de teste para a função **from_estimator** da classe **RocCurveDisplay**. No gráfico gerado, podemos o valor AUC (área sob a curva) obtido. Quanto mais perto de 1.0 (céu ROC), melhor.

In [None]:
RocCurveDisplay.from_estimator(modelo_kNN.fit(vinhos_treino, classes_treino), vinhos_teste, classes_teste)
plt.show()

#### 10. Vamos classificar usando SVM, treinando o modelo com a função kernel linear.


In [None]:
modelo_SVM = SVC(kernel = 'linear')
modelo_SVM.fit(vinhos_treino, classes_treino)

#### 11. Acurácia de classificação com SVM

In [None]:
predicao_SVM = modelo_SVM.predict(vinhos_teste)
acuracia_SVM = accuracy_score(classes_teste, predicao_SVM)
print('Acurácia de classificação SVM: {}'.format(round(acuracia_SVM,3)*100)+'%')

#### 12. Precisão, revogação e medida F1

In [None]:
print(classification_report(classes_teste, predicao_SVM))

#### 13. Usando validação cruzada

In [None]:
cross_val_score(modelo_SVM, vinhos_treino, classes_treino, cv=10)

#### 14. Curva ROC

In [None]:
RocCurveDisplay.from_estimator(modelo_SVM.fit(vinhos_treino, classes_treino), vinhos_teste, classes_teste)
plt.show()

#### 15. Vamos fazer a classificação usando o algoritmo Random Forest

In [None]:
modelo_RF = RandomForestClassifier()
modelo_RF.fit(vinhos_treino, classes_treino)

#### 16. Acurácia de classificação com Random Forest

In [None]:
predicao_RF = modelo_RF.predict(vinhos_teste)
acuracia_RF = accuracy_score(classes_teste, predicao_RF)
print('Acurácia de classificação RF: {}'.format(round(acuracia_RF,3)*100)+'%')

#### 17. Precisão, revocação e medida F1

In [None]:
print(classification_report(classes_teste, predicao_RF))

#### 18. Validação cruzada

In [None]:
cross_val_score(modelo_RF, vinhos_treino, classes_treino, cv=10)

#### 19. Curva ROC

In [None]:
RocCurveDisplay.from_estimator(modelo_RF.fit(vinhos_treino, classes_treino), vinhos_teste, classes_teste)
plt.show()

De forma geral, os resultados obtidos pelos classificadores para as diferentes métricas de desempenho foram parecidos para este conjunto de dados.

Experimente alterar os parâmetros dos algoritmos para ver se consegue melhores resultados.

**Versões das bibliotecas**

Esse tutorial está usando as seguintes versões de bibliotecas: 

matplotlib==3.2.2

pandas==1.3.5

scikit-learn==1.0.2