## COM410 - Aprendizado de Máquinas - Semana 7
### Exercício de apoio: Comparando o desempenho de classificadores numa base de dados com faixas de preços de smartphones


O objetivo deste exercício é fazer a comparação do desempenho usando três algoritmos de classificação: k-NN, SVM e Random Forest.
Para isso, use o conjunto de dados sobre faixas de preço de smartphones, contendo várias características dos aparelhos (descritas abaixo).
Verifique os valores obtidos para acurácia, precisão, revocação, medida F1. Use também a validação cruzada para verificar a acurácia dos classificadores.

Mexa nos parâmetros dos algoritmos para conseguir os melhores resultados possíveis. Qual foi o desempenho obtido pelos classificadores? Alguns deles se destacou?




O conjunto de dados contém os atributos descritos a seguir, e está disponível no link abaixo: 

https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv

#### Classificação de preços de smartphones

- **id**: identificador
- **battery_power**: capacidade de armazenamento (mAh)
- **blue**: tem bluetooth (0 - não, 1 - sim)
- **clock_speed**: velocidade do processador (GHz)
- **dual_sim**: suporte a dois chips SIM (0 - não, 1 - sim)
- **fc**: câmera frontal (mega pixels)
- **four_g**: suporte a 4G (0 - não, 1 - sim)
- **int_memory**: memória interna (GB)
- **m_dep**: profundidade (cm)
- **mobile_wt**: peso (g)
- **n_cores**: núcleos do processador
- **pc**: câmera principal (mega pixela) 
- **px_height**: altura de resolução (pixels)
- **px_width**: largura de resolução (pixels)
- **ram**: memória RAM (MB)
- **sc_h**: altura da tela (cm)
- **sc_w**: largura da tela (cm)
- **talk_time**: tempo de duração da bateria dirante ligações (horas)
- **three_g**: suporte a 3G (0 - não, 1 - sim)
- **touch_screen**: tela sensível a toque  (0 - não, 1 - sim)
- **wifi**: suporte a wifi (0 - não, 1 - sim)

Atributo classe:
- **price_range**: faixa de preço (0 - barato, 1 - médio, 2 - caro, 4 - muito caro)

#### URL original do conjunto de dados
https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification

Fonte: **Mobile Price Classification** | Abhishek Sharma, Kaggle.

#### 1. Importando as bibliotecas **scikit-learn**, **pandas** e **matplotlib**. Importe as bibliotecas.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

plt.rcParams['figure.figsize']=[15,10]
plt.rcParams.update({'font.size': 18})

#### 2.     Importe a base de dados direto da URL e verifique as primeiras linhas. O arquivo contém 2000 registros. 

In [None]:
url = 'https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv'
telefones = pd.read_csv(url, sep=',')
telefones.head(10)

In [None]:
telefones.info()

#### 3. Separando os atributos dos rótulos e separando os dados de treinamento (80%) e teste (20%)

In [None]:
atributos = telefones.iloc[:,:20]
classes = telefones['price_range']

In [None]:
telefones_treino, telefones_teste, classes_treino, classes_teste = train_test_split(atributos, classes, test_size = 0.2)

#### 4. Diminuindo a escala dos dados para melhorar o treinamento

In [None]:
scaler = StandardScaler()
telefones_treino = scaler.fit_transform(telefones_treino)
telefones_teste = scaler.transform(telefones_teste)

#### 5. Classificando com o algoritmo k-NN

In [None]:
modelo_kNN = KNeighborsClassifier(n_neighbors = 80)
modelo_kNN.fit(telefones_treino,classes_treino)


#### 6. Medindo a acurácia do classificador k-NN

In [None]:
predicao_kNN = modelo_kNN.predict(telefones_teste)
acuracia_kNN = accuracy_score(classes_teste,predicao_kNN)
print('Acurácia de classificação k-NN: {}'.format(round(acuracia_kNN,3)*100)+'%')

#### 7. Medindo precisão, revogação e medida F1 do k-NN

In [None]:
print(classification_report(classes_teste, predicao_kNN))

#### 8. Executando o k-NN com validação cruzada

In [None]:
cross_val_score(modelo_kNN, telefones_treino, classes_treino, cv=10)

#### 9. Classificando com SVM usando a função kernel polinomial

In [None]:
modelo_SVM = SVC(kernel = 'poly', degree = 2, gamma = 'scale', C = 2.0, coef0 = 25)
modelo_SVM.fit(telefones_treino, classes_treino)

#### 10. Medindo a acurácia do classificador SVM

In [None]:
predicao_SVM = modelo_SVM.predict(telefones_teste)
acuracia_SVM = accuracy_score(classes_teste,predicao_SVM)
print('Acurácia de classificação SVM: {}'.format(round(acuracia_SVM,3)*100)+'%')

#### 11. Medindo precisão, revogação e medida F1 do SVM

In [None]:
print(classification_report(classes_teste, predicao_SVM))

#### 12. Executando o SVM com validação cruzada

In [None]:
cross_val_score(modelo_SVM, telefones_treino, classes_treino, cv=10)

#### 13. Classificando com Random Forest

In [None]:
modelo_RF = RandomForestClassifier()
modelo_RF.fit(telefones_treino,classes_treino)

#### 14. Medindo a acurácia do classificador Random Forest

In [None]:
predicao_RF = modelo_RF.predict(telefones_teste)
acuracia_RF = accuracy_score(classes_teste,predicao_RF)
print('Acurácia de classificação RF: {}'.format(round(acuracia_RF,3)*100)+'%')

#### 15. Medindo precisão, revogação e medida F1 do Random Forest

In [None]:
print(classification_report(classes_teste, predicao_RF))

#### 16. Executando o Random Forest com validação cruzada

In [None]:
cross_val_score(modelo_RF, telefones_treino,classes_treino, cv=10)

Os resultados dos classificadores podem variar dependendo dos parâmetros que foram selecionados. Neste caderno, SVM teve um desempenho melhor para esses dados, com Random Forest apresentando um desempenho próximo. Já k-NN não funcionou bem com os parâmetros de treinamento que foram usados.

Experimente ver os resultados alterando os parâmetros dos algoritmos para ver se consegue melhores resultados. Se quiser, aplique o conjunto de dados a outros algoritmos de classificação.

**Versões das bibliotecas**

Esse tutorial está usando as seguintes versões de bibliotecas: 

matplotlib==3.2.2

pandas==1.3.5

scikit-learn==1.0.2