Exercício de apoio - Semana 7: Comparando o desempenho de classificadores numa base de dados com faixas de preços de smartphones

O objetivo deste exercício é fazer a comparação do desempenho usando três algoritmos de classificação: k-NN, SVM e Random Forest. Para isso, use o conjunto de dados sobre faixas de preço de smartphones, contendo várias características dos aparelhos (descritas abaixo). Verifique os valores obtidos para acurácia, precisão, revocação, medida F1. Use também a validação cruzada para verificar a acurácia dos classificadores.

Mexa nos parâmetros dos algoritmos para conseguir os melhores resultados possíveis. Qual foi o desempenho obtido pelos classificadores? Alguns deles se destacou?

O conjunto de dados contém os atributos descritos a seguir, e está disponível no link abaixo:

https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv

Classificação de preços de smartphones
id: identificador
battery_power: capacidade de armazenamento (mAh)
blue: tem bluetooth (0 - não, 1 - sim)
clock_speed: velocidade do processador (GHz)
dual_sim: suporte a dois chips SIM (0 - não, 1 - sim)
fc: câmera frontal (megapixels)
four_g: suporte a 4G (0 - não, 1 - sim)
int_memory: memória interna (GB)
m_dep: profundidade (cm)
mobile_wt: peso (g)
n_cores: núcleos do processador
pc: câmera principal (megapixels) 
px_height: altura de resolução (pixels)
px_width: largura de resolução (pixels)
ram: memória RAM (MB)
sc_h: altura da tela (cm)
sc_w: largura da tela (cm)
talk_time: tempo de duração da bateria durante ligações (horas)
three_g: suporte a 3G (0 - não, 1 - sim)
touch_screen: tela sensível ao toque (0 - não, 1 - sim)
wifi: suporte a wifi (0 - não, 1 - sim)
Atributo classe:

price_range: faixa de preço (0 - barato, 1 - médio, 2 - caro, 4 - muito caro)
URL original do conjunto de dados
https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification

Fonte: Mobile Price Classification | Abhishek Sharma, Kaggle.

1. Importando as bibliotecas scikit-learn, pandas e matplotlib.

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.svm import SVC

from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score, classification_report

from sklearn.preprocessing import StandardScaler

plt.rcParams['figure.figsize']=[15,10]

plt.rcParams.update({'font.size': 18})

 

2. Importe a base de dados direto da URL e verifique as primeiras linhas. O arquivo contém 2000 registros.

url = 'https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv'

telefones = pd.read_csv(url, sep=',')

telefones.head()

telefones.info()

<class 'pandas.core.frame.DataFrame'>
 RangeIndex: 2000 entries, 0 to 1999
 Data columns (total 21 columns):
  #    Column         Non-Null Count  Dtype  
 ---  ------          --------------  -----  
  0    battery_power  2000 non-null   int64   
  1    blue           2000 non-null   int64   
  2    clock_speed    2000 non-null   float64
  3    dual_sim       2000 non-null   int64   
  4    fc             2000 non-null   int64   
  5    four_g         2000 non-null   int64   
  6    int_memory     2000 non-null   int64   
  7    m_dep          2000 non-null   float64
  8    mobile_wt      2000 non-null   int64   
  9    n_cores        2000 non-null   int64   
  10   pc             2000 non-null   int64   
  11   px_height      2000 non-null   int64   
  12   px_width       2000 non-null   int64   
  13   ram            2000 non-null   int64   
  14   sc_h           2000 non-null   int64   
  15   sc_w           2000 non-null   int64   
  16   talk_time      2000 non-null   int64   
  17   three_g        2000 non-null   int64   
  18   touch_screen   2000 non-null   int64   
  19   wifi           2000 non-null   int64   
  20   price_range    2000 non-null   int64   
 dtypes: float64(2), int64(19)
 memory usage: 328.2 KB

 

3. Separando os atributos dos rótulos e separando os dados de treinamento (80%) e teste (20%).

atributos = telefones.iloc[:,:20]

classes = telefones['price_range']

telefones_treino, telefones_teste, classes_treino, classes_teste = train_test_split(atributos, classes, test_size = 0.2)

 

4. Diminuindo a escala dos dados para melhorar o treinamento.

scaler = StandardScaler()

telefones_treino = scaler.fit_transform(telefones_treino)

telefones_teste = scaler.transform(telefones_teste)

 

5. Classificando com o algoritmo k-NN.

modelo_kNN = KNeighborsClassifier(n_neighbors = 80)

modelo_kNN.fit(telefones_treino,classes_treino)

 

6. Medindo a acurácia do classificador k-NN.

predicao_kNN = modelo_kNN.predict(telefones_teste)

acuracia_kNN = accuracy_score(classes_teste,predicao_kNN)

print('Acurácia de classificação k-NN: {}'.format(round(acuracia_kNN,3)*100)+'%')

 

Acurácia de classificação k-NN: 65.0%

 

7. Medindo precisão, revogação e medida F1 do k-NN.

print(classification_report(classes_teste, predicao_kNN))

 

                    precision    recall   f1-score   support
 
                   0        0.72      0.86        0.79            94
                   1       0.55       0.46        0.50          104
                   2       0.53       0.58        0.56          103
                   3       0.81       0.72        0.76            99
 
        accuracy                                   0.65          400
      macro avg       0.65      0.66      0.65          400
 weighted avg       0.65       0.65       0.65          400

 

8. Executando o k-NN com validação cruzada.

cross_val_score(modelo_kNN, telefones_treino, classes_treino, cv=10)

array([0.625  , 0.7     , 0.65625, 0.69375, 0.5375, 0.68125, 0.60625,
        0.63125, 0.6375 , 0.6625 ])

 

9. Classificando com SVM usando a função kernel polinomial.

modelo_SVM = SVC(kernel = 'poly', degree = 2, gamma = 'scale', C = 2.0, coef0 = 25)

modelo_SVM.fit(telefones_treino, classes_treino)

 

10. Medindo a acurácia do classificador SVM.

predicao_SVM = modelo_SVM.predict(telefones_teste)

acuracia_SVM = accuracy_score(classes_teste,predicao_SVM)

print('Acurácia de classificação SVM: {}'.format(round(acuracia_SVM,3)*100)+'%')

 

Acurácia de classificação SVM: 95.199%

 

11. Medindo precisão, revogação e medida F1 do SVM.

print(classification_report(classes_teste, predicao_SVM))

                     precision     recall  f1-score    support
 
                    0        0.97      0.98         0.97            94
                    1        0.95      0.93         0.94          104
                    2        0.92      0.94         0.93          103
                    3        0.97      0.96         0.96            99
 
        accuracy                                    0.95          400
      macro avg       0.95      0.95          0.95          400
 weighted avg       0.95       0.95         0.95          400

 

12. Executando o SVM com validação cruzada.

cross_val_score(modelo_SVM, telefones_treino, classes_treino, cv=10)

array([0.95   , 0.95625, 0.95625, 0.95625, 0.93125, 0.94375, 0.975,
        0.96875, 0.975, 0.96875])

 

13. Classificando com Random Forest.

modelo_RF = RandomForestClassifier()

modelo_RF.fit(telefones_treino,classes_treino)

 

14. Medindo a acurácia do classificador Random Forest.

predicao_RF = modelo_RF.predict(telefones_teste)

acuracia_RF = accuracy_score(classes_teste,predicao_RF)

print('Acurácia de classificação RF: {}'.format(round(acuracia_RF,3)*100)+'%')

 

Acurácia de classificação RF: 88.2%

 

15. Medindo precisão, revogação e medida F1 do Random Forest.

print(classification_report(classes_teste, predicao_RF))

                     precision     recall   f1-score   support
 
                    0        0.90      0.96         0.93            94
                    1        0.86      0.81         0.83          104
                    2        0.84      0.84         0.84          103
                    3        0.94      0.93         0.93            99
 
        accuracy                                    0.88          400
     macro avg       0.88      0.88           0.88          400
 weighted avg       0.88       0.88         0.88          400

 

16. Executando o Random Forest com validação cruzada.

cross_val_score(modelo_RF, telefones_treino,classes_treino, cv=10)

array([0.84375, 0.84375, 0.84375, 0.875  , 0.86875, 0.85625, 0.875  ,
        0.86875, 0.8625 , 0.85   ])

 

Concluindo

Os resultados dos classificadores podem variar dependendo dos parâmetros que foram selecionados. Neste caderno, SVM teve um desempenho melhor para esses dados, com Random Forest apresentando um desempenho próximo. Já k-NN não funcionou bem com os parâmetros de treinamento que foram usados.

Experimente ver os resultados alterando os parâmetros dos algoritmos para ver se consegue melhores resultados. Se quiser, aplique o conjunto de dados a outros algoritmos de classificação.

 

Acesse o gabarito do código em Python no link a seguir:

com410-semana-7-exercicio-apoio-comparacao-gabarito.ipynb

 

Versões das bibliotecas

Esse tutorial está usando as seguintes versões de bibliotecas:

matplotlib==3.2.2

pandas==1.3.5

scikit-learn==1.0.2

Python==3.7