## Exercício de Apoio Semana 07

Comparando o desempenho de classificadores numa base de dados com faixas de preços de smartphones

O objetivo deste exercício é fazer a comparação do desempenho usando três algoritmos de classificação: k-NN, SVM e Random Forest. Para isso, use o conjunto de dados sobre faixas de preço de smartphones, contendo várias características dos aparelhos (descritas abaixo). Verifique os valores obtidos para acurácia, precisão, revocação, medida F1. Use também a validação cruzada para verificar a acurácia dos classificadores.

Mexa nos parâmetros dos algoritmos para conseguir os melhores resultados possíveis. Qual foi o desempenho obtido pelos classificadores? Alguns deles se destacou?

- O conjunto de dados contém os atributos descritos a seguir, e está disponível no link abaixo:

[LINK mobile-price.csv](https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv)

#### Classificação de preços de smartphones

- __id__: identificador

- __battery_power__: capacidade de armazenamento (mAh)

- __blue__: tem bluetooth (0 - não, 1 - sim)

- __clock_speed__: velocidade do processador (GHz)

- __dual_sim__: suporte a dois chips SIM (0 - não, 1 - sim)

- __fc__: câmera frontal (megapixels)

- __four_g__: suporte a 4G (0 - não, 1 - sim)

- __int_memory__: memória interna (GB)

- __m_dep__: profundidade (cm)

- __mobile_wt__: peso (g)

- __n_cores__: núcleos do processador

- __pc__: câmera principal (megapixels)

- __px_height__: altura de resolução (pixels)

- __px_width__: largura de resolução (pixels)

- __ram__: memória RAM (MB)

- __sc_h__: altura da tela (cm)

- __sc_w__: largura da tela (cm)

- __talk_time__: tempo de duração da bateria durante ligações (horas)

- __three_g__: suporte a 3G (0 - não, 1 - sim)

- __touch_screen__: tela sensível ao toque (0 - não, 1 - sim)

- __wifi__: suporte a wifi (0 - não, 1 - sim)

#### Atributo classe:

- __price_range__: faixa de preço (0 - barato, 1 - médio, 2 - caro, 4 - muito caro)

URL original do conjunto de dados

[LINK mobile-price-classification](https://www.kaggle.com/datasets/iabhishekofficial/mobile-price-classification)

`Fonte: Mobile Price Classification | Abhishek Sharma, Kaggle.`


In [1]:
# 1. Importando as bibliotecas scikit-learn, pandas e matplotlib.

import pandas as pd

import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.svm import SVC

from sklearn.neighbors import KNeighborsClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score, classification_report

from sklearn.preprocessing import StandardScaler

plt.rcParams['figure.figsize']=[15,10]

plt.rcParams.update({'font.size': 18})

In [2]:
# 2. Importe a base de dados direto da URL e verifique as primeiras linhas. O arquivo contém 2000 registros.

url = 'https://raw.githubusercontent.com/higoramario/univesp-com410-aprendizado-de-maquinas/main/mobile-price.csv'

telefones = pd.read_csv(url, sep=',')

telefones.head()

telefones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   battery_power  2000 non-null   int64  
 1   blue           2000 non-null   int64  
 2   clock_speed    2000 non-null   float64
 3   dual_sim       2000 non-null   int64  
 4   fc             2000 non-null   int64  
 5   four_g         2000 non-null   int64  
 6   int_memory     2000 non-null   int64  
 7   m_dep          2000 non-null   float64
 8   mobile_wt      2000 non-null   int64  
 9   n_cores        2000 non-null   int64  
 10  pc             2000 non-null   int64  
 11  px_height      2000 non-null   int64  
 12  px_width       2000 non-null   int64  
 13  ram            2000 non-null   int64  
 14  sc_h           2000 non-null   int64  
 15  sc_w           2000 non-null   int64  
 16  talk_time      2000 non-null   int64  
 17  three_g        2000 non-null   int64  
 18  touch_sc

In [3]:
# 3. Separando os atributos dos rótulos e separando os dados de treinamento (80%) e teste (20%).

atributos = telefones.iloc[:,:20]

classes = telefones['price_range']

telefones_treino, telefones_teste, classes_treino, classes_teste = train_test_split(atributos, classes, test_size = 0.2)


In [4]:
telefones_treino.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,pc,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi
1443,1180,1,2.5,0,0,1,27,0.1,90,6,1,168,540,348,7,5,19,1,1,1
822,839,0,2.0,1,0,0,14,0.4,175,7,3,564,1391,3835,15,8,11,1,0,0
431,1772,1,0.5,1,3,0,64,0.7,116,8,15,270,545,1834,5,2,20,0,1,1
1235,1971,1,0.5,1,0,0,40,0.3,186,7,19,485,922,571,8,7,17,1,1,0
329,972,1,0.5,1,5,0,13,0.4,193,5,8,1392,1795,1615,11,6,13,0,1,0


In [5]:
telefones_teste.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,pc,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi
155,1692,0,2.3,1,4,1,46,0.9,139,1,6,674,1925,1394,16,10,6,1,1,0
736,503,0,2.5,0,3,0,57,0.6,185,6,11,778,1291,305,11,8,16,0,0,1
1882,591,0,2.1,1,18,1,16,0.5,196,7,20,952,1726,704,14,5,4,1,1,1
181,1165,1,2.4,0,11,0,41,0.2,178,6,12,564,831,764,19,12,15,1,0,0
1739,1044,0,1.8,0,4,1,12,0.7,104,6,5,1230,1263,1794,18,7,19,1,1,1


In [6]:
classes_treino.head()

1443    0
822     3
431     1
1235    0
329     1
Name: price_range, dtype: int64

In [7]:
classes_teste.head()

155     1
736     0
1882    0
181     0
1739    1
Name: price_range, dtype: int64

In [9]:
# 4. Diminuindo a escala dos dados para melhorar o treinamento.

scaler = StandardScaler()

telefones_treino = scaler.fit_transform(telefones_treino)

telefones_teste = scaler.transform(telefones_teste)

In [10]:
# 5. Classificando com o algoritmo k-NN.

modelo_kNN = KNeighborsClassifier(n_neighbors = 80)

modelo_kNN.fit(telefones_treino,classes_treino)

In [11]:
# 6. Medindo a acurácia do classificador k-NN.

predicao_kNN = modelo_kNN.predict(telefones_teste)

acuracia_kNN = accuracy_score(classes_teste,predicao_kNN)

print('Acurácia de classificação k-NN: {}'.format(round(acuracia_kNN,3)*100)+'%')

Acurácia de classificação k-NN: 60.5%


In [12]:
# 7. Medindo precisão, revogação e medida F1 do k-NN.

print(classification_report(classes_teste, predicao_kNN))

              precision    recall  f1-score   support

           0       0.74      0.83      0.78       104
           1       0.53      0.43      0.47       109
           2       0.45      0.53      0.49        97
           3       0.72      0.64      0.68        90

    accuracy                           0.60       400
   macro avg       0.61      0.61      0.60       400
weighted avg       0.61      0.60      0.60       400



In [13]:
# 8. Executando o k-NN com validação cruzada.

cross_val_score(modelo_kNN, telefones_treino, classes_treino, cv=10)

array([0.675  , 0.6875 , 0.65625, 0.65625, 0.7    , 0.6625 , 0.65   ,
       0.65   , 0.675  , 0.69375])

In [14]:
# 9. Classificando com SVM usando a função kernel polinomial.

modelo_SVM = SVC(kernel = 'poly', degree = 2, gamma = 'scale', C = 2.0, coef0 = 25)

modelo_SVM.fit(telefones_treino, classes_treino)

In [15]:
# 10. Medindo a acurácia do classificador SVM.

predicao_SVM = modelo_SVM.predict(telefones_teste)

acuracia_SVM = accuracy_score(classes_teste,predicao_SVM)

print('Acurácia de classificação SVM: {}'.format(round(acuracia_SVM,3)*100)+'%')

Acurácia de classificação SVM: 94.0%


In [16]:
# 11. Medindo precisão, revogação e medida F1 do SVM.

print(classification_report(classes_teste, predicao_SVM))

              precision    recall  f1-score   support

           0       0.98      0.97      0.98       104
           1       0.93      0.91      0.92       109
           2       0.89      0.92      0.90        97
           3       0.96      0.97      0.96        90

    accuracy                           0.94       400
   macro avg       0.94      0.94      0.94       400
weighted avg       0.94      0.94      0.94       400



In [17]:
# 12. Executando o SVM com validação cruzada.

cross_val_score(modelo_SVM, telefones_treino, classes_treino, cv=10)

array([0.95625, 0.9625 , 0.9125 , 0.94375, 0.9625 , 0.925  , 0.9375 ,
       0.93125, 0.975  , 0.9875 ])

In [18]:
# 13. Classificando com Random Forest.

modelo_RF = RandomForestClassifier()

modelo_RF.fit(telefones_treino,classes_treino)

In [19]:
# 14. Medindo a acurácia do classificador Random Forest.

predicao_RF = modelo_RF.predict(telefones_teste)

acuracia_RF = accuracy_score(classes_teste,predicao_RF)

print('Acurácia de classificação RF: {}'.format(round(acuracia_RF,3)*100)+'%')

Acurácia de classificação RF: 84.5%


In [20]:
# 15. Medindo precisão, revogação e medida F1 do Random Forest.

print(classification_report(classes_teste, predicao_RF))

              precision    recall  f1-score   support

           0       0.92      0.93      0.93       104
           1       0.82      0.79      0.80       109
           2       0.74      0.80      0.77        97
           3       0.92      0.86      0.89        90

    accuracy                           0.84       400
   macro avg       0.85      0.85      0.85       400
weighted avg       0.85      0.84      0.85       400



In [21]:
# 16. Executando o Random Forest com validação cruzada.

cross_val_score(modelo_RF, telefones_treino,classes_treino, cv=10)

array([0.88125, 0.9125 , 0.875  , 0.9125 , 0.875  , 0.8625 , 0.85   ,
       0.8875 , 0.8375 , 0.9    ])

##### Concluindo

Os resultados dos classificadores podem variar dependendo dos parâmetros que foram selecionados. Neste caderno, SVM teve um desempenho melhor para esses dados, com Random Forest apresentando um desempenho próximo. Já k-NN não funcionou bem com os parâmetros de treinamento que foram usados.

Experimente ver os resultados alterando os parâmetros dos algoritmos para ver se consegue melhores resultados. Se quiser, aplique o conjunto de dados a outros algoritmos de classificação.

- Acesse o gabarito do código em Python no link a seguir:

com410-semana-7-exercicio-apoio-comparacao-gabarito.ipynb

##### Versões das bibliotecas

Esse tutorial está usando as seguintes versões de bibliotecas:

- matplotlib==3.2.2

- pandas==1.3.5

- scikit-learn==1.0.2

- Python==3.7