# **NOÇÕES DE APRENDIZAGEM DE MÁQUINA UTILIZANDO SKLEARN EM UM PROBLEMA DE CLASSIFICAÇÃO**

## *Os problemas de classificação são aqueles onde se busca encontrar uma classe, dentro das possibilidades limitadas existentes.*

## Etapas do machine learning
1. Coleta e análise dados: *Trata-se de um momento crucial para o resultado final, pois a quantidade e a qualidade das informações determina o quão preditivo o modelo de machine learning vai ser.*
2. Preparação dos dados: *verificar se as informações coletadas estão bem distribuídas ou se são tendenciosas.*
3. Escolha do modelo: *classificação binária, classificação multiclasse ou regressão, por exemplo.*
4. Treinamento: Utilizando um algoritmo de classificação - *A etapa do treinamento é fundamental não apenas para preparar a máquina, mas para aprimorar constantemente suas habilidades de previsão.*
5. Avaliação: *A avaliação permite testar o modelo com as informações não utilizadas no treinamento; isso é importante para verificar se a máquina realmente foi capaz de aprender, e não apenas de memorizar respostas anteriores.*

# IMPORTANDO BIBLIOTECAS

In [1]:
import pandas as pd

# Pacotes para avaliação dos modelos
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

# Pacotes para utilização dos algoritmos KNN e Support Vector Classifier (SVC)
from sklearn.neighbors import KNeighborsClassifier
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

from sklearn.svm import SVC
# https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

# Pacote para conversão de colunas numéricas em colunas categóricas
from sklearn.preprocessing import LabelEncoder
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

# Pacote para separação dos dados para treino e teste
from sklearn.model_selection import train_test_split
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

# Abrindo o dataset
*O dataset a ser utilizado já está tratado e pronto para ser utilizado*

In [2]:
df = pd.read_csv('/content/iris.csv')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [3]:
df.drop('Id', axis=1, inplace=True)
df

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [4]:
df.shape

(150, 5)

# Separando os dados em features (X) and labels (y)
**As features representam os valores (atributos) de um linha e os labels as classificações únicas das linhas**

In [None]:
# Seleção de features (entradas)
# Está pegando todos os registros e todas as colunas
# Esse array contém os dados de entrada
X = df.iloc[:,:-1].values #Valores (features)
X

In [None]:
# Seleção da coluna target
#É um vetor com os resultados
y = df['Species'] #Espécies (labels)
y

# Separando dados para treinamento e testes

In [7]:
# Pega os dados de entrada X e os dados de saída y e vamos treinar 80% e testar 20%
# Ele seleciona aleatoriamente os dados graças ao "random_state="
# Tem que fazer isso de forma a aumentar a acurácia
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=27)

In [8]:
X_train.shape

(120, 4)

In [9]:
X_test.shape

(30, 4)

In [10]:
y_train.shape

(120,)

In [11]:
y_test.shape

(30,)

# Treinando os modelos (método fit)

In [12]:
# https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
SVC_model = SVC()


In [13]:
# Para treinar passa os dados de entrada e saída
SVC_model.fit(X_train, y_train)

In [14]:
# Para testar passa só o dado de saída
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
KNN_model = KNeighborsClassifier(n_neighbors=5)
KNN_model.fit(X_train, y_train)

# Testando os modelos (método predict)

In [15]:
# Método Predict
SVC_prediction = SVC_model.predict(X_test)

In [16]:
y_test

116     Iris-virginica
36         Iris-setosa
128     Iris-virginica
117     Iris-virginica
88     Iris-versicolor
74     Iris-versicolor
91     Iris-versicolor
115     Iris-virginica
77     Iris-versicolor
21         Iris-setosa
94     Iris-versicolor
133     Iris-virginica
47         Iris-setosa
90     Iris-versicolor
58     Iris-versicolor
69     Iris-versicolor
9          Iris-setosa
120     Iris-virginica
148     Iris-virginica
105     Iris-virginica
65     Iris-versicolor
12         Iris-setosa
55     Iris-versicolor
20         Iris-setosa
145     Iris-virginica
106     Iris-virginica
92     Iris-versicolor
49         Iris-setosa
129     Iris-virginica
122     Iris-virginica
Name: Species, dtype: object

In [17]:
SVC_prediction

array(['Iris-virginica', 'Iris-setosa', 'Iris-virginica',
       'Iris-virginica', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-virginica', 'Iris-virginica',
       'Iris-setosa', 'Iris-versicolor', 'Iris-virginica', 'Iris-setosa',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-setosa', 'Iris-virginica', 'Iris-virginica',
       'Iris-virginica', 'Iris-versicolor', 'Iris-setosa',
       'Iris-versicolor', 'Iris-setosa', 'Iris-virginica',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-setosa',
       'Iris-virginica', 'Iris-virginica'], dtype=object)

In [18]:
KNN_prediction = KNN_model.predict(X_test)

In [19]:
KNN_prediction

array(['Iris-virginica', 'Iris-setosa', 'Iris-virginica',
       'Iris-virginica', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-versicolor', 'Iris-virginica', 'Iris-versicolor',
       'Iris-setosa', 'Iris-versicolor', 'Iris-virginica', 'Iris-setosa',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-versicolor',
       'Iris-setosa', 'Iris-virginica', 'Iris-virginica',
       'Iris-virginica', 'Iris-versicolor', 'Iris-setosa',
       'Iris-versicolor', 'Iris-setosa', 'Iris-virginica',
       'Iris-versicolor', 'Iris-versicolor', 'Iris-setosa',
       'Iris-virginica', 'Iris-virginica'], dtype=object)

Em resumo, ele compara o resultado com o que eu estava esperando

# Mostrando resultados

## Algoritmo SVC

### Acurácia (accuracy)

In [20]:
acuracia_svc = (accuracy_score(SVC_prediction, y_test)*100)

In [21]:
print(f'Acurácia do modelo SVC: {acuracia_svc: .2f} %')

Acurácia do modelo SVC:  93.33 %


### Confusion Matrix

In [22]:
print(confusion_matrix(SVC_prediction, y_test))

[[ 7  0  0]
 [ 0 10  1]
 [ 0  1 11]]


### Relatório de classificação

In [23]:
print(classification_report(SVC_prediction, y_test))

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       0.91      0.91      0.91        11
 Iris-virginica       0.92      0.92      0.92        12

       accuracy                           0.93        30
      macro avg       0.94      0.94      0.94        30
   weighted avg       0.93      0.93      0.93        30



## Algoritmo KNN

### Acurácia (accuracy)
*número de previsões corretas dividido pela quantidade de testes*

In [24]:
acuracia_knn = (accuracy_score(KNN_prediction, y_test)*100)

In [25]:
print(f'Acurácia do modelo KNN: {acuracia_knn: .2f} %')

Acurácia do modelo KNN:  96.67 %


### Confusion matrix
*A quantidade de previsões corretas por ser encontrada na diagonal principal da matriz*

In [26]:
print(confusion_matrix(KNN_prediction, y_test))
# A diagonal principal são os acertos e os demais são os erros.

[[ 7  0  0]
 [ 0 11  1]
 [ 0  0 11]]


### Relatório de classificação

In [27]:
print(classification_report(KNN_prediction, y_test))

                 precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00         7
Iris-versicolor       1.00      0.92      0.96        12
 Iris-virginica       0.92      1.00      0.96        11

       accuracy                           0.97        30
      macro avg       0.97      0.97      0.97        30
   weighted avg       0.97      0.97      0.97        30



# Utilizando os modelos para fazer uma previsão de classificação

In [28]:
xnew = [[6.7, 2.9, 5, 2],[3, 2, 5, 0.3]]
ynew = SVC_model.predict(xnew)
ynew

array(['Iris-virginica', 'Iris-versicolor'], dtype=object)

In [29]:
xnew = [[6.7, 2.9, 5, 2],[3, 2, 5, 0.3]]
ynew = KNN_model.predict(xnew)
ynew

array(['Iris-virginica', 'Iris-versicolor'], dtype=object)

# REFERÊNCIAS

* https://scikit-learn.org/stable/tutorial/basic/tutorial.html
* https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
* https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
* https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
* https://stackabuse.com/scikit-learns-traintestsplit-training-testing-and-validation-sets/
* https://www.scielo.br/j/ea/a/wXBdv8yHBV9xHz8qG5RCgZd/#