# **NOÇÕES DE APRENDIZAGEM DE MÁQUINA UTILIZANDO SKLEARN EM UM PROBLEMA DE CLASSIFICAÇÃO**

## *Os problemas de classificação são aqueles onde se busca encontrar uma classe, dentro das possibilidades limitadas existentes.*

## Etapas do machine learning
1. Coleta e análise dados: *Trata-se de um momento crucial para o resultado final, pois a quantidade e a qualidade das informações determina o quão preditivo o modelo de machine learning vai ser.*
2. Preparação dos dados: *verificar se as informações coletadas estão bem distribuídas ou se são tendenciosas.*
3. Escolha do modelo: *classificação binária, classificação multiclasse ou regressão, por exemplo.*
4. Treinamento: Utilizando um algoritmo de classificação - *A etapa do treinamento é fundamental não apenas para preparar a máquina, mas para aprimorar constantemente suas habilidades de previsão.*
5. Avaliação: *A avaliação permite testar o modelo com as informações não utilizadas no treinamento; isso é importante para verificar se a máquina realmente foi capaz de aprender, e não apenas de memorizar respostas anteriores.*

# IMPORTANDO BIBLIOTECAS

In [None]:
import pandas as pd

# Pacotes para avaliação dos modelos
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

# Pacotes para utilização dos algoritmos KNN e Support Vector Classifier (SVC)
from sklearn.neighbors import KNeighborsClassifier
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

from sklearn.svm import SVC
# https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

# Pacote para conversão de colunas numéricas em colunas categóricas
from sklearn.preprocessing import LabelEncoder
# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

# Pacote para separação dos dados para treino e teste
from sklearn.model_selection import train_test_split
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

# Abrindo o dataset
*O dataset a ser utilizado já está tratado e pronto para ser utilizado*

In [None]:
df = pd.read_csv('/content/iris.csv')
df

In [None]:
df.drop('Id', axis=1, inplace=True)
df

In [None]:
df.shape

# Separando os dados em features (X) and labels (y)
**As features representam os valores (atributos) de um linha e os labels as classificações únicas das linhas**

In [None]:
# Seleção de features (entradas)
X = df.iloc[:,:-1].values #Valores (features)
X

In [None]:
# Seleção da coluna target
y = df['Species'] #Espécies (labels)
y

# Separando dados para treinamento e testes

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=27)

In [None]:
X_train.shape

In [None]:
X_test.shape

In [None]:
y_train.shape

In [None]:
y_test.shape

# Treinando os modelos (método fit)

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
SVC_model = SVC()


In [None]:
SVC_model.fit(X_train, y_train)

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
KNN_model = KNeighborsClassifier(n_neighbors=5)
KNN_model.fit(X_train, y_train)

# Testando os modelos (método predict)

In [None]:
# Método Predict
SVC_prediction = SVC_model.predict(X_test)

In [None]:
y_test

In [None]:
SVC_prediction

In [None]:
KNN_prediction = KNN_model.predict(X_test)

In [None]:
KNN_prediction

# Mostrando resultados

## Algoritmo SVC

### Acurácia (accuracy)

In [None]:
acuracia_svc = (accuracy_score(SVC_prediction, y_test)*100)

In [None]:
print(f'Acurácia do modelo SVC: {acuracia_svc: .2f} %')

### Confusion Matrix

In [None]:
print(confusion_matrix(SVC_prediction, y_test))

### Relatório de classificação

In [None]:
print(classification_report(SVC_prediction, y_test))

## Algoritmo KNN

### Acurácia (accuracy)
*número de previsões corretas dividido pela quantidade de testes*

In [None]:
acuracia_knn = (accuracy_score(KNN_prediction, y_test)*100)

In [None]:
print(f'Acurácia do modelo KNN: {acuracia_knn: .2f} %')

### Confusion matrix
*A quantidade de previsões corretas por ser encontrada na diagonal principal da matriz*

In [None]:
print(confusion_matrix(KNN_prediction, y_test))


### Relatório de classificação

In [None]:
print(classification_report(KNN_prediction, y_test))

# Utilizando os modelos para fazer uma previsão de classificação

In [None]:
xnew = [[6.7, 2.9, 5, 2],[3, 2, 5, 0.3]]
ynew = SVC_model.predict(xnew)
ynew

In [None]:
xnew = [[6.7, 2.9, 5, 2],[3, 2, 5, 0.3]]
ynew = KNN_model.predict(xnew)
ynew

# REFERÊNCIAS

* https://scikit-learn.org/stable/tutorial/basic/tutorial.html
* https://stackabuse.com/overview-of-classification-methods-in-python-with-scikit-learn/
* https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
* https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets
* https://stackabuse.com/scikit-learns-traintestsplit-training-testing-and-validation-sets/
* https://www.scielo.br/j/ea/a/wXBdv8yHBV9xHz8qG5RCgZd/#