# <span style="color:orange">Modelo </span>de Classificação para IRIS
- - -
Após a análise exploratória do dataset IRIS, este notebook tem como objetivo utilizar modelos de Machine Learning para classificação.

Por tratar-se de um problema **supervisionado**, onde cada amostra tem um rótulo que especifica sua classe, é necessário a escolha de modelos que possam classificar os dados e retornar uma classe.

Os modelos escolhidos nesse desenvolvimento foram: **SVM** e **Gaussian Naive Bayes**.

In [9]:
%%capture
%run dataset.ipynb
df = data.join(target)
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn.naive_bayes import GaussianNB
from sklearn import metrics
from sklearn.metrics import confusion_matrix
import numpy as np
from scipy import stats

## <span style="color:orange">1. </span> Preparando a amostragem para o treinamento

Para utilização dos modelos, é necessário que os dataset esteja dividido em 2 partes, sendo uma para o treinamento e outra para o teste.

O código a seguir faz a separação de **60%** para o treinamento e **30%** para o teste.

In [10]:
train_x,test_x,train_y,test_y = train_test_split(data, target.drop("target_names", axis=1), test_size=.3)
print(f"Tamanho de train_x: {len(train_x)}")
print(f"Tamanho de test_x: {len(test_x)}")

Tamanho de train_x: 105
Tamanho de test_x: 45


# <span style="color:orange">2. </span> Modelos de Machine Learning para Classificação Supervisionada

## <span style="color:orange">2.1. </span> Support Vector Machine

A técnica de *support vector machine* **SVM** é um modelo de *Machine Learning* supervisionado que possibilita a classificação da amostragem. O *Suppot Vector Classifier* **SVC** é uma implementação da técnica de SVM.

- - -

### <span style="color:orange">2.1.1. </span> Resultado

> **A Acurácia do modelo SVM foi de 98%**


In [11]:
model = svm.SVC()
model.fit(train_x,train_y)
prediction=model.predict(test_x)
print(f'A Acurácia do modelo SVM:{round(metrics.accuracy_score(prediction,test_y),2)}')

A Acurácia do modelo SVM:0.93


  y = column_or_1d(y, warn=True)


### <span style="color:orange">2.1.2. </span> Matriz de Confusão

A matriz de confusão tem como objetivo apontar os acertos e erros do modelo em relação as classes. 

**Note que**:

> **Setosa** e **Versicolor** foram classificados corretamente

> A única classificação errada foi uma **Virgínica** classificada como **Versicolor**.


**O modelo de SVM tem um ótimo desempenho para esse conjunto de dados.**

In [12]:
matrix = confusion_matrix(np.array(test_y['target']), prediction, labels=[0, 1, 2])

**Matriz de Confusão**

|            | Setosa | Versicolor | Virgínica |
|------------|--------|------------|-----------|
| Setosa     | 19     | 0          | 0         |
| Versicolor | 0      | 13         | 1         |
| Virgínica  | 0      | 0          | 12        |

- - -

## <span style="color:orange">2.2. </span> Modelo Gaussian Naive Bayes

Uma vez que este dataset trata-se de um problema supervisionado, onde os valores **target** são categóricos, o modelo **Gaussian Naive Bayes** se ajusta bem ao problema, pois este trata as variáveis de maneira independente. Porém, para utilização do modelo precisamos testar se a **distribuição dos dados é Normal (Gaussiana)**.

### <span style="color:orange">2.2.1. </span> Teste de Shapiro
O teste de Shapiro diz se amostragem vem de uma distribuição normal.

Quanto mais próximo o valor **statistic for de 1** ou **pvalue > 0.05**, há mais chances da amostra vir de uma distribuição Gaussiana.

### <span style="color:orange">2.2.2. </span> Resultado do teste de Shapiro

> **statistic = 0.96** e **pvalue é muito próximo de 0**

O resultado indica que provavelmente a distribuição da amostragem é Gaussiana, assim podemos utilizar o modelo **GaussianNB**.

Uma vez que a distribuição é normal, não será necessária a transformação de escala da amostragem.

In [13]:
shapiro_wilk = np.array(train_x)
stats.shapiro(shapiro_wilk)

ShapiroResult(statistic=0.9662262201309204, pvalue=2.9484546359981323e-08)

## <span style="color:orange">2.3. </span> GaussianNB

O código a seguir faz o treinamento do modelo de GaussianNB para o dataset em questão.

In [14]:
Gnb = GaussianNB()
Gnb.fit(train_x,train_y)
y_pred = model.predict(test_x)

  y = column_or_1d(y, warn=True)


### <span style="color:orange">2.3.1. </span> Resultados

O Resultado do modelo foi muito parecido com a técnica de SVM. A acurácia e a matriz de confusão acusam o mesmo resultado.

In [15]:
print(f'A Acurácia do modelo GaussianNB:{round(model.score(test_x,test_y),2)}')
matrix = confusion_matrix(np.array(test_y['target']), y_pred, labels=[0, 1, 2])
matrix

A Acurácia do modelo GaussianNB:0.93


array([[16,  0,  0],
       [ 0, 10,  0],
       [ 0,  3, 16]])

# <span style="color:orange">3. </span>Conclusão

Foram testados 2 modelos de Machine Learning para esta amostragem e ambas obtiveram os mesmo resultados. Os modelos escolhidos se ajustam muito bem ao problema, sendo o **SVM** uma técnica interessante para casos de classificação onde a amostragem pode ter dependências não-lineares e o **GaussianNB** que se ajusta muito bem para dados com distribuição Gaussiana e problemas da vida real.