<a href="https://colab.research.google.com/github/Rogerio-mack/IMT_CD_2024/blob/main/IMT_Lab_Knn_Metricas_Resolvido.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<head>
  <meta name="author" content="Rogério de Oliveira">
  <meta institution="author" content="ITM">
</head>

<img src="https://maua.br/images/selo-60-anos-maua.svg" width=300, align="right">
<!-- <h1 align=left><font size = 6, style="color:rgb(200,0,0)"> optional title </font></h1> -->


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

path_data = 'https://github.com/Rogerio-mack/Temporal/raw/main/Data/'


# Exercício

Empregue o `scikit-learn` para criar os seguintes modelos:

Um **Modelo de Regressão Logística** e outro de **K-vizinhos mais Próximos** para a partir das medidas de sépalas e pétalas estimar a espécie da flor.

* Empregue uma separação de conjunto de dados de treinamento e teste com 50% de dados de teste estratificados pelo atributo alvo. Defina o `random_state=1` para reprodutibilidade dos resultados. *Nota: em geral empregamos conjuntos menores de teste, 25-30%, mas aqui o conjunto é pequeno e queremos garantir o propósito de gerar diferentes predições.*

* Experimente diferentes valores de K, como 1,2,3,4,5,6,7 e compare as métricas de cada modelo e o da regressão logística.

* Faça então a estimativa da espécie para flores que apresentam medidas correspondentes aos quartis (Q1 e Q3) das medidas de pétalas e sépalas empregando o melhor modelo.




In [None]:
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## Modelo de Regressão Logística e Knn




In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

from sklearn.model_selection import train_test_split

# Entradas e Saídas
X = iris.drop(columns='species')
y = iris['species']

# Separação dos Conjuntos de Treinamento e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.5, random_state=1)

# Definição do Modelo
clf = LogisticRegression(max_iter=1000)
# clf = KNeighborsClassifier(n_neighbors = 1)

# Treinamento
clf.fit(X_train,y_train)

# Predição
y_pred = clf.predict(X_test)

# Métricas
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

cm = confusion_matrix(y_test, y_pred)
print('\nMatriz de Confusão:\n')
print(cm)

accuracy = accuracy_score(y_test, y_pred)
print('\nScore de Acuracidade (1):\n')
print(f'{accuracy:.4f}')

print('\n', clf)

accuracy = clf.score(X_test, y_test)
print('\nScore de Acuracidade (2):\n')
print(f'{accuracy:.4f}')

print('\nClassification Report:\n')
print(classification_report(y_test, y_pred))



Matriz de Confusão:

[[25  0  0]
 [ 0 25  0]
 [ 0  1 24]]

Score de Acuracidade (1):

0.9867

 LogisticRegression(max_iter=1000)

Score de Acuracidade (2):

0.9867

Classification Report:

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        25
  versicolor       0.96      1.00      0.98        25
   virginica       1.00      0.96      0.98        25

    accuracy                           0.99        75
   macro avg       0.99      0.99      0.99        75
weighted avg       0.99      0.99      0.99        75



## Interpretando as Métricas

* **Acuracidade**: 0.99 (0.9867) = *1 erro de classificação do total de 75, 74/75*

* **Precisão (Versicolor)**: 0.96 = *1 classificado falsamente como versicolor do total de 25 corretamente classificados como versicolor, 25/26*

* **Recall (Versicolor)**: 1.00 = *Todos os casos versicolor classificados corretamente, 25/25*

*Macro avg e weighted avg*, médias simples e ponderadas (pelo support) de todas as classes.

In [None]:
clf.classes_

array(['setosa', 'versicolor', 'virginica'], dtype=object)

$$ Precisão = \frac{TP}{TP +FP}$$

$$ Recall = \frac{TP}{TP + FN}$$

# Melhor Modelo

* São empregadas uma ou mais métricas de eficiência nos modelos, como acuracidade, precisão, revocação e F1-score.
* Entre modelos de mesma eficiência, opta-se pelo modelo mais simples com menor número de hipóteses (**Princípio da [Navalha de Ockham](https://pt.wikipedia.org/wiki/Navalha_de_Ockham)**, ou também **Princípio da Parcimônia** ou da Economia).

### LogisticRegression(max_iter=1000)

```
Score de Acuracidade (2):

0.9867

Classification Report:

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        25
  versicolor       0.96      1.00      0.98        25
   virginica       1.00      0.96      0.98        25

    accuracy                           0.99        75
   macro avg       0.99      0.99      0.99        75
weighted avg       0.99      0.99      0.99        75

```
### KNeighborsClassifier(n_neighbors=1)

```
Score de Acuracidade (2):

0.9733

Classification Report:

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        25
  versicolor       0.96      0.96      0.96        25
   virginica       0.96      0.96      0.96        25

    accuracy                           0.97        75
   macro avg       0.97      0.97      0.97        75
weighted avg       0.97      0.97      0.97        75
```

### KNeighborsClassifier(n_neighbors=2)

```
Score de Acuracidade (2):

0.9600

Classification Report:

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        25
  versicolor       0.92      0.96      0.94        25
   virginica       0.96      0.92      0.94        25

    accuracy                           0.96        75
   macro avg       0.96      0.96      0.96        75
weighted avg       0.96      0.96      0.96        75
```

### KNeighborsClassifier(n_neighbors=3,4,5,6,7)
```
Score de Acuracidade (2):

0.9600

Classification Report:

              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        25
  versicolor       0.96      0.92      0.94        25
   virginica       0.92      0.96      0.94        25

    accuracy                           0.96        75
   macro avg       0.96      0.96      0.96        75
weighted avg       0.96      0.96      0.96        75

```

# Predição

In [None]:
X_new = iris.drop(columns='species').quantile([0.25,0.75])
X_new


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0.25,5.1,2.8,1.6,0.3
0.75,6.4,3.3,5.1,1.8


In [None]:
# Predição
y_pred = clf.predict(X_new)
y_pred



array(['setosa', 'virginica'], dtype=object)

In [None]:
X_new['y_pred'] = y_pred
X_new

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,y_pred
0.25,5.1,2.8,1.6,0.3,setosa
0.75,6.4,3.3,5.1,1.8,virginica
