# Imports

In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

# Data Understanding

Vamos realizar a análise de uma base de dados de flores, onde há três espécies.
Será usado o GridSearchCV para achar os melhores parâmetros para utilizar no KNeighborsClassifier, gerando depois o relatório.

## Load the Iris dataset and see it as a Pandas Dataframe

In [None]:
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


# Data Model

## Define o target como Y e os inputs como X

In [None]:
x = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

## K-NN classifier

In [None]:
knn = KNeighborsClassifier()

## Separa os dados entre treino e testes (%80 e %20 respectivamente)

## GridSearchCV

In [None]:
values_grid = {
    'n_neighbors': [1,2,3,10,20,30,50,100],                   # mesmos do exemplo
    'weights': ['uniform', 'distance'],                       # diferentes pesos
    'metric': ['euclidean', 'manhattan'],                     # diferentes métricas
}

grid_search = GridSearchCV(estimator=knn, param_grid=values_grid, cv=5)
grid_search.fit(x,y)

In [None]:
print("Best Parameters:", grid_search.best_params_)

Best Parameters: {'metric': 'euclidean', 'n_neighbors': 10, 'weights': 'distance'}


In [None]:
# Podia ter usado as variáveis grid_search.best_params_.metric e afins, mas é mais fácil de alterar assim pra testar e caso precise.
best_knn = KNeighborsClassifier(n_neighbors=10, weights='distance', metric='euclidean')

best_knn.fit(x_train, y_train)
y_pred = best_knn.predict(x_test)

## Matrix de Confusão

In [None]:
confusion = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:")
confusion

Matriz de Confusão:


array([[10,  0,  0],
       [ 0,  9,  0],
       [ 0,  0, 11]])

In [None]:
report = classification_report(y_test, y_pred, target_names=["Iris setosa", "Iris versicolor", "Iris virginica"])
accuracy = accuracy_score(y_test, y_pred)

print("Relatório de Classificação:")
print(report)
print("Acurácia Geral:", accuracy)

Relatório de Classificação:
                 precision    recall  f1-score   support

    Iris setosa       1.00      1.00      1.00        10
Iris versicolor       1.00      1.00      1.00         9
 Iris virginica       1.00      1.00      1.00        11

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30

Acurácia Geral: 1.0


Pode se ver que usando o GridSearchCV para achar os melhores parâmetros, chegamos numa acurácia de 1.0, perfeita.
Onde todos os modelos de teste foram previstos.