In [1]:
import pandas as pd

# URL do dataset "Iris" em formato .data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"

# Carregar o dataset
column_names = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
df = pd.read_csv(url, header=None, names=column_names)

# Exibir as primeiras linhas do DataFrame
print(df.head())

# Salvar o dataset como CSV
df.to_csv("iris.csv", index=False)


   sepal_length  sepal_width  petal_length  petal_width        class
0           5.1          3.5           1.4          0.2  Iris-setosa
1           4.9          3.0           1.4          0.2  Iris-setosa
2           4.7          3.2           1.3          0.2  Iris-setosa
3           4.6          3.1           1.5          0.2  Iris-setosa
4           5.0          3.6           1.4          0.2  Iris-setosa


In [2]:
df = pd.read_csv('iris.csv')

In [3]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [4]:
df.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'], dtype='object')

In [5]:
from sklearn.model_selection import cross_val_score, KFold
from sklearn.neighbors import KNeighborsClassifier

# Definir as variáveis independentes (X) e o atributo alvo (y)
X = df.drop('class', axis=1)
y = df['class']

# Definir o modelo K-NN
knn = KNeighborsClassifier(n_neighbors=5)

# Aplicar validação cruzada com 10 KFolds
kf = KFold(n_splits=10, shuffle=True, random_state=42)
cv_scores = cross_val_score(knn, X, y, cv=kf)

# Exibir os resultados da validação cruzada
print("Acurácia média da validação cruzada:", cv_scores.mean())
print("Desvio padrão da validação cruzada:", cv_scores.std())


Acurácia média da validação cruzada: 0.9733333333333334
Desvio padrão da validação cruzada: 0.04422166387140532


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# Dividir o dataset em treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinar o modelo K-NN
knn.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = knn.predict(X_test)

# Calcular a acurácia e a matriz de confusão
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

# Exibir os resultados
print("Acurácia do Holdout:", accuracy)
print("Matriz de Confusão do Holdout:\n", conf_matrix)


Acurácia do Holdout: 1.0
Matriz de Confusão do Holdout:
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


In [7]:
# Testar diferentes valores de k
k_values = range(1, 21)
mean_scores = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    cv_scores = cross_val_score(knn, X, y, cv=kf)
    mean_scores.append(cv_scores.mean())

# Encontrar o valor de k com a melhor acurácia
best_k = k_values[mean_scores.index(max(mean_scores))]
print("Melhor valor de k:", best_k)
print("Melhor acurácia com k =", best_k, ":", max(mean_scores))


Melhor valor de k: 10
Melhor acurácia com k = 10 : 0.9800000000000001


In [8]:
# Treinar o modelo K-NN com o melhor valor de k
knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_best_k = knn.predict(X_test)

# Calcular a acurácia e a matriz de confusão
accuracy_best_k = accuracy_score(y_test, y_pred_best_k)
conf_matrix_best_k = confusion_matrix(y_test, y_pred_best_k)

# Exibir os resultados
print("Acurácia com o melhor k (", best_k, "):", accuracy_best_k)
print("Matriz de Confusão com o melhor k (", best_k, "):\n", conf_matrix_best_k)


Acurácia com o melhor k ( 10 ): 1.0
Matriz de Confusão com o melhor k ( 10 ):
 [[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]
