In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV, cross_val_score

In [2]:
# Загрузка данных
data = pd.read_csv('D:/ТМО/iris.csv')

In [3]:
# Проверка наличия пропущенных значений
data.isnull().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

In [4]:
# Разделение на признаки (X) и целевую переменную (y)
X = data.drop('species', axis=1)
y = data['species']

In [5]:
# Заполнение пропущенных значений, если они есть
X = X.fillna(X.mean())

In [6]:
# Кодирование категориальных признаков, если они есть
X = pd.get_dummies(X)

In [7]:
# Разделение выборки на обучающую и тестовую
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [8]:
# Обучение модели с произвольным значением K
k = 5  # Произвольно заданный гиперпараметр K
model = KNeighborsClassifier(n_neighbors=k)
model.fit(X_train, y_train)

In [9]:
# Прогнозирование классов
y_pred = model.predict(X_test)

In [10]:
# Оценка качества модели с произвольным значением K
print("Метрики качества модели с K =", k)
print(classification_report(y_test, y_pred))
print("Accuracy:", accuracy_score(y_test, y_pred))

Метрики качества модели с K = 5
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

Accuracy: 1.0


In [11]:
# Подбор оптимального значения гиперпараметра K с использованием GridSearchCV
param_grid = {'n_neighbors': range(1, 21)}  # Диапазон значений K
grid_search = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

In [12]:
# Оптимальное значение гиперпараметра K
best_k_grid = grid_search.best_params_['n_neighbors']

In [13]:
# Подбор оптимального значения гиперпараметра K с использованием RandomizedSearchCV
param_dist = {'n_neighbors': range(1, 21)}  # Диапазон значений K
random_search = RandomizedSearchCV(estimator=KNeighborsClassifier(), param_distributions=param_dist, cv=5)
random_search.fit(X_train, y_train)

In [14]:
# Оптимальное значение гиперпараметра K
best_k_random = random_search.best_params_['n_neighbors']

In [15]:
# Создание моделей с оптимальными значениями K
model_grid = KNeighborsClassifier(n_neighbors=best_k_grid)
model_random = KNeighborsClassifier(n_neighbors=best_k_random)

In [16]:
# Оценка качества модели с оптимальным значением K с использованием кросс-валидации
cv_scores_grid = cross_val_score(model_grid, X, y, cv=5)
cv_scores_random = cross_val_score(model_random, X, y, cv=5)

In [17]:
print("Метрики качества модели с произвольным значением K =", k)
print("Accuracy (исходная модель):", accuracy_score(y_test, y_pred))
print("")

Метрики качества модели с произвольным значением K = 5
Accuracy (исходная модель): 1.0



In [18]:
print("Метрики качества модели с оптимальным значением K (GridSearchCV):")
print("Best K:", best_k_grid)
print("Cross-Validation Accuracy:", cv_scores_grid.mean())
print("")

Метрики качества модели с оптимальным значением K (GridSearchCV):
Best K: 3
Cross-Validation Accuracy: 0.9666666666666668



In [19]:
print("Метрики качества модели с оптимальным значением K (RandomizedSearchCV):")
print("Best K:", best_k_random)
print("Cross-Validation Accuracy:", cv_scores_random.mean())

Метрики качества модели с оптимальным значением K (RandomizedSearchCV):
Best K: 2
Cross-Validation Accuracy: 0.9466666666666665
