### Подключение модулей

In [1]:
# Работа с данными и визуализация
import numpy as np
import pandas as pd

# Метрики и прочее для обучения моделей
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

# Модели
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [2]:
# Загружаем набор данных Iris, классический набор данных для обучения моделей
iris = load_iris()
# Так как набор данных не является датафреймом, преобразуем его путём создания нового датафрейма
iris_df = pd.DataFrame(iris.data)

In [3]:
# Делаем имена колонок такие же, как имена переменных:
iris_df.columns = iris.feature_names
# Добавляем столбец с целевой переменной: 
iris_df['target'] = iris.target
# Для наглядности добавляем столбец с сортами: 
iris_df['name'] = iris_df.target.apply(lambda x : iris.target_names[x])
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,name
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa


### Формирование дата-сета для обучения моделей

In [4]:
# Разделяем выборку на обучающую и тестовую, указывая столбцы и целевой признак 
X_train, X_test, y_train, y_test = train_test_split(iris_df[['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']], 
                                                      iris_df['target'], 
                                                      test_size=0.3, 
                                                      random_state=19)

### Обучение классификаторов

#### KNeighborsClassifier (Классификация ближайших соседей)

In [5]:
# Создаём и обучаем моедль
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

In [6]:
# Делаем предсказание
y_pred = knn.predict(X_test)
# Выводим метрики и смотрим на метрики многоклассовой классификации
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.94      0.94      0.94        16
           2       0.93      0.93      0.93        15

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



#### Gaussian Naive Bayes (НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР)

In [7]:
# Создаём и обучаем моедль
gnb = GaussianNB()
gnb.fit(X_train, y_train)

In [8]:
# Делаем предсказание
y_pred = gnb.predict(X_test)
# Выводим метрики и смотрим на метрики многоклассовой классификации
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.84      1.00      0.91        16
           2       1.00      0.80      0.89        15

    accuracy                           0.93        45
   macro avg       0.95      0.93      0.93        45
weighted avg       0.94      0.93      0.93        45



#### Random Forest Classifier (Классификатор дерева решений)

In [9]:
# Создаём и обучаем моедль
rfc  = RandomForestClassifier(criterion = 'gini',
                                    n_estimators = 100,
                                    max_depth = 9,
                                    random_state = 42,
                                    n_jobs = -1)

rfc.fit(X_train, y_train)

In [10]:
# Делаем предсказание
y_pred = rfc.predict(X_test)
# Выводим метрики и смотрим на метрики многоклассовой классификации
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.84      1.00      0.91        16
           2       1.00      0.80      0.89        15

    accuracy                           0.93        45
   macro avg       0.95      0.93      0.93        45
weighted avg       0.94      0.93      0.93        45



#### Logistic Regression (Логистическая регрессия)

In [11]:
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

In [12]:
# Создаём и обучаем моедль
lr = LogisticRegression(random_state = 42)
lr.fit(X_train, y_train)

In [13]:
# Делаем предсказание
y_pred = lr.predict(X_test)
# Выводим метрики и смотрим на метрики многоклассовой классификации
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.84      1.00      0.91        16
           2       1.00      0.80      0.89        15

    accuracy                           0.93        45
   macro avg       0.95      0.93      0.93        45
weighted avg       0.94      0.93      0.93        45



### Вывод

Смотря на метрики, можно сделать вывод, что все классификаторы справились со своей работай одинаково хорошо, т.к. датасет идеально подходит для обучения моделей.  
Однако лучше всех обучилась модель KNN, её метрики (precision, reacll, f1-score) выше чем у других моделей.