# Рубежный контроль №2. Барабанщиков Лев Романович, ИУ5-64Б, Вариант 1

В прошлый раз мне удалось проанализировать датасет `load_iris` и обучить классификатор на основе случайного леса. В этот раз я сравню
его с логистической регрессией и градиентным бустингом.

## Загрузка данных

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

# Загрузка датасета
iris = load_iris()

# Преобразование в датафрейм pandas
df = pd.DataFrame(iris.data, columns=iris.feature_names)

# Добавление столбца с целевой переменной
df['target'] = iris.target

## Разбиение данных на обучающую и тестовую выборки

In [9]:
from sklearn.model_selection import train_test_split

# Разбиение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df[iris.feature_names], df['target'], test_size=0.5, random_state=42)

## Логистическая регрессия

In [10]:
from sklearn.linear_model import LogisticRegression

# Создание модели
model = LogisticRegression(max_iter=500)

# Обучение модели
model.fit(X_train, y_train)

In [11]:
# Предсказание
y_pred = model.predict(X_test)

# Оценка точности
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

1.0

A surprise to be sure, but a welcome one. Логистическая регрессия показала себя лучше случайного леса

## Градиентный бустинг

Поскольку sklearn'овский градиентный бустинг считается не очень хорошим, я переберу гиперпараметры и выберу лучшую конфигурацию

In [13]:
from sklearn.ensemble import GradientBoostingClassifier

# Создание модели
model = GradientBoostingClassifier()

# Обучение модели
model.fit(X_train, y_train)

In [14]:
# Предсказание
y_pred = model.predict(X_test)

# Оценка точности
accuracy_score(y_test, y_pred)

0.92

#### Подбор гиперпараметров

In [15]:
from sklearn.model_selection import GridSearchCV

# Перебор гиперпараметров
params = {
    'n_estimators': [50, 100, 200, 300, 400, 500],
    'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.5],
    'max_depth': [3, 5, 7, 9]
}

# GridSearchCV
grid_search = GridSearchCV(GradientBoostingClassifier(), params, cv=5, n_jobs=-1, verbose=1)

In [16]:
# searching
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 120 candidates, totalling 600 fits


In [17]:
# best params
grid_search.best_params_

{'learning_rate': 0.5, 'max_depth': 5, 'n_estimators': 50}

In [18]:
# best score
grid_search.best_score_

0.9333333333333333

In [19]:
# best estimator
grid_search.best_estimator_

In [20]:
# Предсказание
y_pred = grid_search.best_estimator_.predict(X_test)

# Оценка точности
accuracy_score(y_test, y_pred)

1.0

## Вывод

Логистическая регрессия показала себя лучше случайного леса, как и градиентный бустинг. Возможно, это связано с тем, что я не подобрал гиперпараметры для случайного леса, но я не думаю, что это сильно повлияет на результат.

Ведь основная проблема -- данные. Они слишком идеальные, а значит, любой алгоритм будет работать хорошо. Но если бы я использовал другой датасет, то, возможно, результаты были бы другими.