## Лабораторная работа №5

#### Задание 1
Провести классификацию найденного датасета, методами решающего дерева и случайного леса . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

#### Ход работы:

Импортируем библиотеки и загружаем датасет

In [27]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from tqdm import tqdm

# Загрузка датасета
file_path = "../Dataset.xls"
df = pd.read_excel(file_path)

Разделение данных и нормализация

In [28]:
# Разделение на признаки (X) и целевую переменную (y)
X = df.drop('default payment next month', axis=1)
y = df['default payment next month']

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#### Метод решающего дерева:

Гиперпараметры:
   - max_depth: Максимальная глубина дерева. Ограничивает количество уровней в дереве. Значение None позволяет узлам расширяться до тех пор, пока все листовые узлы не будут содержать минимальное количество выборок.
   - min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла. Если количество выборок в узле меньше этого значения, узел не будет разделяться.
   - min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла. Это определяет, сколько выборок должно быть на каждом листе.

In [None]:
param_grid_tree = {
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [29]:
# Создание модели решающего дерева
decision_tree = DecisionTreeClassifier()

# Поиск лучших параметров для решающего дерева
grid_search_tree = GridSearchCV(decision_tree, param_grid_tree, cv=5)
grid_search_tree.fit(X_train_scaled, y_train)

# Лучшие параметры для решающего дерева
best_params_tree = grid_search_tree.best_params_
best_score_tree = grid_search_tree.best_score_

""" Время работы ~3 минут

Ниже код для индикации процесса

tree = DecisionTreeClassifier()
best_score = 0
best_params_tree = {}

with tqdm(total=len(param_grid_tree['max_depth']) * len(param_grid_tree['min_samples_split'])
          * len(param_grid_tree['min_samples_leaf'])) as pbar:
    for max_depth in param_grid_tree['max_depth']:
        for min_samples_split in param_grid_tree['min_samples_split']:
            for min_samples_leaf in param_grid_tree['min_samples_leaf']:
                # Создание нового экземпляра GridSearchCV для каждой комбинации параметров
                grid_search_tree = GridSearchCV(tree, param_grid={'max_depth': [max_depth],
                                                                 'min_samples_split': [min_samples_split],
                                                                 'min_samples_leaf': [min_samples_leaf]}, cv=5)
                grid_search_tree.fit(X_train_scaled, y_train)
                if grid_search_tree.best_score_ > best_score:
                    best_score = grid_search_tree.best_score_
                    best_params_tree = grid_search_tree.best_params_
                pbar.update(1)
"""

"\ntree = DecisionTreeClassifier()\nbest_score = 0\nbest_params_tree = {}\n\nwith tqdm(total=len(param_grid_tree['max_depth']) * len(param_grid_tree['min_samples_split'])\n          * len(param_grid_tree['min_samples_leaf'])) as pbar:\n    for max_depth in param_grid_tree['max_depth']:\n        for min_samples_split in param_grid_tree['min_samples_split']:\n            for min_samples_leaf in param_grid_tree['min_samples_leaf']:\n                # Создание нового экземпляра GridSearchCV для каждой комбинации параметров\n                grid_search_tree = GridSearchCV(tree, param_grid={'max_depth': [max_depth],\n                                                                 'min_samples_split': [min_samples_split],\n                                                                 'min_samples_leaf': [min_samples_leaf]}, cv=5)\n                grid_search_tree.fit(X_train_scaled, y_train)\n                if grid_search_tree.best_score_ > best_score:\n                    best_score = g

Обучение решающего дерева:

In [31]:
best_tree = DecisionTreeClassifier(**best_params_tree)
best_tree.fit(X_train_scaled, y_train)

Результаты:

In [32]:
accuracy_tree = best_tree.score(X_test_scaled, y_test)
print("Лучшие параметры для решающего дерева:", best_params_tree)
print("Точность решающего дерева на тестовом наборе:", accuracy_tree)

Лучшие параметры для решающего дерева: {'max_depth': 5, 'min_samples_leaf': 4, 'min_samples_split': 2}
Точность решающего дерева на тестовом наборе: 0.8171666666666667


#### Метод случаного леса:

Гиперпараметры:
   - n_estimators: Количество деревьев в лесу. Большее количество деревьев может улучшить производительность, но с большими затратами на вычислительные ресурсы.
   - max_depth: Максимальная глубина каждого дерева в лесу. Это ограничивает глубину каждого дерева в лесу, что помогает управлять переобучением.
   - min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла дерева. Определяет, сколько выборок должно быть в узле, чтобы он был разделен.
   - min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла. Это определяет, сколько выборок должно быть на каждом листе дерева.

In [None]:
# Определение параметров для случайного леса
# Указал маленькие значения для ускорения обучения
param_grid_forest = {
    'n_estimators': [2, 10, 20],
    'max_depth': [None, 5, 10],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2, 4]
}

In [33]:
# Создание модели случайного леса
random_forest = RandomForestClassifier()

# Поиск лучших параметров для случайного леса
grid_search_forest = GridSearchCV(random_forest, param_grid_forest, cv=5)
grid_search_forest.fit(X_train_scaled, y_train)

# Лучшие параметры для случайного леса
best_params_forest = grid_search_forest.best_params_
best_score_forest = grid_search_forest.best_score_

""" Время работы ~7 минут

Ниже код для индикации процесса

forest = RandomForestClassifier()

best_score_forest = 0
best_params_forest = {}

with tqdm(total=len(param_grid_forest['n_estimators']) * len(param_grid_forest['max_depth'])
          * len(param_grid_forest['min_samples_split']) * len(param_grid_forest['min_samples_leaf'])) as pbar:
    for n_estimators in param_grid_forest['n_estimators']:
        for max_depth in param_grid_forest['max_depth']:
            for min_samples_split in param_grid_forest['min_samples_split']:
                for min_samples_leaf in param_grid_forest['min_samples_leaf']:
                    grid_search_forest = GridSearchCV(forest, param_grid={'n_estimators': [n_estimators],
                                                                         'max_depth': [max_depth],
                                                                         'min_samples_split': [min_samples_split],
                                                                         'min_samples_leaf': [min_samples_leaf]}, cv=5)
                    grid_search_forest.fit(X_train_scaled, y_train)
                    if grid_search_forest.best_score_ > best_score_forest:
                        best_score_forest = grid_search_forest.best_score_
                        best_params_forest = grid_search_forest.best_params_
                    pbar.update(1)
"""

"\nforest = RandomForestClassifier()\n\nbest_score_forest = 0\nbest_params_forest = {}\n\nwith tqdm(total=len(param_grid_forest['n_estimators']) * len(param_grid_forest['max_depth'])\n          * len(param_grid_forest['min_samples_split']) * len(param_grid_forest['min_samples_leaf'])) as pbar:\n    for n_estimators in param_grid_forest['n_estimators']:\n        for max_depth in param_grid_forest['max_depth']:\n            for min_samples_split in param_grid_forest['min_samples_split']:\n                for min_samples_leaf in param_grid_forest['min_samples_leaf']:\n                    grid_search_forest = GridSearchCV(forest, param_grid={'n_estimators': [n_estimators],\n                                                                         'max_depth': [max_depth],\n                                                                         'min_samples_split': [min_samples_split],\n                                                                         'min_samples_leaf': [min_samples

Обучение случайного леса:

In [34]:
best_forest = RandomForestClassifier(**best_params_forest)
best_forest.fit(X_train_scaled, y_train)

Результаты:

In [35]:
accuracy_forest = best_forest.score(X_test_scaled, y_test)
print("Лучшие параметры для случайного леса:", best_params_forest)
print("Точность случайного леса на тестовом наборе:", accuracy_forest)

Лучшие параметры для случайного леса: {'max_depth': 10, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 20}
Точность случайного леса на тестовом наборе: 0.8156666666666667
