<h1>Метод решающего дерева и случайного леса</h1>
<h2>Лабораторная работа № 5</h2>
<h3>Задание 1</h3>

Провести классификацию найденного датасета, методами решающего дерева и случайного леса . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

<h2>Метод решающего дерева:</h2>

Гиперпараметры:

max_depth: Максимальная глубина дерева.

min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла.

min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV # функции для разделения данных на тренировочный и тестовый наборы и поиска гиперпараметров
from sklearn.metrics import accuracy_score, classification_report # метрики: точность (accuracy), отчет о классификации
from sklearn.tree import DecisionTreeClassifier # классификатор дерева решений
from sklearn.ensemble import RandomForestClassifier # классификатор случайного леса
from sklearn.preprocessing import StandardScaler, LabelEncoder # функции для масштабирования признаков и кодирования категориальных переменных

# Загрузка данных
file = "new_card_approval.csv"
df = pd.read_csv(file)
df.dropna(inplace=True)

In [2]:
df

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,JOB,BEGIN_MONTHS,STATUS,TARGET
0,5065438,F,Y,N,2+ children,270000.0,Secondary / secondary special,Married,With parents,-13258,-2300,1,0,0,0,Managers,-6,C,0
1,5142753,F,N,N,No children,81000.0,Secondary / secondary special,Single / not married,House / apartment,-17876,-377,1,1,1,0,Private service staff,-4,0,0
2,5111146,M,Y,Y,No children,270000.0,Higher education,Married,House / apartment,-19579,-1028,1,0,1,0,Laborers,0,C,0
3,5010310,F,Y,Y,1 children,112500.0,Secondary / secondary special,Married,House / apartment,-15109,-1956,1,0,0,0,Core staff,-3,0,0
4,5010835,M,Y,Y,2+ children,139500.0,Secondary / secondary special,Married,House / apartment,-17281,-5578,1,1,0,0,Drivers,-29,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
537662,5142999,M,Y,N,1 children,166500.0,Secondary / secondary special,Married,With parents,-12372,-5401,1,0,1,0,Core staff,-8,0,0
537663,5010773,F,N,Y,No children,135000.0,Higher education,Married,With parents,-14160,-4635,1,0,0,0,Sales staff,-8,0,0
537664,5105601,M,N,Y,No children,180000.0,Higher education,Married,House / apartment,-24204,-2462,1,0,0,0,Private service staff,-7,0,0
537665,5132833,M,Y,N,No children,220500.0,Secondary / secondary special,Married,House / apartment,-22647,-3847,1,0,1,0,Laborers,-1,0,0


In [3]:
# Преобразование категориальных переменных в числовой формат
label_encoder = LabelEncoder()
categorical_columns = ['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'JOB']
for col in categorical_columns:
    df[col] = label_encoder.fit_transform(df[col])

df = df.sample(n=10000)

# Разделение на признаки (X) и целевую переменную (y)
X = df[['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
        'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'DAYS_BIRTH', 'DAYS_EMPLOYED']]
y = df['TARGET']

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

param_grid_tree = {
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}
# Создание модели решающего дерева
decision_tree = DecisionTreeClassifier()

# Поиск лучших параметров для решающего дерева
grid_search_tree = GridSearchCV(decision_tree, param_grid_tree, refit=True, verbose=0, cv=5)
grid_search_tree.fit(X_train_scaled, y_train)

# Лучшие параметры для решающего дерева
best_params_tree = grid_search_tree.best_params_
best_score_tree = grid_search_tree.best_score_

best_tree = DecisionTreeClassifier(**best_params_tree)
best_tree.fit(X_train_scaled, y_train)
accuracy_tree = best_tree.score(X_test_scaled, y_test)
print("Лучшие параметры для решающего дерева:", best_params_tree)
print("Точность решающего дерева на тестовом наборе:", accuracy_tree)

predictions = best_tree.predict(X_test_scaled)

# Отчет по классификации
print("\nОтчет по классификации:")
print(classification_report(y_test, predictions))

Лучшие параметры для решающего дерева: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 10}
Точность решающего дерева на тестовом наборе: 0.9945

Отчет по классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1943
           1       0.90      0.91      0.90        57

    accuracy                           0.99      2000
   macro avg       0.95      0.95      0.95      2000
weighted avg       0.99      0.99      0.99      2000



<h2>Метод случаного леса:</h2>

Гиперпараметры:

n_estimators: Количество деревьев в лесу.

max_depth: Максимальная глубина каждого дерева в лесу.

min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла дерева.

min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла.

In [4]:
# Определение параметров для случайного леса
# Указала маленькие значения для ускорения обучения
param_grid_forest = {
    'n_estimators': range(2, 10),
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2, 4]
}
# Создание модели случайного леса
random_forest = RandomForestClassifier()

# Поиск лучших параметров для случайного леса
grid_search_forest = GridSearchCV(random_forest, param_grid_forest, refit=True, verbose=0, cv=5)
grid_search_forest.fit(X_train_scaled, y_train)

# Лучшие параметры для случайного леса
best_params_forest = grid_search_forest.best_params_
best_score_forest = grid_search_forest.best_score_
best_forest = RandomForestClassifier(**best_params_forest)
best_forest.fit(X_train_scaled, y_train)
accuracy_forest = best_forest.score(X_test_scaled, y_test)
print("Лучшие параметры для случайного леса:", best_params_forest)
print("Точность случайного леса на тестовом наборе:", accuracy_forest)

predictions = best_forest.predict(X_test_scaled)

# Отчет по классификации
print("\nОтчет по классификации:")
print(classification_report(y_test, predictions))

Лучшие параметры для случайного леса: {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 9}
Точность случайного леса на тестовом наборе: 0.9955

Отчет по классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1943
           1       0.94      0.89      0.92        57

    accuracy                           1.00      2000
   macro avg       0.97      0.95      0.96      2000
weighted avg       1.00      1.00      1.00      2000

