## Лабораторная работа №5

### Задание: Провести классификацию найденного датасета, методами решающего дерева и случайного леса. 

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Загрузка датасета
dataset_train = pd.read_csv("train.csv")

# Предварительная обработка данных
dataset_train['Age'].fillna(dataset_train['Age'].median(), inplace=True)
dataset_train['Embarked'].fillna(dataset_train['Embarked'].mode()[0], inplace=True)
dataset_train['Fare'].fillna(dataset_train['Fare'].median(), inplace=True)

# Преобразование категориальных переменных в числовые
dataset_train = pd.get_dummies(dataset_train, columns=['Sex', 'Embarked'], drop_first=True)

# Выбор признаков и целевой переменной
X = dataset_train[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex_male', 'Embarked_Q', 'Embarked_S']]
y = dataset_train['Survived']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение и оценка модели решающего дерева
tree_model = DecisionTreeClassifier(random_state=42)
tree_model.fit(X_train, y_train)
tree_pred = tree_model.predict(X_test)

tree_accuracy = accuracy_score(y_test, tree_pred)
print("Точность решающего дерева:", tree_accuracy)
print("\nConfusion Матрица решающего дерева:\n", confusion_matrix(y_test, tree_pred))
print("\nClassification Отчет решающего дерева:\n", classification_report(y_test, tree_pred))

# Обучение и оценка модели случайного леса
forest_model = RandomForestClassifier(random_state=42, n_estimators=100)
forest_model.fit(X_train, y_train)
forest_pred = forest_model.predict(X_test)

forest_accuracy = accuracy_score(y_test, forest_pred)
print("Точность случайного леса:", forest_accuracy)
print("\nConfusion Матрица случайного леса:\n", confusion_matrix(y_test, forest_pred))
print("\nClassification Отчет случайного леса:\n", classification_report(y_test, forest_pred))

# Оптимизация гиперпараметров с использованием кросс-валидации для решающего дерева
param_grid_tree = {
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 10, 20]
}

grid_tree = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid_tree, cv=5, scoring='accuracy')
grid_tree.fit(X_train, y_train)

print("Лучшие параметры для решающего дерева:", grid_tree.best_params_)
print("Лучший результат кросс-валидации для решающего дерева:", grid_tree.best_score_)

# Оптимизация гиперпараметров с использованием кросс-валидации для случайного леса
param_grid_forest = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30, 40, 50],
    'min_samples_split': [2, 10, 20]
}

grid_forest = GridSearchCV(RandomForestClassifier(random_state=42), param_grid_forest, cv=5, scoring='accuracy')
grid_forest.fit(X_train, y_train)

print("Лучшие параметры для случайного леса:", grid_forest.best_params_)
print("Лучший результат кросс-валидации для случайного леса:", grid_forest.best_score_)

# Обучение и оценка модели решающего дерева с оптимальными параметрами
best_tree_model = grid_tree.best_estimator_
best_tree_pred = best_tree_model.predict(X_test)

best_tree_accuracy = accuracy_score(y_test, best_tree_pred)
print("Точность решающего дерева с оптимальными параметрами:", best_tree_accuracy)
print("\nConfusion Матрица решающего дерева с оптимальными параметрами:\n", confusion_matrix(y_test, best_tree_pred))
print("\nClassification Отчет решающего дерева с оптимальными параметрами:\n", classification_report(y_test, best_tree_pred))

# Обучение и оценка модели случайного леса с оптимальными параметрами
best_forest_model = grid_forest.best_estimator_
best_forest_pred = best_forest_model.predict(X_test)

best_forest_accuracy = accuracy_score(y_test, best_forest_pred)
print("Точность случайного леса с оптимальными параметрами:", best_forest_accuracy)
print("\nConfusion Матрица случайного леса с оптимальными параметрами:\n", confusion_matrix(y_test, best_forest_pred))
print("\nClassification Отчет случайного леса с оптимальными параметрами:\n", classification_report(y_test, best_forest_pred))


Точность решающего дерева: 0.7821229050279329

Confusion Матрица решающего дерева:
 [[84 21]
 [18 56]]

Classification Отчет решающего дерева:
               precision    recall  f1-score   support

           0       0.82      0.80      0.81       105
           1       0.73      0.76      0.74        74

    accuracy                           0.78       179
   macro avg       0.78      0.78      0.78       179
weighted avg       0.78      0.78      0.78       179

Точность случайного леса: 0.8212290502793296

Confusion Матрица случайного леса:
 [[91 14]
 [18 56]]

Classification Отчет случайного леса:
               precision    recall  f1-score   support

           0       0.83      0.87      0.85       105
           1       0.80      0.76      0.78        74

    accuracy                           0.82       179
   macro avg       0.82      0.81      0.81       179
weighted avg       0.82      0.82      0.82       179

Лучшие параметры для решающего дерева: {'max_depth': 10, 'min

# Загрузка датасета

In [None]:
dataset_train = pd.read_csv("train.csv")

# Предварительная обработка данных

In [1]:
dataset_train['Age'].fillna(dataset_train['Age'].median(), inplace=True)
dataset_train['Embarked'].fillna(dataset_train['Embarked'].mode()[0], inplace=True)
dataset_train['Fare'].fillna(dataset_train['Fare'].median(), inplace=True)

NameError: name 'dataset_train' is not defined

# Преобразование категориальных переменных в числовые

In [2]:
dataset_train = pd.get_dummies(dataset_train, columns=['Sex', 'Embarked'], drop_first=True)

NameError: name 'pd' is not defined