# Лабораторная работа №5
## Задание:
1 . Провести классификацию найденного датасета, методами решающего дерева и случайного леса . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

## Лабораторная работа:
#### Подключение библиотек

In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report


#### Загрузка данных


In [None]:
Dataset = pd.read_csv('cybersecurity_attacks.csv')


### Создание искомого столбца

In [None]:
label_encoder = LabelEncoder()
Dataset['CompTotal Encoded'] = label_encoder.fit_transform(Dataset['CompTotal'])

### Очистка данных

In [None]:
non_numeric_columns = Dataset.select_dtypes(exclude=['number']).columns.tolist()
Dataset = Dataset.drop(columns=non_numeric_columns)

# Заполнение пустых значений средними значениями
columns_to_fill = Dataset.select_dtypes(include=['number']).columns.tolist()
for column in columns_to_fill:
    mean_value = Dataset[column].mean()
    Dataset[column].fillna(mean_value, inplace=True)

### Поиск лучших метрик

In [None]:
X = Dataset.drop(columns=['CompTotal Encoded'])
y = Dataset['CompTotal Encoded']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Для решающего дерева
decision_tree = DecisionTreeClassifier()
dt_params = {
    'max_depth': [None, 5, 10, 15, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

dt_grid_search = GridSearchCV(decision_tree, dt_params, cv=5)
dt_grid_search.fit(X_train, y_train)

y_pred_dt = dt_grid_search.predict(X_test)
accuracy_dt = accuracy_score(y_test, y_pred_dt)

print(f"Decision Tree - Лучшее значение параметра: {dt_grid_search.best_params_}, Точность на тесте: {accuracy_dt}")

# Для случайного леса
random_forest = RandomForestClassifier()
rf_params = {
    'n_estimators': [50, 100, 150, 200],
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

rf_grid_search = GridSearchCV(random_forest, rf_params, cv=5)
rf_grid_search.fit(X_train, y_train)

y_pred_rf = rf_grid_search.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)

print(f"Random Forest - Лучшие значения параметров: {rf_grid_search.best_params_}, Точность на тесте: {accuracy_rf}")


Decision Tree - Лучшее значение параметра: {'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 5}, Точность на тесте: 0.3265
Random Forest - Лучшие значения параметров: {'max_depth': 5, 'min_samples_leaf': 4, 'min_samples_split': 10, 'n_estimators': 100}, Точность на тесте: 0.326625


### Обучение на лучших параметрах

In [None]:
from sklearn.metrics import classification_report

# Для решающего дерева
best_dt_params = {'max_depth': 20}
best_decision_tree = DecisionTreeClassifier(**best_dt_params)
best_decision_tree.fit(X_train, y_train)

y_pred_best_dt = best_decision_tree.predict(X_test)
accuracy_best_dt = accuracy_score(y_test, y_pred_best_dt)

print(f"Decision Tree с лучшими параметрами - Точность на тесте: {accuracy_best_dt}")
print("Classification Report для Decision Tree:")
print(classification_report(y_test, y_pred_best_dt))

# Для случайного леса
best_rf_params = {'max_depth': None, 'n_estimators': 50}
best_random_forest = RandomForestClassifier(**best_rf_params)
best_random_forest.fit(X_train, y_train)

y_pred_best_rf = best_random_forest.predict(X_test)
accuracy_best_rf = accuracy_score(y_test, y_pred_best_rf)

print(f"Random Forest с лучшими параметрами - Точность на тесте: {accuracy_best_rf}")
print("Classification Report для Random Forest:")
print(classification_report(y_test, y_pred_best_rf))


Decision Tree с лучшими параметрами - Точность на тесте: 0.3355625
Classification Report для Decision Tree:
              precision    recall  f1-score   support

           0       0.33      0.40      0.36      5306
           1       0.34      0.35      0.34      5416
           2       0.35      0.26      0.30      5278

    accuracy                           0.34     16000
   macro avg       0.34      0.34      0.33     16000
weighted avg       0.34      0.34      0.33     16000

Random Forest с лучшими параметрами - Точность на тесте: 0.3345625
Classification Report для Random Forest:
              precision    recall  f1-score   support

           0       0.33      0.38      0.35      5306
           1       0.34      0.31      0.32      5416
           2       0.33      0.32      0.32      5278

    accuracy                           0.33     16000
   macro avg       0.33      0.33      0.33     16000
weighted avg       0.33      0.33      0.33     16000

