# Лабораторная работа 5

Задание 1 . Провести классификацию найденного датасета, методами решающего дерева и случайного леса . В формате *Markdown* написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

In [2]:
data = pd.read_csv('anime-dataset-2023.csv')

In [3]:
# Вывод общей информации о данных
print("Общая информация о данных:")
print(f"Количество строк: {data.shape[0]}")
print(f"Количество столбцов: {data.shape[1]}")
print("\nТипы данных по столбцам:")
print(data.dtypes)

Общая информация о данных:
Количество строк: 24905
Количество столбцов: 24

Типы данных по столбцам:
anime_id         int64
Name            object
English name    object
Other name      object
Score           object
Genres          object
Synopsis        object
Type            object
Episodes        object
Aired           object
Premiered       object
Status          object
Producers       object
Licensors       object
Studios         object
Source          object
Duration        object
Rating          object
Rank            object
Popularity       int64
Favorites        int64
Scored By       object
Members          int64
Image URL       object
dtype: object


In [4]:
# Предположим, что вы хотите предсказать 'Medical Condition' на основе других столбцов
# Выборка признаков и целевой переменной
features = ['Popularity', 'Favorites', 'Members', 'Episodes']
target = 'Type'

X = data[features]
y = data[target]

# Преобразование категориальных признаков в числовые значения
label_encoders = {}
for column in X.select_dtypes(include=['object']).columns:
    label_encoders[column] = LabelEncoder()
    X.loc[:, column] = label_encoders[column].fit_transform(X.loc[:, column])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Настройка гиперпараметров для решающего дерева
params_dt = {
    'max_depth': [3, 5, 7, 10],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

decision_tree = DecisionTreeClassifier(random_state=42)
grid_search_dt = GridSearchCV(decision_tree, params_dt, cv=5)
grid_search_dt.fit(X_train, y_train)

best_decision_tree = grid_search_dt.best_estimator_
predictions_dt_tuned = best_decision_tree.predict(X_test)
accuracy_dt_tuned = accuracy_score(y_test, predictions_dt_tuned)

print("Лучшие параметры для решающего дерева:", grid_search_dt.best_params_)
print("Точность настроенных параметров решающего дерева:", accuracy_dt_tuned)
print("Classification Report of Tuned Decision Tree:")
print(classification_report(y_test, predictions_dt_tuned))

params_rf = {
    'n_estimators': [50, 100],
    'max_depth': [None, 5],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1]
}

random_forest = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(random_forest, params_rf, cv=5)
grid_search_rf.fit(X_train, y_train)

best_random_forest = grid_search_rf.best_estimator_
predictions_rf_tuned = best_random_forest.predict(X_test)
accuracy_rf_tuned = accuracy_score(y_test, predictions_rf_tuned)

print("\nЛушчие параметры для случайного леса:", grid_search_rf.best_params_)
print("Точность настроенных параметров случайного леса:", accuracy_rf_tuned)
print("Classification Report of Tuned Random Forest:")
print(classification_report(y_test, predictions_rf_tuned))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X.loc[:, column] = label_encoders[column].fit_transform(X.loc[:, column])


Лучшие параметры для решающего дерева: {'max_depth': 10, 'min_samples_leaf': 4, 'min_samples_split': 2}
Точность настроенных параметров решающего дерева: 0.5771933346717527
Classification Report of Tuned Decision Tree:
              precision    recall  f1-score   support

       Movie       0.44      0.62      0.52       867
       Music       0.41      0.47      0.44       517
         ONA       0.45      0.32      0.37       683
         OVA       0.51      0.51      0.51       817
     Special       0.38      0.18      0.24       506
          TV       0.84      0.87      0.85      1576
     UNKNOWN       0.00      0.00      0.00        15

    accuracy                           0.58      4981
   macro avg       0.43      0.42      0.42      4981
weighted avg       0.57      0.58      0.57      4981



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))



Лушчие параметры для случайного леса: {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 100}
Точность настроенных параметров случайного леса: 0.5645452720337282
Classification Report of Tuned Random Forest:
              precision    recall  f1-score   support

       Movie       0.45      0.49      0.47       867
       Music       0.35      0.36      0.35       517
         ONA       0.38      0.28      0.32       683
         OVA       0.52      0.54      0.53       817
     Special       0.35      0.28      0.31       506
          TV       0.82      0.90      0.86      1576
     UNKNOWN       0.33      0.07      0.11        15

    accuracy                           0.56      4981
   macro avg       0.46      0.42      0.42      4981
weighted avg       0.55      0.56      0.55      4981

