# Лабораторная работа №4: Подготовка данных для классификации с использованием случайного леса

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import accuracy_score, classification_report, mean_squared_error, r2_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
import numpy as np


# Загрузка данных для классификации
# Читаем CSV файл с текстовыми данными (job_title) и метками классов (category).
classification_data = pd.read_csv("/content/drive/MyDrive/AIMAI/ds1.csv.csv")

# Предварительная обработка данных
# Удаляем строки с пропущенными значениями, чтобы избежать ошибок при обработке текста.
classification_data = classification_data.dropna()

# Разделение на признаки и целевую переменную
# X_text: текстовые данные (job_title), которые будем преобразовывать в числовую форму.
# y_class: метки классов (category), которые будем использовать как целевую переменную.
X_text = classification_data['job_title']
y_class = classification_data['category']

# Преобразование текстовых данных в числовую форму
# Используем метод Bag of Words (CountVectorizer), чтобы представить текст как числовую матрицу.
vectorizer = CountVectorizer()
X_class = vectorizer.fit_transform(X_text)

# Разделение данных на обучающую и тестовую выборки
# Тренировочная выборка (80%): используется для обучения модели.
# Тестовая выборка (20%): используется для проверки качества модели.
# random_state=42 фиксирует случайное состояние для воспроизводимости.
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(
    X_class, y_class, test_size=0.2, random_state=42
)

In [None]:
# Загрузка данных для задачи регрессии
# Читаем CSV файл, содержащий признаки и целевую переменную (price).
regression_data = pd.read_csv("/content/drive/MyDrive/AIMAI/ds2.csv")

# Разделение данных на признаки и целевую переменную
# X_reg: все признаки, кроме целевой переменной (price), адреса (Address) и описания (desc).
# y_reg: целевая переменная (price), которую мы будем предсказывать.
X_reg = regression_data.drop(columns=["price", "Address", "desc"])
y_reg = regression_data["price"]

# Преобразование категориальных данных в числовые
# Преобразуем категориальные признаки в числовые с использованием метода one-hot encoding.
# drop_first=True исключает первый уровень категорий, чтобы избежать мультиколлинеарности.
X_reg = pd.get_dummies(X_reg, drop_first=True)

# Разделение данных на обучающую и тестовую выборки
# Тренировочная выборка (80%): используется для обучения модели.
# Тестовая выборка (20%): используется для проверки качества модели.
# random_state=42 фиксирует случайное состояние для воспроизводимости результатов.
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(
    X_reg, y_reg, test_size=0.2, random_state=42
)

In [None]:
# Модель случайного леса для классификации
# random_state=42 фиксирует случайное состояние для воспроизводимости результатов.
clf = RandomForestClassifier(random_state=42)

# Обучение модели случайного леса на тренировочных данных
# X_train_class: матрица признаков для обучения.
# y_train_class: метки классов для обучения.
clf.fit(X_train_class, y_train_class)

# Предсказание классов для тестовых данных
# X_test_class: матрица признаков для тестовой выборки.
y_pred_class = clf.predict(X_test_class)

# Оценка качества модели для задачи классификации
print("=== Классификация: Бейзлайн ===")

# Accuracy: доля правильно классифицированных объектов.
print("Accuracy:", accuracy_score(y_test_class, y_pred_class))

# Отчет о классификации
# Включает метрики:
# - precision: точность предсказания для каждого класса.
# - recall: полнота предсказания для каждого класса.
# - f1-score: гармоническое среднее precision и recall.
# - support: количество объектов каждого класса в тестовой выборке.
print(classification_report(y_test_class, y_pred_class))

=== Классификация: Бейзлайн ===
Accuracy: 0.8058856819468024
                                        precision    recall  f1-score   support

                            Accounting       0.40      0.22      0.29         9
       Administration & Office Support       0.81      0.85      0.83       436
             Advertising, Arts & Media       0.00      0.00      0.00        12
          Banking & Financial Services       0.69      0.76      0.72       208
              CEO & General Management       0.67      0.60      0.63        10
        Call Centre & Customer Service       0.55      0.51      0.53        35
                          Construction       0.76      0.76      0.76        85
                 Consulting & Strategy       0.35      0.25      0.29        24
                 Design & Architecture       0.80      0.47      0.59        17
                           Engineering       0.50      0.33      0.40         3
                  Healthcare & Medical       0.00      0.0

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
# Модель случайного леса для регрессии
# random_state=42 фиксирует случайное состояние для воспроизводимости результатов.
reg = RandomForestRegressor(random_state=42)

# Обучение модели случайного леса на тренировочных данных
# X_train_reg: матрица признаков для обучения.
# y_train_reg: целевая переменная для обучения.
reg.fit(X_train_reg, y_train_reg)

# Предсказание значений для тестовых данных
# X_test_reg: матрица признаков для тестовой выборки.
y_pred_reg = reg.predict(X_test_reg)

# Оценка качества модели для задачи регрессии
print("\n=== Регрессия: Бейзлайн ===")

# MSE (Mean Squared Error): среднеквадратичная ошибка.
# Указывает на среднее значение квадрата разницы между предсказанными и реальными значениями.
print("MSE:", mean_squared_error(y_test_reg, y_pred_reg))

# R² (R2 Score): коэффициент детерминации.
# Показывает, насколько хорошо модель объясняет дисперсию данных (значение от 0 до 1, где 1 - идеально).
print("R2 Score:", r2_score(y_test_reg, y_pred_reg))


=== Регрессия: Бейзлайн ===
MSE: 408716011860.4651
R2 Score: 0.993105759643903


In [None]:
# Формулирование гипотез для улучшения производительности модели:
# Подбор гиперпараметров для случайного леса.
# Основные гиперпараметры:
# - n_estimators: количество деревьев в лесу.
# - max_depth: максимальная глубина каждого дерева (ограничение сложности модели).
# - min_samples_split: минимальное количество объектов, необходимое для разделения узла.

# Гиперпараметры для задачи классификации
param_grid_clf = {
    'n_estimators': [50, 100, 150],      # Количество деревьев: от 50 до 150.
    'max_depth': [10, 20, None],         # Максимальная глубина: ограничение в 10, 20 или без ограничения.
    'min_samples_split': [2, 5, 10]      # Минимальное количество объектов для разделения узла.
}

# Гиперпараметры для задачи регрессии
param_grid_reg = {
    'n_estimators': [50, 100, 150],      # Количество деревьев: от 50 до 150.
    'max_depth': [10, 20, None],         # Максимальная глубина: ограничение в 10, 20 или без ограничения.
    'min_samples_split': [2, 5, 10]      # Минимальное количество объектов для разделения узла.
}

In [None]:
# Классификация с использованием случайного леса и подбором гиперпараметров
# GridSearchCV: поиск лучших параметров с помощью перебора.
# - RandomForestClassifier: модель случайного леса для классификации.
# - param_grid_clf: сетка гиперпараметров, определённая ранее.
# - cv=3: трёхкратная кросс-валидация.
# - scoring='accuracy': используем точность как метрику оценки качества модели.
grid_clf = GridSearchCV(RandomForestClassifier(random_state=42), param_grid_clf, cv=3, scoring='accuracy')

# Обучение модели с подбором гиперпараметров
# Обучаем GridSearchCV на тренировочных данных (X_train_class, y_train_class).
grid_clf.fit(X_train_class, y_train_class)

# Лучшая модель (с подобранными гиперпараметрами)
best_clf = grid_clf.best_estimator_

# Предсказание классов для тестовой выборки
y_pred_class_tuned = best_clf.predict(X_test_class)

# Оценка качества модели после подбора гиперпараметров
print("\n=== Классификация: Улучшенный бейзлайн ===")

# Лучшие параметры модели
print("Лучшие параметры:", grid_clf.best_params_)

# Точность (Accuracy): доля правильно предсказанных объектов.
print("Accuracy:", accuracy_score(y_test_class, y_pred_class_tuned))

# Отчёт о классификации
# Включает precision, recall, f1-score и support для каждого класса.
print(classification_report(y_test_class, y_pred_class_tuned))




=== Классификация: Улучшенный бейзлайн ===
Лучшие параметры: {'max_depth': None, 'min_samples_split': 10, 'n_estimators': 150}
Accuracy: 0.8126768534238823
                                        precision    recall  f1-score   support

                            Accounting       0.67      0.22      0.33         9
       Administration & Office Support       0.80      0.87      0.83       436
             Advertising, Arts & Media       0.00      0.00      0.00        12
          Banking & Financial Services       0.71      0.77      0.74       208
              CEO & General Management       0.56      0.50      0.53        10
        Call Centre & Customer Service       0.54      0.57      0.56        35
                          Construction       0.78      0.78      0.78        85
                 Consulting & Strategy       0.29      0.17      0.21        24
                 Design & Architecture       0.83      0.59      0.69        17
                           Engineering    

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Регрессия с использованием случайного леса и случайного поиска гиперпараметров
# RandomizedSearchCV: выполняет случайный поиск по сетке гиперпараметров.
# - RandomForestRegressor: модель случайного леса для регрессии.
# - param_distributions=param_grid_reg: сетка гиперпараметров.
# - n_iter=5: количество случайных комбинаций для проверки (уменьшает вычислительную нагрузку).
# - cv=3: трёхкратная кросс-валидация.
# - scoring='r2': используем коэффициент детерминации (R²) как метрику оценки.
# - n_jobs=-1: используем все доступные ядра процессора для ускорения.
random_reg = RandomizedSearchCV(
    RandomForestRegressor(random_state=42),
    param_distributions=param_grid_reg,
    n_iter=5,  # Проверяем 5 случайных комбинаций
    cv=3,
    scoring='r2',  # Метрика R² для оценки качества
    n_jobs=-1,
    random_state=42
)

# Обучение модели с подбором гиперпараметров
# RandomizedSearchCV обучается на тренировочных данных (X_train_reg, y_train_reg).
random_reg.fit(X_train_reg, y_train_reg)

# Лучшая модель (с подобранными гиперпараметрами)
best_reg = random_reg.best_estimator_

# Предсказание значений целевой переменной для тестовой выборки
y_pred_reg_tuned = best_reg.predict(X_test_reg)

# Оценка качества модели после подбора гиперпараметров
print("\n=== Регрессия: Улучшенный бейзлайн ===")

# Лучшие параметры модели
print("Лучшие параметры:", random_reg.best_params_)

# MSE (Mean Squared Error): среднеквадратичная ошибка предсказаний.
print("MSE:", mean_squared_error(y_test_reg, y_pred_reg_tuned))

# R² (R2 Score): коэффициент детерминации.
# Показывает, насколько хорошо модель объясняет дисперсию данных.
print("R2 Score:", r2_score(y_test_reg, y_pred_reg_tuned))


=== Регрессия: Улучшенный бейзлайн с RandomizedSearch ===
Лучшие параметры: {'n_estimators': 100, 'min_samples_split': 5, 'max_depth': 20}
MSE: 497947779992.0194
R2 Score: 0.9916005941034142


In [None]:
def manual_random_forest(X, y, n_estimators=10, max_depth=None):
    """
    Реализация простого случайного леса вручную, основанного на решающих деревьях.

    Параметры:
    - X: матрица признаков (NumPy массив).
    - y: вектор целевой переменной (строки для классификации или числа для регрессии).
    - n_estimators: количество деревьев в лесу (по умолчанию 10).
    - max_depth: максимальная глубина каждого дерева (по умолчанию None - без ограничения).

    Возвращает:
    - Список обученных деревьев.
    """
    from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor

    trees = []  # Список для хранения деревьев
    for _ in range(n_estimators):
        # Генерация случайной bootstrap-выборки
        # Генерируем индексы с повторением, чтобы создать новую обучающую выборку
        bootstrap_indices = np.random.choice(range(len(y)), size=len(y), replace=True)
        X_bootstrap = X[bootstrap_indices]  # Признаки для bootstrap-выборки
        y_bootstrap = y[bootstrap_indices]  # Целевая переменная для bootstrap-выборки

        # Выбор типа дерева (классификатор или регрессор) на основе типа целевой переменной
        if isinstance(y[0], str):  # Если целевая переменная строковая
            tree = DecisionTreeClassifier(max_depth=max_depth)  # Дерево для классификации
        else:
            tree = DecisionTreeRegressor(max_depth=max_depth)  # Дерево для регрессии

        # Обучение дерева на bootstrap-выборке
        tree.fit(X_bootstrap, y_bootstrap)
        trees.append(tree)  # Сохраняем обученное дерево

    return trees

In [None]:
# Создание отображения классов в числовые метки
# Генерируем словарь, который сопоставляет каждому классу (label) числовой индекс (idx).
class_mapping = {label: idx for idx, label in enumerate(np.unique(y_train_class))}

# Обратное отображение для преобразования предсказаний обратно в исходные метки классов.
inv_class_mapping = {idx: label for label, idx in class_mapping.items()}

# Преобразуем тренировочные метки классов в числовые значения с использованием отображения.
y_train_class_num = np.array([class_mapping[label] for label in y_train_class])

# Обучение самописного случайного леса для задачи классификации
# Используем массив признаков (X_train_class.toarray()) и числовые метки классов (y_train_class_num).
# Параметры:
# - n_estimators=10: количество деревьев в лесу.
# - max_depth=10: ограничение глубины каждого дерева.
manual_forest_class = manual_random_forest(X_train_class.toarray(), y_train_class_num, n_estimators=10, max_depth=10)

# Прогнозирование на тестовых данных
# Получаем предсказания от каждого дерева (в виде числовых меток классов).
# Преобразуем разреженную матрицу признаков (X_test_class) в плотную с помощью .toarray().
manual_preds_class = np.mean([tree.predict(X_test_class.toarray()) for tree in manual_forest_class], axis=0)

# Преобразуем средние предсказания (числовые) в исходные метки классов.
# Используем округление до ближайшего целого для числовых предсказаний.
man_pred_class_labels = [inv_class_mapping[int(round(pred))] for pred in manual_preds_class]

# Оценка качества самописного случайного леса для классификации
print("\n=== Классификация: Самописный случайный лес ===")

# Accuracy: доля правильно классифицированных объектов.
print("Accuracy:", accuracy_score(y_test_class, man_pred_class_labels))


=== Классификация: Самописный случайный лес ===
Accuracy: 0.3503112620260328


In [None]:
# Обучение самописного случайного леса для задачи регрессии
# Используем данные в формате NumPy массивов (X_train_reg, y_train_reg).
# Параметры:
# - n_estimators=10: количество деревьев в лесу.
# - max_depth=10: ограничение глубины каждого дерева.
manual_forest_reg = manual_random_forest(X_train_reg.to_numpy(), y_train_reg.to_numpy(), n_estimators=10, max_depth=10)

# Прогнозирование на тестовых данных
# Получаем предсказания от каждого дерева для всех объектов тестовой выборки.
# Предсказания усредняются (аналог усреднения в ансамблях для регрессии).
manual_preds_reg = np.mean([tree.predict(X_test_reg.to_numpy()) for tree in manual_forest_reg], axis=0)

# Оценка качества самописного случайного леса для регрессии
print("\n=== Регрессия: Самописный случайный лес ===")

# MSE (Mean Squared Error): среднеквадратичная ошибка предсказаний.
# Показывает среднее значение квадрата разницы между предсказанными и реальными значениями.
print("MSE:", mean_squared_error(y_test_reg, manual_preds_reg))

# R² (R2 Score): коэффициент детерминации.
# Показывает, насколько хорошо модель объясняет дисперсию данных (чем ближе к 1, тем лучше).
print("R2 Score:", r2_score(y_test_reg, manual_preds_reg))


=== Регрессия: Самописный случайный лес ===
MSE: 494091588682.0969
R2 Score: 0.9916656405145607


# Общие выводы:
	•	Случайный лес является эффективным алгоритмом для работы с разнородными данными.
	•	Библиотечные реализации превосходят самописные по производительности, но создание собственной версии позволило глубже понять внутренние механизмы алгоритма.
	•	Улучшение гиперпараметров через GridSearchCV и RandomizedSearchCV увеличивает точность и надёжность моделей.
