#### <font color="purple"> Методы улучшения качества модели после начала обработки данных</font>

- <font color="purple">Коррекция весов классов.</font> Коррекция весов классов (Adjusting Class Weights) в алгоритмах машинного обучения может помочь в борьбе с неправильной классификацией при работе с «малыми классами». Это повышает чувствительность модели при работе с такими классами.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Прочесть данные из CSV-файла
data = pd.read_csv('your_data.csv')

# Указать имя столбца, в котором находится целевая переменная
target_column = 'target'

# Разделить данные на признаки и целевую переменную
X = data.drop(target_column, axis=1)
y = data[target_column]

# Разделить данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=10)


In [None]:
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.utils.class_weight import compute_class_weight


# Разделить данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=10)

# Вычислить веса классов
classes = np.unique(y_train)
class_weights = compute_class_weight(class_weight='balanced', classes=classes, y=y_train)
class_weights_dict = dict(zip(classes, class_weights))

print(f"Class weights: {class_weights_dict}")

model = RandomForestClassifier(class_weight=class_weights_dict, random_state=10)
model.fit(X_train, y_train)

# Сформировать прогноз на наборе тестовых данных
y_pred = model.predict(X_test)

...

Используя эти методики можно эффективно справляться с несбалансированностью классов. Это позволяет добиться хорошей работы модели в применении ко всем классам.

#### <font color="purple">Кросс-валидация и тюнинг гиперпараметров</font> 

Кросс-валидация (Cross-Validation, перекрёстная проверка) и тюнинг гиперпараметров (Hyperparameter Tuning) — это основные методы, используемые при выборе модели, наилучшим образом подходящей для решения задачи. Их применение помогает избежать переобучения модели. Они позволяют добиться того, чтобы модель, встречаясь с ранее неизвестными ей данными, хорошо работала бы с ними и не теряла бы эффективности.

Когда, перед обучением и проверкой модели, данные лишь один раз делят на обучающий и тестовый наборы, это приводит к получению модели, отличающейся высокой дисперсией. На такую модель влияют (сильнее, чем того хотелось бы) отдельные образцы, которые оказываются в обучающем и тестовом наборах данных.
- <font color="purple">  Кросс-валидация </font> 
Кросс-валидация — это методика, используемая для оценки эффективности работы модели путём разбиения данных на несколько подмножеств, или блоков (fold) данных, с последующими обучением и проверкой модели на этих подмножествах.

- Чаще всего для кросс-валидации моделей используется метод K-Fold Cross-Validation (K-блочная кросс-валидация). Данные разбивают на K подмножеств, а модель обучают и оценивают K раз. Каждый раз один из блоков используется в качестве тестового набора данных, а оставшиеся (k-1) блоков — в качестве обучающего набора данных.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# Инициализировать модель
model = RandomForestClassifier(random_state=10)

# Выполнить 5-блочную кросс-валидацию
cv_scores = cross_val_score(model, X, y, cv=5)

# Вывести оценки, полученные в ходе кросс-валидации
print(f'Cross-Validation Scores: {cv_scores}')
print(f'Mean CV Score: {cv_scores.mean():.2f}')

<font color="purple">Тюнинг гиперпараметров</font>

Тюнинг гиперпараметров предусматривает нахождение оптимальных гиперпараметров для конкретной модели. Вот две распространённых методики тюнинга:

- Поиск по сетке (Grid search) включает в себя полный поиск по выбранной сетке параметров. В большинстве случаев такой поиск требует неоправданно большого объёма вычислительных ресурсов.

- Случайный поиск (Randomized search) — в ходе поиска осуществляется случайный выбор значений параметров из заданного распределения.