# **Sklearn supervised**

## **Linear Regression**

In [None]:
from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.linear_model import LinearRegression
model = LinearRegression()

model.fit(X_train, y_train) #обучение модели на трейне
test_predictions = model.predict(X_test) #предсказание для теста

final_model = LinearRegression() #на финале модель можно обучить на
                                 #всех данных
final_model.fit(X, y)

final_model.coef_ #посмотреть коэфициенты модели

from sklearn.metrics import mean_absolute_error, mean_squared_error

MAE = mean_absolute_error(y_test,test_predictions)
MSE = mean_squared_error(y_test,test_predictions)
RMSE = = np.sqrt(MSE)

### **Анализ остатков**

Остатки - разница между фактическим значением и предсказанием

In [None]:
test_predictions = model.predict(X_test)
test_residuals = y_test - test_predictions

Нанесение остатков на график:

In [None]:
sns.scatterplot(x=y_test,y=test_res)
plt.axhline(y=0, color='r', linestyle='--');

В идеале остатки должны лежать на красной линии, т.е. разница между предсказанием и фактом должна быть нулевой

![изображение.png](attachment:abedfdc0-9bc7-4b25-b06a-729ec3088bbe.png)

### **Полиномиальная регрессия**

Прежде всего импортируем из Preprocessing класс PolynomialFeatures. С его помощью мы трансформируем наши исходные данные, добавляя в них полиномиальные признаки.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

polynomial_converter = PolynomialFeatures(degree=2, include_bias=False)

poly_features = polynomial_converter.fit_transform(X) 
              #проектирование и создание полиномиальных признаков

from sklearn.linear_model import LinearRegression

model = LinearRegression()

Далее все так же, как и у простой линейной регрессии

#### **Выбор степени полинома**

In [None]:
# Ошибка на обучающем наборе для той или иной степени полинома
train_rmse_errors = []
# Ошибка на тестовом наборе для той или иной степени полинома
test_rmse_errors = []

for d in range(1,10):
   
   # Создаём полиномиальные данные для степени "d"
   polynomial_converter = PolynomialFeatures(degree=d,include_bias=False)
   poly_features = polynomial_converter.fit_transform(X)
   
   X_train, X_test, y_train, y_test = train_test_split(poly_features, y, test_size=0.3, random_state=101)
   
   model = LinearRegression(fit_intercept=True)
   model.fit(X_train,y_train)
   
   train_pred = model.predict(X_train)
   test_pred = model.predict(X_test)
   

   train_RMSE = np.sqrt(mean_squared_error(y_train, train_pred))
   test_RMSE = np.sqrt(mean_squared_error(y_test, test_pred))
      
   train_rmse_errors.append(train_RMSE)
   test_rmse_errors.append(test_RMSE)

Строим графики для оценки

![изображение.png](attachment:07dc293c-1a7d-4e1e-ab6e-f016eb2ba1e2.png)

Исходя из деталей графиков, в частности первого, лучшим решением будет выбор degree=3. На нашем графике видно, что мы могли бы выбрать и значение degree=4, однако безопаснее взять чуть меньшую степень сложности.


## **Gradient Descent**


### **Алгоритм GD**


#### 1. Инициализация весов $\omega$ некоторыми начальными значениями.
#### 2. Вычисление начального среднего эмпирического риска:
   $$
   \bar{Q}(\omega) = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
   $$
#### 3. Цикл:
   1. Вычисление градиента функции потерь:
$$
   \nabla L(\omega) = \left( \frac{\partial L}{\partial \omega_1}, \frac{\partial L}{\partial \omega_2}, \ldots, \frac{\partial L}{\partial \omega_n} \right)
$$
   2. Обновление весов:
$$
   \omega = \omega - \eta \cdot \nabla L(\omega)
$$
   3. Пересчет среднего эмпирического риска:
      $$
      \bar{Q} = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
      $$
   4. Пока $\bar{Q}$ и/или $\omega$ не достигнут заданных значений:

### **Алгоритм SGD**

#### 1. Инициализация весов $\omega$ некоторыми начальными значениями.
#### 2. Вычисление начального среднего эмприрического риска:
$$
\bar{Q}(\omega) = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
$$
#### 3. Цикл:
   
   1) Случайный выбор наблюдения $x_{k}$ из $X'$.
   2) Вычисление функции потерь:
      $$
      \varepsilon_{k} = L_{k}(\omega)
      $$
   3) Обновление весов:
      $$
      \omega = \omega - \eta \cdot \nabla L_{k}(\omega)
      $$
   4) Пересчет среднего эмприрического риска:
      $$
      \bar{Q} = \lambda \varepsilon_{k} + (1 - \lambda) \bar{Q}
      $$
   5) Пока $\bar{Q}$ и/или $\omega$ не достигнут заданных значений

In [None]:
from sklearn.preprocessing import PolynomialFeatures

polynomial_converter = PolynomialFeatures(degree=2, include_bias=False)

poly_features = polynomial_converter.fit_transform(X) 
              #проектирование и создание полиномиальных признаков

Потом требуется создать линейную модель

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

Далее все так же, как и у простой линейной регрессии

## **Regularization**

### **L2-регуляризация**

**L2 регуляризация, Гребневая регрессия, Ridge Regression** - метод регуляризации данных, позволяющий снизить вероятность overfitting на обучающем наборе данных, штрафуя модель за высокие значения коэффициентов.

При таком способе регуляризации обнуление коэффициентов НЕ происходит

$$
L(\beta) = L_{0}(\beta) + \lambda \sum_{j=1}^{p} \beta_{j}^{2}
$$

Лямбда определяет силу штрафа. В sklearn этот параметр называется alpha.

In [None]:
from sklearn.linear_model import Ridge

ridge_model = Ridge(alpha=10)
ridge_model.fit(X_train, y_train)

Далее можем формировать предсказания и метрически оценивать модель

**Как найти наилучшее значение альфа?**

Для этого нужно испрользовать кросс-валидацию, сравнив результат  текущего альфа с другими

Класс RidgeCV выполнит кросс-валидацию для разных альфа и выберет наилучшее по некоторой метрике. Для RidgeCV действует следующее правило: чем больше значение метрики, тем лучше

In [None]:
from sklearn.linear_model import RidgeCV #Cross-Validation

ridge_cv_model = RidgeCV(alphas=(0.1, 1.0, 10.0), scoring='neg_mean_absolute_error')
                      #мы указали значения альфа, для которых будем
                      #вычислять эффективность,
                      #и метрику для оценки
         
ridge_cv_model.fit(X_train, y_train)      #это train+validation
ridge_cv_model.alpha_        #узнать подобранное альфа

test_predictions = ridge_cv_model.predict(X_test)

Все метрики оценки для RidgeCV находятся тут:

In [None]:
from sklearn.metrics import SCORERS

SCORERS.keys()

### **L1-Регуляризация**

**L1-регуляризация,  LASSO** - метод регуляризации данных, который добавляет штраф за сумму абсолютных значений коэффициентов к функции потерь. Это помогает в выборе признаков, так как некоторые коэффициенты могут стать равными нулю, когда параметр альфа достаточно большой. Таким образом, лассо выбирает значимые признаки, а незначимые отбрасывает.

$$
L(\beta) = \frac{1}{2n} L_{0}(\beta) + \lambda \sum_{j=1}^{p} |\beta_{j}|
$$

Существует два способа продбора коэффициента альфа. Первый из них - использовать класс Lasso, где показатели альфа мы будем перечислять. Второй способ - использовать LassoCV, где мы указываем диапазон значений множителя

In [None]:
from sklearn.linear_model import LassoCV

lasso_cv_model = LassoCV(eps=0.01, n_alphas=100, cv=5)
            #Способ 1: в параметр alphas можно передать список значений
            #Способ 2: eps - диапазон, n_alphas - кол-во значений альфа
            #второй способ аналогичен функции linspace
            #eps вычисляется как alpha_min / alpha_max

lasso_cv_model.fit(X_train, y_train)
lasso_cv_model.alpha_        #узнать подобранное альфа
lasso_cv_model.coef_         #можно увидеть вычисленные коэффициенты
                             #часть из них обнулилась

test_predictions = lasso_cv_model.predict(X_test)

Далее можем вычислять значения метрик и оценивать эффективность модели

### **Elastic Net**

**Elastic Net** — это метод регуляризации, который объединяет преимущества L1 и L2 регуляризаций. Он добавляет штрафы за сумму абсолютных значений коэффициентов и за сумму квадратов коэффициентов к функции потерь. Это помогает в выборе признаков и предотвращении переобучения.

$$
L(\beta) = \frac{1}{2n} L_{0}(\beta) + \lambda_1 \sum_{j=1}^{p} |\beta_{j}| + \lambda_2 \sum_{j=1}^{p} \beta_{j}^{2}
$$

In [None]:
from sklearn.linear_model import ElasticNetCV

elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)
       #l1 ratio определяет отношение l1 / l2

elastic_model.fit(X_train,y_train)


In [None]:
elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)


![изображение.png](attachment:9dc45034-2c67-438a-be44-616939b7aa5b.png)

Получается, мы ищем два параметра: первый отражает силу применения общего штрафа, а второй - соотношение между L1 и L2.

In [None]:
elastic_model.l1_ratio #можем вывести все тестируемые соотношения
elastic_model.l1_ratio_ #вывести наилучшее значение
                    #если l1_ratio_ = 1, то L2 полностью исключен

elastic_model.alpha_ #лучшее значение коэффициента примеси штрафа

test_predictions = elastic_model.predict(X_test)

Далее можем вычислять значения метрик и оценивать эффективность модели

**По сути можно не проверять модель отдельно для L1 и L2, а сразу использовать их комбинацию.**

## **Feature Engineering**

### **Работа с выбросами**

Определить, является ли значение выбросом, можно несколькими способами:

1. **Использовать математику.** Оценить значения с точки зрения std и IQR
2. **Использовать графики.** Построить BoxPlot или ScatterPlot

При исключении из обучающего набора записей-выбросов следует сделать оговорку, что модель способна эффективно работать в конкретном диапазоне значений

### **Работа с отсутствующими данными**

Узнаем количество и процентовку отсутствующих значений для каждой колонки

In [None]:
df.isnull().sum()
df.isnull().sum() * 100 / len(df)

Далее есть два варианта действий с отсутствующими данными в столбцах:

1. Если значения отсутствуют только в нескольких строках, количество которых мало по сравнению с общим количеством строк, то можно рассмотреть вариант удалить такие строки. Мы выберем пороговое значение 1%. Это значит, что если меньше 1% строк содержат неопределённое значение какого-то признака, то мы просто удалим такие строки.
2. Если же значения отсутствуют почти во всех строках, то имеет смысл полностью удалить такие признаки. Однако перед этим следует внимательно разобраться, почему неопределённых значений так много. В некоторых случаях можно рассмотреть такие данные как отдельную категорию, отдельно от остальных данных.

### **Работа со строками**

Напишем функцию, которая будет считать процентовку пропущенных значений для каждого столбца датафрейма.

In [None]:
def percent_missing(df):
   percent_nan = 100* df.isnull().sum() / len(df)
   percent_nan = percent_nan[percent_nan>0].sort_values()
   return percent_nan


percent_nan = percent_missing(df)   #применяем функцию

percent_nan[percent_nan < 1]   #выбираем столбцы, в которых процент 
                               #НаНов меньше единицы 

Более детально рассматриваем записи для полученных столбцов и либо удаляем немногочисленные наблюдения, либо вдумчиво заполняем пропуски.

### **Работа со столбцами**

1. Если процент отсутствующих данных в столбце более 70%, столбец можно удалить.
2. Если процент не так высок, то имеет смысл полностью попытаться выяснить закономерность и заполнить пропуски.

In [None]:
df['Lot Frontage'] = df.groupby('Neighborhood')
                      ['Lot Frontage']
                      .transform(lambda val: val.fillna(val.mean()))

Этим кодом мы заполняем пропущенные ячейки столбца Lot Frontage средними значениями данного столбца, сгруппированными по столбцу Neighborhood

### **Работа с категориальными переменными**

**Dummy переменные** (или фиктивные переменные) — это переменные, которые используются для представления категориальных данных в числовой форме. Они принимают значения 0 или 1, указывая на отсутствие или наличие определенного свойства или категории. Например, если у нас есть категориальная переменная "Цвет" с тремя категориями: "Красный", "Синий" и "Зеленый", мы можем создать следующие dummy переменные

![изображение.png](attachment:bc7cbef1-f1b0-41b9-8e34-0141e5053eff.png)

Пусть имеем следующий датафрейм

In [None]:
person_state = pd.Series(['Dead', 'Alive', 'Dead', 'Alive', 'Dead', 'Dead'])

Используя pandas мы можем быстро сделать dummy переменные

In [None]:
pd.get_dummies(person_state)
           #или так, удалив одну избыточную колонку
pd.get_dummies(person_state, drop_first=True)

Выберем те столбцы датафрейма, которые имеют строковый тип, т.е. 'object', и те, что имеют тип, отличный от 'object'. Перед этим можем вывести информацию по всем колонкам для ясности

In [None]:
df.info()
df_objs = df.select_dtypes(include='object')
df_nums = df.select_dtypes(exclude='object')

Такое разбиение нужно для того, чтобы преобразовать все текстовые колонки в dummy переменные, а после добавить к ним все НЕтекстовые колонки.

In [None]:
df_objs = pd.get_dummies(df_objs, drop_first=True)

Получим огромное количество колонок

Теперь сшиваем полученный фрейм с тем, что хранит наши численные столбцы

In [None]:
final_df = pd.concat([df_nums, df_objs], axis=1)

![изображение.png](attachment:9ca73c23-60dc-49a5-9da7-1f70a4f15a12.png)

Метод get_dummies может при передаче целого датафрейма генерировать dummies только для текстовых столбцов. Поэтому подобное разделение не обязательно. Однако перед применением этого метода требуется преобразовывать категориальные численные переменные в текстовые, просто меняя их тип на 'object'.

Таким образом, есть и другие способы прийти к нашему результату:

![изображение.png](attachment:2bef8fce-bff9-4eb4-98f1-8d70d789907a.png)

В третьем способе показано, что метод может принимать список со столбцами, для которых требуется создать dummies. Сюда нужно передать все текстовые колонки и все численные категориальные колонки.

## **Cross-Validation**

### **Разбиение train-test split**

1. Очищаем и масштабируем данные X и y (при необходимости)
2. Разбиваем данные на обучающий и тестовый наборы данных - как для X, так и для y
3. Обучаем объект Scaler на обучающих данных X
4. Применяем масштабирование (scale) для тестовых данных X
5. Создаём модель
6. Обучаем модель на обучающих данных X
7. Оцениваем модель на тестовых данных X (создавая предсказания и сравнивая их с y_test)
8. Уточняем параметры модели, повторяя шаги 5 и 6

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных - SCALE DATA
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#создание модели и обучение на тренировочном наборе
from sklearn.linear_model import Ridge

model = Ridge(alpha=100)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)

#оценка эффективности модели
from sklearn.metrics import mean_squared_error

mean_squared_error(y_test,y_pred)

### **Разбиение train-val-test split**

1. Очищаем и масштабируем данные X и y (при необходимости)
2. Разбиваем данные на обучающий, оценочный и тестовый наборы данных - как для X, так и для y
3. Обучаем объект Scaler на обучающих данных X
4. Масштабируем (scale) оценочные данные X
5. Создаём модель
6. Обучаем модель на обучающих данных X
7. Оцениваем модель на оценочных данных X (создавая предсказания и сравнивая их с Y_eval)
8. Уточняем параметры модели, повторяя шаги 5 и 6
9. Вычисляем финальные метрики на тестовом наборе данных (после этого уже нельзя возвращаться и делать уточнения!)

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#вызываем SPLIT дважды! Здесь мы создаём три набора данных
from sklearn.model_selection import train_test_split

#70% данных определяем в обучающий набор, остальные 30% откладываем в сторону
X_train, X_OTHER, y_train, y_OTHER = train_test_split(X, y, test_size=0.3, random_state=101)

#оставшиеся 30% разбиваем на оценочный и тестовый наборы данных
#каждый будет по 15% от исходного набора данных 
X_eval, X_test, y_eval, y_test = train_test_split(X_OTHER, y_OTHER, test_size=0.5, random_state=101)

#масштабируем данные (SCALE)
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_eval = scaler.transform(X_eval)
X_test = scaler.transform(X_test)

from sklearn.linear_model import Ridge

#мы осознанно указываем неудачное значение Alpha!
model = Ridge(alpha=100)

model.fit(X_train,y_train)
y_eval_pred = model.predict(X_eval)

#оценка модели на валидации
from sklearn.metrics import mean_squared_error
mean_squared_error(y_eval, y_eval_pred)

#редактирование гиперпараметров
model = Ridge(alpha=1)
model.fit(X_train,y_train)

#вторая оценка модели на валидации
y_eval_pred = model.predict(X_eval)
mean_squared_error(y_eval, y_eval_pred)

#финальная оценка на тесте
y_final_test_pred = model.predict(X_test)
mean_squared_error(y_test, y_final_test_pred)

### **Кросс-валидация - cross_val_score**

![изображение.png](attachment:8773bd28-5c32-42dc-acd6-d7c43f307e28.png)

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных (SCALE)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

model = Ridge(alpha=100)

from sklearn.model_selection import cross_val_score

#варианты оценки модели:
#https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_val_score(model, X_train, y_train,
                        scoring='neg_mean_squared_error', cv=5)

scores
#вывод: array([ -9.32552967, -4.9449624 , -11.39665242, -7.0242106 , -8.38562723])

#среднее значение MSE scores (делаем это значение положительным)
abs(scores.mean())

#уточняем модель на основе метрик
model = Ridge(alpha=1)

scores = cross_val_score(model, X_train, y_train,
                        scoring='neg_mean_squared_error', cv=5)

abs(scores.mean())

#вычисляем финальные метрики на тестовом наборе данных 
#сначала нужно обучить модель!

model.fit(X_train,y_train)

y_final_test_pred = model.predict(X_test)

mean_squared_error(y_test,y_final_test_pred)

### **Кросс-валидация cross_validate**

Функция cross_validate отличается от cross_val_score двумя аспектами:

* эта функция позволяет использовать для оценки несколько метрик;

* она возвращает не только оценку на тестовом наборе (test score), но и словарь с замерами времени обучения и скоринга, а также - опционально - оценки на обучающем наборе и объекты estimator.

В случае одной метрики для оценки, когда параметр scoring является строкой string, вызываемым объектом callable или значением None, ключи словаря будут следующими:

In [None]:
['test_score', 'fit_time', 'score_time']

А в случае нескольких метрик для оценки, возвращаемый словарь будет содержать следующие ключи:

In [None]:
['test_<scorer1_name>', 'test_<scorer2_name>', 'test_<scorer...>', 'fit_time', 'score_time']

return_train_score по умолчанию принимает значение False, чтобы сэкономить вычислительные ресурсы. Чтобы посчитать оценки на обучающем наборе, достаточно установить этот параметр в значение True.

In [None]:
## Создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

# Делаем разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

# Масштабируем данные (SCALE)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

model = Ridge(alpha=100)

from sklearn.model_selection import cross_validate

# Варианты оценки модели:
# https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_validate(model, X_train, y_train,
                        scoring=['neg_mean_absolute_error', 'neg_mean_squared_error', 'max_error'], cv=5)

scores

pd.DataFrame(scores)

pd.DataFrame(scores).mean()

model = Ridge(alpha=1)

# Варианты оценки модели:
# https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_validate(model,X_train,y_train,
                        scoring=['neg_mean_absolute_error', 'neg_mean_squared_error', 'max_error'], cv=5)

pd.DataFrame(scores).mean()


# Сначала нужно обучить модель!
model.fit(X_train, y_train)

y_final_test_pred = model.predict(X_test)

mean_squared_error(y_test, y_final_test_pred)

### **Поиск по сетке**

Мы можем перебирать комбинации гиперпараметров с помощью поиска по сетке (grid). Линейные модели достаточно просты, и у них даже есть свои специализированные версии поиска значений параметров. Но также можно использовать обобщённый метод поиска по сетке - grid search. Этот метод применим для любой модели в sklearn, и он пригодится нам позже для более сложных моделей.

Этот поиск состоит из следующих составляющих:

* функция оценки - estimator (рregressor или classifier, например sklearn.svm.SVC());
* пространство параметров;
* метод поиска или сэмплирования кандидатов;
* схема кросс-валидации
* функция оценки (score function).

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на обучающий и тестовый наборы - TRAIN TEST SPLIT
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных (SCALE)
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#для примера берем модель с двумя гиперпараметрами
from sklearn.linear_model import ElasticNet

base_elastic_model = ElasticNet()

param_grid = {'alpha':[0.1, 1, 5, 10, 50, 100],
             'l1_ratio':[.1, .5, .7,  .9, .95, .99, 1]}

from sklearn.model_selection import GridSearchCV

# число verbose выбирайте сами
grid_model = GridSearchCV(estimator=base_elastic_model,
                         param_grid=param_grid,
                         scoring='neg_mean_squared_error',
                         cv=5,
                         verbose=2)

grid_model.fit(X_train,y_train)

grid_model.best_params_ #наилучшая комбинация гиперпараметров
pd.DataFrame(grid_model.cv_results_) #подробная информация по каждой 
                                     #комбинации

best_model = grid_model.best_estimator_

y_pred = grid_model.predict(X_test)

#оценка лучшей модели
from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, y_pred)

## **Logistic Regression**

Типичная настройка для логистической регрессии выглядит следующим образом: существует результат $y$, который попадает в одну из двух категорий, и используется следующее уравнение для оценки вероятности того, что $y$ принадлежит определенной категории, учитывая входные данные.

$$
   P(y=1 \mid X) = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Где $ z $ определяется как:
   $$
   z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k
   $$

### **MLE**

Наша цель - найти модель, которая максимизирует вероятность наблюдения данных, используя оценку максимального правдоподобия (MLE). Это означает, что мы ищем такие значения параметров, при которых наблюдаемые данные наиболее вероятны. То есть для для конкретного вектора признаков мы будем выбирать тот класс, вероятность принадлежности к которому для этого наблюдения максимальна.

Цель состоит в том, чтобы найти значения параметров, которые минимизируют следующее:

$$
L(\theta) = -\sum_{i=1}^{n} \log P(y_i | \theta)
$$

In [None]:
X = df.drop('test_result',axis=1)
y = df['test_result']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.linear_model import LogisticRegression
log_model = LogisticRegression()

log_model.fit(scaled_X_train,y_train)

log_model.coef_

y_pred = log_model.predict(scaled_X_test) #список из нулей и единиц
y_pred_proba = log_model.predict_proba(scaled_X_test) #список из вероятностей

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report

accuracy_score(y_test, y_pred)
precision_score(y_test, y_pred)
recall_score(y_test, y_pred)

confusion_matrix(y_test,y_pred) 

from sklearn.metrics import ConfusionMatrixDisplay, PrecisionRecallDisplay, RocCurveDisplay

ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test); #для визуализации матрицы ошибок модели.
ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test, normalize='true');
                                    #normalize='true': Нормализация по строкам. 
                                    #Показывает, как хорошо модель классифицирует каждый класс 
                                    #относительно его истинного количества.
                                    #normalize='all': Нормализация по всем элементам матрицы. 
                                    #Показывает, как каждый класс соотносится с общим 
                                    #количеством примеров в выборке.

print(classification_report(y_test, y_pred)) #таблица с precision, recall, f1-score, accuracy, macro avg и weighted avg

RocCurveDisplay.from_estimator(log_model, scaled_X_test, y_test);      #ROC-curve
PrecisionRecallDisplay.from_estimator(log_model, scaled_X_test,y_test);  #PrecisionRecall

### **Метрики оценки модели классификации**

#### **Accuracy**
*Процент правильных предсказаний*

##### **Accuracy = (TP + TN) / Total**

#### **Precision**
*Процент правильно предсказанных положительных случаев от общего числа положительных предсказаний*

##### **Precision = TP / Total Predicted Positives**

#### **Recall**
*Процент правильно предсказанных положительных случаев от общего числа истинных положительных исходов*

##### **Recall = TP / Total Actual Positives**

#### **F1-score**
*Если хоть одна метрика равна нулю, F1-score также равняется нулю*

##### **F1-score = 2 * Precision * Recall  /  Precision + Recall**



![изображение.png](attachment:5e245b5f-2c79-481d-b9e4-b2df433d4ad2.png)

### **ROC / AUC**

**ROC-кривая** представляет собой график, который показывает соотношение между истинно положительными **(TPR)** и ложноположительными **(FPR)** значениями при различных порогах классификации.

**TPR = TP / (TP + FN)** - доля истинно положительных, которые были классифицированы как положительные.

**FPR = FP / (FP + TN)** - доля истинно отрицательных, которые были ошибочно классифицированы как положительные.

**AUC** — это площадь под ROC-кривой, которая измеряет способность модели различать между положительными и отрицательными классами. 

![изображение.png](attachment:451afe52-5c20-4aff-810a-852611f5e8ce.png)

### **Мультиклассовая классификация**

In [None]:
X = df.drop('species',axis=1)
y = df['species']

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=101)

scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

log_model = LogisticRegression(solver='saga', multi_class="ovr", max_iter=5000)

# Тип Penalty
penalty = ['l1', 'l2', 'elasticnet']
l1_ratio = np.linspace(0, 1, 20)

# Используем логарифмически отстоящие друг от друга значения C (рекомендовано в официальной документации)
C = np.logspace(0, 10, 20) #насколько сильно применять штрафное слагаемое


param_grid={'C': C,
            'l1_ratio': l1_ratio,
            'penalty': penalty}

grid_model = GridSearchCV(log_model, param_grid=param_grid)

grid_model.fit(scaled_X_train, y_train)
grid_model.best_params_
grid_model.get_params()

best_model = grid_model.best_estimator_ #можем выбрать лучшую модель, благодаря этому
                                        #позже сможем получить коэфициенты модели: best_model.coef_

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, ConfusionMatrixDisplay

y_pred = grid_model.predict(scaled_X_test)

accuracy_score(y_test, y_pred)
confusion_matrix(y_test, y_pred)

ConfusionMatrixDisplay.from_estimator(grid_model, scaled_X_test, y_test);

# Масштабированные значения, максимальное значение = 1
ConfusionMatrixDisplay.from_estimator(grid_model, scaled_X_test, y_test, normalize='true');

print(classification_report(y_test, y_pred))

#### **Функция, которая создаёт и рисует графики ROC-кривых для каждого класса**

Источник: https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

In [None]:
from sklearn.metrics import roc_curve, auc

In [None]:
def plot_multiclass_roc(clf, X_test, y_test, n_classes, figsize=(5,5)):
    y_score = clf.decision_function(X_test)

    # создаём пустые структуры
    fpr = dict()
    tpr = dict()
    roc_auc = dict()

    # один раз вычисляем dummies 
    y_test_dummies = pd.get_dummies(y_test, drop_first=False).values
    for i in range(n_classes):
        fpr[i], tpr[i], _ = roc_curve(y_test_dummies[:, i], y_score[:, i])
        roc_auc[i] = auc(fpr[i], tpr[i])

    # roc для каждого класса
    fig, ax = plt.subplots(figsize=figsize)
    ax.plot([0, 1], [0, 1], 'k--')
    ax.set_xlim([0.0, 1.0])
    ax.set_ylim([0.0, 1.05])
    ax.set_xlabel('False Positive Rate')
    ax.set_ylabel('True Positive Rate')
    ax.set_title('Receiver operating characteristic example')
    for i in range(n_classes):
        ax.plot(fpr[i], tpr[i], label='ROC curve (area = %0.2f) for label %i' % (roc_auc[i], i))
    ax.legend(loc="best")
    ax.grid(alpha=.4)
    sns.despine()
    plt.show()

In [None]:
plot_multiclass_roc(grid_model, scaled_X_test, y_test, n_classes=3, figsize=(16, 10));

![изображение.png](attachment:cfe647c6-8a10-4c82-99be-8e07261c95e1.png)

## **K-nearest neighbors**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df.drop('Cancer Present', axis=1)
y = df['Cancer Present']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=1)
knn_model.fit(scaled_X_train,y_train)

y_pred = knn_model.predict(scaled_X_test)

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

accuracy_score(y_test, y_pred)
confusion_matrix(y_test, y_pred)
print(classification_report(y_test, y_pred))

In [None]:
scaler = StandardScaler()

knn = KNeighborsClassifier()

knn.get_params().keys()

# Очень рекомендуем использовать строковый код, который соответствует названию переменной!
operations = [('scaler', scaler),('knn', knn)] #список операций для пайплайна

from sklearn.pipeline import Pipeline
pipe = Pipeline(operations) #создание пайплайна на основе списка операций

from sklearn.model_selection import GridSearchCV

k_values = list(range(1,20))
param_grid = {'knn__n_neighbors': k_values}

full_cv_classifier = GridSearchCV(pipe, param_grid, cv=5, scoring='accuracy') #передача пайплайна гридсерчу

full_cv_classifier.fit(X_train, y_train) #запуск поиска по сетке

full_cv_classifier.best_estimator_.get_params() #тут можем узнать рекомендованное k

In [None]:
scaler = StandardScaler()
knn14 = KNeighborsClassifier(n_neighbors=14)
operations = [('scaler', scaler), ('knn14', knn14)]

pipe = Pipeline(operations)

pipe.fit(X_train, y_train)
pipe_pred = pipe.predict(X_test)

print(classification_report(y_test, pipe_pred))

## **Pipeline**

### **Пайплайн с помощью Pipeline**

In [None]:
X = df.drop('target', axis=1)
y = df['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

pipeline = Pipeline([
    ('scaler', StandardScaler()),  #шаг 1: нормализация данных
    ('svm', SVC())                 #шаг 2: метод опорных векторов с линейным ядром
])

param_grid = {
    'scaler__with_mean': [True, False],  # Центрирование данных
    'scaler__with_std': [True, False],    # Масштабирование данных
    'svm__kernel': ['linear', 'rbf'],     # Тип ядра
    'svm__C': [0.1, 1, 10],               # Гиперпараметр регуляризации
    'svm__gamma': ['scale', 'auto']       # Гиперпараметр для rbf ядра
}

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

y_pred = grid_search.predict(X_test)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay

print(classification_report(y_test, y_pred))

ConfusionMatrixDisplay.from_estimator(
    grid_search,         # Обученный пайплайн (модель)
    X_test,              # Тестовые данные
    y_test,              # Истинные метки классов
    normalize='true'     # Нормализация матрицы ошибок
)

### **Пайплайн с помощью make_pipeline**

In [None]:
from sklearn.metrics import classification_report, ConfusionMatrixDisplay


X = df.drop('target', axis=1)
y = df['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

pipeline = make_pipeline(
    StandardScaler(),    #шаг 1: нормализация данных
    SVC()                #шаг 2: метод опорных векторов с линейным ядром
)

param_grid = {
    'svc__kernel': ['linear', 'rbf'],        # Тип ядра
    'svc__C': [0.1, 1, 10],                  # Гиперпараметр регуляризации
    'svc__gamma': ['scale', 'auto']          # Гиперпараметр для rbf ядра
}

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

y_pred = grid_search.predict(X_test)

print(classification_report(y_test, y_pred))

ConfusionMatrixDisplay.from_estimator(
    grid_search,         # Обученный пайплайн (модель)
    X_test,              # Тестовые данные
    y_test,              # Истинные метки классов
    normalize='true'     # Нормализация матрицы ошибок
)

## **Support Vector Machine**

**Опорные векторы** — это точки обучающей выборки, которые находятся ближе всего к гиперплоскости. Они определяют максимальный зазор между классами.

**Гиперплоскость** в двумерном пространстве - прямая, следовательно, она её определяет следующая формула:

SVM находит гиперплоскость, которая максимально разделяет классы в пространстве признаков.

$$
\omega^{T} x - b = 0
$$

После чего классификация производится по правилу:

$$
a(x) = \operatorname{sign}(\omega^{T} x - b)
$$

### **Случай линейной разделимости**

**Наша цель**: найти такие коэффициенты бетта, при которых **M** будет максимальным.

![изображение.png](attachment:4a47e943-8b33-4ab0-9f37-82e58fea9855.png)

Ширина зазора может быть вычислена как скалярное произведение вектора омега и вектора, соединяющего два опорных вектора:

$$
\left\langle \omega, x_{+} - x_{-} \right\rangle = \omega^{T} \cdot (x_{+} - x_{-}) = |\omega| \cdot |x_{+} - x_{-}| \cdot \cos \alpha
$$

Таким образом, ширина зазора может быть найдена по следующей формуле. Такое выражение мы будем стараться максимизировать:

$$
L = \frac{\langle \omega, x_{+} - x_{-} \rangle}{\|\omega\|^{2}} \rightarrow \max
$$

Вспомним, что выражение

$$
M_{i} = y_{i} \cdot a(x_{i}) = y_{i} \cdot \left(\langle \omega, x_{i} \rangle - b\right)
$$

определяет, насколько далеко находится объект от разделяющей гиперплоскости. Данное выражение можем записать, добавив некоторый положительный коэффициент $\alpha$, что не изменит сути оптимизационной задачи:

$$
\alpha M_{i} = y_{i} \cdot \left( \langle \alpha \omega, x_{i} \rangle - \alpha b \right)
$$

Зато теперь мы можем подобрать такое значение $\alpha$, при котором отступ **M** будет в точности равен единице. 

$$
M_{i}(x_{+}) = M_{i}(x_{-}) = 1
$$

Строго математически это можем записать так:

$$
\min_{i=1, \ldots} M_{i}(\omega, b) = 1
$$

Для чего мы это делали?

$$
\left\langle \omega, x_{+} - x_{-} \right\rangle = \langle \omega, x_{+} \rangle - \langle \omega, x_{-} \rangle = 1 - (-1) = 2
$$

Значит, ширина зазора может быть представлена следующим образом:

$$
L = \frac{2}{\|\omega\|^{2}} \rightarrow \max
$$

Резюмируя, получаем задачу минимизации: 

$$
\begin{cases}
\frac{1}{2}\|\omega\|^{2} \rightarrow \min_{\omega, b} \\
M_{i}(\omega, b) \geq 1, \quad i=1,2, \ldots, l
\end{cases}
$$

### **Когда классы линейно неразделимы**
Для случая, где классы не являются линейно разделимыми, задача сводится к решению следующей системы:

$$
\begin{cases}
\frac{1}{2}\|\omega\|^{2} + C \cdot \sum_{i=1}^{l} \xi_{i} \rightarrow \min_{\omega, b, \xi} \\
M_{i}(\omega, b) \geq 1 - \xi_{i}, \quad i=1,2,\ldots,l \\
\xi_{i} \geq 0, \quad i=1,2,\ldots,l
\end{cases}
$$

* $\xi_{i}$ - ошибка, которую мы позволяем модели, но стараемся ее минимизировать.


$$
\begin{cases}
\xi_{i} = 1 - M_{i}(\omega, b) \\
\xi_{i} = 0
\end{cases} \Rightarrow L_{i}(\omega, b) = \max \left(0, 1 - M_{i}(\omega, b)\right) = \left(1 - M_{i}(\omega, b)\right)_{+}
$$

И в конце концов задача сводится к следующему виду: 


$$
\sum_{i=1}^{l}\left(1-M_{i}(\omega, b)\right)_{+}+\frac{1}{2 C}\|\omega\|^{2} \rightarrow \min _{\omega, b}
$$

Тут первое слагаемое - эмпирический риск, а второе - L2 регуляризатор для коэффициентов $\omega$

На рисунке функция потерь изображена зеленой линией, она называется **Hinge loss**. Таким образом, SVM - решение оптимизационной задачи при функции потерь **Hinge**, где функция потерь начинает штрафовать при отступе, меньшем единицы.


![изображение.png](attachment:7c73cb54-1881-4fb4-885f-fd82f6504dc1.png)

#### **Оптимизация**

Минимизировать функционал с помощью производной не получится, т.к. функция не имеет производной в точке перегиба. Поэтому используется условие Каруша-Куна-Такера с поиском седловой точки функции Лагранжа.

После решения вышеупомянутой системы из трех выражений мы получим формулу, по которой можно найти вектор $\omega$:
$$
\omega = \sum_{i=1}^{l} \lambda_{i} y_{i} x_{i}
$$

Тут $\lambda$ - некий числовой коэффициент. Если для некоторого наблюдения $\lambda = 0$, значит, оно не используется для вычисления вектора $\omega$. Таких нулевых значений получается достаточно много, роль будут играть лишь немногие векторы, для которых $\lambda \neq 0$, и такие векторы называют **опорными**.

Существует следующая классификация векторов: 

1. **Неинформативные объекты**:
   $$
   \lambda_{i} = 0; \quad \xi_{i} = 0; \quad M_{i} \geq 1
   $$
2. **Опорные граничные объекты**:
   $$
   0 < \lambda_{i} < C; \quad \xi_{i} = 0; \quad M_{i} = 1
   $$
3. **Опорные ошибочные объекты**:
   $$
   \lambda_{i} = C; \quad \xi_{i} > 0; \quad M_{i} < 1
   $$

#### **Принцип классификации**

Объединив выражения $a(x) = \operatorname{sign}(\langle \omega, x \rangle - b)$ и $\omega = \sum_{i=1}^{l} \lambda_{i} y_{i} x_{i}$ получим:

$$
a(x) = \operatorname{sign}\left(\sum_{i=1}^{l} \lambda_{i} y_{i} \langle x_{i}, x \rangle - b\right)
$$

Таким образом, классификатор вычисляет взвешенную сумму **для опорных векторов**. Для произвольного вектора **x** будут вычисляться его скалярные произведения с опорными векторами. Суммируются опорные векторы для одного класса, потом для другого, а после из одной суммы вычитается другая. Знак результата выражения будет определять класс вектора:

$$
\lambda_{1} \cdot\left\langle x_{1}, x\right\rangle+\lambda_{2} \cdot\left\langle x_{2}, x\right\rangle-\lambda_{3} \cdot\left\langle x_{3}, x\right\rangle-\lambda_{4} \cdot\left\langle x_{4}, x\right\rangle
$$

$$
\omega_{+} = \lambda_{1} x_{1} + \lambda_{2} x_{2}
$$

$$
\omega_{-} = \lambda_{3} x_{3} + \lambda_{4} x_{4}
$$

$$
a(x) = \operatorname{sign}\left(\langle \omega_{+}, x \rangle - \langle \omega_{-}, x \rangle\right)
$$

![изображение.png](attachment:9ed3bba1-e0b9-48a8-86d7-7637dccc0dc4.png)

### **SVM с нелинейными ядрами**

А что, если заменить линейное преобразование $\langle x_{i}, x \rangle$ заменить на нелинейное $\langle x_{i}, x \rangle^{2}$?

Сможем ли мы повторить все те же действия для нахождения опорных векторов и $\lambda$? Оказывается, решение системы остается неизменным!

#### **Пример**

Рассмотрим для примера функцию ядра и векторы: 
$$
K(u, v) = \langle u, v \rangle^2
$$

$$ u = \begin{pmatrix} u_1 \\ u_2 \end{pmatrix},    v = \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} $$

Возведя в квадрат скалярное произведение $\langle u, v \rangle = u_1 v_1 + u_2 v_2$ векторов получим:

$$
K(u, v) = \langle u, v \rangle^2 = (u_1 v_1 + u_2 v_2)^2 = u_1^2 v_1^2 + u_2^2 v_2^2 + 2 u_1 u_2 v_1 v_2
$$

Мы свели скалярный квадрат двумерных векторов к скалярному произведению трехмерных векторов!

$$
\psi(u) = \begin{pmatrix} u_1^2 \\ u_2^2 \\ \sqrt{2} u_1 u_2 \end{pmatrix}, \quad \psi(v) = \begin{pmatrix} v_1^2 \\ v_2^2 \\ \sqrt{2} v_1 v_2 \end{pmatrix}
$$

$$
K(u, v) = \langle \psi(u), \psi(v) \rangle
$$

С точки зрения же исходного пространства, мы получили полиномиальные функции второй степени.

![изображение.png](attachment:23ed4151-5bb4-4c7a-be9f-2bbe0cdc7a5b.png)

### **SVM в задачах классификации**

In [None]:
y = df['Virus Present']
X = df.drop('Virus Present', axis=1) 

from sklearn.svm import SVC # Support Vector Classifier

model = SVC(kernel='linear', C=1000)
model.fit(X, y)

# Импортируем из вспомогательного .py-файла
# https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html
from svm_margin_plot import plot_svm_boundary

plot_svm_boundary(model, X, y)

### **SVM в задачах регрессии**

In [None]:
X = df.drop('Compressive Strength (28-day)(Mpa)',axis=1)
y = df['Compressive Strength (28-day)(Mpa)']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

param_grid = {'C':[0.001,0.01,0.1,0.5,1],
             'kernel':['linear','rbf','poly'],
              'gamma':['scale','auto'],
              'degree':[2,3,4],
              'epsilon':[0,0.01,0.1,0.5,1,2]}

from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV

svr = SVR()
grid = GridSearchCV(svr, param_grid=param_grid)

grid.fit(scaled_X_train, y_train)
grid.best_params_

grid_preds = grid.predict(scaled_X_test)

## **Desicion Trees**

### **Метрики**

#### **Gini impurity**
**Gini impurity** - метрика, отражающая однородность набора данных. В идеале мы стараемся совершать разбиение таким образом, чтобы минимизировать эту метрику для листовых узлов.

$$
   G(Q) = \sum_{c \in C} p_{c}\left(1 - p_{c}\right)
$$

где

$$
p_{c} = \frac{N_{c}}{N_{Q}}
$$

Здесь $ p_{c} $ представляет собой долю экземпляров в подмножестве $ Q $, которые принадлежат классу $ c $.
- $ N_{c} $ — количество экземпляров класса $ c $.
- $ N_{Q} $ — общее количество экземпляров в подмножестве $ Q $.

![изображение.png](attachment:76dd5643-8580-4da5-b1d2-a0abf74eaa94.png)

#### **Entropy**
**Entropy** - мера неопределенности или хаоса в системе.

Дано определенное множество событий, которые происходят с вероятностями $\left(p_{1}, p_{2}, \ldots, p_{n}\right)$, общая энтропия $H$ может быть записана как отрицательная сумма взвешенных вероятностей:
$$
H=-\sum_{i=1}^{n} p_{i} \log _{2}\left(p_{i}\right)
$$
Эта величина имеет ряд интересных свойств:
Свойства энтропии
1. $H=0$ только в том случае, если все, кроме одной из $p_{i}$, равны нулю, а эта одна равна 1. Таким образом, энтропия исчезает только тогда, когда нет неопределенности в результате, что означает, что выборка совершенно не удивительна.
2. $H$ максимальна, когда все $p_{i}$ равны. Это наиболее неопределенная или "нечистая" ситуация.
3. Любое изменение в сторону уравнивания вероятностей $\left(p_{1}, p_{2}, \ldots, p_{n}\right)$ увеличивает $H$

Идея заключается в том, чтобы вычесть из энтропии наших данных до разбиения энтропию каждой возможной части после него. Затем мы выбираем разбиение, которое дает наибольшее снижение энтропии или, эквивалентно, наибольшее увеличение информации.
Основной алгоритм для вычисления увеличения информации называется ID3. Это рекурсивная процедура, которая начинается с корневого узла дерева и итеративно проходит сверху вниз по всем нелистовым ветвям жадным образом, вычисляя на каждой глубине разницу в энтропии:
$$
\Delta I G=H_{\text {parent }}-\frac{1}{N} \sum_{\text {children }} N_{\text {child }} \cdot H_{\text {child }}
$$
#### **Шаги алгоритма ID3:**
1. Вычислить энтропию, связанную с каждой характеристикой набора данных.
2. Разделить набор данных на подмножества, используя различные характеристики и значения разбиения. Для каждого из них вычислить увеличение информации $\Delta I G$ как разницу в энтропии до и после разбиения, используя приведенную выше формулу. Для общей энтропии всех дочерних узлов после разбиения использовать взвешенное среднее, учитывающее $N_{\text {child }}$, т.е. сколько из $N$ образцов попадает в каждую дочернюю ветвь.
3. Определить разбиение, которое приводит к максимальному увеличению информации. Создать узел решения на основе этой характеристики и значения разбиения.
4. Когда дальнейшие разбиения не могут быть выполнены на подмножестве, создать листовой узел и пометить его наиболее распространенным классом точек данных внутри него, если выполняется классификация, или средним значением, если выполняется регрессия.
5. Рекурсивно повторить для всех подмножеств. Рекурсия останавливается, если после разбиения все элементы в дочернем узле одного типа. Могут быть наложены дополнительные условия остановки.

### **Построение деревьев решений с помощью Gini impurity**


#### **Пример 1: Случай одной переменной**

![Снимок экрана от 2024-09-23 20-07-14.png](attachment:2f14dde2-0198-45e3-b4a7-7cb750151e52.png)

И выполнение взвешенного усреднения для поиска общего gini impurity:

![Снимок экрана от 2024-09-23 20-07-27.png](attachment:b268feab-2c45-45ba-bcf5-4b2841613d64.png)

#### **Пример 2: Случай непрерывных переменных**

1. Сортировка данных по признаку 
2. Выбор значения для разбиения
3. Вычисление взвешенного gini impurity для разбиения
4. Повторяем для других разбиений для поиска того, что дает минимальное gini impurity

![изображение.png](attachment:5054dc80-2847-41dd-9551-65691fe230f0.png)

#### **Пример 3: Случай мульти-категориальных переменных**

1. Вычисление gini impurity для всех комбинаций значений признака

![изображение.png](attachment:3665d86b-c787-4ad8-af5d-84816fb31c5f.png)

#### **Если имеем несколько признаков, то как выбрать признак для корневого узла?**
Вычисляем gini impurity для каждого признака и выбираем тот признак, для которого значение метрики минимально.

Можно ввести некий **threshold** чтобы автоматически выбирать те признаки, для которых значение метрики меньше некоторого порогового значения.

Если при новом разбиении gini impurity уменьшается незначительно, то мы будем отказыватся от подобного разбиения, то есть производить **усечение (pruning)** дерева во избежание переобучения

Также можно сразу указать максимальную глубину дерева

In [None]:
X = pd.get_dummies(df.drop('species',axis=1),drop_first=True)
y = df['species']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()

model.fit(X_train,y_train)
base_pred = model.predict(X_test)

from sklearn.metrics import confusion_matrix, classification_report, ConfusionMatrixDisplay

confusion_matrix(y_test,base_pred)
ConfusionMatrixDisplay.from_estimator(model,X_test,y_test);
print(classification_report(y_test,base_pred))

model.feature_importances_ #отображение коэффициентов важности признаков

pd.DataFrame(index=X.columns, 
             data=model.feature_importances_, 
             columns=['Feature Importance']).sort_values('Feature Importance') #то же в удобочитаемом виде

from sklearn.tree import plot_tree 
plot_tree(model); #графическое отображение дерева
plot_tree(model, filled=True, feature_names=X.columns); #или так, с заполнением цветом и передачей имен признаков

![изображение.png](attachment:09414f98-a806-4e27-b949-dc10689e12e2.png)

In [None]:
pruned_tree = DecisionTreeClassifier(max_depth=2) #ограничение на глубину дерева
pruned_tree = DecisionTreeClassifier(max_leaf_nodes=3) #ограничение на количество листьевых узлов
entropy_tree = DecisionTreeClassifier(criterion='entropy') #выбор другой функции потерь


## **Random Forest**

В исследовательских работах говорится, что оптимальным количеством деревьев в лесах является 64-128 моделей. Однако, эта величина зависит от количества признаков и может быть подобрана с помощью кросс-валидации. Что интересно, леса не могут быть переобучены.

При увеличения количества деревьев новые комбинации признаков не дают нам новых данных, так как дублируются уже имеющиеся комбинации признаков.

Количество признаков в поднаборе рекомендуется выбирать равным $ \log_2(N+1) $, $ \frac{N}{3} $ или $\sqrt{N} $. Опять же, параметр подбирается кросс-валидацией.

### **Bootstraping**

**Bootstraping** - случайное семплирование с возвращением. После того, как мы выбираем набор признаков, признаки, вошедшие в него, могут быть использованы снова в другом семпле. То же характерно и для наборов данных, на которых будет обучаться конкретное дерево. Мы получаем случайный набор признаков и случайный набор строк. 

Бутстреппинг помогает уменьшить корреляцию между деревьями, чтобы получить разные деревья, чтобы лес, составленный из них, лучше обобщался на новые данные.

### **Bagging**

**Bagging** - это объединение принципов **b**ootstrap и **ag**gregation. Это термин описывает процесс случайного семплирования данных, признаков и аггрегирования результатов деревьев для получения финального предсказания леса.

### **Out of bag errors**

**Out of bag errors** - когда мы семплируем данные, для конкретного дерева некоторые данные остаются неиспользованными. Значит, мы будем использовать эти данные для тестирования дерева. Таким образом, **OOB** является метрикой оценки конкретного дерева.








### **Случайные леса для классификации**

In [None]:
X = df.drop("Class",axis=1)
y = df["Class"]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=101)

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()

from sklearn.model_selection import GridSearchCV

n_estimators=[64, 100, 128, 200] #число деревьев
max_features= [2, 3, 4] #число фич в каждом дереве
bootstrap = [True, False] #использовать ли бутстрапинг с возвращением
oob_score = [True, False] #вычислять ли OOB для каждого дерева

param_grid = {'n_estimators': n_estimators,
             'max_features': max_features,
             'bootstrap': bootstrap,
             'oob_score': oob_score}  # oob_score имеет смысл только при bootstrap=True!

grid = GridSearchCV(rfc, param_grid)
grid.fit(X_train, y_train)

grid.best_params_

predictions = grid.predict(X_test)

from sklearn.metrics import confusion_matrix, classification_report, ConfusionMatrixDisplay

confusion_matrix(y_test, predictions)
print(classification_report(y_test, predictions))
ConfusionMatrixDisplay.from_estimator(grid, X_test, y_test);

### **Случайные леса для регрессии**

In [None]:
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor()
    
from sklearn.model_selection import GridSearchCV

n_estimators=[64, 100, 128, 200] #число деревьев
max_features= [2, 3, 4] #число фич в каждом дереве
bootstrap = [True, False] #использовать ли бутстрапинг с возвращением
oob_score = [False] #вычислять ли OOB для каждого дерева

param_grid = {'n_estimators': n_estimators,
             'max_features': max_features,
             'bootstrap': bootstrap,
             'oob_score': oob_score}  #oob_score имеет смысл только при bootstrap=True!

grid = GridSearchCV(rfr, param_grid)
grid.fit(X_train, y_train)

grid.best_params_

y_pred = grid.predict(X_test)

from sklearn.metrics import mean_squared_error

RMSE = mean_squared_error(y_test, y_pred)

## **Boosting**

**Бустинг** - методология, которую можно применять к существующим алгоритмам машинного обучения. Иногда бустинг называют алгоритмом **мета-обучения**, так как он является процессом, в который можно встроить любой алгоритм машинного обучения.

В процессе бустинга мы берем слабые модели, объединяем их в ансамбль, который получается сильным. Итоговая модель будет представлять собой взвешенную сумму всех слабых моделей, что позволяет достичь высокой точности предсказаний. В большинстве случаев бустинг применяется для деревьев решений.

### **Adaptive Boosting**

AdaBoost - это алгоритм, который комбинирует несколько слабых классификаторов для создания сильного классификатора. В отличие от случайного леса, адаптивный бустинг строит деревья последовательно и может привести к переобученности.

Каждая модель $ h_t $ вносит свой вклад в финальный результат, умноженный на $ \alpha_t $. Модели с меньшей ошибкой будут иметь больший вес, что позволяет им оказывать большее влияние на итоговый классификатор.

В классической реализации алгоритма AdaBoost часто используется слабый классификатор, который принимает решение на основе одного признака.

In [None]:
X = pd.get_dummies(df.drop('class', axis=1), drop_first=True)
y = df['class']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=101)

from sklearn.ensemble import AdaBoostClassifier
model = AdaBoostClassifier(n_estimators=1) 
model.fit(X_train, y_train)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))
ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)
accuracy_score(y_test, y_pred)

model.feature_importances_ #увидеть коэффициенты важности признаков
model.feature_importances_.argmax() #узнать индекс максимально важного признака
X.columns[22] #выведем название этого признака

### **Gradient Boosting**

В градиентном бустинге применяется другой подход к выбору следующей модели. Обучение очередной модели выполняется с использованием остатков(residuals). Также в градиентном бустинге мы можем строить более глубокие деревья. Коэффициенты каждой слабой модели тут одинаков. Градиентный бустинг устойчив к переобучению.

1. **Создание начальной модели**: 
   Начинаем с инициализации модели, которая может быть простой, например, константной. Обозначим её как:
   $$
   \boldsymbol{f}_{0} = \text{const}
   $$
2. **Обучение модели на ошибке**: 
   Вычисляем ошибку (остатки) между фактическими значениями целевой переменной $\boldsymbol{y}$ и предсказаниями текущей модели:
   $$
   \mathrm{e} = \boldsymbol{y} - \boldsymbol{f}_{0}
   $$
   Затем обучаем новую модель $\boldsymbol{f}_{1}$ на этих остатках.
3. **Создание нового прогнозируемого значения**: 
   Обновляем предсказание, добавляя вклад новой модели, умноженный на коэффициент обучения $\eta$:
   $$
   F_{1} = \boldsymbol{f}_{0} + \eta \boldsymbol{f}_{1}
   $$
4. **Повторение процесса**: 
   Продолжаем итерации, обучая новые модели на остатках, которые вычисляются на основе предыдущих предсказаний. Обновляем предсказания следующим образом:
   $$
   \boldsymbol{F}_{m} = \boldsymbol{f}_{m-1} + \eta \boldsymbol{f}_{m}
   $$
   где $\boldsymbol{F}_{m}$ — это итоговое предсказание после $m$ итераций.

**Коэффициент обучения $\eta$ (learning rate)** — это важный гиперпараметр, который контролирует, насколько сильно каждое новое дерево влияет на итоговое предсказание. Значение $\eta$ варьируется от 0 до 1:

In [None]:
X = pd.get_dummies(df.drop('class', axis=1), drop_first=True)
y = df['class']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=101)

from sklearn.ensemble import GradientBoostingClassifier
model = GradientBoostingClassifier(n_estimators=1) 
model.fit(X_train, y_train)

from sklearn.model_selection import GridSearchCV

param_grid = {'n_estimators': [1,5, 10, 20, 40, 100],
              'max_depth': [3, 4, 5, 6],
              'learning_rate': [0.1, 0.05, 0.2]}

model = GradientBoostingClassifier()
grid = GridSearchCV(model, param_grid)

grid.fit(X_train, y_train)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))
ConfusionMatrixDisplay.from_estimator(grid, X_test, y_test)
accuracy_score(y_test, y_pred)

grid.best_estimator_.feature_importances_

## **Bayes**

### **Naive Bayes**

Наивный байесовский классификатор основан на принципах теоремы Байеса и использует предположение о независимости признаков.

$$
P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}
$$

Нашей целью будет для каждого наблюдения максимизировать вероятность его принадлежности классу. То есть, при выборе из двух классов для конкретного наблюдения мы выберем тот класс, который более вероятен для набора признаков нашего наблюдения.

$$
a(x) = \arg \max_{y \in Y} P(y) \cdot p(x_{i} \mid y)
$$

Наивный байесовский классификатор наивен потому, что он считает все признаки независимыми:

$$
p(x \mid y) = \prod_{i=1}^{n} p(x_i \mid y)
$$

Таким образом, классификатор будет выглядеть следующим образом:

$$
a(x) = \arg \max_{y \in Y} \lambda_{y} \hat{P}(y) \prod_{i=1}^{n} \hat{p}\left(x_{i} \mid y\right)
$$

Лямбда - штраф за неверный прогноз модели

Чтобы упростить вычисления и избежать проблем с числовыми переполнениями, часто используют логарифм от произведения:

$$
a(x) = \arg \max_{y \in Y} \left( \ln \lambda_{y} \hat{P}(y) + \sum_{i=1}^{n} \ln \hat{p}\left(x_{i} \mid y\right) \right)
$$

**Далее речь пойдет лишь о мультиномиальной модели!**

#### **TF-IDF**

**TF-IDF (Term Frequency-Inverse Document Frequency)** — это метод, используемый для оценки значимости слов в документах текстового корпуса. Он часто применяется в задачах классификации текста, таких как спам-фильтры или анализ тональности, где Наивный Байес может использоваться в качестве классификатора. В контексте Наивного Байеса TF-IDF помогает улучшить результаты, более точно оценивая важность терминов в каждом документе.


**TF** показывает, насколько часто термин t встречается в документе d.


$$
TF(t, d) = \frac{\text{Частота появления термина } t \text{ в документе } d}{\text{Общее количество терминов в документе } d}
$$


**IDF** снижает вес часто встречающихся слов, которые не несут важной информации (например, предлоги, союзы).


$$
IDF(t, D) = \log\left(\frac{\text{Общее количество документов}}{\text{Количество документов, содержащих термин } t}\right)
$$


Высокие значения **TF-IDF** указывают на редкие, но значимые термины для конкретного документа.


$$
TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)
$$

#### **Варианты извлечения признаков в Scikit-Learn**

**CountVectorizer + TfidfTransformer**

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer

cv = CountVectorizer()
counts = cv.fit_transform(text) #количество появлений каждого слова в каждом документе

tfidf_transformer = TfidfTransformer()
tfidf = tfidf_transformer.fit_transform(counts) #значения — это вес TF-IDF для каждого слова

tfidf.todense() #преобразует разреженную матрицу в матрицу в плотную



**TfidfVectorizer**


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer= TfidfVectorizer(stop_words='english')
tfidf = tfidf.fit_transform(text) #сразу разбиение документа на слова и подсчет TF-IDF

tfidf.todense()

#### **Задача классификации текста**

In [None]:
X = df['text']
y = df['airline_sentiment']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=101)

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english')

tfidf.fit(X_train)

X_train_tfidf = tfidf.transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()

nb.fit(X_train_tfidf,y_train)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score
y_pred = nb.predict(X_test)

print(classification_report(y_test, y_pred))
ConfusionMatrixDisplay.from_estimator(nb, X_test, y_test)
accuracy_score(y_test, y_pred)

### **Gaussian Bayes**

Гауссовский байесовский классификатор — это метод классификации, основанный на теореме Байеса, который предполагает, что признаки следуют нормальному распределению для каждого класса.

Алгоритм классификации будет аналогичен наивному

$$
a(x) = \arg \max_{y \in Y} \left( \lambda_{y} \cdot P(y) \cdot p(x \mid y) \right)
$$

Различие будет заключаться в подсчете условной вероятности $ p(x \mid y)$:

$$
a(x) = \arg \max_{y \in Y} \left( \ln \lambda_{y} \hat{P}(y) - \frac{1}{2} \left( x - \hat{\mu}_{y} \right)^{T} \hat{\Sigma}_{y}^{-1} \left( x - \hat{\mu}_{y} \right) - \frac{1}{2} \ln \operatorname{det} \hat{\Sigma}_{y} \right)
$$

- $ \hat{\mu}_{y} $ — оценка среднего вектора для класса $ y $.
- $ \hat{\Sigma}_{y} $ — оценка ковариационной матрицы для класса $ y $.
- $ \operatorname{det} \hat{\Sigma}_{y} $ — определитель ковариационной матрицы.

### **NB vs GB**

Чем все-таки отличается гауссовский байесовский классификатор от его «наивной» реализации?

Если посмотреть на распределение точек для двумерного гауссовского распределения с корреляцией 0.Dw​∥w∥7, то можно увидеть их эллипс рассеяния. В пределах этого эллипса можно выделить две главные оси, вдоль которых распределены точки: 

![изображение.png](attachment:fa86430f-b95f-4887-bde6-8e0d42bfc97e.png)

Так вот, ковариационную матрицу можно представить в виде, так называемого, спектрального разложения: 

$$
\Sigma = V S V^{T}
$$

- $V$ — матрица собственных векторов, которая содержит направления, вдоль которых данные имеют максимальную дисперсию.
- $S$ — диагональная матрица, содержащая собственные значения (дисперсии) на главной диагонали. Эти собственные значения показывают, насколько сильно данные разбросаны вдоль соответствующих собственных векторов.

Фактически, ковариационная матрица определяет линейные преобразования равномерно распределенного множества точек в коррелированное множество точек: 

![изображение.png](attachment:206efa3b-9ce4-482e-9f63-966a0efaa1b8.png)

То есть, прописывая **обратную матрицу** в классификаторе, мы, по сути дела, переходим в новое пространство (новую систему координат), где признаки **НЕ коррелированы** и там, в этом пространстве реализуем обычный, наивный байес. Вот в чем основная суть ковариационной матрицы в гауссовском байесовском классификаторе. 

![изображение.png](attachment:71e2010b-ab6d-4eda-940c-2adb8b9bbf0e.png)

### **LDA**

**LDA (Linear Discriminant Analysis)** — линейный дискриминантный анализ, линейный дискриминант Фишера — метод, основанный на гауссовском подходе, но **с допущением о равенстве ковариацинных матриц всех классов.**

Общая ковариационная матрица вычисляется по формуле:

$$
\hat{\Sigma} = \frac{1}{l} \sum_{i=1}^{l} \left( x_{i} - \hat{\mu}_{y i} \right) \left( x_{i} - \hat{\mu}_{y i} \right)^{T}
$$

То есть, ковариационные матрицы для каждого класса складываются и взвешиваются по количеству наблюдений

В случае линейного дискриминанта Фишера классификатор будет иметь вид, аналогичный гауссовскому, но без слагаемого с определителем, так как определитель теперь одинаков для всех классов

$$
a(x) = \arg \max_{y \in Y} \left( \ln \left( \lambda_{y} \hat{P}(y) \right) - \frac{1}{2} \left( x - \hat{\mu}_{y} \right)^{T} \cdot \hat{\Sigma}^{-1} \cdot \left( x - \hat{\mu}_{y} \right) \right)
$$


