# **Sklearn**

## **EDA**

### **1. Initial analysis**

In [None]:
df.head()

df.shape

df.info()

df.describe()

### **2. Handling Missing Values**

In [None]:
df.isnull().sum()
df.isnull().sum() / df.shape[0] * 100

numeric_columns = df.select_dtypes(include=['number']).columns.tolist()
non_numeric_columns = df.select_dtypes(exclude=['number']).columns.tolist()

df['column'] = df['column'].fillna(df['column'].mode()[0])
df['column'] = df['column'].fillna(df['column'].median())

bad_columns = df.loc[:, df.isna().mean() > 0.6]
df = df.drop(bad_columns, axis=1)

bad_rows = df[df.isnull().mean(axis=1) > 0.3]
df = df.drop(bad_rows.index, axis=0)

df = df.dropna()

### **3. Handling Duplicates**

In [None]:
df.duplicated().sum()

df[df.duplicated()]
df[df.duplicated(subset=['column_1', 'column_2'])]

df = df.drop_duplicates(keep='last')
df = df.drop_duplicates(subset=['column_1', 'column_2'], keep='first')

### **4. Handling Outliers**

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(data=df)
plt.xticks(rotation=90)

In [None]:
plt.figure(figsize=(20, 10))
plt.suptitle('Outlier Check', fontsize=20, y=0.96)

for col in categorical_columns:
    plt.subplot(2, 5, i+1)
    sns.boxplot(y=df[col], color='blue')
    plt.xlabel(None)
    plt.ylabel(None)
    
plt.subplots_adjust(hspace=0.3);

In [None]:
gauss_outliers = set()

for col in gauss_columns:
    mean = df[col].mean()
    std = df[col].std()
    
    lower_bound = mean - 3 * std
    upper_bound = mean + 3 * std

    gauss_outliers.update(df[(df[col] < lower_bound) | (df[col] > upper_bound)].index)

print(f"Gauss outliers: {len(gauss_outliers)}")

In [None]:
other_outliers = set()

for col in other_columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)

    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    other_outliers.update(df[(df[col] < lower_bound) | (df[col] > upper_bound)].index)

In [None]:
total_outliers = gauss_outliers | multimodal_outliers

df = df.drop(index=total_outliers)

### **4. Distribution analysis**

In [None]:
plt.figure(figsize=(16, 9))
plt.suptitle('Feature Distribution', fontsize=20, y=0.96)

for col in numeric_columns:
    plt.subplot(3, 3, i+1)
    sns.histplot(x=df[col], kde=True, color='red')
    plt.xlabel(None)
    plt.ylabel(None)
    
plt.subplots_adjust(hspace=0.6);

In [None]:
skewed_columns = df.columns[df.skew() > 0.5].tolist()

for col in skewed_columns:
    df[f'{col}_log'] = np.log(df[col] + 1)
    log_skewed_columns.append(f'{col}_log')

In [None]:
from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')

df[skewed_columns] = pt.fit_transform(df[skewed_columns])

### **5. Data Scaling**

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
le = LabelEncoder()
df['encoded_column'] = le.fit_transform(df['category_column'])

df = pd.get_dummies(df, columns=['category_column'], drop_first=True)

### **6. Data splitting**

In [None]:
X = df.drop('target', axis=1)
y = df['targer']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### **7. Data reduction**

In [None]:
pca = PCA()
pca.fit(X_train)

cumulative_variance = pca.explained_variance_ratio_.cumsum()
n_components = (cumulative_variance >= 0.95).argmax() + 1

pca = PCA(n_components=n_components)
pca = PCA(n_components=0.95)

X_train_pca = pca_95.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

## **Data Scaling**

### **StandardScaler**

$$
X_{\text{scaled}} = \frac{X - \mu}{\sigma} 
$$

* Среднее становится 0, стандартное отклонение 1
* Подходит для алгоритмов, чувствительных к масштабу (линейные модели, PCA, SVM, KNN, логистическая регрессия)
* Данные распределены нормально

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

### **MinMaxScaler**

$$ X_{\text{scaled}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}} $$

* Подходит для нейросетей, градиентного бустинга
* Данные имеют разное распределение, но нет выбросов
* Нужен ограниченный диапазон

In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

### **RobustScaler**

$$ X_{\text{scaled}} = \frac{X - \text{median}(X)}{IQR} $$  

* Данные содержат выбросы

In [None]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)

### **ColumnTransformer**

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, MinMaxScaler

num_features = ['age', 'salary', 'height']
scale_features = ['price', 'distance']

scaler = ColumnTransformer([
    ('std_scaler', StandardScaler(), num_features),
    ('minmax_scaler', MinMaxScaler(), scale_features)
], remainder='passthrough')

X_scaled = scaler.fit_transform(X)

* Если данные содержат разные типы признаков (например, числовые и категориальные), можно использовать ColumnTransformer для одновременного применения разных скейлеров.

## **Linear Regression**

In [None]:
from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.linear_model import LinearRegression
model = LinearRegression()

model.fit(X_train, y_train) #обучение модели на трейне
test_predictions = model.predict(X_test) #предсказание для теста

final_model = LinearRegression() #на финале модель можно обучить на
                                 #всех данных
final_model.fit(X, y)

final_model.coef_ #посмотреть коэфициенты модели

from sklearn.metrics import mean_absolute_error, mean_squared_error

MAE = mean_absolute_error(y_test,test_predictions)
MSE = mean_squared_error(y_test,test_predictions)
RMSE = = np.sqrt(MSE)

In [None]:
test_predictions = model.predict(X_test)
test_residuals = y_test - test_predictions

Нанесение остатков на график:

In [None]:
sns.scatterplot(x=y_test,y=test_res)
plt.axhline(y=0, color='r', linestyle='--');

В идеале остатки должны лежать на красной линии, т.е. разница между предсказанием и фактом должна быть нулевой

![изображение.png](attachment:abedfdc0-9bc7-4b25-b06a-729ec3088bbe.png)

### **Полиномиальная регрессия**

Прежде всего импортируем из Preprocessing класс PolynomialFeatures. С его помощью мы трансформируем наши исходные данные, добавляя в них полиномиальные признаки.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

polynomial_converter = PolynomialFeatures(degree=2, include_bias=False)

poly_features = polynomial_converter.fit_transform(X) 
              #проектирование и создание полиномиальных признаков

from sklearn.linear_model import LinearRegression

model = LinearRegression()

Далее все так же, как и у простой линейной регрессии

## **Gradient Descent**


### **Алгоритм GD**


#### 1. Инициализация весов $\omega$ некоторыми начальными значениями.
#### 2. Вычисление начального среднего эмпирического риска:
   $$
   \bar{Q}(\omega) = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
   $$
#### 3. Цикл:
   1. Вычисление градиента функции потерь:
$$
   \nabla L(\omega) = \left( \frac{\partial L}{\partial \omega_1}, \frac{\partial L}{\partial \omega_2}, \ldots, \frac{\partial L}{\partial \omega_n} \right)
$$
   2. Обновление весов:
$$
   \omega = \omega - \eta \cdot \nabla L(\omega)
$$
   3. Пересчет среднего эмпирического риска:
      $$
      \bar{Q} = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
      $$
   4. Пока $\bar{Q}$ и/или $\omega$ не достигнут заданных значений:

### **Алгоритм SGD**

#### 1. Инициализация весов $\omega$ некоторыми начальными значениями.
#### 2. Вычисление начального среднего эмприрического риска:
$$
\bar{Q}(\omega) = \frac{1}{l} \sum_{i=1}^{l} L_{i}(\omega)
$$
#### 3. Цикл:
   
   1) Случайный выбор наблюдения $x_{k}$.
   2) Вычисление функции потерь $L_{k}(\omega)$.
   3) Обновление весов:
      $$
      \omega = \omega - \eta \cdot \nabla L_{k}(\omega)
      $$
   4) Пересчет среднего эмприрического риска:
      $$
      \bar{Q} = \lambda \varepsilon_{k} + (1 - \lambda) \bar{Q}
      $$
   5) Пока $\bar{Q}$ и/или $\omega$ не достигнут заданных значений

## **Regularization**

### **L2-регуляризация**

**L2 регуляризация, Гребневая регрессия, Ridge Regression** - метод регуляризации данных, позволяющий снизить вероятность overfitting на обучающем наборе данных, штрафуя модель за высокие значения коэффициентов.

При таком способе регуляризации обнуление коэффициентов НЕ происходит

$$
L(\omega) = L_{0}(\omega) + \lambda \sum_{j=1}^{p} \omega_{j}^{2}
$$

Лямбда определяет силу штрафа. В sklearn этот параметр называется alpha.

In [None]:
from sklearn.linear_model import Ridge

ridge_model = Ridge(alpha=10)
ridge_model.fit(X_train, y_train)

Далее можем формировать предсказания и метрически оценивать модель

**Как найти наилучшее значение альфа?**

Для этого нужно испрользовать кросс-валидацию, сравнив результат  текущего альфа с другими

Класс RidgeCV выполнит кросс-валидацию для разных альфа и выберет наилучшее по некоторой метрике. Для RidgeCV действует следующее правило: чем больше значение метрики, тем лучше

In [None]:
from sklearn.linear_model import RidgeCV #Cross-Validation

ridge_cv_model = RidgeCV(alphas=(0.1, 1.0, 10.0), scoring='neg_mean_absolute_error')
                      #мы указали значения альфа, для которых будем
                      #вычислять эффективность,
                      #и метрику для оценки
         
ridge_cv_model.fit(X_train, y_train)      #это train+validation
ridge_cv_model.alpha_        #узнать подобранное альфа

test_predictions = ridge_cv_model.predict(X_test)

Все метрики оценки для RidgeCV находятся тут:

In [None]:
from sklearn.metrics import SCORERS

SCORERS.keys()

### **L1-Регуляризация**

**L1-регуляризация,  LASSO** - метод регуляризации данных, который добавляет штраф за сумму абсолютных значений коэффициентов к функции потерь. Это помогает в выборе признаков, так как некоторые коэффициенты могут стать равными нулю, когда параметр альфа достаточно большой. Таким образом, лассо выбирает значимые признаки, а незначимые отбрасывает.

$$
L(\omega) = \frac{1}{2n} L_{0}(\omega) + \lambda \sum_{j=1}^{p} |\omega_{j}|
$$

Существует два способа продбора коэффициента альфа. Первый из них - использовать класс Lasso, где показатели альфа мы будем перечислять. Второй способ - использовать LassoCV, где мы указываем диапазон значений множителя

In [None]:
from sklearn.linear_model import LassoCV

lasso_cv_model = LassoCV(eps=0.01, n_alphas=100, cv=5)
            #Способ 1: в параметр alphas можно передать список значений
            #Способ 2: eps - диапазон, n_alphas - кол-во значений альфа
            #второй способ аналогичен функции linspace
            #eps вычисляется как alpha_min / alpha_max

lasso_cv_model.fit(X_train, y_train)
lasso_cv_model.alpha_        #узнать подобранное альфа
lasso_cv_model.coef_         #можно увидеть вычисленные коэффициенты
                             #часть из них обнулилась

test_predictions = lasso_cv_model.predict(X_test)

Далее можем вычислять значения метрик и оценивать эффективность модели

### **Elastic Net**

**Elastic Net** — это метод регуляризации, который объединяет преимущества L1 и L2 регуляризаций. Он добавляет штрафы за сумму абсолютных значений коэффициентов и за сумму квадратов коэффициентов к функции потерь. Это помогает в выборе признаков и предотвращении переобучения.

$$
L(\beta) = \frac{1}{2n} L_{0}(\omega) + \lambda_1 \sum_{j=1}^{p} |\omega_{j}| + \lambda_2 \sum_{j=1}^{p} \omega_{j}^{2}
$$

In [None]:
from sklearn.linear_model import ElasticNetCV

elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)
       #l1 ratio определяет отношение l1 / l2

elastic_model.fit(X_train, y_train)

In [None]:
elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)

Получается, мы ищем два параметра: первый отражает силу применения общего штрафа, а второй - соотношение между L1 и L2.

In [None]:
elastic_model.l1_ratio #можем вывести все тестируемые соотношения
elastic_model.l1_ratio_ #вывести наилучшее значение
                    #если l1_ratio_ = 1, то L2 полностью исключен

elastic_model.alpha_ #лучшее значение коэффициента примеси штрафа

test_predictions = elastic_model.predict(X_test)

## **Cross-Validation**

### **cross_val_score**

In [None]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X_train, y_train,
                        scoring='neg_mean_squared_error', cv=5)

### **cross_validate**

Функция cross_validate отличается от cross_val_score двумя аспектами:

* эта функция позволяет использовать для оценки несколько метрик;

* она возвращает не только оценку на тестовом наборе (test score), но и словарь с замерами времени обучения и скоринга, а также - опционально - оценки на обучающем наборе и объекты estimator.

In [None]:
from sklearn.model_selection import cross_validate

scores = cross_validate(model, X_train, y_train,
                        scoring=['neg_mean_absolute_error', 'neg_mean_squared_error', 'max_error'], cv=5)

## **Grid Search, Randomized Search**

#### **Grid Search**

In [None]:
param_grid = {
    'alpha':[0.1, 1, 5, 10, 50, 100],
    'l1_ratio':[.1, .5, .7,  .9, .95, .99, 1]
}

from sklearn.model_selection import GridSearchCV
grid_model = GridSearchCV(estimator=model, param_grid=param_grid, scoring='neg_mean_squared_error', cv=5)

grid_model.fit(X_train,y_train)

grid_model.best_params_
grid_model.best_estimator_

#### **Randomized Search**

In [None]:
param_distributions = {
    'iterations': [500, 1000, 1500],
    'depth': [4, 5, 6, 7],
    'learning_rate': [0.01, 0.05, 0.1, 0.2],
    'l2_leaf_reg': [1, 3, 5, 7],
}

from sklearn.model_selection import RandomizedSearchCV
rand_model = RandomizedSearchCV(estimator=model, param_distributions=param_distributions, n_iter=5, verbose=1, n_jobs=-1, random_state=42, cv=5)

rand_model.fit(X_train_reduced, y_train)

rand_model.best_params_
rand_model.best_estimator_

## **Maximum Likelihood Estimation**

**Метод максимального правдоподобия** используется для оценки параметров статистической модели таким образом, чтобы наблюдаемые данные были максимально вероятными.

1. **Задать параметрическое распределение**

   

 
    $$
    X \sim P(X \mid \theta)
    $$

3. **Записать функцию правдоподобия**



    $$
    L(\theta) = P(X \mid \theta) = \prod_{i=1}^{n} P(x_i \mid \theta)
    $$


    Для примера нормального распределения $ X_i \sim N(\mu, \sigma^2) $:
    $$
    L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right)
    $$

    Для бинарного распределения $ X_i \sim \text{Bernoulli}(p) $:
    $$
    L(p) = \prod_{i=1}^{n} p^{x_i} (1 - p)^{1 - x_i}
    $$

3. **Логарифмирование**

    $$
    \ell(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log P(x_i \mid \theta)
    $$


4. **Дифференциирование**

    $$
    \frac{\partial \ell(\theta)}{\partial \theta} = 0
    $$

## **Logistic Regression**

Типичная настройка для логистической регрессии выглядит следующим образом: существует результат $y$, который попадает в одну из двух категорий, и используется следующее уравнение для оценки вероятности того, что $y$ принадлежит определенной категории, учитывая входные данные.

$$
   \hat{y} = P(y=1 \mid X, \theta) = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Здесь $\hat{y}$ является вероятностью получить класс $y$ имея параметры $\theta$, а $ z $ определяется как:
   $$
   z = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \ldots + \theta_k x_k
   $$

In [None]:
X = df.drop('test_result', axis=1)
y = df['test_result']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.linear_model import LogisticRegression
log_model = LogisticRegression()

log_model.fit(scaled_X_train, y_train)

log_model.coef_

y_pred = log_model.predict(scaled_X_test) #список из нулей и единиц
y_pred_proba = log_model.predict_proba(scaled_X_test) #список из вероятностей

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report

accuracy_score(y_test, y_pred)
precision_score(y_test, y_pred)
recall_score(y_test, y_pred)

confusion_matrix(y_test,y_pred) 

from sklearn.metrics import ConfusionMatrixDisplay, PrecisionRecallDisplay, RocCurveDisplay

ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test); #для визуализации матрицы ошибок модели.
ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test, normalize='true');
                                    #normalize='true': Нормализация по строкам. 
                                    #Показывает, как хорошо модель классифицирует каждый класс 
                                    #относительно его истинного количества.
                                    #normalize='all': Нормализация по всем элементам матрицы. 
                                    #Показывает, как каждый класс соотносится с общим 
                                    #количеством примеров в выборке.

print(classification_report(y_test, y_pred)) #таблица с precision, recall, f1-score, accuracy, macro avg и weighted avg

RocCurveDisplay.from_estimator(log_model, scaled_X_test, y_test);      #ROC-curve
PrecisionRecallDisplay.from_estimator(log_model, scaled_X_test, y_test);  #PrecisionRecall

### **Метрики оценки модели классификации**

#### **Accuracy**
*Процент правильных предсказаний*

$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$

#### **Precision**
*Процент правильно предсказанных положительных случаев от общего числа положительных предсказаний*

$$
\text{Precision} = \frac{TP}{TP + FP}
$$

#### **Recall**
*Процент правильно предсказанных положительных случаев от общего числа истинных положительных исходов*

$$
\text{Recall} = \frac{TP}{TP + FN}
$$

#### **F1-score**
*Если хоть одна метрика равна нулю, F1-score также равняется нулю*

$$
F1 = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}
$$

#### **$F_{\beta}$-score**

Это расширение **F1-score**, которое может отдавать предпочтение **precision ($\beta<1$)** или **recall ($\beta>1$)**:

$$
F_{\beta} = \frac{(1 + \beta^2) \cdot \text{Precision} \cdot \text{Recall}}{\beta^2 \cdot \text{Precision} + \text{Recall}}
$$

![изображение.png](attachment:5e245b5f-2c79-481d-b9e4-b2df433d4ad2.png)

#### **ROC / AUC**

**ROC-кривая** представляет собой график, который показывает соотношение между истинно положительными **(TPR)** и ложноположительными **(FPR)** значениями при различных порогах классификации.

**TPR** - доля истинно положительных, которые были классифицированы как положительные. Это то же самое, что и **recall**

$$
\text{TPR} = \frac{TP}{TP + FN}
$$

**FPR** - доля истинно отрицательных, которые были ошибочно классифицированы как положительные.

$$
\text{FPR} = \frac{FP}{FP + TN}
$$

**AUC** — это площадь под ROC-кривой, которая измеряет способность модели различать между положительными и отрицательными классами. 

#### **Алгоритм**

1. Отсортировать полученные значения скоров от большего к меньшему.
2. Пройтись по всем отсортированным значениям сверху вниз.
3. Для каждого отрицательного класса:
   * Посчитать, сколько положительных классов находятся выше текущего по скору.
   * Посчитать, сколько положительных классов имеют такой же скор. Получившуюся сумму поделить на два.
4. Просуммировать полученные значения и поделить на $P \cdot N$


![изображение.png](attachment:451afe52-5c20-4aff-810a-852611f5e8ce.png)

**Функция, которая создаёт и рисует графики ROC-кривых для каждого класса**

Источник: https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

In [None]:
from sklearn.metrics import roc_curve, auc

In [None]:
def plot_multiclass_roc(clf, X_test, y_test, n_classes, figsize=(5,5)):
    y_score = clf.decision_function(X_test)

    # создаём пустые структуры
    fpr = dict()
    tpr = dict()
    roc_auc = dict()

    # один раз вычисляем dummies 
    y_test_dummies = pd.get_dummies(y_test, drop_first=False).values
    for i in range(n_classes):
        fpr[i], tpr[i], _ = roc_curve(y_test_dummies[:, i], y_score[:, i])
        roc_auc[i] = auc(fpr[i], tpr[i])

    # roc для каждого класса
    fig, ax = plt.subplots(figsize=figsize)
    ax.plot([0, 1], [0, 1], 'k--')
    ax.set_xlim([0.0, 1.0])
    ax.set_ylim([0.0, 1.05])
    ax.set_xlabel('False Positive Rate')
    ax.set_ylabel('True Positive Rate')
    ax.set_title('Receiver operating characteristic example')
    for i in range(n_classes):обучение модели в задаче логистической регрессии выполняется с использованием логарифмической функции потерь
        ax.plot(fpr[i], tpr[i], label='ROC curve (area = %0.2f) for label %i' % (roc_auc[i], i))
    ax.legend(loc="best")
    ax.grid(alpha=.4)
    sns.despine()
    plt.show()

In [None]:
plot_multiclass_roc(grid_model, scaled_X_test, y_test, n_classes=3, figsize=(16, 10));

![изображение.png](attachment:cfe647c6-8a10-4c82-99be-8e07261c95e1.png)

## **Multiclass classification**

### **One-vs-all**

В случае one-vs-all мы строим M алгоритмов, которые отделяют один определенный класс от всех остальных: 

$$
a_{k}(x, \omega_{k}) = \operatorname{sign}\left(g_{k}(x, \omega_{k}, \omega_{0k})\right) = 
\begin{cases} 
+1 & \rightarrow C_{k} \\ 
-1 & \rightarrow \text{все остальные} 
\end{cases}
$$

После того, как модели обучены, выбор делается в пользу класса с самым большим положительным отступом от разделяющей границы: 

$$ a(x) = \arg \max_{k=1}^{M} g_{k}(x; \omega_{k}, \omega_{0k}) $$

Главным недостатком метода является то, что мы обучаем каждую модель независимо от других моделей. Это несколько ухудшает конечный результат многоклассовой классификации. 

### **All-vs-all**

Чтобы как то преодолеть недостаток стратегии one-vs-all, была предложена другая, в которой модели выполняют бинарную классификацию только для пары классов:
$$
\begin{array}{c|cccc}
 & 1 & 2 & \ldots & M \\
\hline
1 & 0 & a_{12}(x; \omega_{12}) & \ldots & a_{1M}(x; \omega_{1M}) \\
2 & a_{21}(x; \omega_{21}) & 0 & \ldots & a_{2M}(x; \omega_{2M}) \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
M & a_{M1}(x; \omega_{M1}) & a_{M2}(x; \omega_{M2}) & \ldots & 0
\end{array}
$$

Элементы $ a_{ij}(x; \omega_{ij}) $ представляют собой выходные значения классификаторов, которые различают классы $ C_i $ и $ C_j $


Должно выполняться следующее условие:

$$
a_{ij}(x; \omega_{ij}) = -a_{ji}(x; \omega_{ji}), \quad i, j = 1, \ldots, M
$$

Это условие говорит о том, что выходные значения классификаторов должны быть взаимосвязаны. Если один классификатор утверждает, что пример принадлежит классу $ C_i $, то другой классификатор, который различает классы $ C_j $ и $ C_i $, должен утверждать, что этот пример не принадлежит классу $ C_j $.

Итоговый результат классификации для $ M $ классов определяется путем голосования по мажоритарному принципу:
$$
a(x) = \arg \max_{k=1}^{M} \sum_{i=1}^{M} \sum_{j=1}^{M} \left[ a_{ji}(x) = k \right]
$$

### **Многоклассовая логистическая регрессия**

Для всех этих алгоритмов многоклассовой классификации можно применить формулу SoftMax: 

$$
P\left(a(x) = y_k\right) = \frac{\exp\left(g_k\left(x; \omega_k\right)\right)}{\sum_{j=1}^{M} \exp\left(g_j\left(x; \omega_j\right)\right)}
$$

Стоит отметить, что вероятности, полученные с помощью SoftMax, могут не соответствовать реальным вероятностям, если модель не является логистической регрессией. Важно использовать логистическую регрессию для получения корректных вероятностных характеристик.

Функционал, который нужно минимизировать для многоклассовой логистической регрессии:

$$
Q\left(a, X^{i}\right)=\sum_{i=1}^{N} \sum_{k=1}^{M}\left[y_{i}=k\right] \log \left(1-\underbrace{y_{i} \cdot\left(\left\langle\omega_{k}, x_{i}\right\rangle-\omega_{0 k}\right)}_{M_{i}})\right)
$$

### **Метрики**

#### **Микро-усреднение**

**Микро-усреднение** вычисляет средние значения для всех классов, суммируя значения и деля на количество классов $ M $, a после вычисляются метрики precision и recall:
$$
\text{precision} = \frac{\overline{TP}}{\overline{TP} + \overline{FP}}
$$
$$
\text{recall} = \frac{\overline{TP}}{\overline{TP} + \overline{FN}}
$$

**Микро-усреднение** учитывает общее количество истинных и ложных результатов, что может привести к "потере" малых классов, если они не сбалансированы с большими классами.

#### **Макро-усреднение**

При **макро-усреднении** сначала вычисляются precision и recall для каждого класса $ k $, а затем вычисляются средние показатели:

$$
\overline{\text{precision}} = \frac{1}{M} \sum_{k=1}^{M} \text{precision}_k
$$

$$
\overline{\text{recall}} = \frac{1}{M} \sum_{k=1}^{M} \text{recall}_k
$$

При **макро-усреднении** каждому классу придается равный вес, что позволяет учитывать малые классы наравне с большими. Это полезно, если важно оценить качество классификации для всех классов.

## **K-nearest neighbors**

**Метрические методы** – это методы, которые основаны на расстояниях от конкретного образа до образов других классов в признаковом пространстве. Было бы логично отнести наблюдение к той группе точек, к которой оно ближе всего.

Но здесь сразу возникают две проблемы:

* Как измерять расстояния между объектами в признаковом пространстве;
* Как определять на основе вычисленных расстояний принадлежность объекта к той или иной группе точек.

### **Как измерять расстояния**

Первое, что приходит в голову, взять евклидовое расстояние между двумя точками: 

$$
\rho\left(x ; x_{i}\right) = \sqrt{\sum_{j=1}^{n}\left(x^{j}-x_{i}^{j}\right)^{2}}
$$

Но метрику Евклида мы можем обобщить до метрики Минковского:

$$
\rho\left(x, x_{i}\right) = \left(\sum_{j=1}^{n} \omega_{j} \cdot\left|x^{j}-x_{i}^{j}\right|^{p}\right)^{1/p}
$$

где:
   - $ \omega_{j} $ — веса для каждого измерения $ j $,
   - $ p $ — параметр, определяющий тип нормы.

![изображение.png](attachment:bd995402-4b4f-4750-96c9-627408aa6ca3.png)

### **Как определять принадлежность объекта**

Все объекты выборки упорядочиваются по возрастанию расстояния относительно $ x $:
   $$
   \rho\left(x, x^{(1)}\right) \leq \rho\left(x, x^{(2)}\right) \leq \ldots \leq \rho\left(x, x^{(l)}\right)
   $$
   При этом соответствующие целевые значения (классы) записываются как:
   $$
   y^{(1)}, y^{(2)}, \ldots, y^{(l)}
   $$

Веса $ \omega(i, x) $ определяются следующим образом:
   $$
   \omega(i, x) = [i \leq k]
   $$
   Это означает, что веса будут равны 1 для первых $ k $ ближайших соседей, а для остальных будут равны 0.

Классификация нового объекта $ x $ осуществляется по следующему правилу:
   $$
   a\left(x; X^{i}\right) = \arg \max_{y \in Y} \sum_{i=1}^{k} \left[y^{(i)} = y\right]
   $$
   Здесь $ \arg \max $ выбирает класс $ y $, который встречается наиболее часто среди $ k $ ближайших соседей.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = df.drop('Cancer Present', axis=1)
y = df['Cancer Present']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=1)
knn_model.fit(scaled_X_train,y_train)

y_pred = knn_model.predict(scaled_X_test)

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

accuracy_score(y_test, y_pred)
confusion_matrix(y_test, y_pred)
print(classification_report(y_test, y_pred))

### **Алгоритм парзеновского окна**

Алгоритм работает по похожему принципу, что и метод k ближайших соседей, только рассматривает всех соседей на расстоянии h и с учетом расстояния до них.

$$
a\left(x ; X^{l}, h, K\right) = \arg \max_{y \in T} \sum_{i=1}^{n} \left[ y_i = y \right] \cdot K\left(\frac{\rho\left(x, x_i\right)}{h}\right)
$$

- $ K\left(\frac{\rho\left(x, x_i\right)}{h}\right) $ — значение функции ядра, нормированное на ширину окна $ h $.

## **Pipeline**

### **Пайплайн с помощью Pipeline**

In [None]:
X = df.drop('target', axis=1)
y = df['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

pipeline = Pipeline([
    ('scaler', StandardScaler()),  #шаг 1: нормализация данных
    ('svm', SVC())                 #шаг 2: метод опорных векторов с линейным ядром
])

param_grid = {
    'scaler__with_mean': [True, False],  # Центрирование данных
    'scaler__with_std': [True, False],    # Масштабирование данных
    'svm__kernel': ['linear', 'rbf'],     # Тип ядра
    'svm__C': [0.1, 1, 10],               # Гиперпараметр регуляризации
    'svm__gamma': ['scale', 'auto']       # Гиперпараметр для rbf ядра
}

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

y_pred = grid_search.predict(X_test)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay

print(classification_report(y_test, y_pred))

ConfusionMatrixDisplay.from_estimator(
    grid_search,         # Обученный пайплайн (модель)
    X_test,              # Тестовые данные
    y_test,              # Истинные метки классов
    normalize='true'     # Нормализация матрицы ошибок
)

### **Пайплайн с помощью make_pipeline**

In [None]:
from sklearn.metrics import classification_report, ConfusionMatrixDisplay


X = df.drop('target', axis=1)
y = df['target']

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

pipeline = make_pipeline(
    StandardScaler(),    #шаг 1: нормализация данных
    SVC()                #шаг 2: метод опорных векторов с линейным ядром
)

param_grid = {
    'svc__kernel': ['linear', 'rbf'],        # Тип ядра
    'svc__C': [0.1, 1, 10],                  # Гиперпараметр регуляризации
    'svc__gamma': ['scale', 'auto']          # Гиперпараметр для rbf ядра
}

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

y_pred = grid_search.predict(X_test)

print(classification_report(y_test, y_pred))

ConfusionMatrixDisplay.from_estimator(
    grid_search,         # Обученный пайплайн (модель)
    X_test,              # Тестовые данные
    y_test,              # Истинные метки классов
    normalize='true'     # Нормализация матрицы ошибок
)

## **Support Vector Machine**

**Опорные векторы** — это точки обучающей выборки, которые находятся ближе всего к гиперплоскости. Они определяют максимальный зазор между классами.

**Гиперплоскость** в двумерном пространстве - прямая, следовательно, она её определяет следующая формула:

SVM находит гиперплоскость, которая максимально разделяет классы в пространстве признаков.

$$
\omega^{T} x - b = 0
$$

После чего классификация производится по правилу:

$$
a(x) = \operatorname{sign}(\omega^{T} x - b)
$$

### **Случай линейной разделимости**

**Наша цель**: найти такие коэффициенты бетта, при которых **M** будет максимальным.

![изображение.png](attachment:4a47e943-8b33-4ab0-9f37-82e58fea9855.png)

Ширина зазора может быть вычислена как скалярное произведение вектора омега и вектора, соединяющего два опорных вектора:

$$
\left\langle \omega, x_{+} - x_{-} \right\rangle = \omega^{T} \cdot (x_{+} - x_{-}) = |\omega| \cdot |x_{+} - x_{-}| \cdot \cos \alpha
$$

Таким образом, ширина зазора может быть найдена по следующей формуле. Такое выражение мы будем стараться максимизировать:

$$
L = \frac{\langle \omega, x_{+} - x_{-} \rangle}{\|\omega\|^{2}} \rightarrow \max
$$

Вспомним, что выражение

$$
M_{i} = y_{i} \cdot a(x_{i}) = y_{i} \cdot \left(\langle \omega, x_{i} \rangle - b\right)
$$

определяет, насколько далеко находится объект от разделяющей гиперплоскости. Данное выражение можем записать, добавив некоторый положительный коэффициент $\alpha$, что не изменит сути оптимизационной задачи:

$$
\alpha M_{i} = y_{i} \cdot \left( \langle \alpha \omega, x_{i} \rangle - \alpha b \right)
$$

Зато теперь мы можем подобрать такое значение $\alpha$, при котором отступ **M** будет в точности равен единице. 

$$
M_{i}(x_{+}) = M_{i}(x_{-}) = 1
$$

Строго математически это можем записать так:

$$
\min_{i=1, \ldots} M_{i}(\omega, b) = 1
$$

Для чего мы это делали?

$$
\left\langle \omega, x_{+} - x_{-} \right\rangle = \langle \omega, x_{+} \rangle - \langle \omega, x_{-} \rangle = 1 - (-1) = 2
$$

Значит, ширина зазора может быть представлена следующим образом:

$$
L = \frac{2}{\|\omega\|^{2}} \rightarrow \max
$$

Резюмируя, получаем задачу минимизации: 

$$
\begin{cases}
\frac{1}{2}\|\omega\|^{2} \rightarrow \min_{\omega, b} \\
M_{i}(\omega, b) \geq 1, \quad i=1,2, \ldots, l
\end{cases}
$$

### **Когда классы линейно неразделимы**
Для случая, где классы не являются линейно разделимыми, задача сводится к решению следующей системы:

$$
\begin{cases}
\frac{1}{2}\|\omega\|^{2} + C \cdot \sum_{i=1}^{l} \xi_{i} \rightarrow \min_{\omega, b, \xi} \\
M_{i}(\omega, b) \geq 1 - \xi_{i}, \quad i=1,2,\ldots,l \\
\xi_{i} \geq 0, \quad i=1,2,\ldots,l
\end{cases}
$$

* $\xi_{i}$ - ошибка, которую мы позволяем модели, но стараемся ее минимизировать.


$$
\begin{cases}
\xi_{i} = 1 - M_{i}(\omega, b) \\
\xi_{i} = 0
\end{cases} \Rightarrow L_{i}(\omega, b) = \max \left(0, 1 - M_{i}(\omega, b)\right) = \left(1 - M_{i}(\omega, b)\right)_{+}
$$

И в конце концов задача сводится к следующему виду: 


$$
\sum_{i=1}^{l}\left(1-M_{i}(\omega, b)\right)_{+}+\frac{1}{2 C}\|\omega\|^{2} \rightarrow \min _{\omega, b}
$$

Тут первое слагаемое - эмпирический риск, а второе - L2 регуляризатор для коэффициентов $\omega$

На рисунке функция потерь изображена зеленой линией, она называется **Hinge loss**. Таким образом, SVM - решение оптимизационной задачи при функции потерь **Hinge**, где функция потерь начинает штрафовать при отступе, меньшем единицы.


![изображение.png](attachment:7c73cb54-1881-4fb4-885f-fd82f6504dc1.png)

#### **Оптимизация**

Минимизировать функционал с помощью производной не получится, т.к. функция не имеет производной в точке перегиба. Поэтому используется условие Каруша-Куна-Такера с поиском седловой точки функции Лагранжа.

После решения вышеупомянутой системы из трех выражений мы получим формулу, по которой можно найти вектор $\omega$:
$$
\omega = \sum_{i=1}^{l} \lambda_{i} y_{i} x_{i}
$$

Тут $\lambda$ - некий числовой коэффициент. Если для некоторого наблюдения $\lambda = 0$, значит, оно не используется для вычисления вектора $\omega$. Таких нулевых значений получается достаточно много, роль будут играть лишь немногие векторы, для которых $\lambda \neq 0$, и такие векторы называют **опорными**.

Существует следующая классификация векторов: 

1. **Неинформативные объекты**:
   $$
   \lambda_{i} = 0; \quad \xi_{i} = 0; \quad M_{i} \geq 1
   $$
2. **Опорные граничные объекты**:
   $$
   0 < \lambda_{i} < C; \quad \xi_{i} = 0; \quad M_{i} = 1
   $$
3. **Опорные ошибочные объекты**:
   $$
   \lambda_{i} = C; \quad \xi_{i} > 0; \quad M_{i} < 1
   $$

#### **Принцип классификации**

Объединив выражения $a(x) = \operatorname{sign}(\langle \omega, x \rangle - b)$ и $\omega = \sum_{i=1}^{l} \lambda_{i} y_{i} x_{i}$ получим:

$$
a(x) = \operatorname{sign}\left(\sum_{i=1}^{l} \lambda_{i} y_{i} \langle x_{i}, x \rangle - b\right)
$$

Таким образом, классификатор вычисляет взвешенную сумму **для опорных векторов**. Для произвольного вектора **x** будут вычисляться его скалярные произведения с опорными векторами. Суммируются опорные векторы для одного класса, потом для другого, а после из одной суммы вычитается другая. Знак результата выражения будет определять класс вектора:

$$
\lambda_{1} \cdot\left\langle x_{1}, x\right\rangle+\lambda_{2} \cdot\left\langle x_{2}, x\right\rangle-\lambda_{3} \cdot\left\langle x_{3}, x\right\rangle-\lambda_{4} \cdot\left\langle x_{4}, x\right\rangle
$$

$$
\omega_{+} = \lambda_{1} x_{1} + \lambda_{2} x_{2}
$$

$$
\omega_{-} = \lambda_{3} x_{3} + \lambda_{4} x_{4}
$$

$$
a(x) = \operatorname{sign}\left(\langle \omega_{+}, x \rangle - \langle \omega_{-}, x \rangle\right)
$$

![изображение.png](attachment:9ed3bba1-e0b9-48a8-86d7-7637dccc0dc4.png)

### **SVM с нелинейными ядрами**

А что, если заменить линейное преобразование $\langle x_{i}, x \rangle$ заменить на нелинейное $\langle x_{i}, x \rangle^{2}$?

Сможем ли мы повторить все те же действия для нахождения опорных векторов и $\lambda$? Оказывается, решение системы остается неизменным!

#### **Пример**

Рассмотрим для примера функцию ядра и векторы: 
$$
K(u, v) = \langle u, v \rangle^2
$$

$$ u = \begin{pmatrix} u_1 \\ u_2 \end{pmatrix},    v = \begin{pmatrix} v_1 \\ v_2 \end{pmatrix} $$

Возведя в квадрат скалярное произведение $\langle u, v \rangle = u_1 v_1 + u_2 v_2$ векторов получим:

$$
K(u, v) = \langle u, v \rangle^2 = (u_1 v_1 + u_2 v_2)^2 = u_1^2 v_1^2 + u_2^2 v_2^2 + 2 u_1 u_2 v_1 v_2
$$

Мы свели скалярный квадрат двумерных векторов к скалярному произведению трехмерных векторов!

$$
\psi(u) = \begin{pmatrix} u_1^2 \\ u_2^2 \\ \sqrt{2} u_1 u_2 \end{pmatrix}, \quad \psi(v) = \begin{pmatrix} v_1^2 \\ v_2^2 \\ \sqrt{2} v_1 v_2 \end{pmatrix}
$$

$$
K(u, v) = \langle \psi(u), \psi(v) \rangle
$$

С точки зрения же исходного пространства, мы получили полиномиальные функции второй степени.

![изображение.png](attachment:23ed4151-5bb4-4c7a-be9f-2bbe0cdc7a5b.png)

### **SVM в задачах классификации**

In [None]:
y = df['Virus Present']
X = df.drop('Virus Present', axis=1) 

from sklearn.svm import SVC # Support Vector Classifier

model = SVC(kernel='linear', C=1000)
model.fit(X, y)

# Импортируем из вспомогательного .py-файла
# https://scikit-learn.org/stable/auto_examples/svm/plot_separating_hyperplane.html
from svm_margin_plot import plot_svm_boundary

plot_svm_boundary(model, X, y)

### **SVM в задачах регрессии**

In [None]:
X = df.drop('Compressive Strength (28-day)(Mpa)',axis=1)
y = df['Compressive Strength (28-day)(Mpa)']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

param_grid = {'C':[0.001,0.01,0.1,0.5,1],
             'kernel':['linear','rbf','poly'],
              'gamma':['scale','auto'],
              'degree':[2,3,4],
              'epsilon':[0,0.01,0.1,0.5,1,2]}

from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV

svr = SVR()
grid = GridSearchCV(svr, param_grid=param_grid)

grid.fit(scaled_X_train, y_train)
grid.best_params_

grid_preds = grid.predict(scaled_X_test)

## **Desicion Trees**

### **Impurity**

#### **Gini impurity**
**Gini impurity** — метрика, отражающая однородность набора данных. В идеале мы стараемся совершать разбиение таким образом, чтобы минимизировать эту метрику для листовых узлов.

$$
Gini = 1 - \sum_{i=1}^{n} p_i^2
$$
где:
- $ n $ — число классов,
- $ p_i $ — доля экземпляров класса в узле $ i $.

#### **Entropy**
**Entropy** — мера неопределенности или хаоса в системе.

Дано определенное множество событий, которые происходят с вероятностями $\left(p_{1}, p_{2}, \ldots, p_{n}\right)$, общая энтропия $H$ может быть записана как отрицательная сумма взвешенных вероятностей:
$$
S=-\sum_{i=1}^{n} p_{i} \log _{2}\left(p_{i}\right)
$$
Эта величина имеет ряд интересных свойств:
Свойства энтропии
1. $H=0$ только в том случае, если все, кроме одной из $p_{i}$, равны нулю, а эта одна равна 1. Таким образом, энтропия исчезает только тогда, когда нет неопределенности в результате, что означает, что выборка совершенно не удивительна.
2. $H$ максимальна, когда все $p_{i}$ равны. Это наиболее неопределенная или "нечистая" ситуация.
3. Любое изменение в сторону уравнивания вероятностей $\left(p_{1}, p_{2}, \ldots, p_{n}\right)$ увеличивает $H$

Идея заключается в том, чтобы вычесть из энтропии наших данных до разбиения энтропию каждой возможной части после него. Затем мы выбираем разбиение, которое дает наибольшее снижение энтропии или, эквивалентно, наибольшее увеличение информации.
Основной алгоритм для вычисления увеличения информации называется ID3. Это рекурсивная процедура, которая начинается с корневого узла дерева и итеративно проходит сверху вниз по всем нелистовым ветвям жадным образом, вычисляя на каждой глубине разницу в энтропии:

$$
I G(Q) = S_{0} - \sum_{i=1}^{q} \frac{N_{i}}{N} S_{i}
$$

- **$ I G(Q) $** — прирост информации для разбиения $ Q $.
- **$ S_{0} $** — энтропия исходного набора данных до разбиения.
- **$ N $** — общее количество объектов в исходном наборе данных.
- **$ N_{i} $** — количество объектов в $ i $-й подвыборке после разбиения.
- **$ S_{i} $** — энтропия $ i $-й подвыборки.
- **$ q $** — количество подвыборок, на которые разбивается исходный набор данных.

Математически поиск наилучшего порога (и, соответственно, признака) в текущей вершине дерева, можно записать так: 
$$
j_{0}, t_{*} = \arg \max_{j \in J, t \in T} I G(j, t)
$$

То есть, мы максимизируем **Information gain**, зависящий от признака и порога в этом признаке

#### **Шаги алгоритма ID3:**
1. Вычислить энтропию, связанную с каждой характеристикой набора данных.
2. Разделить набор данных на подмножества, используя различные характеристики и значения разбиения. Для каждого из них вычислить увеличение информации $\Delta I G$ как разницу в энтропии до и после разбиения, используя приведенную выше формулу. Для общей энтропии всех дочерних узлов после разбиения использовать взвешенное среднее, учитывающее $N_{\text {child }}$, т.е. сколько из $N$ образцов попадает в каждую дочернюю ветвь.
3. Определить разбиение, которое приводит к максимальному увеличению информации. Создать узел решения на основе этой характеристики и значения разбиения.
4. Когда дальнейшие разбиения не могут быть выполнены на подмножестве, создать листовой узел и пометить его наиболее распространенным классом точек данных внутри него, если выполняется классификация, или средним значением, если выполняется регрессия.
5. Рекурсивно повторить для всех подмножеств. Рекурсия останавливается, если после разбиения все элементы в дочернем узле одного типа. Могут быть наложены дополнительные условия остановки.


#### **Если имеем несколько признаков, то как выбрать признак для корневого узла?**
Вычисляем gini impurity для каждого признака и выбираем тот признак, для которого значение метрики минимально.

Можно ввести некий **threshold** чтобы автоматически выбирать те признаки, для которых значение метрики меньше некоторого порогового значения.

Если при новом разбиении gini impurity уменьшается незначительно, то мы будем отказыватся от подобного разбиения, то есть производить **усечение (pruning)** дерева во избежание переобучения

Также можно сразу указать максимальную глубину дерева

In [None]:
X = pd.get_dummies(df.drop('species',axis=1),drop_first=True)
y = df['species']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier()

model.fit(X_train,y_train)
base_pred = model.predict(X_test)

from sklearn.metrics import confusion_matrix, classification_report, ConfusionMatrixDisplay

confusion_matrix(y_test,base_pred)
ConfusionMatrixDisplay.from_estimator(model,X_test,y_test);
print(classification_report(y_test,base_pred))

model.feature_importances_ #отображение коэффициентов важности признаков

pd.DataFrame(index=X.columns, 
             data=model.feature_importances_, 
             columns=['Feature Importance']).sort_values('Feature Importance') #то же в удобочитаемом виде

from sklearn.tree import plot_tree 
plot_tree(model); #графическое отображение дерева
plot_tree(model, filled=True, feature_names=X.columns); #или так, с заполнением цветом и передачей имен признаков

![изображение.png](attachment:09414f98-a806-4e27-b949-dc10689e12e2.png)

In [None]:
pruned_tree = DecisionTreeClassifier(max_depth=2) #ограничение на глубину дерева
pruned_tree = DecisionTreeClassifier(max_leaf_nodes=3) #ограничение на количество листьевых узлов
entropy_tree = DecisionTreeClassifier(criterion='entropy') #выбор другой функции impurity

## **Random Forest**

В исследовательских работах говорится, что оптимальным количеством деревьев в лесах является 64-128 моделей. Однако, эта величина зависит от количества признаков и может быть подобрана с помощью кросс-валидации. Что интересно, леса не могут быть переобучены.

При увеличения количества деревьев новые комбинации признаков не дают нам новых данных, так как дублируются уже имеющиеся комбинации признаков.

Количество признаков в поднаборе рекомендуется выбирать равным $ \frac{N}{3} $ или $\sqrt{N} $. Опять же, параметр подбирается кросс-валидацией.

### **Bootstraping**

**Bootstraping** - случайное семплирование с возвращением. После того, как мы выбираем набор признаков, признаки, вошедшие в него, могут быть использованы снова в другом семпле. То же характерно и для наборов данных, на которых будет обучаться конкретное дерево. Мы получаем случайный набор признаков и случайный набор строк. 

Бутстреппинг помогает уменьшить корреляцию между деревьями, чтобы получить разные деревья, чтобы лес, составленный из них, лучше обобщался на новые данные.

### **Bagging**

**Bagging** - это объединение принципов **b**ootstrap и **ag**gregation. Это термин описывает процесс случайного семплирования данных, признаков и аггрегирования результатов деревьев для получения финального предсказания леса.
$$ a(x) = \frac{1}{T} \sum_{i=1}^{T} a_{i}(x) $$
### **Out of bag errors**

**Out of bag errors** - когда мы семплируем данные, для конкретного дерева некоторые данные остаются неиспользованными. Значит, мы будем использовать эти данные для тестирования дерева. Таким образом, **OoBE** является метрикой оценки конкретного дерева.








### **Случайные леса для классификации**

In [None]:
X = df.drop("Class",axis=1)
y = df["Class"]

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=101)

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier()

from sklearn.model_selection import GridSearchCV

n_estimators=[64, 100, 128, 200] #число деревьев
max_features= [2, 3, 4] #число фич в каждом дереве
bootstrap = [True, False] #использовать ли бутстрапинг с возвращением
oob_score = [True, False] #вычислять ли OOB для каждого дерева

param_grid = {'n_estimators': n_estimators,
             'max_features': max_features,
             'bootstrap': bootstrap,
             'oob_score': oob_score}  # oob_score имеет смысл только при bootstrap=True!

grid = GridSearchCV(rfc, param_grid)
grid.fit(X_train, y_train)

grid.best_params_

predictions = grid.predict(X_test)

from sklearn.metrics import confusion_matrix, classification_report, ConfusionMatrixDisplay

confusion_matrix(y_test, predictions)
print(classification_report(y_test, predictions))
ConfusionMatrixDisplay.from_estimator(grid, X_test, y_test);

### **Случайные леса для регрессии**

In [None]:
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor()
    
from sklearn.model_selection import GridSearchCV

n_estimators=[64, 100, 128, 200] #число деревьев
max_features= [2, 3, 4] #число фич в каждом дереве
bootstrap = [True, False] #использовать ли бутстрапинг с возвращением
oob_score = [False] #вычислять ли OOB для каждого дерева

param_grid = {'n_estimators': n_estimators,
             'max_features': max_features,
             'bootstrap': bootstrap,
             'oob_score': oob_score}  #oob_score имеет смысл только при bootstrap=True!

grid = GridSearchCV(rfr, param_grid)
grid.fit(X_train, y_train)

grid.best_params_

y_pred = grid.predict(X_test)

from sklearn.metrics import mean_squared_error

RMSE = mean_squared_error(y_test, y_pred)

## **Boosting**

**Бустинг** - методология, которую можно применять к существующим алгоритмам машинного обучения. Иногда бустинг называют алгоритмом **мета-обучения**, так как он является процессом, в который можно встроить любой алгоритм машинного обучения.

В процессе бустинга мы берем слабые модели, объединяем их в ансамбль, который получается сильным. Итоговая модель будет представлять собой взвешенную сумму всех слабых моделей, что позволяет достичь высокой точности предсказаний. В большинстве случаев бустинг применяется для деревьев решений.

### **Adaptive Boosting**

**AdaBoost** - это алгоритм, который комбинирует несколько слабых классификаторов для создания сильного классификатора. В отличие от случайного леса, адаптивный бустинг строит деревья последовательно. В классической реализации алгоритма AdaBoost часто используется слабый классификатор, который принимает решение на основе одного признака.

Каждая модель $ b_t $ вносит свой вклад в финальный результат, умноженный на $ \alpha_t $. Каждый элемент выборки $x_{i}$ получает некоторый вес $\omega_{i}$, который будет больше для неправильно классифицированных объектов. Когда вес объекта увеличивается, это означает, что он становится более важным для следующей итерации обучения.

#### **Интуиция(классификация)**

1. **Инициализируем веса начальные объектов:**
$$
\omega_{i} = \frac{1}{\ell}, \quad i = 1, \ldots, \ell
$$
где $ \ell $ — общее количество объектов.
2. **Находим наилучший текущий алгоритм по правилу:**
   $$
   b_{t} = \arg \min_{b_{t}} N(b)
   $$
   Здесь $ N(b) $ — это функция ошибки для алгоритма $ b $.
3. **Вычисляем коэффициент $ \alpha_t $, который будет использоваться для обновления весов:**
$$
\alpha_{t} = \frac{1}{2} \ln \frac{1 - N(b_{t})}{N(b_{t})}
$$
Этот коэффициент показывает, насколько хорошо работает текущий алгоритм.
4. **Обновляем веса объектов на основе их ошибок:**
$$
\omega_{i} = \omega_{i} \cdot \exp(-\alpha_{t} y_{i} b_{t}(x_{i})), \quad i = 1, \ldots, \ell
$$
где $ y_{i} $ — истинный класс объекта $ i $, а $ b_{t}(x_{i}) $ — предсказанный класс.
5. **Нормируем веса, чтобы они суммировались до 1:**
$$
\omega_{i} = \frac{\omega_{i}}{\omega_{\text{sum}}}, \quad i = 1, \ldots, \ell
$$
6. **Итоговое предсказание(!!после цикла!!)**
   $$
   \hat{y} = \text{sign}\left(\sum_{t=1}^{T} \alpha_t b_t(x)\right)
   $$
   Т.о. предсказания слабых классификаторов агрегируются с учетом весов.

#### **Интуиция(регрессия)**

1. **Инициализируем веса начальные объектов:**
    $$
    \omega_{i} = \frac{1}{\ell}, \quad i = 1, \ldots, \ell
    $$
где $ \ell $ — общее количество объектов.
2. **Находим наилучший текущий алгоритм по правилу:**
    $$
    h_{t} = \arg \min_{h} \sum_{i=1}^{N} w_{i} (y_{i} - h(x_{i}))^2
    $$
3. **Вычисляем коэффициент $ \alpha_t $, который будет использоваться для обновления весов:**
    $$
    \text{Loss}_t = \sum_{i=1}^{N} w_i (y_i - h_t(x_i))^2
    $$

   $$
   \alpha_t = \frac{1}{2} \ln \left( \frac{1 - \text{Loss}_t}{\text{Loss}_t} \right)
   $$
   
    Этот коэффициент показывает, насколько хорошо работает текущий алгоритм.

4. **Обновляем веса объектов на основе их ошибок:**
    $$
    w_{i} = w_{i} \cdot \exp\left(\alpha_{t} (y_{i} - h_{t}(x_{i}))^2\right), \quad i = 1, \ldots, N
    $$
где $ y_{i} $ — истинное значение $ i $, а $ h_{t}(x_{i}) $ — предсказанное значение.

5. **Нормируем веса, чтобы они суммировались до 1:**
    $$
    \omega_{i} = \frac{\omega_{i}}{\omega_{\text{sum}}}, \quad i = 1, \ldots, \ell
    $$

6. **Итоговое предсказание(!!после цикла!!)**
   $$
   \hat{y} = \sum_{t=1}^{T} \alpha_t  h_t(x).
   $$

In [None]:
X = pd.get_dummies(df.drop('class', axis=1), drop_first=True)
y = df['class']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=101)

from sklearn.ensemble import AdaBoostClassifier
model = AdaBoostClassifier(n_estimators=1) 
model.fit(X_train, y_train)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score
y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))
ConfusionMatrixDisplay.from_estimator(model, X_test, y_test)
accuracy_score(y_test, y_pred)

model.feature_importances_ #увидеть коэффициенты важности признаков
model.feature_importances_.argmax() #узнать индекс максимально важного признака
X.columns[22] #выведем название этого признака

### **Gradient Boosting**

В градиентном бустинге применяется другой подход к выбору следующей модели. Обучение очередной модели выполняется с использованием значения градиента

1. **Начальная инициализация вектора предсказаний $ \hat{y}_i $:**
   $$
   \hat{y}_i = 0, \quad i = 1, \ldots, l
   $$
2. **Поиск наилучшего текущего алгоритма**:
   
   Для каждого $ t = 1, \ldots, T $ мы ищем $ b_t $, минимизируя следующую функцию:
   $$
   b_{t} = \arg \min_{b} \sum_{i=1}^{l} \left( b\left(x_{i}\right) - g_{i} \right)^{2}
   $$

    Т.о. мы минимизируем квадрат рассогласования алгоритма с градиентом
   
   На каждом шаге $ t $ градиенты вычисляются для каждого образца $ i $ как производные функции потерь по текущим предсказаниям:
    $$
    g_{i} = \frac{\partial L(y_i, \hat{y}_{t-1, i}(x_i))}{\partial \hat{y}_{t-1, i}(x_i)}
    $$
   

4. **Нахождение весового коэффициента алгоритма**:
   $$
   \alpha_{t} = \arg \min_{\alpha > 0} \sum_{i=1}^{l} L\left(\hat{y}_{t-1, i} + \alpha b_{t}\left(x_{i}\right), y_{i}\right)
   $$
5. **Обновление вектора значений**:
   $$
   \hat{y}_{i} = \hat{y}_{i-1} + \alpha_{t} b_{t}\left(x_{i}\right), \quad i = 1, \ldots, l
   $$

In [None]:
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier

xgb_model = XGBClassifier(n_estimators=100, learning_rate=0.05, max_depth=6)
lgbm_model = LGBMClassifier(n_estimators=100, learning_rate=0.05, num_leaves=31)
catboost_model = CatBoostClassifier(iterations=100, depth=6, learning_rate=0.05, cat_features=[0, 1, 2])

В отличие от традиционного бустинга, где все листья на одном уровне делятся одновременно, **LightGBM** делит тот лист, который принесет наибольшее уменьшение ошибки.

![image.png](attachment:5a1d9781-09ec-4b50-bb55-b0348f410d79.png)

**XGBoost** развивает все узлы на одном уровне одновременно, пока не будет достигнута максимальная глубина.

![image.png](attachment:7c3a9577-85bf-4d47-938b-52eb11ce4683.png)

CatBoost на одном уровне все вершины используют одно и то же разбиение. Все вершины одного уровня делят данные по одному и тому же признаку с одинаковым порогом.
![image.png](attachment:c847821b-e87f-4520-b60f-ebbe5b6a93a6.png)

## **Bayes**

### **Naive Bayes**

Наивный байесовский классификатор основан на принципах теоремы Байеса и использует предположение о независимости признаков.

$$
P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}
$$

Нашей целью будет для каждого наблюдения максимизировать вероятность его принадлежности классу. То есть, при выборе из двух классов для конкретного наблюдения мы выберем тот класс, который более вероятен для набора признаков нашего наблюдения.

$$
a(x) = \arg \max_{y \in Y} P(y) \cdot p(x_{i} \mid y)
$$

Наивный байесовский классификатор наивен потому, что он считает все признаки независимыми:

$$
p(x \mid y) = \prod_{i=1}^{n} p(x_i \mid y)
$$

Таким образом, классификатор будет выглядеть следующим образом:

$$
a(x) = \arg \max_{y \in Y} \lambda_{y} \hat{P}(y) \prod_{i=1}^{n} \hat{p}\left(x_{i} \mid y\right)
$$

Лямбда - штраф за неверный прогноз модели

Чтобы упростить вычисления и избежать проблем с числовыми переполнениями, часто используют логарифм от произведения:

$$
a(x) = \arg \max_{y \in Y} \left( \ln \lambda_{y} \hat{P}(y) + \sum_{i=1}^{n} \ln \hat{p}\left(x_{i} \mid y\right) \right)
$$

**Далее речь пойдет лишь о мультиномиальной модели!**

#### **TF-IDF**

**TF-IDF (Term Frequency-Inverse Document Frequency)** — это метод, используемый для оценки значимости слов в документах текстового корпуса. Он часто применяется в задачах классификации текста, таких как спам-фильтры или анализ тональности, где Наивный Байес может использоваться в качестве классификатора. В контексте Наивного Байеса TF-IDF помогает улучшить результаты, более точно оценивая важность терминов в каждом документе.


**TF** показывает, насколько часто термин t встречается в документе d.


$$
TF(t, d) = \frac{\text{Частота появления термина } t \text{ в документе } d}{\text{Общее количество терминов в документе } d}
$$


**IDF** снижает вес часто встречающихся слов, которые не несут важной информации (например, предлоги, союзы).


$$
IDF(t, D) = \log\left(\frac{\text{Общее количество документов}}{\text{Количество документов, содержащих термин } t}\right)
$$


Высокие значения **TF-IDF** указывают на редкие, но значимые термины для конкретного документа.


$$
TF\text{-}IDF(t, d, D) = TF(t, d) \times IDF(t, D)
$$

#### **Варианты извлечения признаков в Scikit-Learn**



**TfidfVectorizer**


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer= TfidfVectorizer(stop_words='english')
tfidf = tfidf.fit_transform(text) #сразу разбиение документа на слова и подсчет TF-IDF

tfidf.todense()

#### **Задача классификации текста**

In [None]:
X = df['text']
y = df['airline_sentiment']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=101)

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer(stop_words='english')

tfidf.fit(X_train)

X_train_tfidf = tfidf.transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()

nb.fit(X_train_tfidf,y_train)

from sklearn.metrics import classification_report, ConfusionMatrixDisplay, accuracy_score
y_pred = nb.predict(X_test)

print(classification_report(y_test, y_pred))
ConfusionMatrixDisplay.from_estimator(nb, X_test, y_test)
accuracy_score(y_test, y_pred)

### **Gaussian Bayes**

Гауссовский байесовский классификатор — это метод классификации, основанный на теореме Байеса, который предполагает, что признаки следуют нормальному распределению для каждого класса.

Алгоритм классификации будет аналогичен наивному

$$
a(x) = \arg \max_{y \in Y} \left( \lambda_{y} \cdot P(y) \cdot p(x \mid y) \right)
$$

Различие будет заключаться в подсчете условной вероятности $ p(x \mid y)$:

$$
a(x) = \arg \max_{y \in Y} \left( \ln \lambda_{y} \hat{P}(y) - \frac{1}{2} \left( x - \hat{\mu}_{y} \right)^{T} \hat{\Sigma}_{y}^{-1} \left( x - \hat{\mu}_{y} \right) - \frac{1}{2} \ln \operatorname{det} \hat{\Sigma}_{y} \right)
$$

- $ \hat{\mu}_{y} $ — оценка среднего вектора для класса $ y $.
- $ \hat{\Sigma}_{y} $ — оценка ковариационной матрицы для класса $ y $.
- $ \operatorname{det} \hat{\Sigma}_{y} $ — определитель ковариационной матрицы.

### **NB vs GB**

Чем все-таки отличается гауссовский байесовский классификатор от его «наивной» реализации?

Если посмотреть на распределение точек для двумерного гауссовского распределения с корреляцией 0.7, то можно увидеть их эллипс рассеяния. В пределах этого эллипса можно выделить две главные оси, вдоль которых распределены точки: 

![изображение.png](attachment:fa86430f-b95f-4887-bde6-8e0d42bfc97e.png)

Так вот, ковариационную матрицу можно представить в виде, так называемого, спектрального разложения: 

$$
\Sigma = V S V^{T}
$$

- $V$ — матрица собственных векторов, которая содержит направления, вдоль которых данные имеют максимальную дисперсию.
- $S$ — диагональная матрица, содержащая собственные значения (дисперсии) на главной диагонали. Эти собственные значения показывают, насколько сильно данные разбросаны вдоль соответствующих собственных векторов.

Фактически, ковариационная матрица определяет линейные преобразования равномерно распределенного множества точек в коррелированное множество точек: 

![изображение.png](attachment:206efa3b-9ce4-482e-9f63-966a0efaa1b8.png)

То есть, прописывая **обратную матрицу** в классификаторе, мы, по сути дела, переходим в новое пространство (новую систему координат), где признаки **НЕ коррелированы** и там, в этом пространстве, реализуем обычный наивный байес. Вот в чем основная суть ковариационной матрицы в гауссовском байесовском классификаторе. 

![изображение.png](attachment:71e2010b-ab6d-4eda-940c-2adb8b9bbf0e.png)

### **LDA**

**LDA (Linear Discriminant Analysis)** — линейный дискриминантный анализ, линейный дискриминант Фишера — метод, основанный на гауссовском подходе, но **с допущением о равенстве ковариацинных матриц всех классов.**

Общая ковариационная матрица вычисляется по формуле:

$$
\hat{\Sigma} = \frac{1}{l} \sum_{i=1}^{l} \left( x_{i} - \hat{\mu}_{y i} \right) \left( x_{i} - \hat{\mu}_{y i} \right)^{T}
$$

То есть, ковариационные матрицы для каждого класса складываются и взвешиваются по количеству наблюдений

В случае линейного дискриминанта Фишера классификатор будет иметь вид, аналогичный гауссовскому, но без слагаемого с определителем, так как определитель теперь одинаков для всех классов

$$
a(x) = \arg \max_{y \in Y} \left( \ln \left( \lambda_{y} \hat{P}(y) \right) - \frac{1}{2} \left( x - \hat{\mu}_{y} \right)^{T} \cdot \hat{\Sigma}^{-1} \cdot \left( x - \hat{\mu}_{y} \right) \right)
$$




## **K-Means Clustering**

### **Интуиция**

1. Определяем, сколько кластеров $ k $ мы хотим создать.
2. Выбираем $ k $ начальных центроидов.
3. Для каждого объекта данных определяем, к какому кластеру он ближе, основываясь на расстоянии до центроидов.
4. Пересчитываем центроиды, находя среднее значение всех объектов, принадлежащих каждому кластеру.
5. Повторяем шаги 3 и 4, пока центроиды не изменятся (или изменения станут незначительными).

In [None]:
X = pd.get_dummies(df)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X = scaler.fit_transform(X)

from sklearn.cluster import KMeans
model = KMeans(n_clusters=2)

#model.fit(scaled_X) #кластеризируем, но не возвращаем метки
#model.fit_transform(scaled_X) #кластеризируем, но возвращаем расстояния от каждой точки до ближайшего центроида
#model.fit_predict(scaled_X) #кластеризируем и возвращаем метки
#model.predict #для классификации новых точек на основе уже обученной модели

cluster_labels = model.fit_predict(scaled_X)

X['Cluster'] = cluster_labels

#потом можно вычислить корреляцию признаков с колонкой Cluster

### **Выбираем количество кластеров**

Метрика **SSD (Sum of Squared Distances)** в контексте кластеризации k-means измеряет сумму квадратов расстояний между объектами и их соответствующими центроидами. Эта метрика используется для оценки качества кластеризации. 

#### **Метод локтя, SSD**

На графике найдите точку, в которой значение **SSD** начинает уменьшаться менее резко

In [None]:
ssd = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    ssd.append(model.inertia_) #inertia_ = SSD

plt.plot(range(2,10), ssd, 'o--')
plt.xlabel("K Value")
plt.ylabel("Sum of Squared Distances")

pd.Series(ssd).diff() #список разницы ssd предыдущее - ssd текущее

![image.png](attachment:14e4ded1-2d6a-4017-8e9d-ec2c013b3b3e.png)

#### **Метод SilhoueteScore**

Метод силуэтов — это метод оценки качества кластеризации, который позволяет определить, насколько хорошо объекты сгруппированы в кластеры. Он измеряет, насколько близки объекты внутри одного кластера по сравнению с объектами других кластеров.

$$
\text{SilhoueteScore} = \frac{b - a}{\max(a, b)}
$$

Для оценки качества всей кластеризации можно вычислить среднее значение $ SilhoueteScore $ для всех объектов:

$$
\text{TotalSilhouetteScore} = \frac{1}{n} \sum_{i=1}^{n} SilhoueteScore
$$

Метрика меняется в диапазоне от -1 до 1. **В идеале она равна единице.**

![image.png](attachment:4d8f1564-ca02-4f03-9d52-ff6ef8ad229f.png)

#### **Визуализация SilhouletteScore:**

![image.png](attachment:9a041060-79e7-46ae-b08c-23ececdda1fa.png)

Слева мы видим множество горизонтальных линий, каждая из которых иллюстрирует величину метрики **SilhouletteScore** конкретной точки. Точки разделены на цвета в соответствии с кластеризацией для выбранного числа **K**.

Красная пунктирная линия на левом графике отражает среднее значение метрики для общего набора точек. В конкретном примере она имеет значение, которое ближе к единице, нежели к нулю, что, безусловно, хорошо.

Также важно обращать внимание на количество точек в конкретном кластере, величина метрики для которых заметно меньше среднего значения, отраженного красной пунктирной линией. Если таковых точек много, это может свидетельствовать о неудачном выборе числа **K**, как в приведенном ниже примере:

![image.png](attachment:792e2d88-d5be-48dd-ab01-622c2da76bf7.png)

In [None]:
from sklearn.metrics import silhouette_score

silhouettes = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    silhouettes.append(silhouette_score(scaled_X, model.labels_)) #нужно передать масштабированные признаки
                                                                  #и метки кластеров

#как строить графики вроде того, что изображен выше, можно узнать в документации или 
#использовать уже готовые отдельные библиотеки, где нужный код уже составлен

## **Hierarchical Clustering**

### **Подходы иерархической кластеризации**

#### **Разделяющий подход**
Разделяющий подход, наоборот, начинается с того, что все точки находятся в одном большом кластере. Затем кластеры делятся на подгруппы на основе заданного критерия, например, максимального расстояния между точками. 

*В **sklearn** разделяющий подход явно не реализован*

#### **Агломеративный подход**
Агломеративный подход к иерархической кластеризации начинается с того, что каждая точка рассматривается как отдельный кластер. Затем кластеры объединяются на основе критерия схожести, например, расстояния.

Объединение двух кластеров в один нужно вычислять расстояния между кластерами. Существует несколько подходов:

![image.png](attachment:074ddaba-6eb5-4cad-bece-9d590df273e8.png)

#### **Способ 1: Явное указание количества кластеров**

Ориентируясь на **clustermap** можно предположить подходящее количество кластеров и явно передать его в модель

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

scaled_data = scaler.fit_transform(df_w_dummies)
scaled_df = pd.DataFrame(data=scaled_data, columns=df_w_dummies.columns)

sns.clustermap(scaled_df,col_cluster=False)

from sklearn.cluster import AgglomerativeClustering
model = AgglomerativeClustering(n_clusters=4, metric='euclidean', linkage='ward')
#metric определяет метрику для вычисления расстояния между отдельными наблюдениями
#linkage определяет метрику для вычисления расстояния между кластерами

cluster_labels = model.fit_predict(scaled_df)
cluster_labels

df_w_dummies['Cluster'] = cluster_labels

#### **Способ 2: Определение числа кластеров с помощью дендрограммы**

Модель AgglomerativeClustering имеет гиперпараметр distance_threshold, означающий пороговое значение расстояния между кластерами, выше которого кластеры уже не будут объединяться между собой. По умолчанию метод имеет значение **'None'**. Если мы собираемся работать с этим гиперпараметром, то должны установить значение n_clusters в **'None'**. Само значние distance_threshold нужно определить по дендрограмме

In [None]:
from sklearn.cluster import AgglomerativeClustering
model = AgglomerativeClustering(n_clusters=None, distance_threshold=2)

cluster_labels = model.fit_predict(scaled_df)
cluster_labels

from scipy.cluster.hierarchy import dendrogram
from scipy.cluster import hierarchy

linkage_matrix = hierarchy.linkage(model.children_)
#model.children_ возвращает информацию о структуре иерархической кластеризации
linkage_matrix 
#это матрица вида [номер_кластера_1, номер_кластера_2, расстояние_между_кластерами, число_точек_в_кластерах]

plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix)

![image.png](attachment:89ba2a1f-fd68-45c5-aa88-4b0bb646daac.png)

Чтобы понять, в какой момент нам пора остановить кластеризацию, нужно использовать параметр **truncate_mode** экземпляра **hierarchy.dendrogram**. Он принимает значения **'lastp'**(объединяем **p** кластеров и останавливаемся) и **'level'**(берем **p** уровней и останавливаемся)

In [None]:
plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix, truncate_mode='lastp', p=1)

![image.png](attachment:3eeb3314-2187-48b2-9b68-5f9c35a72ec0.png)

In [None]:
plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix, truncate_mode='level', p=3)

![image.png](attachment:8daa6193-8bdb-4401-8ea0-e7eff3e2f010.png)

## **DBSCAN**

**DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** — алгоритм, который группирует точки, которые находятся близко друг к другу, и помечает как выбросы точки, которые находятся в низкоплотных областях. 

В отличие от K-Means, в качестве основной метрики используется плотность точек.

#### **Импользуемые гиперпараметры:**

* **ε**: Окресность вокруг точки.
* **min_samples**: Минимальное количество точек, необходимое для формирования окресности.

#### **Типы точек**

* **Core** - точка, в ε-окресности которой существует минимальное количество точек **MinPts**.
* **Border** - точки, содержащиеся в ε-окресности **Core**-точки, но сами не являющиеся таковыми.
* **Outlier** - выбросы

### **Интуиция**

1. Берем точку, не принадлежащую ни одному кластеру.
2. Определяем тип точки (core, border, outlier).
3. Если точка core, то помечаем точки в её ε-окресности её кластером.
4. Повторяем, пока все точки не будут отнесены к кластерам или помечены как выбросы.

### **Как выбирать гиперпараметры?**

#### **Подбор окресности**

Для определения параметра **eps** рекомендуется применить метод локтя, в ходе которого для разных ε-окресностей будем измерять:

* Количество кластеров;
* Количество выбросов;
* Процент точек-выбросов.

In [None]:
number_of_clusters = []
number_of_outliers = []
outlier_percent = []

for eps in np.linspace(0.001,10,100):

    dbscan = DBSCAN(eps=eps)
    dbscan.fit(two_blobs_outliers)
    
    # Сохраняем количество кластеров
    clusters = len(np.unique(dbscan.labels_))
    number_of_clusters.append(clusters)
    
    # Сохраняем количество точек выбросов
    outliers = np.sum(dbscan.labels_ == -1)
    number_of_outliers.append(outliers)
    
    # Сохраняем процент точек-выбросов
    perc_outliers = 100 * np.sum(dbscan.labels_ == -1) / len(dbscan.labels_)
    outlier_percent.append(perc_outliers)

In [None]:
sns.lineplot(x=np.linspace(0.001, 10, 100), y=outlier_percent)
plt.ylabel("Percentage of Points Classified as Outliers")
plt.xlabel("Epsilon Value")

![image.png](attachment:9ea2037d-db49-44b1-992c-d6f9d6e7bf90.png)

На получившемся графике ищем точку, в которой мы переходим от резкого падения в горизонтальное плато.

Можем строить график для количества кластеров и количества выбросов и действовать аналогично.

#### **Подбор минимального количества точек**

Для подбора **min_samples** также используется метод локтя.

In [None]:
outlier_percent = []

for n in np.arange(1, 100):
    
    dbscan = DBSCAN(min_samples=n)
    dbscan.fit(two_blobs_outliers)
    
    # Сохраняем количество кластеров
    clusters = len(np.unique(dbscan.labels_))
    number_of_clusters.append(clusters)
    
    # Сохраняем количество точек выбросов
    outliers = np.sum(dbscan.labels_ == -1)
    number_of_outliers.append(outliers)
    
    # Сохраняем процент точек-выбросов
    perc_outliers = 100 * np.sum(dbscan.labels_ == -1) / len(dbscan.labels_)
    outlier_percent.append(perc_outliers)

In [None]:
sns.lineplot(x=np.arange(1,100),y=outlier_percent)
plt.ylabel("Percentage of Points Classified as Outliers")
plt.xlabel("Minimum Number of Samples")

![image.png](attachment:9912b80f-c284-4a02-9952-f637f564c389.png)

## **Gaussian Mixture Model**

**GMM** предполагает, что данные приходят из смеси нескольких нормальных распределений. Каждое нормальное распределение характеризуется своим **средним**, **дисперсией**, и **весом**, который показывает, насколько важно это распределение в общей смеси.

In [None]:
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components=3, random_state=42)
gmm.fit(X_train)

labels = gmm.predict(X_train)

## **Principal Component Analysis**

**Метод главных компонент (Principal Component Analysis, PCA)** — это статистический метод, используемый для уменьшения размерности данных, сохраняя при этом как можно больше информации. Давайте рассмотрим основные шаги метода главных компонент.

### **Интуиция (с ковариационной матрицей)**


1. **Рассчитать ковариационную матрицу выборки.**
   
    Матрица ковариации содержит **дисперсию измерений** на главной диагонали и **ковариацию измерений** вне главной диагонали
   Мы хотим убрать коррелируемые измерения, т.е. ковариация между измерениями должна быть нулевой.
    
   Таким образом, наша ковариационная матрица должна иметь **большие значения на элементах главной диагонали** и **нулевые значения вне главной диагонали**.
    
   Итак, мы должны преобразовать исходные точки так, чтобы их матрица ковариации стала диагональной матрицей.
$$
\begin{bmatrix}
\sigma_a^2 & \text{Cov}(a, b) & \text{Cov}(a, c) & \text{Cov}(a, d) \\
\text{Cov}(a, b) & \sigma_b^2 & \text{Cov}(b, c) & \text{Cov}(b, d) \\
\text{Cov}(a, c) & \text{Cov}(b, c) & \sigma_c^2 & \text{Cov}(c, d) \\
\text{Cov}(a, d) & \text{Cov}(b, d) & \text{Cov}(c, d) & \sigma_d^2
\end{bmatrix}
$$

   
3. **Рассчитать собственные значения и соответствующие собственные векторы ковариационной матрицы**
   
   Собственные векторы будут указывать новые оси, а собственные значения - величину дисперсии по направлению конкретного вектора

4. **Отсортировать собственные вектора по значениям их собственных значений в убывающем порядке**

5. **Выбрать k первых собственных векторов и это будет новое k-мерное пространство**

6. **Преобразовать исходные точки из n-мерного пространства в k-мерное**

### **Интуиция (с матрцией Грама)**

Пусть имеем матрицу признаков:

$$
F = \begin{bmatrix}
f_1(x_1) & f_2(x_1) & \ldots & f_n(x_1) \\
f_1(x_2) & f_2(x_2) & \ldots & f_n(x_2) \\
\vdots & \vdots & \ddots & \vdots \\
f_1(x_l) & f_2(x_l) & \ldots & f_n(x_l)
\end{bmatrix}
$$

Применив к ней некоторое преобразование, получим матрицу Грама

$$
F^{*} = \frac{1}{l} \cdot F^{T} \cdot F = \frac{1}{l} \cdot \left[\begin{array}{ccc}
f_{1}\left(x_{1}\right) & \ldots & f_{1}\left(x_{l}\right) \\
\ldots & \ldots & \ldots \\
f_{n}\left(x_{1}\right) & \ldots & f_{n}\left(x_{l}\right)
\end{array}\right] \cdot \left[\begin{array}{ccc}
f_{1}\left(x_{1}\right) & \ldots & f_{n}\left(x_{1}\right) \\
\ldots & \ldots & \ldots \\
f_{1}\left(x_{l}\right) & \ldots & f_{n}\left(x_{l}\right)
\end{array}\right]
$$

Найдем собственные значения и собственные векторы данной матрицы по формуле

$$
\operatorname{det}\left(F^{*} - \lambda I\right) = 0
$$

Собственные векторы данной матрицы будут показывать направление новых осей координат, а собственные значения - величину дисперсии в данных, которую описывает каждая новая ось, то есть насколько сильно данные варьируются вдоль конкретной оси.

### **Интуиция (singular value decomposition)**

Сингулярное разложение (SVD) — метод линейной алгебры, позволяющий разложить матрицу на три компоненты: ортогональные матрицы и диагональную матрицу сингулярных значений.

Пусть дана матрица признаков $F$ размером $l \times n$. Сингулярное разложение имеет вид:

$$
F = U \Sigma V^{T}
$$

1. **Левая ортогональная матрица $U$** содержит левые сингулярные векторы $u_i$, представляющие направления в исходном пространстве признаков.

2. **Диагональная матрица сингулярных значений $\Sigma$** состоит из сингулярных значений $\sigma_i$, упорядоченных по убыванию. Сингулярные значения показывают вклад каждого вектора в разложение матрицы $F$.

3. **Правая ортогональная матрица $V^{T}$** содержит правые сингулярные векторы $v_i$, указывающие направления в новом пространстве, вдоль которых можно сохранить максимум информации.

В отличие от подхода с матрицей Грама $F^T F$, SVD не требует явного вычисления собственных значений, что снижает вычислительную сложность и улучшает точность.
При вычислении $F^T F$ возможны потери точности из-за усиления погрешностей. SVD позволяет избежать этих проблем. SVD работает для матриц любых размеров и форм, в то время как анализ через матрицу Грама может быть ограничен и менее точен для вырожденных матриц.

### **Реализация**

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X = scaler.fit_transform(df)

from sklearn.decomposition import PCA
pca = PCA(n_components=2)

principal_components = pca.fit_transform(scaled_X) #fit вычисляет с.з. и с.в., а transform проецирует
                                                   #исходные наблюдения на новое пространство
                                                   #результат - матрица представлений наших наблюдений 
                                                   #через главные компоненты

pca.components_ #выражение наших компонент через признаки

pca.explained_variance_ratio_ #какой процент данных описывает конкретная компонента

np.sum(pca.explained_variance_ratio_) #какой процент данных описывает наш набор компонент

### **Подбор k**

In [None]:
X_scaled = StandardScaler().fit_transform(X)

pca = PCA().fit(X_scaled)

plt.plot(range(1, len(pca.explained_variance_ratio_) + 1),
         np.cumsum(pca.explained_variance_ratio_), marker='o')

plt.xlabel('Число главных компонент')
plt.ylabel('Накопленная доля объясненной дисперсии')
plt.title('Выбор числа компонент в PCA')
plt.axhline(y=0.95, color='r', linestyle='--');

![image.png](attachment:9d14c5f0-42a1-4648-a98a-0cb10768fabd.png)

In [None]:
pca = PCA(6).fit(X_train_scaled) #выбираем k в соответствии с графиком

X_train_reduced = pca.transform(X_train)
X_test_reduced = pca.transform(X_test)

In [None]:
np.sum(np.cumsum(pca.explained_variance_ratio_) <= 0.95) + 1 #численно получаем число фич, 
                                                             #описывающих 95% дисперсии