# **Sklearn**

# **Линейная регрессия**

### **Разбиение на train и test**

In [None]:
from sklearn.model_selection import train_test_split 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

### **Создание модели**

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

model.fit(X_train,y_train) #обучение модели на трейне
test_predictions = model.predict(X_test) #предсказание для теста


final_model = LinearRegression() #на финале модель можно обучить на
                                 #всех данных
final_model.fit(X,y)

final_model.coef_ #посмотреть коэфициенты модели

### **Метрики оценки**

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

MAE = mean_absolute_error(y_test,test_predictions)
MSE = mean_squared_error(y_test,test_predictions)
RMSE = = np.sqrt(MSE)

### **Анализ остатков**

Остатки - разница между фактическим значением и предсказанием

In [None]:
test_predictions = model.predict(X_test)
test_residuals = y_test - test_predictions

Нанесение остатков на график:

In [None]:
sns.scatterplot(x=y_test,y=test_res)
plt.axhline(y=0, color='r', linestyle='--');

В идеале остатки должны лежать на красной линии, т.е. разница между предсказанием и фактом должна быть нулевой

![изображение.png](attachment:abedfdc0-9bc7-4b25-b06a-729ec3088bbe.png)

Можно использовать SciPy для построения QQ-plot

In [None]:
fig, ax = plt.subplots(figsize=(6,8),dpi=100)

_ = sp.stats.probplot(test_res,plot=ax)

![изображение.png](attachment:b973fe5d-3d0f-4859-b1a9-49a83f44b743.png)

### **Сохранение и загрузка модели**

In [None]:
from joblib import dump, load

dump(final_model, 'sales_model.joblib')  #сохранение

loaded_model = load('sales_model.joblib') #загрузка

# **Полиномиальная регрессия**

### **Создание модели**

Прежде всего импортируем из Preprocessing класс PolynomialFeatures. С его помощью мы трансформируем наши исходные данные, добавляя в них полиномиальные признаки.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

polynomial_converter = PolynomialFeatures(degree=2,include_bias=False)

poly_features = polynomial_converter.fit_transform(X) 
              #проектирование и создание полиномиальных признаков

Потом требуется создать линейную модель

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()

Далее все так же, как и у простой линейной регрессии

### **Выбор степени полинома**

In [None]:
# Ошибка на обучающем наборе для той или иной степени полинома
train_rmse_errors = []
# Ошибка на тестовом наборе для той или иной степени полинома
test_rmse_errors = []

for d in range(1,10):
   
   # Создаём полиномиальные данные для степени "d"
   polynomial_converter = PolynomialFeatures(degree=d,include_bias=False)
   poly_features = polynomial_converter.fit_transform(X)
   
   X_train, X_test, y_train, y_test = train_test_split(poly_features, y, test_size=0.3, random_state=101)
   
   model = LinearRegression(fit_intercept=True)
   model.fit(X_train,y_train)
   
   train_pred = model.predict(X_train)
   test_pred = model.predict(X_test)
   

   train_RMSE = np.sqrt(mean_squared_error(y_train,train_pred))
   test_RMSE = np.sqrt(mean_squared_error(y_test,test_pred))
      
   train_rmse_errors.append(train_RMSE)
   test_rmse_errors.append(test_RMSE)

Строим графики для оценки

In [None]:
plt.plot(range(1,6),train_rmse_errors[:5],label='TRAIN')
plt.plot(range(1,6),test_rmse_errors[:5],label='TEST')

plt.xlabel("Polynomial Complexity")
plt.ylabel("RMSE")

plt.legend()

![изображение.png](attachment:392f3d63-6aea-46de-a05f-4d5369932b78.png)

In [None]:
plt.plot(range(1,10),train_rmse_errors,label='TRAIN')
plt.plot(range(1,10),test_rmse_errors,label='TEST')
plt.xlabel("Polynomial Complexity")
plt.ylabel("RMSE")
plt.legend()

![изображение.png](attachment:8afd857b-87d9-4681-817a-b0cf42f60ef8.png)

Исходя из деталей графиков, в частности первого, лучшим решением будет выбор degree=3. На нашем графике видно, что мы могли бы выбрать и значение degree=4, однако безопаснее взять чуть меньшую степень сложности.

Создаем финальную модель

In [None]:
final_poly_converter = PolynomialFeatures(degree=3,include_bias=False)

final_model = LinearRegression()

final_model.fit(final_poly_converter.fit_transform(X),y)

Сохраняем её и объект конвертер

In [None]:
from joblib import dump, load

dump(final_model, 'sales_poly_model.joblib') 
dump(final_poly_converter,'poly_converter.joblib')

Загружаем

In [None]:
loaded_poly = load('poly_converter.joblib')
loaded_model = load('sales_poly_model.joblib')

# **L2 Регуляризация, Ридж-Регрессия**

### **Масштабирование данных**

Метод fit класса StandardScaler вычисляет mean и std, после чего производит масштабирование данных по формуле

Таким образом, стандартное масштабирование приводит данные к среднему значению mean=0 и стандартному отклонению std=1

![изображение.png](attachment:7cdd0788-0617-40dd-b524-00fb9947ab03.png)

Применяем fit лишь к трейну, чтобы исключить утечку данных из тестового набора

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)    #перезапись масштабированных 
X_test = scaler.transform(X_test)      #данных в старые переменные


Теперь данные готовы к применению регрессии

### **Гребневая регрессия (Ridge Regression)**

**L2 регуляризация, Гребневая регрессия, Ridge Regression** - метод регуляризации данных, позволяющий снизить вероятность overfitting на обучающем наборе данных, штрафуя модель за высокие значения коэффициентов.

При таком способе регуляризации обнуление коэффициентов НЕ происходит

![изображение.png](attachment:1b22f1af-0b08-4a1c-a09b-989e333f45ff.png)

Лямбда определяет силу штрафа. В sklearn этот параметр называется alpha.

In [None]:
from sklearn.linear_model import Ridge

ridge_model = Ridge(alpha=10)
ridge_model.fit(X_train,y_train)

Далее можем формировать предсказания и метрически оценивать модель

**Как найти наилучшее значение альфа?**

Для этого нужно испрользовать кросс-валидацию, сравнив результат  текущего альфа с другими

Класс RidgeCV выполнит кросс-валидацию для разных альфа и выберет наилучшее по некоторой метрике. Для RidgeCV действует следующее правило: чем больше значение метрики, тем лучше

In [None]:
from sklearn.linear_model import RidgeCV #Cross-Validation

ridge_cv_model = RidgeCV(alphas=(0.1, 1.0, 10.0), scoring='neg_mean_absolute_error')
                      #мы указали значения альфа, для которых будем
                      #вычислять эффективность,
                      #и метрику для оценки
         
ridge_cv_model.fit(X_train,y_train)      #это train+validation
ridge_cv_model.alpha_        #узнать подобранное альфа

test_predictions = ridge_cv_model.predict(X_test)

Все метрики оценки для RidgeCV находятся тут:

In [None]:
from sklearn.metrics import SCORERS

SCORERS.keys()

# **L1 Регуляризация, Лассо-Регрессия**

**L1 регуляризация,  LASSO** - метод регуляризации данных, который добавляет штраф за сумму абсолютных значений коэффициентов к функции потерь. Это помогает в выборе признаков, так как некоторые коэффициенты могут стать равными нулю, когда параметр альфа достаточно большой. Таким образом, лассо выбирает значимые признаки, а незначимые отбрасывает.

![изображение.png](attachment:5268d0cd-28a7-4797-bcd8-3621a707f2a3.png)

Существует два способа продбора коэффициента альфа. Первый из них - использовать класс Lasso, где показатели альфа мы будем перечислять. Второй способ - использовать LassoCV, где мы указываем диапазон значений множителя

In [None]:
from sklearn.linear_model import LassoCV

lasso_cv_model = LassoCV(eps=0.01, n_alphas=100, cv=5)
            #Способ 1: в параметр alphas можно передать список значений
            #Способ 2: eps - диапазон, n_alphas - кол-во значений альфа
            #второй способ аналогичен функции linspace
            #eps вычисляется как alpha_min / alpha_max

lasso_cv_model.fit(X_train,y_train)
lasso_cv_model.alpha_        #узнать подобранное альфа
lasso_cv_model.coef_         #можно увидеть вычисленные коэффициенты
                             #часть из них обнулилась

test_predictions = lasso_cv_model.predict(X_test)

Далее можем вычислять значения метрик и оценивать эффективность модели

### **Elastic Net**

**Elastic Net** — это метод регуляризации, который объединяет преимущества L1 и L2 регуляризаций. Он добавляет штрафы за сумму абсолютных значений коэффициентов и за сумму квадратов коэффициентов к функции потерь. Это помогает в выборе признаков и предотвращении переобучения.

![изображение.png](attachment:87935691-4504-456a-b282-748408380e6f.png)

In [None]:
from sklearn.linear_model import ElasticNetCV

elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)
       #l1 ratio определяет отношение l1 / l2

elastic_model.fit(X_train,y_train)


In [None]:
elastic_model = ElasticNetCV(l1_ratio=[.1, .5, .7,.9, .95, .99, 1], tol=0.01)


![изображение.png](attachment:9dc45034-2c67-438a-be44-616939b7aa5b.png)

Получается, мы ищем два параметра: первый отражает силу применения общего штрафа, а второй - соотношение между L1 и L2.

In [None]:
elastic_model.l1_ratio #можем вывести все тестируемые соотношения
elastic_model.l1_ratio_ #вывести наилучшее значение
                    #если l1_ratio_ = 1, то L2 полностью исключен

elastic_model.alpha_ #лучшее значение коэффициента примеси штрафа

test_predictions = elastic_model.predict(X_test)

Далее можем вычислять значения метрик и оценивать эффективность модели

**По сути можно не проверять модель отдельно для L1 и L2, а сразу использовать их комбинацию.**

# **Feature Engineering**

### **Работа с выбросами**

Определить, является ли значение выбросом, можно несколькими способами:

1. **Использовать математику.** Оценить значения с точки зрения std и IQR
2. **Использовать графики.** Построить BoxPlot или ScatterPlot

При исключении из обучающего набора записей-выбросов следует сделать оговорку, что модель способна эффективно работать в конкретном диапазоне значений

### **Работа с отсутствующими данными**

Узнаем количество и процентовку отсутствующих значений для каждой колонки

In [None]:
df.isnull().sum()
df.isnull().sum() * 100 / len(df)

Далее есть два варианта действий с отсутствующими данными в столбцах:

1. Если значения отсутствуют только в нескольких строках, количество которых мало по сравнению с общим количеством строк, то можно рассмотреть вариант удалить такие строки. Мы выберем пороговое значение 1%. Это значит, что если меньше 1% строк содержат неопределённое значение какого-то признака, то мы просто удалим такие строки.
2. Если же значения отсутствуют почти во всех строках, то имеет смысл полностью удалить такие признаки. Однако перед этим следует внимательно разобраться, почему неопределённых значений так много. В некоторых случаях можно рассмотреть такие данные как отдельную категорию, отдельно от остальных данных.

### **Работа со строками**

Напишем функцию, которая будет считать процентовку пропущенных значений для каждого столбца датафрейма.

In [None]:
def percent_missing(df):
   percent_nan = 100* df.isnull().sum() / len(df)
   percent_nan = percent_nan[percent_nan>0].sort_values()
   return percent_nan


percent_nan = percent_missing(df)   #применяем функцию

percent_nan[percent_nan < 1]   #выбираем столбцы, в которых процент 
                               #НаНов меньше единицы 

Более детально рассматриваем записи для полученных столбцов и либо удаляем немногочисленные наблюдения, либо вдумчиво заполняем пропуски.

### **Работа со столбцами**

1. Если процент отсутствующих данных в столбце более 70%, столбец можно удалить.
2. Если процент не так высок, то имеет смысл полностью попытаться выяснить закономерность и заполнить пропуски.

In [None]:
df['Lot Frontage'] = df.groupby('Neighborhood')
                      ['Lot Frontage']
                      .transform(lambda val: val.fillna(val.mean()))

Этим кодом мы заполняем пропущенные ячейки столбца Lot Frontage средними значениями данного столбца, сгруппированными по столбцу Neighborhood

### **Работа с категориальными переменными**

**Dummy переменные** (или фиктивные переменные) — это переменные, которые используются для представления категориальных данных в числовой форме. Они принимают значения 0 или 1, указывая на отсутствие или наличие определенного свойства или категории. Например, если у нас есть категориальная переменная "Цвет" с тремя категориями: "Красный", "Синий" и "Зеленый", мы можем создать следующие dummy переменные

![изображение.png](attachment:bc7cbef1-f1b0-41b9-8e34-0141e5053eff.png)

Пусть имеем следующий датафрейм

In [None]:
person_state = pd.Series(['Dead','Alive','Dead','Alive','Dead','Dead'])

Используя pandas мы можем быстро сделать dummy переменные

In [None]:
pd.get_dummies(person_state)
           #или так, удалив одну избыточную колонку
pd.get_dummies(person_state, drop_first=True)

Выберем те столбцы датафрейма, которые имеют строковый тип, т.е. 'object', и те, что имеют тип, отличный от 'object'. Перед этим можем вывести информацию по всем колонкам для ясности

In [None]:
df.info()
df_objs = df.select_dtypes(include='object')
df_nums = df.select_dtypes(exclude='object')

Такое разбиение нужно для того, чтобы преобразовать все текстовые колонки в dummy переменные, а после добавить к ним все НЕтекстовые колонки.

In [None]:
df_objs = pd.get_dummies(df_objs,drop_first=True)

Получим огромное количество колонок

Теперь сшиваем полученный фрейм с тем, что хранит наши численные столбцы

In [None]:
final_df = pd.concat([df_nums, df_objs],axis=1)

![изображение.png](attachment:9ca73c23-60dc-49a5-9da7-1f70a4f15a12.png)

Метод get_dummies может при передаче целого датафрейма генерировать dummies только для текстовых столбцов. Поэтому подобное разделение не обязательно. Однако перед применением этого метода требуется преобразовывать категориальные численные переменные в текстовые, просто меняя их тип на 'object'.

Таким образом, есть и другие способы прийти к нашему результату:

![изображение.png](attachment:2bef8fce-bff9-4eb4-98f1-8d70d789907a.png)

В третьем способе показано, что метод может принимать список со столбцами, для которых требуется создать dummies. Сюда нужно передать все текстовые колонки и все численные категориальные колонки.

# **Кросс-Валидация**

### **Разбиение train-test split**

1. Очищаем и масштабируем данные X и y (при необходимости)
2. Разбиваем данные на обучающий и тестовый наборы данных - как для X, так и для y
3. Обучаем объект Scaler на обучающих данных X
4. Применяем масштабирование (scale) для тестовых данных X
5. Создаём модель
6. Обучаем модель на обучающих данных X
7. Оцениваем модель на тестовых данных X (создавая предсказания и сравнивая их с y_test)
8. Уточняем параметры модели, повторяя шаги 5 и 6

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных - SCALE DATA
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#создание модели и обучение на тренировочном наборе
from sklearn.linear_model import Ridge

model = Ridge(alpha=100)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)

#оценка эффективности модели
from sklearn.metrics import mean_squared_error

mean_squared_error(y_test,y_pred)

### **Разбиение train-val-test split**

1. Очищаем и масштабируем данные X и y (при необходимости)
2. Разбиваем данные на обучающий, оценочный и тестовый наборы данных - как для X, так и для y
3. Обучаем объект Scaler на обучающих данных X
4. Масштабируем (scale) оценочные данные X
5. Создаём модель
6. Обучаем модель на обучающих данных X
7. Оцениваем модель на оценочных данных X (создавая предсказания и сравнивая их с Y_eval)
8. Уточняем параметры модели, повторяя шаги 5 и 6
9. Вычисляем финальные метрики на тестовом наборе данных (после этого уже нельзя возвращаться и делать уточнения!)

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#вызываем SPLIT дважды! Здесь мы создаём три набора данных
from sklearn.model_selection import train_test_split

#70% данных определяем в обучающий набор, остальные 30% откладываем в сторону
X_train, X_OTHER, y_train, y_OTHER = train_test_split(X, y, test_size=0.3, random_state=101)

#оставшиеся 30% разбиваем на оценочный и тестовый наборы данных
#каждый будет по 15% от исходного набора данных 
X_eval, X_test, y_eval, y_test = train_test_split(X_OTHER, y_OTHER, test_size=0.5, random_state=101)

#масштабируем данные (SCALE)
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_eval = scaler.transform(X_eval)
X_test = scaler.transform(X_test)

from sklearn.linear_model import Ridge

#мы осознанно указываем неудачное значение Alpha!
model = Ridge(alpha=100)

model.fit(X_train,y_train)
y_eval_pred = model.predict(X_eval)

#оценка модели на валидации
from sklearn.metrics import mean_squared_error
mean_squared_error(y_eval,y_eval_pred)

#редактирование гиперпараметров
model = Ridge(alpha=1)
model.fit(X_train,y_train)

#вторая оценка модели на валидации
y_eval_pred = model.predict(X_eval)
mean_squared_error(y_eval,y_eval_pred)

#финальная оценка на тесте
y_final_test_pred = model.predict(X_test)
mean_squared_error(y_test,y_final_test_pred)

### **Кросс-валидация - cross_val_score**

![изображение.png](attachment:8773bd28-5c32-42dc-acd6-d7c43f307e28.png)

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных (SCALE)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

model = Ridge(alpha=100)

from sklearn.model_selection import cross_val_score

#варианты оценки модели:
#https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_val_score(model,X_train,y_train,
                        scoring='neg_mean_squared_error',cv=5)

scores
#вывод: array([ -9.32552967, -4.9449624 , -11.39665242, -7.0242106 , -8.38562723])

#среднее значение MSE scores (делаем это значение положительным)
abs(scores.mean())

#уточняем модель на основе метрик
model = Ridge(alpha=1)

scores = cross_val_score(model,X_train,y_train,
                        scoring='neg_mean_squared_error',cv=5)

abs(scores.mean())

#вычисляем финальные метрики на тестовом наборе данных 
#сначала нужно обучить модель!

model.fit(X_train,y_train)

y_final_test_pred = model.predict(X_test)

mean_squared_error(y_test,y_final_test_pred)

### **Кросс-валидация cross_validate**

Функция cross_validate отличается от cross_val_score двумя аспектами:

* эта функция позволяет использовать для оценки несколько метрик;

* она возвращает не только оценку на тестовом наборе (test score), но и словарь с замерами времени обучения и скоринга, а также - опционально - оценки на обучающем наборе и объекты estimator.

В случае одной метрики для оценки, когда параметр scoring является строкой string, вызываемым объектом callable или значением None, ключи словаря будут следующими:

In [None]:
['test_score', 'fit_time', 'score_time']

А в случае нескольких метрик для оценки, возвращаемый словарь будет содержать следующие ключи:

In [None]:
['test_<scorer1_name>', 'test_<scorer2_name>', 'test_<scorer...>', 'fit_time', 'score_time']

return_train_score по умолчанию принимает значение False, чтобы сэкономить вычислительные ресурсы. Чтобы посчитать оценки на обучающем наборе, достаточно установить этот параметр в значение True.

In [None]:
## Создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

# Делаем разбиение на TRAIN и TEST
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

# Масштабируем данные (SCALE)
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

model = Ridge(alpha=100)

from sklearn.model_selection import cross_validate

# Варианты оценки модели:
# https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_validate(model,X_train,y_train,
                        scoring=['neg_mean_absolute_error','neg_mean_squared_error','max_error'],cv=5)

scores

pd.DataFrame(scores)

pd.DataFrame(scores).mean()

model = Ridge(alpha=1)

# Варианты оценки модели:
# https://scikit-learn.org/stable/modules/model_evaluation.html
scores = cross_validate(model,X_train,y_train,
                        scoring=['neg_mean_absolute_error','neg_mean_squared_error','max_error'],cv=5)

pd.DataFrame(scores).mean()


# Сначала нужно обучить модель!
model.fit(X_train,y_train)

y_final_test_pred = model.predict(X_test)

mean_squared_error(y_test,y_final_test_pred)

### **Поиск по сетке**

Мы можем перебирать комбинации гиперпараметров с помощью поиска по сетке (grid). Линейные модели достаточно просты, и у них даже есть свои специализированные версии поиска значений параметров. Но также можно использовать обобщённый метод поиска по сетке - grid search. Этот метод применим для любой модели в sklearn, и он пригодится нам позже для более сложных моделей.

Этот поиск состоит из следующих составляющих:

* функция оценки - estimator (рregressor или classifier, например sklearn.svm.SVC());
* пространство параметров;
* метод поиска или сэмплирования кандидатов;
* схема кросс-валидации
* функция оценки (score function).

In [None]:
#создаём X и y
X = df.drop('sales',axis=1)
y = df['sales']

#разбиение на обучающий и тестовый наборы - TRAIN TEST SPLIT
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

#масштабирование данных (SCALE)
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

#для примера берем модель с двумя гиперпараметрами
from sklearn.linear_model import ElasticNet

base_elastic_model = ElasticNet()

param_grid = {'alpha':[0.1, 1, 5, 10, 50, 100],
             'l1_ratio':[.1, .5, .7,  .9, .95, .99, 1]}

from sklearn.model_selection import GridSearchCV

# число verbose выбирайте сами
grid_model = GridSearchCV(estimator=base_elastic_model,
                         param_grid=param_grid,
                         scoring='neg_mean_squared_error',
                         cv=5,
                         verbose=2)

grid_model.fit(X_train,y_train)

grid_model.best_estimator_ #наилучшая комбинация параметров
grid_model.best_params_ #то же самое
pd.DataFrame(grid_model.cv_results_) #подробная информация по каждой 
                                     #комбинации

y_pred = grid_model.predict(X_test)

#оценка лучшей модели
from sklearn.metrics import mean_squared_error

mean_squared_error(y_test,y_pred)

# **Логистическая регрессия**

Типичная настройка для логистической регрессии выглядит следующим образом: существует результат $y$, который попадает в одну из двух категорий, и используется следующее уравнение для оценки вероятности того, что $y$ принадлежит определенной категории, учитывая входные данные.

$$
   P(y=1 \mid X) = \sigma(z) = \frac{1}{1 + e^{-z}}
$$

Где $ z $ определяется как:
   $$
   z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k
   $$

Цель состоит в том, чтобы найти параметры, которые оптимизируют функцию, определяющую, насколько хорошо работает модель. Функция, которую необходимо оптимизировать, называется функцией потерь или функцией стоимости. Мы используем функцию потерь, чтобы определить, насколько хорошо наша модель соответствует данным.

Подходящей функцией потерь в логистической регрессии является Log-Loss или бинарная кросс-энтропия. Эта функция выглядит следующим образом:
$$
\text{Log-Loss} = -\frac{1}{n} \sum_{i=1}^{n} \left( y_{i} \log(p_{i}) + (1 - y_{i}) \log(1 - p_{i}) \right)
$$
Другой подход — найти модель, которая максимизирует вероятность наблюдения данных, используя оценку максимального правдоподобия (MLE). Это означает, что мы ищем такие значения параметров, при которых наблюдаемые данные наиболее вероятны. Цель состоит в том, чтобы найти значения параметров, которые максимизируют следующее:
$$
\text{Log-Likelihood} = \sum_{i=1}^{n} \left( y_{i} \log(p_{i}) + (1 - y_{i}) \log(1 - p_{i}) \right)
$$

In [None]:
X = df.drop('test_result',axis=1)
y = df['test_result']

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=101)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.linear_model import LogisticRegression
log_model = LogisticRegression()

log_model.fit(scaled_X_train,y_train)

log_model.coef_

y_pred = log_model.predict(scaled_X_test) #список из нулей и единиц
y_pred_proba = log_model.predict_proba(scaled_X_test) #список из вероятностей

from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report

accuracy_score(y_test, y_pred)
precision_score(y_test, y_pred)
recall_score(y_test, y_pred)

confusion_matrix(y_test,y_pred) 

from sklearn.metrics import ConfusionMatrixDisplay, PrecisionRecallDisplay, RocCurveDisplay

ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test); #для визуализации матрицы ошибок модели.
ConfusionMatrixDisplay.from_estimator(log_model, scaled_X_test, y_test, normalize='true');
                                    #normalize='true': Нормализация по строкам. 
                                    #Показывает, как хорошо модель классифицирует каждый класс 
                                    #относительно его истинного количества.
                                    #normalize='all': Нормализация по всем элементам матрицы. 
                                    #Показывает, как каждый класс соотносится с общим 
                                    #количеством примеров в выборке.

print(classification_report(y_test, y_pred)) #таблица с precision, recall, f1-score, accuracy, macro avg и weighted avg

RocCurveDisplay.from_estimator(log_model, scaled_X_test, y_test);      #ROC-curve
PrecisionRecallDisplay.from_estimator(log_model, scaled_X_test,y_test);  #PrecisionRecall

## **Метрики оценки модели классификации**

### **Accuracy**
*Процент правильных предсказаний*

##### **Accuracy = (TP + TN) / Total**

### **Recall**
*Процент правильно предсказанных положительных случаев от общего числа истинных положительных исходов*

##### **Recall = TP / Total Actual Positives**

### **Precision**
*Процент правильно предсказанных положительных случаев от общего числа положительных предсказаний*

##### **Precision = TP / Total Predicted Positives**

### **F1-score**
*Если хоть одна метрика равна нулю, F1-score также равняется нулю*

##### **F1-score = 2 * Precision * Recall  /  Precision + Recall**



![изображение.png](attachment:5e245b5f-2c79-481d-b9e4-b2df433d4ad2.png)

## **ROC / AUC**

**ROC-кривая** представляет собой график, который показывает соотношение между истинно положительными **(TPR)** и ложноположительными **(FPR)** значениями при различных порогах классификации.

**TPR = TP / (TP + FN)**

**FPR = FP / (FP + TN)**


**AUC** — это площадь под ROC-кривой, которая измеряет способность модели различать между положительными и отрицательными классами. 

![изображение.png](attachment:451afe52-5c20-4aff-810a-852611f5e8ce.png)

### **Мультиклассовая классификация**

In [None]:
X = df.drop('species',axis=1)
y = df['species']

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=101)

scaler = StandardScaler()

scaled_X_train = scaler.fit_transform(X_train)
scaled_X_test = scaler.transform(X_test)

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

log_model = LogisticRegression(solver='saga', multi_class="ovr", max_iter=5000)

# Тип Penalty
penalty = ['l1', 'l2', 'elasticnet']
l1_ratio = np.linspace(0, 1, 20)

# Используем логарифмически отстоящие друг от друга значения C (рекомендовано в официальной документации)
C = np.logspace(0, 10, 20) #насколько сильно применять штрафное слагаемое


param_grid={'C': C,
            'l1_ratio': l1_ratio,
            'penalty': penalty}

grid_model = GridSearchCV(log_model, param_grid=param_grid)

grid_model.fit(scaled_X_train, y_train)
grid_model.best_params_

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, ConfusionMatrixDisplay

y_pred = grid_model.predict(scaled_X_test)

accuracy_score(y_test, y_pred)
confusion_matrix(y_test, y_pred)

ConfusionMatrixDisplay.from_estimator(grid_model, scaled_X_test, y_test);

# Масштабированные значения, максимальное значение = 1
ConfusionMatrixDisplay.from_estimator(grid_model, scaled_X_test, y_test, normalize='true');

print(classification_report(y_test, y_pred))

#### **Функция, которая создаёт и рисует графики ROC-кривых для каждого класса**

Источник: https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

In [None]:
from sklearn.metrics import roc_curve, auc

In [None]:
def plot_multiclass_roc(clf, X_test, y_test, n_classes, figsize=(5,5)):
    y_score = clf.decision_function(X_test)

    # создаём пустые структуры
    fpr = dict()
    tpr = dict()
    roc_auc = dict()

    # один раз вычисляем dummies 
    y_test_dummies = pd.get_dummies(y_test, drop_first=False).values
    for i in range(n_classes):
        fpr[i], tpr[i], _ = roc_curve(y_test_dummies[:, i], y_score[:, i])
        roc_auc[i] = auc(fpr[i], tpr[i])

    # roc для каждого класса
    fig, ax = plt.subplots(figsize=figsize)
    ax.plot([0, 1], [0, 1], 'k--')
    ax.set_xlim([0.0, 1.0])
    ax.set_ylim([0.0, 1.05])
    ax.set_xlabel('False Positive Rate')
    ax.set_ylabel('True Positive Rate')
    ax.set_title('Receiver operating characteristic example')
    for i in range(n_classes):
        ax.plot(fpr[i], tpr[i], label='ROC curve (area = %0.2f) for label %i' % (roc_auc[i], i))
    ax.legend(loc="best")
    ax.grid(alpha=.4)
    sns.despine()
    plt.show()

In [None]:
plot_multiclass_roc(grid_model, scaled_X_test, y_test, n_classes=3, figsize=(16, 10));

![изображение.png](attachment:cfe647c6-8a10-4c82-99be-8e07261c95e1.png)