# **Глава 4. Логистическая регрессия**

*Вопрос 1: Допустим, тест на некое заболевание R дал положительный ответ, хотя на самом деле у испытуемого нет этого заболевания. Какую ошибку допустил тест?*


Ответ: В терминах машинного обучения и статистики такая ошибка называется ошибкой первого рода или ложноположительным результатом.

*Вопрос 2: Пусть в матрице ошибок TP = 5, TN = 90, FP = 10, FN = 5. Оцените метрики классификации для такой матрицы ошибок.*

Ответ:

*   Accuracy - доля правильных ответов алгоритма.

$\ ACC = \frac {TP + TN} {TP + TN + FP + FN} = \frac {5 + 90} {5 + 90 + 10 + 5} = \frac {95} {110} = 0,86$
*   Precision - точность.

$\ precision = \frac {TP} {TP + FP} = \frac {5} {5 + 10} = \frac {5} {15} = 0,33$
*   Recall - полнота.

$\ recall = \frac {TP} {TP + FN} = \frac {5} {5 + 5} = \frac {5} {10} = 0,5$
*   Specificity - специфичность.

$\ specificity = \frac {TN} {TN + FP} = \frac {90} {90 + 10} = \frac {90} {100} = 0,9$
*   $\ F_{1}$ - мера.

$\ F_{1} = \frac {2 * precision * recall} {precision + recall} = \frac {2 * 0,33 * 0,5} {0,33 + 0,5} = \frac {0,33} {0,83} = 0,39$




*Вопрос 3: Допустим, есть два классификатора: первый классификатор имеет долю правильных ответов 95 %, чувствительность 99 %, специфичность 50 %; второй классификатор имеет долю правильных ответов 87 %, чувствительность 84 %, специфичность 94 %. Что вы можете сказать о данных, используемых для классификации? Какой из этих классификаторов надежнее (при условии, что важно определение обоих классов)?*

Ответ:

Первый классификатор: очень высокая чувствительность (99 %) говорит о том, что он хорошо обнаруживает положительные случаи, однако низкая специфичность (50 %) указывает на большое количество ложноположительных ошибок. Это означает, что классификатор склонен "перестраховываться" и часто ошибочно относит отрицательные примеры к положительным. Доля правильных ответов (95 %) может быть связана с тем, что положительный класс значительно преобладает в данных (классовый дисбаланс).

Второй классификатор: он не только хорошо обнаруживает положительные примеры, учитывая его уровень чувствительности (84 %), но и реже допускает ложноположительные ошибки, о чём говорит его специфичность (94 %). Доля правильных ответов ниже (87 %), но это может быть связано с тем, что первый классификатор слишком часто угадывает положительный класс.

С учётом важности одинаковой классификации обоих классов можно утверждать, что второй классификатор будет более надежным, так как он показывает более сбалансированные результаты по чувствительности и специфичности.


*Вопрос 4: Перечислите возможные гиперпараметры модели логистической регрессии.*

Ответ:

1. Регуляризация:
- C (обратная величина регуляризации) — параметр, определяющий силу регуляризации. Меньшие значения C увеличивают регуляризацию (что помогает предотвратить переобучение), а большие значения уменьшают регуляризацию, позволяя модели лучше подстраиваться под данные.
- penalty (тип регуляризации) — тип регуляризации, применяемой к модели: l1 — L1-регуляризация (параметры модели могут быть обнулены, что помогает в случае отбора признаков); l2 — L2-регуляризация (используется чаще всего, помогает уменьшить величины весов); elasticnet — комбинация L1 и L2 регуляризаций.
2. Метод оптимизации: solver — метод, используемый для нахождения оптимальных параметров: liblinear — наиболее подходящий для малых наборов данных (поддерживает L1 и L2 регуляризации); newton-cg, lbfgs, sag, saga — более эффективны для больших наборов данных, используют L2-регуляризацию.
3. Максимальное количество итераций: max_iter — максимальное количество итераций для алгоритма оптимизации. Это значение может быть полезным, если процесс оптимизации не сходится.
4. Шаг обучения: learning_rate — скорость обновления параметров в процессе обучения. Этот гиперпараметр управляет тем, как сильно обновляются параметры модели на каждом шаге.
5. Пропорция выборки при стохастическом градиентном спуске: tol (порог сходимости) — критерий сходимости для алгоритма оптимизации. Если улучшение модели становится меньше этого значения, алгоритм завершает обучение.
6. Штраф для нулевых коэффициентов (для L1-регуляризации): fit_intercept — если установлено в True, то в модель включается свободный член (перехват). Если False, перехвата нет.
7. Обработка многоклассовой классификации: multi_class — способ обработки многоклассовой задачи: ovr (один против всех) — для многоклассовой классификации; multinomial — для многоклассовой классификации с более сложным методом.
8. Обработка данных (для улучшения модели): class_weight — веса классов для компенсации дисбаланса классов. Это позволяет модели более акцентировать внимание на редких классах.
9. Штрафы для выхода за пределы (в некоторых реализациях): warm_start — если установлено в True, то при повторном обучении модель будет использовать уже обученные параметры, что может ускорить процесс.


*Вопрос 5: Для набора данных Cars проанализируйте веса моделей при использовании только числовых признаков. Назовите параметр,
который в наибольшей степени связан с целевой переменной.*

Ответ: На основе результата выполнения нижеприведённого кода можно определить, что параметр, который наиболее сильно связан с целевой переменной: Year.

In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression

df = pd.read_csv('cars.csv')

print(df.columns)

numeric_features = df.select_dtypes(include=['float64', 'int64']).drop(columns=['Price(euro)'])
target = df['Price(euro)'] # Запись имени целевой переменной

# Разделение данных
X = numeric_features # признаки
y = target # целевая переменная

# Обучение модели
model = LinearRegression()
model.fit(X, y)

weights = pd.Series(model.coef_, index=X.columns) # Получение весов модели

strongest_feature = weights.abs().idxmax() # Наиболее сильно связанный с целевой переменной параметр
print(f"Параметр, который наиболее сильно связан с целевой переменной: {strongest_feature}")

Index(['Make', 'Model', 'Year', 'Style', 'Distance', 'Engine_capacity(cm3)',
       'Fuel_type', 'Transmission', 'Price(euro)'],
      dtype='object')
Параметр, который наиболее сильно связан с целевой переменной: Year


*Вопрос 6: Оцените значение функции сигмоиды $\ σ(z) $ для $\ z = 0.25 $.*

Ответ:

Функция сигмоиды — это математическая функция, которая отображает входное значение в диапазон от 0 до 1. Она часто используется в машинном обучении, особенно в логистической регрессии и нейронных сетях, для моделирования вероятностей и принятия решений.

Функция сигмоиды $\ \sigma(z)$ определяется как:

$\ \sigma(z) = \frac {1} {1 + e^{-z}}$

Подставим $\ z = 0,25$:

$\ \sigma(0,25) = \frac {1} {1 + e^{-0,25}}$

Вычислим значение:

$\ e^{-0,25} \approx 0,7788$

Следовательно,

$\ \sigma(0,25) = \frac {1} {1 + 0,7788} = \frac {1} {1.7788} \approx 0,5622$

Итак, значение функции сигмоиды для $\ z = 0,25$ примерно равно $\ 0,5622$.

*Вопрос 7: Оцените значение производной функции сигмоиды $\ σ'(z) $ для $\ z =  –3 $.*

Ответ:

Производная функции сигмоиды $\ \sigma(z)$ может быть вычислена по следующей формуле:

$\ \sigma'(z) = \sigma(z) * (1 - \sigma(z))$

где $\ \sigma(z)$ - сама функция сигмоиды:

$\ \sigma(z) = \frac {1} {1 + e^{-z}}$

Вычислим $\ \sigma(-3)$:

$\ \sigma(-3) = \frac {1} {1 + e^{3}} \approx \frac {1} {1 + 20,0855} \approx \frac {1} {21,0855} \approx 0,0474$

Вычислим производную:

$\ \sigma'(-3) = \sigma(-3) * (1 - \sigma(-3)) = 0,0474 * (1 - 0,0474) = 0,0474 * 0,9526 \approx 0,0452$

Значение производной функции сигмоиды для $\ z = -3$ примерно равно $\ 0,0452$.

*Вопрос 8: Назовите, к какому классу следует отнести результат логистической модели для z = 0.1, если порог равен 0.6.*

Ответ:

Логистическая модель использует сигмоидную функцию для преобразования значения $\ z$ в вероятность:

$\ \sigma(z) = \frac {1} {1 + e^{-z}}$

Подставим $\ z = 0,1$:

$\ \sigma(0,1) = \frac {1} {1 + e^{-0,1}}$

Вычислим значение:

$\ e^{-0,1} \approx 0,9048$

Следовательно,

$\ \sigma(0,1) = \frac {1} {1 + 0,9048} = \frac {1} {1,9048} \approx 0,5249$

Теперь сравним это значение с порогом $\ 0,6$:
- Если $\ \sigma(z) \geq 0,6$, относим к классу 1.
- Если $\ \sigma(z) < 0,6$, относим к классу 0.

Так как $\ 0,5249 < 0,6$, предсказанный класс 0.

*Вопрос 9: Оцените значение функции потерь (бинарной кросс-энтропии) для предсказания модели $\ \hat{y} = 0.1 $ и целевой переменной $\ y = 1 $.*

Ответ:

Функция потерь бинарной кросс-энтропии (Binary Cross-Entropy, Log Loss) определяется следующим образом:

$\ L(y, \hat{y}) = - [y * log(\hat{y}) + (1 - y) * log(1 - \hat{y})]$

где:
- $\ y$ - истинное значение (целевой класс, 0 или 1),
- $\ \hat{y}$ - предсказанное значение модели (вероятность принадлежности к классу 1).

Подставим значения $\ y = 1$ и $\ \hat{y} = 0,1$:

$\ L(1, 0.1) = - [1 * log(0.1) + (1 - 1) * log(1 - 0.1)]$

Так как $ 1 - 1 = 0$, то вторая часть обнуляется:

$\ L(1, 0.1) = - log(0.1)$

Вычислим:

$\ log(0.1) = log_{e}(10^{-1}) = - log_{e}(10) \approx -2.3026$

Следовательно:

$\ L(1, 0.1) = -(-2.3026) = 2.3026$

Значение функции потерь бинарной кросс-энтропии для $\ y = 1$ и $\ \hat{y} = 0.1$ примерно равно $\ 2.3026$.