##  Логистическая регрессия

   В машинном обучении задачей классификации называется ситуация, когда в качестве целевой переменнной $y$ (переменной которую мы хотим предсказать) выступает категориальная переменная. Это означает, что данная переменная задает разбиение нашего датасета на классы, которых может быть как 2, так и больше.
   
   Нашей задачей в таком случае становится построение алгоритма $a(x)$, который бы смог отделить классы друг от друга в пространстве признаков, или что тоже самое провести разделяющую поверхность между классами.

Начнем с задачи бинарной классификации.

В линейном бинарном классификаторе разделяющая поверхность - гиперплоскость, а алгоритм $a(x)$ задается равенством

$$a(x) = sign(w_0 + \sum_{j = 1}^{d}w_jx^j)$$

где
$w_0$ - свободный коэффициент
$w_1,...,w_d$ - веса
$x^j$ - признаки

Прежде чем обучать алгоритм, нам необходимо выбрать функционал качества $Q(a, X)$ для нашей задачи.

$$Q(a, X) = \frac{1}{n}\sum_{i=1}^{n}L(y_i, a(x_i))$$

где $L(y, a(x))$ - функция потерь

Как известно, выбрав функционалом качества долю неправильных ответов, мы не сможем решать задачу минимизации с помощью градиентных методов. Поэтому мы аппроксимируем функционал качества сверху $$Q(a, X)\le \frac{1}{n} \sum_{i=1}^{n}\tilde L(y_i, a(x_i))$$

где $\tilde L(y_i, a(x_i))$ гладкая  и диффиренцируемая функция

Одним из решений является логистическая функция потерь, которая имеет следующий вид:

$$
\tilde L(y_i, a(x_i)) = - (y_i \log(p_i) + (1 - y_i) \log(1 - p_i))
$$

где $p_i$ - это вероятность принадлежности объекта $x_i$ к классу 1, предсказанная нашим алгоритмом.

Чтобы получить $p_i$ введем алгоритм линейной регрессии $b(x)$
$$
b(x) = w_0 + \langle w, x \rangle = w_0 + \sum_{i=1}^{d} w_i x_i
$$

Чтобы получить алгоритм, который возвращает значения из интервала $(0, 1)$, можно обернуть выход алгоритма $b(x)$ в сигмоиду. Сигмоида это любая S - образная функция принимающая значения из $(0, 1)$. Частный случай: логистическая функция, которая имеет следующий вид:

$$
\sigma (z) = \frac{1}{1 + e^{-z}}
$$




В результате предсказание вероятности принадлежности объекта к положительному классу можно записать как:

$$
p_i = P(y = +1 | x) = \frac{1}{1 + \exp(- w_0 - \langle w, x \rangle )}
$$

## 1. Обработка данных

#### 1.1 Загрузка данных

Импортируйте библиотеки pandas и numpy с алиасами pd и np соответственно

Загрузите датасет о пассажирах титаника в google.colab. Датасет находится в файле titanic.csv

в файле train.csv каждая строчка наборов данных содержит следующие поля:

- `Survived` - целевая переменная, выжил пассажир или нет

- `Pclass` — класс пассажира (1 — высший, 2 — средний, 3 — низший);

- `Name` — имя;

- `Sex` — пол;

- `Age` — возраст;

- `SibSp` — количество братьев, сестер, сводных братьев, сводных сестер, супругов на борту титаника;

- `Parch` — количество родителей, детей (в том числе приемных) на борту титаника;

- `Ticket` — номер билета;

- `Fare`— плата за проезд;

- `Cabin` — каюта;

- `Embarked` — порт посадки (C — Шербур; Q — Квинстаун; S — Саутгемптон).


Загрузите данные датасета в датафрейм Data с помощью функции pandas read_csv()

Выведите несколько первых строк датасета, чтобы ознакомиться в данными

Выберите данные, которые будем использовать для работы.
В датафрейм X данных отберите признаки: Pclass, Sex, Age, SibSp, Parch, Fare, Embarked.
Целевую переменную поместите в датафрейм Y

#### 1.2 Анализ пропусков в данных

С помощью функции sum() определим количество пропущенных данных в датасете X

Если пропуски данных есть в вещественном признаке, то пропуски заполняются средним значением признака.
Для заполнения значений используется метод fillna(), а для вычисления среднего - mean().
Для того, чтобы данные обновились во фрейме, параметр inplace устанавливается в значение True.

Для категориального признака пропуски можно заменить самым частотным значением или заполнить новым значением - None.

Посмотрите на получившиеся данные датафрейма X с помощью метода info

Обратите внимание, что в данных есть категориальные признаки со строковыми значениями.

#### 1.3 Обработка категориальных признаков

Для применения алгоритма машинного обучения, необходимо все признаки привести к числовому виду.

С помощью метода unique() определите значения признака Sex

Замените значения признака Sex на числовые (1 и 0 ) в датафрейме X с помощью метода map

Если признак Sex - бинарный, то второй категориальный признак содержит 4 уникальных значения. Для того чтобы привести его к числовому виду воспользуемся one-hot кодировкой

Сначала определим уникальные значения признака Embarked с помощью метода unique()

Выполнить one-hot кодирование можно с помощью метода get_dummies библиотеки pandas

In [None]:
X =

#### 1.4 Разделение данных на обучающую и тестовую выборки

Разделите данные на обучающие и тестовые - X_train, X_test, Y_train, Y_test, чтобы в тестовых оказалось 30% объектов, а в обучающих 70%. Используйте метод train_test_split библиотеки sklearn.

Посмотрите на размер полученных выборок с помощью метода shape

#### 1.5 Масштабирование данных

Для линейных методов матрицу объекты-признаки необходимо предварительно масштабировать
(то есть привести каждый признак к одному и тому же масштабу).

Для этого можно воспользоваться классом StandardScaler библиотеки sklearn.
Создайте объект этого класса с параметрами по умолчанию и обучите на обучающей выборке.
В результате получим среднее и дисперсию каждого признака по обучающей выборке.


Проведите масштабирование признаков с помощью метода transform объекта scaler отдельно для обучающей и тестовой выборок

## 2. Бинарная классификация с помощью логистической регрессии

Импортируйте класс LogisticRegression из библиотеки scikit-learn.

Создайте объект класса LogisticRegression с параметрами по умолчанию и обучите его

У обученной логистической регрессии есть два аттрибута: `coef_` и `intercept_`, которые соответствуют весам $w$ и $w_0$.

Это и есть результат обучения логистической регрессии.


Посмотрите на значения коэффициентов и размер вектора

Определите, какие признаки оказались наиболее важными с точки зрения обученной модели. Для этого визуализируем веса, соответствующие признакам. Если признаки отмасштабированы, то чем больше вес по модулю - тем более сильным является признак.

Отсортируйте весовые коэффициенты по убываю значения с помощью метода sorted.

In [None]:
sorted_weights = sorted(zip(clf.coef_.ravel(), X.columns), reverse=True)

Создайте переменные weights и features по результатам сортировки

Создайте датафрейм со столбцами 'features' и 'weights'.
Выведите значения датафрейма на график типа barh

С помощью аттрибутов `coef_` и `intercept_` рассчитайте предсказание вероятности принадлежности объекта к положительному классу для тестовой части.

Для этого применим логистическую функцию к  $ w_0 + <w, x>$

Реализуйте логистическую функцию и постройте её график.

Вычислите предсказание вероятности принадлежности объекта к положительному классу для тестовой части с помощью матричного произведения dot и функции ravel в numpy

In [None]:
pred_prob = np.ravel(logistic_function(np.dot(X_test, clf.coef_.T) + clf.intercept_))

Вычислить предсказание вероятности принадлежности объекта к положительному классу можно и с помощью метода predict_proba

In [None]:
pred_predict_proba = clf.predict_proba(X_test)[:, 1]

Убедитесь, что предсказанные значения совпадают с помощью метода all библиотеки numpy

Чтобы получить в качестве предсказания метки классов, можно предсказанные вероятности принадлежности объекта к положительному классу бинаризовать по порогу (например по порогу 0.5)

Бинаризуйте предсказание pred_prob по порогу 0.5 и вычислите долю правильных ответов (accuracy) на тестовой выборке с помощью метода mean библиотеки numpy.

0.7947761194029851

Для предсказания меток классов в можно использовать метод predict библиотеки sklearn.

Таким образом, обучение логистической регрессии — настройка параметров $w$ и $w_0$.

Применение — подсчёт вероятностей принадлежности положительному классу как применение логистической функции к скалярному произведению признаков и параметров.

Посмотрите на распределение целевого значения с помощью графика вида hist

Посмотрите на распределение предсказываемого значения по тестовой выборке

Логистическая регрессия возращает вероятности. Для проверки рассмотрите объекты, для которых логистическая регрессия предсказала вероятность принадлежности классу 1 от 0.75 до 0.85. Оцените точность предсказания на этих объектах. При большом числе объектов в выборке точность предсказания должна быть близка к 0.8.