In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

**Логистическая регрессия** 

Логистическая регрессия используется для задач классификации, 

при этом вычисляется вероятность принадлежности 

события к определенному классу.

Задача алгоритма логистической регрессии - найти 

подходящие коэффициенты w при признаках x:

### $z = w_0 + w_1 * x_1 + w_2 * x_2 + ... + w_m * x_m$

Величина z помещается в сигмоидную функцию для вычисления вероятности:

## $f(x) = \frac{1}{1 + e^{-z}}$

Значение f(x) будет расположено на отрезке [0, 1].

f(x) - вероятность отнесения события к классу 1,

1 - f(x) - вероятность отнесения события к классу 0.

#### Log loss

Алгоритм логистической регрессии минимизирует величину logloss:
    
$ logloss = - y*ln(p) - (1 - y) * ln(1 - p) $

где y - истинное значение (0 или 1),

p - вычисленная алгоритмом вероятность того, что событие принадлежит классу 1

#### Titanic

Для изучения классификации мы будем использовать 

датасет с информацией о пассажирах **Titanic** с сайта Kaggle.com

Ссылка: https://www.kaggle.com/c/titanic/data

Нам понадобится файл под названием train.csv, который мы поместим в папку input:

In [2]:
data = pd.read_csv('input/train.csv')

In [3]:
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Установим в качестве индекса PassengerId - так нам будет проще отслеживать, с информацией о  каком пассажире мы работаем

In [4]:
data = data.set_index('PassengerId')

In [5]:
data.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [6]:
data.columns

Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Наша задача - определить, выжил ли человек при крушении Титаника. 

В поле Survived выжившие пассажиры обозначены единицей, а утонувшие - нулём.

In [7]:
target = 'Survived'

In [8]:
y = data[target]

In [9]:
X = data.drop(target, axis=1)

#### Изучение качества данных и их очистка

In [10]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 10 columns):
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Ticket      891 non-null object
Fare        891 non-null float64
Cabin       204 non-null object
Embarked    889 non-null object
dtypes: float64(2), int64(3), object(5)
memory usage: 76.6+ KB


В поле Cabin слишком много пропущенных значений,

в этом уроке мы не будем его использовать.

Столбцы Name и Ticket также в этот раз не рассматриваем. 

Удалим эти поля:

In [11]:
X = X.drop(['Cabin', 'Name', 'Ticket'], axis=1)

В поле возраст 20% значений не заполнено. Заменим пропущенные значения на значения среднего возраста.

In [12]:
mean_age = X['Age'].mean()
mean_age

29.69911764705882

In [13]:
X['Age'] = X['Age'].fillna(mean_age)

In [14]:
X['Age'].unique()

array([22.        , 38.        , 26.        , 35.        , 29.69911765,
       54.        ,  2.        , 27.        , 14.        ,  4.        ,
       58.        , 20.        , 39.        , 55.        , 31.        ,
       34.        , 15.        , 28.        ,  8.        , 19.        ,
       40.        , 66.        , 42.        , 21.        , 18.        ,
        3.        ,  7.        , 49.        , 29.        , 65.        ,
       28.5       ,  5.        , 11.        , 45.        , 17.        ,
       32.        , 16.        , 25.        ,  0.83      , 30.        ,
       33.        , 23.        , 24.        , 46.        , 59.        ,
       71.        , 37.        , 47.        , 14.5       , 70.5       ,
       32.5       , 12.        ,  9.        , 36.5       , 51.        ,
       55.5       , 40.5       , 44.        ,  1.        , 61.        ,
       56.        , 50.        , 36.        , 45.5       , 20.5       ,
       62.        , 41.        , 52.        , 63.        , 23.5 

В поле Embarked, которое является текстовым, не хватает двух значений,

заполним пропущенные значения наиболее часто встречающимся значением (мода)

In [15]:
X['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

In [16]:
embarked_mode = X['Embarked'].mode()[0]
embarked_mode

'S'

In [17]:
X['Embarked'] = X['Embarked'].fillna(embarked_mode)

In [18]:
X['Embarked'].value_counts()

S    646
C    168
Q     77
Name: Embarked, dtype: int64

In [19]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 7 columns):
Pclass      891 non-null int64
Sex         891 non-null object
Age         891 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Fare        891 non-null float64
Embarked    891 non-null object
dtypes: float64(2), int64(3), object(2)
memory usage: 55.7+ KB


#### Работа с категориальными признаками

Признак пола пассажира (Sex) - категориальная переменная. Так как в ней два класса, 

то мы можем представить одной колонкой со

значениями 0 и 1:

In [20]:
X['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [21]:
X['Sex'] = (X['Sex'] == 'female').astype(int)

In [22]:
X['Sex'].value_counts()

0    577
1    314
Name: Sex, dtype: int64

Еще одна категориальная переменная - Embarked.

Преобразуем её значения в dummy-переменные.

Теперь каждому её значению будет отведен отдельный столбец,

в котором возможны два числа:
    
    1 (переменная равна данному значению),
                                      
    0 (переменная не равна данному значению)

In [23]:
X = pd.get_dummies(X)

Переменная Embarked преобразовалась в дамми-переменные Embarked_C, Embarked_Q, Embarked_S:

In [24]:
X.columns

Index(['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_C',
       'Embarked_Q', 'Embarked_S'],
      dtype='object')

In [25]:
X.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 9 columns):
Pclass        891 non-null int64
Sex           891 non-null int32
Age           891 non-null float64
SibSp         891 non-null int64
Parch         891 non-null int64
Fare          891 non-null float64
Embarked_C    891 non-null uint8
Embarked_Q    891 non-null uint8
Embarked_S    891 non-null uint8
dtypes: float64(2), int32(1), int64(3), uint8(3)
memory usage: 47.9 KB


In [26]:
X.head(10)

Unnamed: 0_level_0,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked_C,Embarked_Q,Embarked_S
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,3,0,22.0,1,0,7.25,0,0,1
2,1,1,38.0,1,0,71.2833,1,0,0
3,3,1,26.0,0,0,7.925,0,0,1
4,1,1,35.0,1,0,53.1,0,0,1
5,3,0,35.0,0,0,8.05,0,0,1
6,3,0,29.699118,0,0,8.4583,0,1,0
7,1,0,54.0,0,0,51.8625,0,0,1
8,3,0,2.0,3,1,21.075,0,0,1
9,3,1,27.0,0,2,11.1333,0,0,1
10,2,1,14.0,1,0,30.0708,1,0,0


Переменную Pclass можно отправить в модель в таком виде, 

какая она есть сейчас, так как она представлена числами,

но так как это все-таки не количественная переменная 

(например, нельзя сказать, что между классами 1 и 2 такая же "разность",
                                                    
как и между классами 2 и 3), то ее так же переведем в дамми-переменные.

Для этого поменяем ее тип данных на category

и применим еще раз применим функцию get_dummies

ко всему датафрейму.

Эта функция переведет в дамми-переменные все нечисловые признаки.

In [27]:
X['Pclass'].unique()

array([3, 1, 2], dtype=int64)

In [28]:
X['Pclass'] = X['Pclass'].astype('category')

In [29]:
X = pd.get_dummies(X)

In [30]:
X.columns

Index(['Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_C', 'Embarked_Q',
       'Embarked_S', 'Pclass_1', 'Pclass_2', 'Pclass_3'],
      dtype='object')

#### Цель разбиения данных на тренировочный, валидационный и тестовый датасеты

В этот раз мы будем более работать с разделением данных для модели более тщательно,

мы разобьем данные из файла train.csv на две части:

тренировочный набор данных (признаки в X_train, целевая переменная в y_train)

и валидационный (соответственно X_valid и y_valid).

На тренировочном датасете мы будем строить модель, а на валидационном - проверять её качество.

После проверки на валидационном сете можно будет окончательно проверить модель на тестовом сете 

(содержится в файле test.csv по вышеуказанной ссылке - 

фактическое значение целевой переменной в тестовом наборе отсутствует,

рекомендуем самостоятельно проверить точность данных при отправке решения на странице соревнования).

In [31]:
# Параметр test_size будет определять, какую долю данных 
# из train.csv мы берем для валидационного датасета
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, random_state=42)

#### Построение модели

В начале работы над любой задачей рекомендуется сначала сделать простую модель, 

не затрачивая большого количества времени. 

Затем можно будет оценивать новые модели, сравнивая их качество 

с качеством первоначальной (базовой) модели.

Сначала посмотрим на информацию о признаках:

In [32]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 668 entries, 299 to 103
Data columns (total 11 columns):
Sex           668 non-null int32
Age           668 non-null float64
SibSp         668 non-null int64
Parch         668 non-null int64
Fare          668 non-null float64
Embarked_C    668 non-null uint8
Embarked_Q    668 non-null uint8
Embarked_S    668 non-null uint8
Pclass_1      668 non-null uint8
Pclass_2      668 non-null uint8
Pclass_3      668 non-null uint8
dtypes: float64(2), int32(1), int64(2), uint8(6)
memory usage: 32.6 KB


Все признаки - числовые, поэтому мы можем построить модель, используя все признаки.

In [33]:
lr = LogisticRegression()

In [34]:
lr.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [35]:
y_pred = lr.predict(X_valid)

In [36]:
y_pred

array([0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1,
       0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0,
       1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0,
       0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0,
       1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0,
       0, 1, 0], dtype=int64)

Метрика Accuracy (доля правильных ответов)

In [37]:
from sklearn.metrics import accuracy_score

In [38]:
accuracy_score(y_valid, y_pred)

0.8026905829596412

Можно сравнить с Accuracy на тренировочном датасете

In [39]:
y_pred_train = lr.predict(X_train)

In [40]:
accuracy_score(y_train, y_pred_train)

0.8083832335329342

#### Вычисление вероятности событий

In [41]:
y_proba = lr.predict_proba(X_valid)

In [42]:
# Вероятности событий 0 и 1 для каждого пассажира
y_proba

array([[0.88825086, 0.11174914],
       [0.73066428, 0.26933572],
       [0.87036676, 0.12963324],
       [0.08974893, 0.91025107],
       [0.25113482, 0.74886518],
       [0.07820791, 0.92179209],
       [0.33314914, 0.66685086],
       [0.90541514, 0.09458486],
       [0.24423873, 0.75576127],
       [0.10298449, 0.89701551],
       [0.69421831, 0.30578169],
       [0.93503631, 0.06496369],
       [0.62521544, 0.37478456],
       [0.84802204, 0.15197796],
       [0.75860017, 0.24139983],
       [0.07875429, 0.92124571],
       [0.72740906, 0.27259094],
       [0.33306494, 0.66693506],
       [0.70241806, 0.29758194],
       [0.7064301 , 0.2935699 ],
       [0.88406868, 0.11593132],
       [0.64257008, 0.35742992],
       [0.39867144, 0.60132856],
       [0.86966316, 0.13033684],
       [0.89854394, 0.10145606],
       [0.9281918 , 0.0718082 ],
       [0.56595276, 0.43404724],
       [0.72830321, 0.27169679],
       [0.91438978, 0.08561022],
       [0.42690766, 0.57309234],
       [0.

Нас интересует вероятность события 1 (правый столбец) - 

при получении ответа значения из него округляются до 0 или до 1

#### Сохранение данных

Сохраним обработанные данные, они пригодятся для следующих уроков

In [43]:
X_train.to_pickle('X_train.pkl')
y_train.to_pickle('y_train.pkl')

X_valid.to_pickle('X_valid.pkl')
y_valid.to_pickle('y_valid.pkl')