<img src='pics/otus.png'>

In [2]:
from __future__ import print_function
from collections import defaultdict
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns
import pandas_profiling
%matplotlib inline
plt.rcParams["figure.figsize"] = (15, 8)
pd.options.display.float_format = '{:.2f}'.format

from sklearn.preprocessing import LabelEncoder, Imputer, OneHotEncoder, FunctionTransformer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelBinarizer
from sklearn.base import TransformerMixin
from sklearn.pipeline import make_union, make_pipeline
from sklearn.feature_extraction import DictVectorizer
from sklearn.metrics import accuracy_score

# Подбор признаков

# Данные

https://www.kaggle.com/c/titanic

In [3]:
!head train.csv

PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",female,38,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,373450,8.05,,S
6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,17463,51.8625,E46,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,349909,21.075,,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,347742,11.1333,,S


В наборе представлены следующие данные:

- PassengerId - номер записи;

- Survived - логический признак, показывающий, выжил ли (1) или нет (0) пассажир (член экипажа);

- Pclass - номер класса, в котором совершал трансатлантическое путешествие пассажир (член экипажа). Первый класс - наиболее роскошный и дорогой, третий - самый дешёвый. Класс можно сопоставить социально-экономическому статусу;

- Name - имя пассажира (члена экипажа);

- Sex - пол пассажира (члена экипажа): male - мужской, female - женский. При эвакуации после крушения по распоряжению капитана в первую очередь на спасательные шлюпки сажались женщиты и дети;

- Age - возраст пассажира (члена экипажа). Спасению детей при эвакуации отдавался приоритет;

- SibSp - количество братьев/сестёр и супругов на борту "Титаника". Здесь к братьям/сёстрам относятся: брат, сестра, сводный брат, сводная сестра. К супругам относятся: муж, жена (любовницы и женихи (т.е. без официального брака) не относятся). Условно можно назвать этот признак "горизонтальными родственными связями";

- Parch - количество родителей/детей на борту "Титаника". Здесь к родителям отноясятся: мать, отец. К детям: дочь, сын, падчерица, пасынок. Кроме того, некоторые дети путешествовали на "Титанике" только с няней, поэтому для них количество родителей указано равным 0. Условно можно назвать этот признак "вертикальными родственными связями";

- Ticket - номер билета;

- Fare - стоимость билета (в фунтах стерлингов 1912 года?);

- Cabin - номер каюты;

- Embarked - порт погрузки пассажира на борт "Титаника". C - Шербур, Q - Квинстаун; S - Саутгемптон

**train.csv** - training set - тренировочный набор данных. В них известен ответ - survival - бинарный признак 0 (не выжил)/1 (выжил)  
**test.csv** - test set - тестовый набор данных. Ответ не известен. На них проверяется качество построенной модели.  
**gender_submission.csv** - пример формата данных, которые ожидается проверочной системой kaggle.

## Алгоритм работы:  

* изучаем и преобразуем данные из train.csv
* строим модель и подбираем параметры, выбираем лучшую модель на преобразованных данных из train.csv
* фиксируем метод преобразований и модель
* применяем те же самые преобразования на test.csv  
* применяем модель на test.csv
* результат применения сохраняем файл в таком же формате как и в gender_submission.csv
* отправляем на kaggle
* повторяем все пункты (помним, что нельзя подбирать параметры модели делая submit - высокий риск переобучиться)


In [4]:
df_train = pd.read_csv('train.csv', na_values='NaN')
df_train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
df_test = pd.read_csv('test.csv', na_values='NaN')
df_test.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.83,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.69,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.66,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.29,,S


In [6]:
pandas_profiling.ProfileReport(df_train)

0,1
Number of variables,12
Number of observations,891
Total Missing (%),8.1%
Total size in memory,83.6 KiB
Average record size in memory,96.1 B

0,1
Numeric,7
Categorical,4
Date,0
Text (Unique),1
Rejected,0

0,1
Distinct count,89
Unique (%),12.5%
Missing (%),19.9%
Missing (n),177
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,29.699
Minimum,0.42
Maximum,80
Zeros (%),0.0%

0,1
Minimum,0.42
5-th percentile,4.0
Q1,20.125
Median,28.0
Q3,38.0
95-th percentile,56.0
Maximum,80.0
Range,79.58
Interquartile range,17.875

0,1
Standard deviation,14.526
Coef of variation,0.48912
Kurtosis,0.17827
Mean,29.699
MAD,11.323
Skewness,0.38911
Sum,21205
Variance,211.02
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
24.0,30,3.4%,
22.0,27,3.0%,
18.0,26,2.9%,
19.0,25,2.8%,
30.0,25,2.8%,
28.0,25,2.8%,
21.0,24,2.7%,
25.0,23,2.6%,
36.0,22,2.5%,
29.0,20,2.2%,

Value,Count,Frequency (%),Unnamed: 3
0.42,1,0.1%,
0.67,1,0.1%,
0.75,2,0.2%,
0.83,2,0.2%,
0.92,1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
70.0,2,0.2%,
70.5,1,0.1%,
71.0,2,0.2%,
74.0,1,0.1%,
80.0,1,0.1%,

0,1
Distinct count,148
Unique (%),72.5%
Missing (%),77.1%
Missing (n),687

0,1
C23 C25 C27,4
G6,4
B96 B98,4
Other values (144),192
(Missing),687

Value,Count,Frequency (%),Unnamed: 3
C23 C25 C27,4,0.4%,
G6,4,0.4%,
B96 B98,4,0.4%,
D,3,0.3%,
C22 C26,3,0.3%,
E101,3,0.3%,
F2,3,0.3%,
F33,3,0.3%,
B57 B59 B63 B66,2,0.2%,
C68,2,0.2%,

0,1
Distinct count,4
Unique (%),0.4%
Missing (%),0.2%
Missing (n),2

0,1
S,644
C,168
Q,77
(Missing),2

Value,Count,Frequency (%),Unnamed: 3
S,644,72.3%,
C,168,18.9%,
Q,77,8.6%,
(Missing),2,0.2%,

0,1
Distinct count,248
Unique (%),27.8%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,32.204
Minimum,0
Maximum,512.33
Zeros (%),1.7%

0,1
Minimum,0.0
5-th percentile,7.225
Q1,7.9104
Median,14.454
Q3,31.0
95-th percentile,112.08
Maximum,512.33
Range,512.33
Interquartile range,23.09

0,1
Standard deviation,49.693
Coef of variation,1.5431
Kurtosis,33.398
Mean,32.204
MAD,28.164
Skewness,4.7873
Sum,28694
Variance,2469.4
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
8.05,43,4.8%,
13.0,42,4.7%,
7.8958,38,4.3%,
7.75,34,3.8%,
26.0,31,3.5%,
10.5,24,2.7%,
7.925,18,2.0%,
7.775,16,1.8%,
26.55,15,1.7%,
0.0,15,1.7%,

Value,Count,Frequency (%),Unnamed: 3
0.0,15,1.7%,
4.0125,1,0.1%,
5.0,1,0.1%,
6.2375,1,0.1%,
6.4375,1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
227.525,4,0.4%,
247.5208,2,0.2%,
262.375,2,0.2%,
263.0,4,0.4%,
512.3292,3,0.3%,

First 3 values
"Graham, Mr. George Edward"
"Elias, Mr. Tannous"
"Madill, Miss. Georgette Alexandra"

Last 3 values
"Gill, Mr. John William"
"Alhomaki, Mr. Ilmari Rudolf"
"Mellors, Mr. William John"

Value,Count,Frequency (%),Unnamed: 3
"Abbing, Mr. Anthony",1,0.1%,
"Abbott, Mr. Rossmore Edward",1,0.1%,
"Abbott, Mrs. Stanton (Rosa Hunt)",1,0.1%,
"Abelson, Mr. Samuel",1,0.1%,
"Abelson, Mrs. Samuel (Hannah Wizosky)",1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
"de Mulder, Mr. Theodore",1,0.1%,
"de Pelsmaeker, Mr. Alfons",1,0.1%,
"del Carlo, Mr. Sebastiano",1,0.1%,
"van Billiard, Mr. Austin Blyler",1,0.1%,
"van Melkebeke, Mr. Philemon",1,0.1%,

0,1
Distinct count,7
Unique (%),0.8%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,0.38159
Minimum,0
Maximum,6
Zeros (%),76.1%

0,1
Minimum,0
5-th percentile,0
Q1,0
Median,0
Q3,0
95-th percentile,2
Maximum,6
Range,6
Interquartile range,0

0,1
Standard deviation,0.80606
Coef of variation,2.1123
Kurtosis,9.7781
Mean,0.38159
MAD,0.58074
Skewness,2.7491
Sum,340
Variance,0.64973
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
0,678,76.1%,
1,118,13.2%,
2,80,9.0%,
5,5,0.6%,
3,5,0.6%,
4,4,0.4%,
6,1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
0,678,76.1%,
1,118,13.2%,
2,80,9.0%,
3,5,0.6%,
4,4,0.4%,

Value,Count,Frequency (%),Unnamed: 3
2,80,9.0%,
3,5,0.6%,
4,4,0.4%,
5,5,0.6%,
6,1,0.1%,

0,1
Distinct count,891
Unique (%),100.0%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,446
Minimum,1
Maximum,891
Zeros (%),0.0%

0,1
Minimum,1.0
5-th percentile,45.5
Q1,223.5
Median,446.0
Q3,668.5
95-th percentile,846.5
Maximum,891.0
Range,890.0
Interquartile range,445.0

0,1
Standard deviation,257.35
Coef of variation,0.57703
Kurtosis,-1.2
Mean,446
MAD,222.75
Skewness,0
Sum,397386
Variance,66231
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
891,1,0.1%,
293,1,0.1%,
304,1,0.1%,
303,1,0.1%,
302,1,0.1%,
301,1,0.1%,
300,1,0.1%,
299,1,0.1%,
298,1,0.1%,
297,1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
1,1,0.1%,
2,1,0.1%,
3,1,0.1%,
4,1,0.1%,
5,1,0.1%,

Value,Count,Frequency (%),Unnamed: 3
887,1,0.1%,
888,1,0.1%,
889,1,0.1%,
890,1,0.1%,
891,1,0.1%,

0,1
Distinct count,3
Unique (%),0.3%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,2.3086
Minimum,1
Maximum,3
Zeros (%),0.0%

0,1
Minimum,1
5-th percentile,1
Q1,2
Median,3
Q3,3
95-th percentile,3
Maximum,3
Range,2
Interquartile range,1

0,1
Standard deviation,0.83607
Coef of variation,0.36215
Kurtosis,-1.28
Mean,2.3086
MAD,0.76197
Skewness,-0.63055
Sum,2057
Variance,0.69902
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
3,491,55.1%,
1,216,24.2%,
2,184,20.7%,

Value,Count,Frequency (%),Unnamed: 3
1,216,24.2%,
2,184,20.7%,
3,491,55.1%,

Value,Count,Frequency (%),Unnamed: 3
1,216,24.2%,
2,184,20.7%,
3,491,55.1%,

0,1
Distinct count,2
Unique (%),0.2%
Missing (%),0.0%
Missing (n),0

0,1
male,577
female,314

Value,Count,Frequency (%),Unnamed: 3
male,577,64.8%,
female,314,35.2%,

0,1
Distinct count,7
Unique (%),0.8%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,0.52301
Minimum,0
Maximum,8
Zeros (%),68.2%

0,1
Minimum,0
5-th percentile,0
Q1,0
Median,0
Q3,1
95-th percentile,3
Maximum,8
Range,8
Interquartile range,1

0,1
Standard deviation,1.1027
Coef of variation,2.1085
Kurtosis,17.88
Mean,0.52301
MAD,0.71378
Skewness,3.6954
Sum,466
Variance,1.216
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
0,608,68.2%,
1,209,23.5%,
2,28,3.1%,
4,18,2.0%,
3,16,1.8%,
8,7,0.8%,
5,5,0.6%,

Value,Count,Frequency (%),Unnamed: 3
0,608,68.2%,
1,209,23.5%,
2,28,3.1%,
3,16,1.8%,
4,18,2.0%,

Value,Count,Frequency (%),Unnamed: 3
2,28,3.1%,
3,16,1.8%,
4,18,2.0%,
5,5,0.6%,
8,7,0.8%,

0,1
Distinct count,2
Unique (%),0.2%
Missing (%),0.0%
Missing (n),0
Infinite (%),0.0%
Infinite (n),0

0,1
Mean,0.38384
Minimum,0
Maximum,1
Zeros (%),61.6%

0,1
Minimum,0
5-th percentile,0
Q1,0
Median,0
Q3,1
95-th percentile,1
Maximum,1
Range,1
Interquartile range,1

0,1
Standard deviation,0.48659
Coef of variation,1.2677
Kurtosis,-1.775
Mean,0.38384
MAD,0.47301
Skewness,0.47852
Sum,342
Variance,0.23677
Memory size,7.0 KiB

Value,Count,Frequency (%),Unnamed: 3
0,549,61.6%,
1,342,38.4%,

Value,Count,Frequency (%),Unnamed: 3
0,549,61.6%,
1,342,38.4%,

Value,Count,Frequency (%),Unnamed: 3
0,549,61.6%,
1,342,38.4%,

0,1
Distinct count,681
Unique (%),76.4%
Missing (%),0.0%
Missing (n),0

0,1
CA. 2343,7
347082,7
1601,7
Other values (678),870

Value,Count,Frequency (%),Unnamed: 3
CA. 2343,7,0.8%,
347082,7,0.8%,
1601,7,0.8%,
347088,6,0.7%,
CA 2144,6,0.7%,
3101295,6,0.7%,
382652,5,0.6%,
S.O.C. 14879,5,0.6%,
PC 17757,4,0.4%,
4133,4,0.4%,

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
# Переносим целевой признак ("Выживание") в правую часть набора данных
survived = df_train['Survived']
df_train.drop(labels=['Survived'], axis=1, inplace=True)
df_train['Survived'] = survived
df_train.head()

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived
0,1,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.28,C85,C,1
2,3,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.92,,S,1
3,4,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


### План по подготовке и анализу данных:

1) Подготовка данных: заполним в них отсутствующие значения, выполним кодирование нечисловых признаков, масштабирование числовых значений;

2) Добавление дополнительных столбцы (комбинации существующих), которые могут быть полезными в рассматриваемой задаче:
- общее количество родственников на корабле (сумма SibSp и Parch);
- детский возраст и наличие родителей на корабле. Представим в виде отношения: кол-во родителей / возраст

3) Оценка важности признаков при помощи случайных лесов из sklearn

4) Применение к полученным данным различных моделей:

- классификация по методу ближайших соседей (KNN);
- логистическая регрессия;
- дерево решений;
- случайный лес;
- и другие

5) Выбор параметров моделей посредством кросс-валидации

# 1. Подготовка данных

1) Отсутствующие значения в колонках "Возраст" (Age) и "Стоимость билета" (Fare) заменим средним значением по столбцу при помощи Imputer(strategy='mean')

2) Масштабирование признаков выполним при помощи стандартизации: StandartScaler()

3) Для суммирования и деления признаков (для создания дополнительных столбцов) определим вспомогательные классы

In [8]:
class FeaturesSum(LabelEncoder):
    
    def fit(self, X, y=None):
        return self
        
    def transform(self, X, y=None):
        return np.sum(X, axis=1).reshape(-1, 1)

    def fit_transform(self, X, y=None):
        return self.transform(X)

In [9]:
class FeaturesDivide(LabelEncoder):
    
    def fit(self, X, y=None):
        return self
        
    def transform(self, X, y=None):
        return np.divide(X[:,0], X[:,1]).reshape(-1, 1)

    def fit_transform(self, X, y=None):
        return self.transform(X)

Определим вспомогательный класс для кодирования нечисловых признаков

In [10]:
class LabelEncoderPipelineFriendly(LabelEncoder):
    
    def fit(self, X, y=None):
        """this would allow us to fit the model based on the X input."""
        super(LabelEncoderPipelineFriendly, self).fit(X)
        
    def transform(self, X, y=None):
        return super(LabelEncoderPipelineFriendly, self).transform(X).reshape(-1, 1)

    def fit_transform(self, X, y=None):
        return super(LabelEncoderPipelineFriendly, self).fit(X).transform(X).reshape(-1, 1)

Определим вспомогательный класс для замены отсутствующих значений в нечисловых столбцах на наиболее часто встречающееся значение

In [11]:
class DataFrameImputer(TransformerMixin):

    def __init__(self):
        """Impute missing values.

        Columns of dtype object are imputed with the most frequent value 
        in column.

        Columns of other types are imputed with mean of column.

        """
    def fit(self, X, y=None):

        self.fill = pd.Series([X[c].value_counts().index[0]
            if X[c].dtype == np.dtype('O') else X[c].mean() for c in X],
            index=X.columns)

        return self

    def transform(self, X, y=None):
        return X.fillna(self.fill)

Собираем набор данных с преобразованными и добавленными признаками

In [12]:
def get_pclass_col(df):
    return df[['Pclass']]

def get_sex_col(df):
    return df[['Sex']]

def get_age_col(df):
    return df[['Age']]

def get_num_cols(df):
    return df[['Age', 'SibSp', 'Parch', 'Fare']]

def get_sum_cols(df):
    return df[['SibSp', 'Parch']]

def get_div_cols(df):
    return df[['Parch', 'Age']]

def get_embarked_col(df):
    return df[['Embarked']]

# с использованием StandardScaler
vec_standard = make_union(*[
    make_pipeline(FunctionTransformer(get_pclass_col, validate=False),  OneHotEncoder(sparse=False)),
    make_pipeline(FunctionTransformer(get_sex_col, validate=False),  LabelEncoderPipelineFriendly()),
    make_pipeline(FunctionTransformer(get_num_cols, validate=False), Imputer(strategy='mean'), StandardScaler()),
    make_pipeline(FunctionTransformer(get_sum_cols, validate=False), Imputer(strategy='mean'), FeaturesSum(),
                  StandardScaler()),
    make_pipeline(FunctionTransformer(get_div_cols, validate=False), Imputer(strategy='mean'), FeaturesDivide(),
                  StandardScaler()),
    make_pipeline(FunctionTransformer(get_embarked_col, validate=False), DataFrameImputer(),
                  LabelEncoderPipelineFriendly(), OneHotEncoder(sparse=False))
])

# с использованием MinMaxScaler
vec_minmax = make_union(*[
    make_pipeline(FunctionTransformer(get_pclass_col, validate=False),  OneHotEncoder(sparse=False)),
    make_pipeline(FunctionTransformer(get_sex_col, validate=False),  LabelEncoderPipelineFriendly()),
    make_pipeline(FunctionTransformer(get_num_cols, validate=False), Imputer(strategy='mean'), MinMaxScaler()),
    make_pipeline(FunctionTransformer(get_sum_cols, validate=False), Imputer(strategy='mean'), FeaturesSum(),
                  MinMaxScaler()),
    make_pipeline(FunctionTransformer(get_div_cols, validate=False), Imputer(strategy='mean'), FeaturesDivide(),
                  MinMaxScaler()),
    make_pipeline(FunctionTransformer(get_embarked_col, validate=False), DataFrameImputer(),
                  LabelEncoderPipelineFriendly(), OneHotEncoder(sparse=False))
])

In [14]:
x_train_standard = vec_standard.fit_transform(df_train)
x_train_minmax = vec_minmax.fit_transform(df_train)

x_train_standard.shape

(891, 13)

In [15]:
y_train = df_train['Survived']
y_train.shape

(891,)

В итого получили следующих набор данных (по столбцам):

- 1, 2, 3 - PClass, закодированный OneHotEncoder'ом;
- 4 - пол;
- 5 - возраст;
- 6 - количество "горизонтальных" родственников;
- 7 - количество "вертикальных" родственников;
- 8 - стоимость билета;
- 9 - общее количество родственников;
- 10 - отношение количества родителей к возрасту;
- 11, 12, 13 - порт посадки пассажира на "Титаник", закодированный OneHotEncoder'ом

### Оценим относительную "важность" признаков с помощью случайных лесов

In [16]:
from sklearn.ensemble import RandomForestClassifier

forest1 = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)
forest2 = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)

forest1.fit(x_train_standard, y_train)
importances1 = forest1.feature_importances_
print(importances1)

forest2.fit(x_train_minmax, y_train)
importances2 = forest2.feature_importances_
print(importances2)

[ 0.02916234  0.01412717  0.05003807  0.25186499  0.23485987  0.02787101
  0.01802882  0.23971775  0.04625993  0.05313311  0.01255968  0.00800818
  0.01436906]
[ 0.02916234  0.01412717  0.05003807  0.25186499  0.23485987  0.02787101
  0.01802882  0.23971775  0.04625993  0.05313311  0.01255968  0.00800818
  0.01436906]


Видим, что больше других на вероятность выживания влияют следующие признаки:

- пол (вклад 25,2 %);

- возраст (вкдад 23,5 %);

- стоимость билета (24,0 %).

Влияние остальных признаков невелико. Среди них, однако, можно выделить:

- 3-й класс (5,0 %);

- общее количество родственников на корабле (4,6 %);

- отношение количества родителей к возрасту (5,3 %).

От способа масштабирования признаков их важность не зависит

In [17]:
# Создадим второй, упрощённый набор данных, в котором будем учитывать только важные признаки
x_train_standard_simple = x_train_standard[:,[2,3,4,7,8,9]]
x_train_minmax_simple = x_train_minmax[:,[2,3,4,7,8,9]]
# а также третий, предельно упрощённый, в котором оставим только самые важные три признака
x_train_standard_super_simple = x_train_standard[:, [2,3,4]]
x_train_minmax_super_simple = x_train_minmax[:, [2,3,4]]

### Обучение моделей
Оценим качество алгоритмов на тренировочных данных методом блочной перекрёстной проверки

In [18]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

In [19]:
# Определим вспомогательную функцию для сравнения различных моделей
def estimate_model(grid_search):
    print('Стандартное масштабирование:')
    print('')

    scores = cross_val_score(grid_search, x_train_standard, y_train, scoring='accuracy', cv=2)
    print('Перекрёстно-проверочная верность: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))

    scores_simple = cross_val_score(grid_search, x_train_standard_simple, y_train, scoring='accuracy', cv=2)
    print('упрощённый набор данных: %.3f +/- %.3f' % (np.mean(scores_simple), np.std(scores_simple)))

    scores_super_simple = cross_val_score(grid_search, x_train_standard_super_simple, y_train, scoring='accuracy', cv=2)
    print('самый упрощённый набор данных: %.3f +/- %.3f' % (np.mean(scores_super_simple), np.std(scores_super_simple)))

    print('')
    print('MinMax масштабирование:')
    print('')

    scores = cross_val_score(grid_search, x_train_minmax, y_train, scoring='accuracy', cv=2)
    print('Перекрёстно-проверочная верность: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))

    scores_simple = cross_val_score(grid_search, x_train_minmax_simple, y_train, scoring='accuracy', cv=2)
    print('упрощённый набор данных: %.3f +/- %.3f' % (np.mean(scores_simple), np.std(scores_simple)))

    scores_super_simple = cross_val_score(grid_search, x_train_minmax_super_simple, y_train, scoring='accuracy', cv=2)
    print('самый упрощённый набор данных: %.3f +/- %.3f' % (np.mean(scores_super_simple), np.std(scores_super_simple)))

### 1. По методу k ближайших соседей

Подберём параметры на полном наборе данных и на упрощённом

In [20]:
gs_knn = GridSearchCV(
    estimator=KNeighborsClassifier(),
    param_grid=[
        {'n_neighbors': [2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30]}
    ],
    scoring='accuracy',
    cv=5)

estimate_model(gs_knn)

Стандартное масштабирование:

Перекрёстно-проверочная верность: 0.767 +/- 0.013
упрощённый набор данных: 0.789 +/- 0.029
самый упрощённый набор данных: 0.785 +/- 0.002

MinMax масштабирование:

Перекрёстно-проверочная верность: 0.763 +/- 0.028
упрощённый набор данных: 0.791 +/- 0.013
самый упрощённый набор данных: 0.791 +/- 0.002


### 2. Логистическая регрессия

In [21]:
gs_logreg = GridSearchCV(
    estimator=LogisticRegression(),
    param_grid = [
        {'penalty': ['l1'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 5.0, 10.0, 25.0, 50.0, 75.0, 100.0],
         'max_iter': [50, 100, 150, 200, 250, 300]},
        {'penalty': ['l2'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 5.0, 10.0, 25.0, 50.0, 75.0, 100.0],
         'max_iter': [50, 100, 150, 200, 250, 300]}],
    scoring='accuracy',
    cv=5)

estimate_model(gs_logreg)

Стандартное масштабирование:

Перекрёстно-проверочная верность: 0.782 +/- 0.015
упрощённый набор данных: 0.802 +/- 0.007
самый упрощённый набор данных: 0.788 +/- 0.008

MinMax масштабирование:

Перекрёстно-проверочная верность: 0.795 +/- 0.005
упрощённый набор данных: 0.805 +/- 0.000
самый упрощённый набор данных: 0.778 +/- 0.007


### 3. Линейный классификатор с использованием метода стохастического градиентного спуска

In [23]:
gs_sgd = GridSearchCV(
    estimator=SGDClassifier(),
    param_grid=[
        {'penalty': ['none'], 'loss': ['hinge'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]},
        {'penalty': ['none'], 'loss': ['log'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]},
        {'penalty': ['l1'], 'loss': ['hinge'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]},
        {'penalty': ['l2'], 'loss': ['hinge'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]},
        {'penalty': ['l1'], 'loss': ['log'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]},
        {'penalty': ['l2'], 'loss': ['log'], 'alpha': [0.00001, 0.00005, 0.0001, 0.0005, 0.001]}
    ],
    scoring='accuracy',
    cv=5)

estimate_model(gs_sgd)

Стандартное масштабирование:

Перекрёстно-проверочная верность: 0.748 +/- 0.035
упрощённый набор данных: 0.801 +/- 0.003
самый упрощённый набор данных: 0.778 +/- 0.002

MinMax масштабирование:

Перекрёстно-проверочная верность: 0.777 +/- 0.032
упрощённый набор данных: 0.741 +/- 0.061
самый упрощённый набор данных: 0.773 +/- 0.005


### 4. Простое дерево решений

In [24]:
gs_dec_tree = GridSearchCV(
    estimator=DecisionTreeClassifier(),
    param_grid=[
        {'criterion': ['gini'], 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, None]},
        {'criterion': ['entropy'], 'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, None]}
    ],
    scoring='accuracy',
    cv=5)

estimate_model(gs_dec_tree)

Стандартное масштабирование:

Перекрёстно-проверочная верность: 0.797 +/- 0.001
упрощённый набор данных: 0.777 +/- 0.044
самый упрощённый набор данных: 0.781 +/- 0.006

MinMax масштабирование:

Перекрёстно-проверочная верность: 0.797 +/- 0.001
упрощённый набор данных: 0.800 +/- 0.027
самый упрощённый набор данных: 0.781 +/- 0.006


### 5. Случайный лес
Работает долго!

In [25]:
gs_forest = GridSearchCV(
    estimator=RandomForestClassifier(),
    param_grid=[
        {'criterion': ['gini'], 'n_estimators': [10, 50, 100, 250, 500, 750, 1000]},
        {'criterion': ['entropy'], 'n_estimators': [10, 50, 100, 250, 500, 750, 1000]}       
    ],
    scoring='accuracy',
    cv=5)

estimate_model(gs_forest)

Стандартное масштабирование:

Перекрёстно-проверочная верность: 0.767 +/- 0.004
упрощённый набор данных: 0.768 +/- 0.003
самый упрощённый набор данных: 0.770 +/- 0.021

MinMax масштабирование:

Перекрёстно-проверочная верность: 0.769 +/- 0.006
упрощённый набор данных: 0.777 +/- 0.001
самый упрощённый набор данных: 0.763 +/- 0.012


Из сравнения различных моделей видим, что при выбранных признаков лучше всего себя проявляет логистическая регрессия при использовании MinMax масштабирования с использованием упрощённого набора данных, в котором оставлены 6 определяющих признаков. Ожидаемая оценка верности модели составляет 0.805. Правда, остальные модели отстают незначительно.

### Подберём параметры логистической регрессии

In [26]:
gs_logreg = GridSearchCV(
    estimator=LogisticRegression(),
    param_grid = [
        {'penalty': ['l1'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 1.75, 2.5, 3.75, 5.0, 7.5, 10.0, 25.0, 50.0, 75.0, 100.0],
         'max_iter': [50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300]},
        {'penalty': ['l2'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 1.75, 2.5, 3.75, 5.0, 7.5, 10.0, 25.0, 50.0, 75.0, 100.0],
         'max_iter': [50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300]}],
    scoring='accuracy',
    cv=5)

gs_logreg.fit(x_train_minmax_simple, y_train)

GridSearchCV(cv=5, error_score='raise',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'penalty': ['l1'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 1.75, 2.5, 3.75, 5.0, 7.5, 10.0, 25.0, 50.0, 75.0, 100.0], 'max_iter': [50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300]}, {'penalty': ['l2'], 'C': [0.01, 0.05, 0.1, 0.5, 1.0, 1.75, 2.5, 3.75, 5.0, 7.5, 10.0, 25.0, 50.0, 75.0, 100.0], 'max_iter': [50, 75, 100, 125, 150, 175, 200, 225, 250, 275, 300]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='accuracy', verbose=0)

In [27]:
gs_logreg.best_params_

{'C': 2.5, 'max_iter': 50, 'penalty': 'l1'}

In [28]:
final_model = gs_logreg.best_estimator_

# Применение модели

In [29]:
x_test_minmax = vec_minmax.fit_transform(df_test) 
x_test_minmax.shape

(418, 13)

In [30]:
x_test_minmax_simple = x_test_minmax[:,[2,3,4,7,8,9]]

In [31]:
y_test = final_model.predict(x_test_minmax_simple)

In [32]:
df_predicted = pd.DataFrame({'PassengerId': df_test['PassengerId'], 'Survived': y_test})

In [33]:
df_predicted.to_csv('sample_submission.csv', sep=',', index=False)

Мой балл в проверочной системе Kaggle:
0.77511

(балл модели на занятии: 0.75119, т.е. чуть-чуть хуже)

Место на момент отправки:
5474

Ник в Kaggle: Nikita Chernetsov