## Задание
* С использованием библиотеки pandas загрузить данные из файла TitanicTrain.csv
* Описание данных: https://www.kaggle.com/c/titanic/data
* Выбрать признаки для обучения модели (возраст, пол, ...)
* Разделить выборку на train и test

В качестве метрики будем использоваться AUC: 
- https://ru.wikipedia.org/wiki/ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F
- http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html

In [7]:
import matplotlib as plt
import numpy as np
import pandas as pd

In [8]:
from sklearn.cross_validation import train_test_split
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import roc_auc_score
from sklearn.svm import SVC

## Чтение и подготовка данных

In [9]:
data = pd.read_csv('TitanicTrain.csv')

categorial_features = [feature for feature in data.columns if data[feature].dtype.name == 'object']
numerical_features = [feature for feature in data.columns if data[feature].dtype.name != 'object']

# Заполнение пропущенных количественных признаков средними по признаку
data[numerical_features] = data[numerical_features].fillna(data[numerical_features].median(axis=0), axis=0)

# Заполнение пропущенных категориальных признаков наиболее часто встречающимися
describe = data.describe(include=[object])

for feature in categorial_features:
    data[feature] = data[feature].fillna(describe[feature]['top'])
    
# Разделение категориальных признаков на бинарные и небинарные
binary_features = [feature for feature in data[categorial_features] if describe[feature]['unique'] == 2]
nonbinary_features = [feature for feature in data[categorial_features] if describe[feature]['unique'] > 2]

describe = data.describe(include=[object])

# Заполнение бинарных признаков
for feature in binary_features:
    top = describe[feature]['top']
    
    top_items = data[feature] == top
    
    data.loc[top_items, feature] = 0
    data.loc[np.logical_not(top_items), feature] = 1
    
# Превращение небинарных признаков в бинарные (например, для признака A in {0, 1, 2} => A_0, A_1, A_2)
nonbinary_data = pd.get_dummies(data[nonbinary_features])

# Объединение в один датафрейм
data = pd.concat((data[numerical_features], data[binary_features], nonbinary_data), axis=1)

data = pd.DataFrame(data, dtype=float)

## Выделение входных и выходных признаков, разбиение данных

In [10]:
out_features = data['Survived']

in_features = data.drop(('Survived'), axis=1)
in_features = SelectKBest(chi2, k=3).fit_transform(in_features, out_features)

in_train, in_test, out_train, out_test = train_test_split(in_features, out_features, test_size=0.3)

## Обучение модели

In [11]:
classifier = SVC(kernel='rbf')

classifier.fit(in_train, out_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

## Оценка ошибки перекрестного контроля

In [12]:
# Предсказание на тестовой и обучающей выборках
out_train_predict = classifier.predict(in_train)
out_test_predict = classifier.predict(in_test)

### Средняя ошибка перекрестного контроля

In [13]:
err_mean_train = np.mean(out_train != out_train_predict)
err_mean_test  = np.mean(out_test  != out_test_predict)

print('Обучающая выборка: ', err_mean_train, ', тестовая выборка: ', err_mean_test, sep='')

Обучающая выборка: 0.149277688604, тестовая выборка: 0.194029850746


### Оценка качества предсказания метрике AUC

In [14]:
auc_train = roc_auc_score(out_train, out_train_predict)
auc_test = roc_auc_score(out_test, out_test_predict)

print('Обучающая выборка: ', auc_train, ', тестовая выборка: ', auc_test, sep='')

Обучающая выборка: 0.836153896287, тестовая выборка: 0.785616885042
