In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")
%matplotlib inline

## План

- Базовый конвейер обработки данных
  + Чтение данных
  + Визуализация, исследовательский анализ данных
  + Чистка данных
  + Обучение модели
- Проверка качества модели
  + Отложенная выборка
  + KFold
- Создание новых признаков

In [None]:
train = pd.read_csv("train.csv")
train.head()

In [None]:
train.info()

In [None]:
sns.countplot(train["Survived"])

Вопросы: 
- В каком порту зашло больше всего пассажиров? (seaborn.countplot)
- Среди пассажиров, зашедших в порту С, больше выжило или погибло? (seaborn.countplot + параметр `hue`)
- Сколько было мужчин и женщин на борту? (pandas.Series.value_counts)
- Какая доля мужчин и женщин выжила? (pandas.DataFrame.groupby + mean по колонке Survived)
- Влиял ли возраст или цена билета на шанс выжить? (seaborn.stripplot)
- Влиял ли класс билета на шана выжить? (seaborn.barplot)

In [None]:
<ваш код>

### Избавимся от ненужных переменных и почистим данные

In [None]:
train = pd.read_csv("train.csv")

columns_to_drop = ["Ticket", "PassengerId", "Name", "Cabin"]

train.drop(columns_to_drop, axis=1, inplace=True)

train["Sex"] = (train["Sex"] == "female").astype(int)
train["Embarked"] = train["Embarked"].map({"S":0, "C":1, "Q":2})

train.fillna(-1, inplace=True)

labels = train["Survived"]
train.drop("Survived", axis=1, inplace=True)

### Построим первую модель!

In [None]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier()
knn.fit(train, labels)

### Проверка качества

- Hold-out выборка: [sklearn.model_selection.train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)
- K-Fold валидация [sklearn.model_selection.KFold](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Xtrain, Xtest, ytrain, ytest = ...
<обучить модель на Xtrain, ytrain>
predictions = ...
print(accuracy_score(ytest, predictions))

In [None]:
from sklearn.model_selection import cross_val_score



### Придумаем новые признаки

In [None]:
train_new_features = train.copy()


In [None]:
print(cross_val_score(knn, train, labels, scoring="accuracy").mean())
print(cross_val_score(knn, train_new_features, labels, scoring="accuracy").mean())

## Рекомендации

- Создайте сначала базовый конвейер с очень простой моделью и постепенно его улучшайте
- Важно правильно настроить валидацию
- Визуализация помогает лучше понять данные и проверить гипотезы
- После настройки базового конвейера - постепенно улучшайте модель
- Создание новых признаков требует экспертизы в предметной области и творческой жилки

## Резюме

- Базовый конвейер обработки данных:
  - Загрузка
  - Визуализация/исследовательский анализ данных
  - Построение базовой модели
- Настройка валидации модели
  - Отложенная выборка
  - KFold
- Итерационное улучшение
  - подбор параметров (тюнинг)
  - создание новых признаков (feature engineering)