# Титаник

https://www.kaggle.com/c/titanic/

In [None]:
import numpy as np
import pandas as pd

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns

%config InlineBackend.figure_format = 'retina'
from pylab import rcParams
rcParams['figure.figsize'] = (9, 6)

### Данные

In [None]:
train = pd.read_csv('data/titanic/train.csv')
test = pd.read_csv('data/titanic/test.csv')

In [None]:
train.head()

In [None]:
test.head()

In [None]:
train.Pclass.value_counts(normalize=True)

In [None]:
train.info()

### Фичи

чтобы одинаковым образом обработать train и test и не дублировать все операции 2 раза, соединим эти два набора данных в один, не забыв при этом:
1. удалить целевую переменную из train
2. проверить на соответствие набора признаков друг другу
3. добавить флаг того, является ли объект тестовым или нет

In [None]:
y_train = train.Survived
train.drop('Survived', axis=1, inplace=True)

In [None]:
train.columns == test.columns

In [None]:
train['is_test'] = 0
test['is_test'] = 1

In [None]:
df = pd.concat([train, test])

Теперь полный набор данных можно обрабатывать вместе и в любой момент, уже обработанными, обратно разъединить на обучающую и тестовую выборки

Пол male/female закодируем в 1/0 и удалим переменные, с которыми мы не будем сейчас работать

In [None]:
df["isMale"] = df.Sex.replace({"male": 1, "female":0})
df.drop(["Sex", "Cabin", "Ticket", "Name", "PassengerId"], axis=1, inplace=True)

признаки, значения которых составляют небольшой перечислимый набор, закодируем в отдельные столбцы 

In [None]:
df.Pclass.value_counts()

In [None]:
df_dummies = pd.get_dummies(df, columns=['Pclass', 'Embarked'])

In [None]:
df_dummies.head(10)

In [None]:
df_dummies.isnull().sum()

In [None]:
X_train = df_dummies[df_dummies.is_test==0].drop('is_test', axis=1)
X_test = df_dummies[df_dummies.is_test==1].drop('is_test', axis=1)

In [None]:
columns = X_train.columns

In [None]:
X_train.head(10)

### Заполнение пустых значений

заполним пустые значения средними по соответственным признакам

In [None]:
from sklearn.impute import SimpleImputer 
imputer = SimpleImputer(strategy='mean',verbose=0, copy=True)

In [None]:
imputer.fit(X_train)

In [None]:
X_train_imputed = imputer.transform(X_train)
X_train_imputed = pd.DataFrame(X_train_imputed, columns=columns)

In [None]:
X_train_imputed.head(10)

### Нормировка значений

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
scaler.fit(X_train_imputed)

In [None]:
X_train_imputed_scaled = scaler.transform(X_train_imputed)
X_train_imputed_scaled = pd.DataFrame(X_train_imputed_scaled, columns=columns)

In [None]:
X_train_imputed_scaled.head(10)

In [None]:
X_test_imputed_scaled = scaler.transform(imputer.transform(X_test))

### Визуализация всех пассажиров: поиск кластеров
### PCA + clustering

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=2)

In [None]:
ppl = pca.fit_transform(X_train_imputed_scaled)

всего 2 фичи объясняют 41% всего разнообразия пассажиров:

In [None]:
pca.explained_variance_ratio_.sum()

6-7 кластеров пассажиров: внутри кластера они похожи друг на друга, межу кластерами - нет:

In [None]:
plt.plot(ppl[:,0], ppl[:,1], 'ro', alpha=0.2)
plt.grid()
plt.title('Пассажиры Титаника')

можно попробовать кластеризовать по 7 кластерам и проверить, что получится:

In [None]:
from sklearn.cluster import KMeans

In [None]:
n_clusters = 7

In [None]:
kmeans = KMeans(n_clusters=n_clusters)

In [None]:
kmeans.fit(X_train_imputed_scaled)

In [None]:
cluster_labels = kmeans.predict(X_train_imputed_scaled)

In [None]:
plt.title('Пассажиры Титаника')
for i,color in zip(range(n_clusters),{'blue','red','green','black','orange','yellow', 'brown'}):
    t = ppl[cluster_labels==i]
    plt.plot(t[:,0], t[:,1], 'ro', alpha=0.1, c=color)
plt.grid()

эти номера кластеров можно было бы подать как ещё одна фича

### Разделение на обучающую и тестирующую выборки

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train_fin, X_val, y_train_fin, y_val = train_test_split(X_train_imputed_scaled, y_train, test_size=0.2)

In [None]:
X_train_fin.shape

In [None]:
X_val.shape

In [None]:
X_test_imputed_scaled.shape

In [None]:
y_train_fin.shape

In [None]:
y_val.shape

### Обучение с кросс-валидацией

кросс-валидация поможет нам подобрать лучший параметр регуляризации

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

In [None]:
cs = 10**np.linspace(-3,1,5)
cs

In [None]:
grid = {'C': cs}
gridsearch = GridSearchCV(LogisticRegression(), grid, scoring='accuracy', cv=5)

In [None]:
%%time
gridsearch.fit(X_train_fin, y_train_fin)

In [None]:
gridsearch.best_params_

In [None]:
best_C = gridsearch.best_params_["C"]

# Оценка точности

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
clf = LogisticRegression(C=best_C)

In [None]:
clf.fit(X_train_fin, y_train_fin)

In [None]:
y_val_pred = clf.predict(X_val)

In [None]:
accuracy_score(y_val, y_val_pred)

# Финальное предсказание

In [None]:
clf.fit(X_train_imputed_scaled, y_train)

предсказание вероятностей принадлежности классу 0 и 1:

In [None]:
clf.predict_proba(X_test_imputed_scaled)[:10]

предсказание номера класса:

In [None]:
predictions = clf.predict(X_test_imputed_scaled)
predictions

In [None]:
for col, val in zip(X_train.columns, clf.coef_[0]):
    print("{:30} {:.2f}".format(col, val))

Регрессия позволяет посмотреть влияние различных факторов на принятое решение. Так, видно, что женский пол, маленький возраст и первый класс являлись сильными предпосылками к выживанию