In [1]:
import numpy as np              # Массивы (матрицы, векторы, линейная алгебра)
import matplotlib.pyplot as plt # Научная графика
%matplotlib inline 
    # Говорим jupyter'у, чтобы весь графический вывод был в браузере, а не в отдельном окне
import pandas as pd             # Таблицы и временные ряды (dataframe, series)
import seaborn as sns           # Еще больше красивой графики для визуализации данных
import sklearn                  # Алгоритмы машинного обучения

### 1. Описание, чтение, визуализация

In [2]:
data_train = pd.read_csv('./train.csv', sep = ',', engine = 'python')
copy_data_train = data_train.copy
data_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Набор данных  представленный здесь - список пассажиров Титаника. Необходимо
решить категориальную задачу, а именно определить в зависимости от параметров **выжил
пассажир или нет**. В данном наборе данных представлены следующие признаки:
- PassengerId - ID пассажира
- Survived - выжил ди пассажир, или нет (бинарный признак 1-да, 0-нет)
- Pclass - класс, в котором путешествовал пассажир (1/2/3)
- Name - имя пассажира
- Sex - пол
- Age - возраст
- SibSp - количество братьев/сестер/супругов на борту
- Parch - количество родителей/детей на борту
- Ticket - номер билета
- Fare - тариф
- Cabin - номер каюты
- Embarked - порт посадки

In [3]:
categorical_columns = [col for col in data_train.columns if data_train[col].dtype.name == 'object']
numerical_columns = [col for col in data_train.columns if data_train[col].dtype.name != 'object']
print(categorical_columns)
print(numerical_columns)

['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']
['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']


Сводную информацию о признаках можем получить, вызвав метод describe. 
Для каждого количественного признака приведены средние значения, стандартное
 отклонение, минимальное и макимальное значения, медиана и значения квантилей.

In [4]:
data_train.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Andersson, Miss. Erna Alexandra",male,,,,1601.0,,G6,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


Построим попарные матрицы разброса

In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(data_train, alpha = .01, figsize = (20, 20))
pass

Можно вычислить матрицу корреляции для количественных признаков.
Удобно использовать визуальный образ этой матрицы. Чем светлее ячейка, 
тем больше по абсолютной величине коэффициент корреляции.

In [None]:
corr_mat = data_train.corr()
sns.heatmap(corr_mat, square=True, cmap='coolwarm')
pass

Выведем коэффициенты корреляции, которые больше заданного значения. Считается, что сильная
корреляция наблюдается свыше 0.7

In [None]:
corr_mat.where(np.triu(corr_mat > 0.0, k=1)).stack().sort_values(ascending=False)

Обратим внимание, что максимальный коэффициент корреляции наблюдается у признаков, отвещающих
за количество родственников на борту. Логично предположить, что было достаточно много семей
путешествующих в четвером и более (SibSp - количество братьев/сестер/супругов на борту, 
Parch - количество родителей/детей на борту). 
Остальные признаки даже не средне коррелированы, поэтому исключать какие-либо признаки нет
необходимости. 

Коллинеарными называются признаки, которые сильно коррелируют друг с другом. 
В машинном обучении это приводит к снижению производительности обобщения данных 
из-за высокой дисперсии и меньшей интерпретируемости модели. Сильно коррелированные друг
 с другом переменные дают модели одну и ту же информацию, следовательно,
  для анализа не нужно использовать их все.

### 2. Подготовка данных
#####  обрабока пропущенных значений, категориальных признаков, нормализация признаков
Пропущенные значения в таблице представлены значениями np.nan. 
Посмотрим, сколько пропущенных значений в каждом столбце матрицы:

In [None]:
data_train.isna().sum()

Данных, с которыми мы работаем мало. Разумно заполнить пропущенные значения средним или медианой 
(для количественных признаков) или модой (для номинальных признаков)

In [None]:
data_train.fillna(data_train.median(axis = 0), axis=0 , inplace=True)
data_train.isna().sum()

In [None]:
data_describe = data_train.describe(include = [object])
# for c in categorical_columns:
#     data_train[c] = data_train[c].fillna(data_describe[c]['top'])
data_train['Cabin'].fillna(data_train['Cabin'].mode().iloc[0], inplace=True)
data_train['Embarked'].fillna(data_train['Embarked'].mode().iloc[0], inplace=True)
data_train.isna().sum()

Визуализируем данные повторно:

In [None]:
data_train.describe(include='all')

Алгоритмы из библиотеки scikit-learn (почти) не умеют работать напрямую с 
категориальными признаками. Поэтому их вначале надо закодировать 
с помощью числовых принаков.
Сначала удалим ненужные нам столбцы - имя и id пассажира, номер его билета, так как эти признаки не 
влияют на выживание пассажира.

In [None]:
data_train = data_train.drop("Name", axis = 1)
data_train = data_train.drop("PassengerId", axis = 1)
data_train = data_train.drop("Ticket", axis = 1)
# сохраняем в отдельную колонку результат выживания
survived_col = data_train['Survived']
data_train = data_train.drop("Survived", axis = 1)
# колонки с категориальными признаками
categorical_columns = [col for col in data_train.columns if data_train[col].dtype.name == 'object']
# колонки с количественными признаками
numerical_columns = [col for col in data_train.columns if data_train[col].dtype.name != 'object']
print(categorical_columns)
print(numerical_columns)

Выделим в отдельную таблицу **количественные** признаки:

In [None]:
data_numerical = data_train[numerical_columns]
data_numerical

Получим сводную информацию для измененной исходной таблицы:

In [None]:
data_describe = data_train.describe(include = [object])
for col in categorical_columns:
    data_train[col] = data_train[col].fillna(data_describe[col]['top'])
print(data_train.describe())
print()
print(data_train.describe(include = [object]))

Выделим в категориальных признаках бинарные и небинарные:

In [None]:
binary_columns    = [col for col in categorical_columns if data_describe[col]['unique'] == 2]
nonbinary_columns = [col for col in categorical_columns if data_describe[col]['unique'] > 2]
print(binary_columns, nonbinary_columns)

In [None]:
data_train.at[data_train['Sex'] == 'male', 'Sex'] = 0
data_train.at[data_train['Sex'] == 'female', 'Sex'] = 1
data_train['Sex']

Выделим в отдельную таблицу **бинарные** признаки

In [None]:
data_binary = data_train[binary_columns]
data_binary

Векторизуем **небинарные** признаки и выделим в отдельную таблицу:

In [None]:
data_nonbinary = pd.get_dummies(data_train[nonbinary_columns])
data_nonbinary

Аналогичные операции по подготовке данных необходимо провести и для тестровых данных

In [None]:
# data_test = pd.read_csv('./test.csv', sep = ',', engine='python')
# copy_data_test = data_test.copy
# data_test.fillna(data_test.median(axis = 0), axis=0 , inplace=True)
# data_test['Cabin'].fillna(data_test['Cabin'].mode().iloc[0], inplace=True)
# data_test = data_test.drop("Name", axis = 1)
# data_test = data_test.drop("PassengerId", axis = 1)
# numerical_columns_test = [col for col in data_test.columns if data_test[col].dtype.name != 'object']
# data_numerical_test = data_test[numerical_columns_test]
# categorical_columns_test = [col for col in data_test.columns if data_test[col].dtype.name == 'object']
# data_describe = data_test.describe(include = [object])
# binary_columns_test = [col for col in categorical_columns_test if data_describe[col]['unique'] == 2]
# nonbinary_columns_test = [col for col in categorical_columns_test if data_describe[col]['unique'] > 2]
# data_test.at[data_test['Sex'] == 'male', 'Sex'] = 0
# data_test.at[data_test['Sex'] == 'female', 'Sex'] = 1
# data_binary_test = data_test[binary_columns_test]
# data_nonbinary_test = pd.get_dummies(data_test[nonbinary_columns_test])
# # было обнаружено не соответсвие стролбцов в train и test, для этого нашли разницу множеств столбцов
# for_test = np.setdiff1d(data_nonbinary.columns, data_nonbinary_test.columns)
# for col in for_test:
#     data_nonbinary_test[col] = 0
# for_train =  np.setdiff1d(data_nonbinary_test.columns, data_nonbinary.columns)
# for col in for_train:
#     data_nonbinary[col] = 0

Теперь воссоздадим таблицу, но уже с подготовленными данными 
data_numerical+data_nonbinary+data_binary+survived_col. 
Перед этим, количественные признаки необходимо стандатизировать.

In [None]:
data_numerical = (data_numerical - data_numerical.mean(axis = 0))/data_numerical.std(axis = 0)
#data_numerical_test = (data_numerical_test - data_numerical_test.mean(axis = 0))/data_numerical_test.std(axis = 0)
data_train = pd.concat((data_numerical, data_nonbinary, data_binary), axis=1)
#data_test = pd.concat((data_numerical_test, data_nonbinary_test, data_binary_test), axis=1)
data_train.describe(include='all')

Проверим наши данные на несбалансированность классов.

In [None]:
survived_col.value_counts()

Данные оказались сбалансированными по признаку "Survived", так как ни один из классов не 
меньше 10% от общего числа пассажиров.

Обработка данных завершена, решаем задачу.

### 3. Pешение задачи классификации

Тренировочные данные:

In [None]:
X = data_train
y = survived_col
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

N_train, _ = X_train.shape 
N_test,  _ = X_test.shape 

print(N_train, N_test)

Применим метод ближайших соседей. Начальное количество соседей равно 10.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 10)
knn.fit(X_train, y_train)

y_train_predict = knn.predict(X_train)
err_train = np.mean(y_train != y_train_predict)
print(err_train)

Посмотрим на другие случаи, когда количество соседей 7-1

In [None]:
for i in range(7,0,-1):
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_train, y_train)

    y_train_predict = knn.predict(X_train)
    err_train = np.mean(y_train != y_train_predict)
    print(i, err_train)

Заетим, что для 3 соседей процент ошибки меньше чем для 2 и 5.
Проверим работу метода соседей уже на тестовой выборке.

In [None]:
for i in range(7,0,-1):
    knn = KNeighborsClassifier(n_neighbors = i)
    knn.fit(X_test, y_test)

    y_test_predict = knn.predict(X_test)
    err_test = np.mean(y_test != y_test_predict)
    print(i, err_test)

Ошибки для одинакового количества соседей +- одинаковые

Построим график зависимости ошибки от числа соседей для выборок.

In [None]:
dataDict = {'train':{'data':(X_train, y_train), 'error':[]}, 'test':{'data':(X_test, y_test), 'error':[]}}
for k in range(20,0,-1):
    for key in dataDict:
        X = dataDict[key]['data'][0]
        y = dataDict[key]['data'][1]
        knn = KNeighborsClassifier(n_neighbors = k)
        knn.fit(X, y)
        y_predict = knn.predict(X)
        dataDict[key]['error'].append(np.mean(y != y_predict))
plt.plot(range(20,0,-1), dataDict['train']['error'], '-ob', label="Train error")
plt.plot(range(20,0,-1), dataDict['test']['error'], '-or', label="Test error")
plt.gca().invert_xaxis()
plt.legend()
plt.show()

Оптимальным количеством соседей будет 3(пика вниз). Ошибка на тренировочной выборке будет составлять 12.8%, 
а на тестовой 11.5%

Проведем анализ матрицы неточностей для 3х соседей:

In [None]:
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_test, y_test)
y_test_predict = knn.predict(X_test)
err_train = np.mean(y_test != y_test_predict)
print(err_train)
from sklearn.metrics import confusion_matrix
print(confusion_matrix(y_test, y_test_predict))

Таким образом, модель верно предсказала 143 погибших и 94 выживших. 14 человек погибли, 
но модель посчитала их выжившими, а 17 человек выжили, но модель посчитала их умершими.

### 4. Дополнительные задания (другие классификаторы)
#### Random forest

In [None]:
from sklearn import ensemble
rf = ensemble.RandomForestClassifier(n_estimators = 1000)
rf.fit(X_train, y_train)

y_train_predict = rf.predict(X_train)
y_test_predict = rf.predict(X_test)

err_train = np.mean(y_train != rf.predict(X_train))
err_test  = np.mean(y_test  != rf.predict(X_test))

print(err_train, err_test)
print(confusion_matrix(y_test, y_test_predict))


#### SVC

In [None]:
from sklearn.svm import SVC
svc = SVC(gamma='auto')
svc.fit(X_train, y_train)

y_train_predict = svc.predict(X_train)
y_test_predict = svc.predict(X_test)

err_train = np.mean(y_train != svc.predict(X_train))
err_test  = np.mean(y_test  != svc.predict(X_test))

print(err_train, err_test)
print(confusion_matrix(y_test, y_test_predict))

Подбор параметров

In [None]:
from sklearn.model_selection import GridSearchCV
Cs = 10.**np.arange(-5, 5)
gamma_array = 10.**np.arange(-5, 5)
svc = SVC(gamma='auto')
grid = GridSearchCV(svc, cv=3, param_grid = {'C': Cs, 'gamma': gamma_array})
grid.fit(X_train, y_train)

best_cv_err = 1 - grid.best_score_
best_C = grid.best_estimator_.C
print(best_cv_err, best_C)

In [None]:
svc = SVC(C = best_C, gamma='auto').fit(X_train, y_train)

y_train_predict = svc.predict(X_train)
y_test_predict = svc.predict(X_test)

err_train = np.mean(y_train != svc.predict(X_train))
err_test  = np.mean(y_test  != svc.predict(X_test))

print(err_train, err_test)
print(confusion_matrix(y_test, y_test_predict))

Таким образом, разлиные классификаторы на тестовой выборке дают следующие значения:
- KNN   0.11567164179104478
- RF    0.23134328358208955
- SVC   0.2126865671641791

### 5. Применение PCA
 Число главных компонент равно 2.

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(data_train)
print("Главные компоненты (по строкам):")
print(pca.components_)
print("Дисперсии по главным компонентам,Cобственные значения вдоль каждой компоненты:")
print(pca.explained_variance_)
print("Среднеквадратические отклонения:")
print(np.sqrt(pca.explained_variance_))
print("Соответствующие сингулярные значения:")
print(pca.singular_values_)

Изобразим на плоскости точками пассажиров:  Зелеными будут обозначеы выжившие 
пассажиры, а красными - погибшие.

In [None]:
y = survived_col
plt.figure(figsize=(10,10))
for i in range(len(X_pca)):
    plt.scatter(X_pca[i, 0], X_pca[i, 1], c= 'red' if y[i] == 0 else 'blue')

Можно заметить достаточно явно прослеживаемую зависимость - красные и синие 
точки расположены слоями.

Применим KNN с наилучшим количеством сосдей = 3.

In [None]:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(data_train)
X = X_pca
y = survived_col
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

N_train, _ = X_train.shape 
N_test,  _ = X_test.shape 

print(N_train, N_test)

In [None]:
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, y_train)
knn.fit(X_test, y_test)
y_train_predict = knn.predict(X_train)
y_test_predict = knn.predict(X_test)
err_train = np.mean(y_train != y_train_predict)
err_test = np.mean(y_test != y_test_predict)

print(err_train, err_test)

Построим график зависимости ошибки на тестовой и обучающей выборки в зависимости от количества используемых компонент.

In [None]:
from sklearn.model_selection import train_test_split
err_train_list = []
err_test_list = []
for n_comp in range(2, 50):
    pca = PCA(n_components=n_comp)
    X_pca = pca.fit_transform(data_train)
    X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size = 0.3, random_state = 42)
    knn = KNeighborsClassifier(n_neighbors = 3)
    knn.fit(X_train, y_train)
    knn.fit(X_test, y_test)
    y_train_predict = knn.predict(X_train)
    y_test_predict = knn.predict(X_test)
    err_train = np.mean(y_train != y_train_predict)
    err_test = np.mean(y_test != y_test_predict)
    
    err_train_list.append(err_train)
    err_test_list.append(err_test)
    
plt.plot(range(2, 50), err_train_list, label="Train error")
plt.plot(range(2, 50), err_test_list, label="Test error")
plt.xlabel('n')
plt.ylabel('error')
plt.legend()
plt.show()
print(min(err_train_list), 2 + err_train_list.index(min(err_train_list)))
print(min(err_test_list), 2 + err_test_list.index(min(err_test_list)))

Можно заметить, что на тренировой выборке ошибка убывает, пока число компонент не превысит 7. Ошибка на тестовой выборке практически постоянна, имеется несущественный рост после 7(для 4, 5, 7 ошибка одинаковая).

### 5. Применение LDA

In [None]:
from sklearn import discriminant_analysis
lda_model = discriminant_analysis.LinearDiscriminantAnalysis()
X = data_train
y = survived_col
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)  
    
N_train, _ = X_train.shape 
N_test,  _ = X_test.shape 
print(N_train, N_test)


lda_model.fit(X_train, y_train)
y_pred = lda_model.predict(X_train)
y_test_pred = lda_model.predict(X_test)
print (np.mean(y_train != y_pred))
print (np.mean(y_test != y_test_pred))

In [None]:

from sklearn import neighbors
err_train = []
err_test = []
k_range = range(1, 50)
for k in k_range:
    knn_model = neighbors.KNeighborsClassifier(n_neighbors = k)
    knn_model.fit(X_train, y_train)
    knn_model.fit(X_test, y_test)
    y_pred      = knn_model.predict(X_train)
    y_test_pred = knn_model.predict(X_test)
    err_train.append(np.mean(y_train != y_pred))
    err_test.append(np.mean(y_test != y_test_pred))

In [None]:

plt.plot(k_range, err_train, 'r')
plt.plot(k_range, err_test, 'b')

In [None]:
print (err_train[3], err_test[3])
