In [14]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

# visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

In [15]:
train_df = pd.read_csv('train_df.csv')
test_df = pd.read_csv('test_df.csv')
combine = [train_df, test_df]

In [16]:
#train_df.head()
#test_df.head()

### Моделирование и предсказание
Наша задача - задача классификации и регрессии. Мы хотим определить взаимосвязь между выходными данными (выжившие или нет) с другими переменными или характеристиками (пол, возраст, порт ...). <br>
Мы также реализуем категорию машинного обучения, которая называется обучением с учителем, поскольку мы обучаем нашу модель с заданным набором данных. <br>
С помощью этих двух критериев - контролируемого обучения плюс классификации и регрессии, мы можем сузить наш выбор моделей до нескольких. Они включают:

 - Логистическая регрессия
 - KNN или k-ближайших соседей
 - Метод опорных векторов
 - Наивный байесовский классификатор
 - Дерево решений
 - Случайный лес
 - Перцептрон
 - Искусственная нейронная сеть
 - Метод релевантных векторов

In [17]:
X_train = train_df.drop("Survived", axis=1)
Y_train = train_df["Survived"]
X_test  = test_df.drop("PassengerId", axis=1).copy()
X_train.shape, Y_train.shape, X_test.shape

((891, 8), (891,), (418, 8))

<b>Логистическая регрессия</b> - это полезная модель для запуска на ранних этапах рабочего процесса. <br>
Логистическая регрессия измеряет взаимосвязь между категориальной зависимой переменной (характеристикой) и одной или несколькими независимыми переменными (характеристиками) путем оценки вероятностей с использованием логистической функции, которая является кумулятивным логистическим распределением. <br>

Обратите внимание на показатель достоверности, сгенерированный моделью на основе нашего набора обучающих данных.

In [18]:
# Logistic Regression

logreg = LogisticRegression()
logreg.fit(X_train, Y_train)
Y_pred = logreg.predict(X_test)
acc_log = round(logreg.score(X_train, Y_train) * 100, 2)
acc_log

80.36

Мы можем использовать логистическую регрессию для проверки наших предположений и решений по созданию функций и достижению целей. Это можно сделать, вычислив коэффициент признаков в функции решения.

Положительные коэффициенты увеличивают логарифмические шансы ответа (и, таким образом, увеличивают вероятность), а отрицательные коэффициенты уменьшают логарифмические шансы ответа (и, таким образом, уменьшают вероятность).

Пол - это самый высокий коэффициент позитивности, означающий, что по мере увеличения значения Пола (от мужчины: 0 до женщины: 1) вероятность выжить = 1 увеличивается больше всего.

И наоборот, чем больше Pclass, тем меньше вероятность выжить = 1.

Таким образом,  ***возраст * класс является хорошей искусственной функцией для моделирования***, поскольку у него вторая по величине отрицательная корреляция с выжившими.<br>
Титул - вторая по величине положительная корреляция.

In [19]:
coeff_df = pd.DataFrame(train_df.columns.delete(0))
coeff_df.columns = ['Feature']
coeff_df["Correlation"] = pd.Series(logreg.coef_[0])

coeff_df.sort_values(by='Correlation', ascending=False)

Unnamed: 0,Feature,Correlation
1,Sex,2.201619
5,Title,0.397888
2,Age,0.287011
4,Embarked,0.261473
6,IsAlone,0.126553
3,Fare,-0.086655
7,Age*Class,-0.311069
0,Pclass,-0.7507


Затем мы моделируем с помощью метода опорных векторов, которые представляют собой модели обучения с учителем с соответствующими алгоритмами обучения, которые анализируют данные, используемые для классификации и регрессионного анализа. По заданному набору обучающих выборок, каждая из которых помечена как принадлежащая к той или иной из двух категорий, алгоритм обучения SVM строит модель, которая присваивает новые тестовые образцы той или иной категории, что делает ее не вероятностным двоичным линейным классификатором.

Обратите внимание, что модель генерирует показатель достоверности выше, чем модель логистической регрессии.

In [20]:
# Support Vector Machines

svc = SVC()
svc.fit(X_train, Y_train)
Y_pred = svc.predict(X_test)
acc_svc = round(svc.score(X_train, Y_train) * 100, 2)
acc_svc

78.23

В распознавании образов алгоритм <b>k-Nearest Neighbours</b> (или для краткости k-NN) - это непараметрический метод, используемый для классификации и регрессии.<br>
Выборка классифицируется большинством голосов ее соседей, причем выборка назначается классу, наиболее распространенному среди ее ближайших k соседей (k - положительное целое число, обычно небольшое).
Если k = 1, то объект просто присваивается классу этого единственного ближайшего соседа.<br>

Оценка достоверности KNN лучше, чем логистическая регрессия, но хуже, чем SVM.

In [21]:
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, Y_train)
Y_pred = knn.predict(X_test)
acc_knn = round(knn.score(X_train, Y_train) * 100, 2)
acc_knn

84.74

В машинном обучении <b>наивные байесовские классификаторы</b> представляют собой семейство простых вероятностных классификаторов, основанных на применении теоремы Байеса с сильными (наивными) предположениями о независимости между функциями. <br> Наивные байесовские классификаторы обладают высокой масштабируемостью, требуя ряда параметров, линейных по количеству переменных (функций) в задаче обучения.

Показатель достоверности, полученный моделью, является самым низким среди моделей, оцениваемых до сих пор.

In [23]:
# Gaussian Naive Bayes

gaussian = GaussianNB()
gaussian.fit(X_train, Y_train)
Y_pred = gaussian.predict(X_test)
acc_gaussian = round(gaussian.score(X_train, Y_train) * 100, 2)
acc_gaussian

72.28

<b>Персептрон</b>- это алгоритм контролируемого обучения двоичных классификаторов (функций, которые могут определять, принадлежит ли вход, представленный вектором чисел, какому-либо определенному классу). <br> Это тип линейного классификатора, то есть алгоритм классификации, который делает свои прогнозы на основе функции линейного предиктора, объединяющей набор весов с вектором признаков. <br> Алгоритм позволяет осуществлять онлайн-обучение, поскольку он обрабатывает элементы обучающей выборки по одному. Ссылка на Википедию.

In [24]:
# Perceptron

perceptron = Perceptron()
perceptron.fit(X_train, Y_train)
Y_pred = perceptron.predict(X_test)
acc_perceptron = round(perceptron.score(X_train, Y_train) * 100, 2)
acc_perceptron

78.34

In [25]:
# Linear SVC

linear_svc = LinearSVC()
linear_svc.fit(X_train, Y_train)
Y_pred = linear_svc.predict(X_test)
acc_linear_svc = round(linear_svc.score(X_train, Y_train) * 100, 2)
acc_linear_svc



79.12

In [26]:
# Stochastic Gradient Descent

sgd = SGDClassifier()
sgd.fit(X_train, Y_train)
Y_pred = sgd.predict(X_test)
acc_sgd = round(sgd.score(X_train, Y_train) * 100, 2)
acc_sgd

77.78

Эта модель использует <b>дерево решений</b> в качестве модели прогнозирования, которая сопоставляет признаки (ветви дерева) с выводами о целевом значении (листья дерева). <br> Модели деревьев, в которых целевая переменная может принимать конечный набор значений, называются деревьями классификации; в этих древовидных структурах листья представляют метки классов, а ветви представляют соединения функций, которые ведут к этим меткам классов. Деревья решений, в которых целевая переменная может принимать непрерывные значения (обычно действительные числа), называются деревьями регрессии. 
Показатель достоверности модели является наивысшим среди оцениваемых на данный момент моделей.

In [27]:
# Decision Tree

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, Y_train)
Y_pred = decision_tree.predict(X_test)
acc_decision_tree = round(decision_tree.score(X_train, Y_train) * 100, 2)
acc_decision_tree

86.76

Следующая модель <b>Random Forests</b> - одна из самых популярных. Случайные леса или леса случайных решений - это метод ансамблевого обучения для классификации, регрессии и других задач, который работает путем построения множества деревьев решений (n_estimators = 100) во время обучения и вывода класса, который является режимом классов (классификация) или среднее предсказание (регрессия) отдельных деревьев. 

Показатель достоверности модели является наивысшим среди оцениваемых на данный момент моделей. Мы решили использовать вывод этой модели (Y_pred) для создания представления результатов конкурса.

In [28]:
# Random Forest

random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(X_train, Y_train)
Y_pred = random_forest.predict(X_test)
random_forest.score(X_train, Y_train)
acc_random_forest = round(random_forest.score(X_train, Y_train) * 100, 2)
acc_random_forest

86.76

### Оценка модели
Теперь мы можем ранжировать нашу оценку всех моделей, чтобы выбрать лучшую для нашей задачи. В то время как дерево решений и случайный лес получают одинаковые баллы, мы решили использовать случайный лес, поскольку они корректируют привычку деревьев решений к переобучению их обучающей выборке.

In [29]:
models = pd.DataFrame({
    'Model': ['Support Vector Machines', 'KNN', 'Logistic Regression', 
              'Random Forest', 'Naive Bayes', 'Perceptron', 
              'Stochastic Gradient Decent', 'Linear SVC', 
              'Decision Tree'],
    'Score': [acc_svc, acc_knn, acc_log, 
              acc_random_forest, acc_gaussian, acc_perceptron, 
              acc_sgd, acc_linear_svc, acc_decision_tree]})
models.sort_values(by='Score', ascending=False)

Unnamed: 0,Model,Score
3,Random Forest,86.76
8,Decision Tree,86.76
1,KNN,84.74
2,Logistic Regression,80.36
7,Linear SVC,79.12
5,Perceptron,78.34
0,Support Vector Machines,78.23
6,Stochastic Gradient Decent,77.78
4,Naive Bayes,72.28


In [31]:
submission = pd.DataFrame({
        "PassengerId": test_df["PassengerId"],
        "Survived": Y_pred
    })
submission.to_csv('submission.csv', index=False)