In [84]:
# data analysis and wrangling
import pandas as pd
import numpy as np
import random as rnd

 # visualization
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import metrics, tree

In [87]:
train_df = pd.read_csv('ready_data/train_longevity.csv')
test_df = pd.read_csv('ready_data/test_longevity.csv')
combine = [train_df, test_df]

In [88]:
train_df.head()

Unnamed: 0,Longevity,Education,Sex,Age,Pet,Children,Activity,Sport,Family,IsAlone,Age*Education,Status
0,0,3,female,73.0,1,0,725,1,1,0,6,3
1,1,1,male,75.0,1,0,7128,0,1,0,3,3
2,1,3,male,73.0,0,0,793,1,0,1,6,4
3,1,1,male,74.0,1,0,5310,0,1,0,2,2
4,0,3,female,74.0,0,0,805,1,0,1,6,4


In [89]:
test_df.head()

Unnamed: 0,Education,Sex,Age,Pet,Children,Activity,Sport,Longevity,Family,IsAlone,Age*Education,Status
0,1,female,76.0,0,0,2655,1,1,0,1,3,5
1,3,male,73.0,0,3,1926,1,1,3,0,6,3
2,3,female,73.0,0,0,723,1,0,0,1,6,4
3,3,female,75.0,2,0,1411,1,0,2,0,9,4
4,2,female,73.0,1,0,1150,1,0,1,0,4,3


In [90]:
isMale = lambda x: 1 if x == 'male' else 0

train_df["Sex"] = train_df["Sex"].map(isMale)
test_df["Sex"] = test_df["Sex"].map(isMale)

X_train = train_df[train_df.columns.drop("Longevity")]
X_test = test_df[test_df.columns.drop("Longevity")]

Y_train = train_df["Longevity"]
Y_test = test_df["Longevity"]

In [91]:
X_train.head()

Unnamed: 0,Education,Sex,Age,Pet,Children,Activity,Sport,Family,IsAlone,Age*Education,Status
0,3,0,73.0,1,0,725,1,1,0,6,3
1,1,1,75.0,1,0,7128,0,1,0,3,3
2,3,1,73.0,0,0,793,1,0,1,6,4
3,1,1,74.0,1,0,5310,0,1,0,2,2
4,3,0,74.0,0,0,805,1,0,1,6,4


In [92]:
X_test.head()

Unnamed: 0,Education,Sex,Age,Pet,Children,Activity,Sport,Family,IsAlone,Age*Education,Status
0,1,0,76.0,0,0,2655,1,0,1,3,5
1,3,1,73.0,0,3,1926,1,3,0,6,3
2,3,0,73.0,0,0,723,1,0,1,6,4
3,3,0,75.0,2,0,1411,1,2,0,9,4
4,2,0,73.0,1,0,1150,1,1,0,4,3


Деревья решений - это это способ представления правил в иерархической виде, где каждому объекту соответствует единственный узел, пораждающий решение. Структура дерева представляет собой «листья» и «ветки». На рёбрах дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах - атрибуты, по которым различаются случаи.

Достоинством таких алгоритмов является высокая наглядность представления и простота интерпретации результатов, что может быть очень важным для предметной области: оказывается возможным не только провести процесс классификации, но и объяснить почему тот или иной объект отнесён к какому-либо классу.

In [93]:
#logreg = SGDClassifier()
dectr = tree.DecisionTreeClassifier()
dectr.fit(X_train, Y_train)
Y_preddectr = dectr.predict(X_test)
acc_dectr = round(dectr.score(X_train, Y_train) * 100, 2)
acc_dectr

95.1

Стохастический градиентный спуск (SGD) — это метод итерации для оптимизации целевой функции с подходящими свойствами гладкости. Его можно расценивать как стохастическую аппроксимацию оптимизации методом градиентного спуска, поскольку он заменяет реальный градиент (вычисленный из полного набора данных) путём оценки такового (вычисленного из случайно выбранного подмножества данных). Особенно в приложениях обработки больших данных это сокращает вычислительные ресурсы, достигая более быстрые итерации в обмен на более низкую скорость сходимости.

In [94]:
sgd = SGDClassifier()
sgd.fit(X_train, Y_train)
Y_predsgd = sgd.predict(X_test)
acc_sgd = round(sgd.score(X_train, Y_train) * 100, 2)
acc_sgd

64.41

In [95]:
mse = metrics.mean_squared_error(Y_test, Y_predsgd)
mse

0.36504424778761063

In [96]:
mse = metrics.mean_squared_error(Y_test, Y_preddectr)
mse

0.12168141592920353

In [97]:
ra = metrics.roc_auc_score(Y_test, Y_predsgd) 
ra

0.61021716517715

In [98]:
ra = metrics.roc_auc_score(Y_test, Y_preddectr) 
ra

0.8687350075360349

In [99]:
sum(Y_predsgd==Y_test)/float(len(Y_test))

0.6349557522123894

In [100]:
sum(Y_preddectr==Y_test)/float(len(Y_test))

0.8783185840707964

In [101]:
tree.export_graphviz(dectr, out_file="decisiontree.dot",
                         filled=True, rounded=True)