In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib 
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from sklearn.metrics import accuracy_score, log_loss
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_validate
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix
from sklearn.svm import SVC, LinearSVC
from sklearn.preprocessing import LabelEncoder
%matplotlib inline

#Настройки показа графиков в блокноте
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns', 8)

from sklearn import preprocessing
#%config InlineBackend.figure_format = 'svg' для большей четкости графиков
matplotlib.style.use('ggplot')
%matplotlib inline

#Стандартизация данных
from sklearn import preprocessing

#Построение диаграмм рассеивания
from pandas.plotting import scatter_matrix

#Графика для интерпретации моделей
from IPython.display import Image
from sklearn.tree import export_graphviz
from subprocess import call

#Деревья решений для задачи классификации
from sklearn.tree import DecisionTreeClassifier

#Калибровка деревьев решений
from sklearn.calibration import CalibratedClassifierCV

df = pd.read_csv('train.csv')
trd = pd.read_csv('train.csv')
tsd = pd.read_csv('test.csv')
td = pd.concat([trd, tsd], ignore_index=True, sort  = False)

In [2]:
td.shape

(1309, 12)

In [3]:
#Заполнение пропусков

td.Embarked.fillna(td.Embarked.mode()[0], inplace = True)

td['Salutation'] = td.Name.apply(lambda name: name.split(',')[1].split('.')[0].strip())

grp = td.groupby(['Sex', 'Pclass'])
grp.Age.apply(lambda x: x.fillna(x.median()))
td.Age.fillna(td.Age.median, inplace = True)

td.Cabin = td.Cabin.fillna('NA')

pd.get_dummies(td.Embarked, prefix="Emb", drop_first = True)

Unnamed: 0,Emb_Q,Emb_S
0,0,1
1,0,0
2,0,1
3,0,1
4,0,1
...,...,...
1304,0,1
1305,0,0
1306,0,1
1307,0,1


In [4]:
td.drop(['Pclass', 'Fare','Cabin', 'Name','Salutation', 'Ticket', 'Embarked', 'SibSp', 'Parch', 'Age'], axis=1, inplace=True)

In [5]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,...,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",...,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",...,PC 17599,71.28,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",...,STON/O2. 3101282,7.92,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",...,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",...,373450,8.05,,S


In [6]:
td['Sex'] = LabelEncoder().fit_transform(td['Sex'])

In [7]:
# Правильный ответ записываем в вектор y
y = td['Survived']
# Удаляем колонку с правильным ответом
X = td.drop('Survived', axis=1)

In [8]:
X

Unnamed: 0,PassengerId,Sex
0,1,1
1,2,0
2,3,0
3,4,0
4,5,1
...,...,...
1304,1305,1
1305,1306,0
1306,1307,1
1307,1308,1


In [17]:
X_to_be_predicted = td[td.Survived.isnull()]  #В новом фрейме Удаляем все значения в колонке 
X_to_be_predicted = X_to_be_predicted.drop(['Survived'], axis = 1) #Затем удаляем всю колонку целиком

train_data = td #Выбираем фрейм
train_data = train_data.dropna() #В новом фрейме чистим от пустых строк
y = train_data['Survived'] #Зависимая переменная
x = train_data.drop(['Survived'], axis = 1) #Предикторы
train_data.shape 

(891, 3)

In [18]:
#Расщепление на обучающую и тестовые выборки
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=42,                                                    
                                                    test_size=0.2 # доля объёма тестового множества
                                                   )

In [19]:
model = RandomForestClassifier(random_state=42, #зерно датчика случайных чисел
                               n_estimators=100, #число деревьев в лесу
                               criterion='gini', #функция для дельта H, impurity ('gini' или 'entropy')
                               max_depth=5, #Макс число слоев                               
                               oob_score=True, #Вычислять out-of-bag ошибку                               
                               warm_start=False, #использовать результаты предыдущего вызова и нарастить предыдущий лес
                               class_weight=None #веса классов для балансировки выборки для обучения
                              )

model.fit(x_train, y_train)

y_pred = model.predict(x_test)
print("RF Accuracy: "+repr(round(model.score(x_test, y_test) * 100, 2)) + "%")

result_rf=cross_val_score(model, x_train, y_train, cv=10, scoring='accuracy')
print('The cross validated score for Random forest is:',round(result_rf.mean()*100,2))
y_pred = cross_val_predict(model, x_train, y_train, cv=10)

pd.DataFrame({'feature': X.columns,
              'importance': model.feature_importances_}).sort_values('importance', ascending=False)

RF Accuracy: 77.09%
The cross validated score for Random forest is: 77.95


Unnamed: 0,feature,importance
1,Sex,0.67
0,PassengerId,0.33


In [20]:
result = model.predict(X_to_be_predicted)
submission = pd.DataFrame({'PassengerId':X_to_be_predicted.PassengerId,'Survived':result})
submission.Survived = submission.Survived.astype(int)
print(submission.shape)
filename = 'Titanic Predictions.csv'
submission.to_csv(filename,index=False)
print('Saved file: ' + filename)

(418, 2)
Saved file: Titanic Predictions.csv


In [22]:
df = pd.read_csv('Titanic Predictions.csv')

In [23]:
df.shape

(418, 2)