In [19]:
# Импорт необходимых библиотек для работы с данными
# Импорт необходимых библиотек для разделения данных, масштабирования, кодирования категориальных признаков, 
# оценки моделей и классификаторов, а также для выполнения случайного поиска параметров

In [1]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.dummy import DummyClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV

In [None]:
# Чтение обучающего и тестового наборов данных из файлов 'train.csv' и 'test.csv' в объекты DataFrame

In [2]:
df = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

In [None]:
# Вывод первых строк обучающего набора данных

In [3]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [None]:
# Вывод информации о структуре обучающего набора данных, включая типы данных и наличие пропущенных значений

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [5]:
def create_features(df):
    df['Age'] = df['Age'].fillna(df['Age'].median()) # Заполнение пропущенных значений в столбце 'Age' медианным значением
    df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0]) # Заполнение пропущенных значений в столбце 'Embarked' наиболее часто встречающимся значением
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1 # Создание нового столбца 'FamilySize', содержащего информацию о размере семьи
    df['IsAlone'] = 1 # Создание нового столбца 'IsAlone', содержащего информацию о том, является ли пассажир одиноким
    df['IsAlone'].loc[df['FamilySize'] > 1] = 0
    df['Title'] = df['Name'].str.split(", ", expand=True)[1].str.split(".", expand=True)[0] # Создание нового столбца 'Title', содержащего информацию о заголовке пассажира (Mr., Mrs., и т.д.)

    df.drop(['Cabin', 'Ticket', 'Name', 'PassengerId'], axis=1, inplace=True) # Удаление ненужных столбцов 'Cabin', 'Ticket', 'Name', 'PassengerId'

In [None]:
# Применение функции create_features к обучающему и тестовому наборам данных для создания новых признаков

In [6]:
create_features(df)
create_features(df_test)

In [None]:
# Вывод первых строк обучающего набора данных после создания новых признаков

In [7]:
df.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked,FamilySize,IsAlone,Title
0,0,3,male,22.0,1,0,7.25,S,2,0,Mr
1,1,1,female,38.0,1,0,71.2833,C,2,0,Mrs
2,1,3,female,26.0,0,0,7.925,S,1,1,Miss
3,1,1,female,35.0,1,0,53.1,S,2,0,Mrs
4,0,3,male,35.0,0,0,8.05,S,1,1,Mr


In [None]:
# Вывод информации о структуре обучающего набора данных после создания новых признаков

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Survived    891 non-null    int64  
 1   Pclass      891 non-null    int64  
 2   Sex         891 non-null    object 
 3   Age         891 non-null    float64
 4   SibSp       891 non-null    int64  
 5   Parch       891 non-null    int64  
 6   Fare        891 non-null    float64
 7   Embarked    891 non-null    object 
 8   FamilySize  891 non-null    int64  
 9   IsAlone     891 non-null    int64  
 10  Title       891 non-null    object 
dtypes: float64(2), int64(6), object(3)
memory usage: 76.7+ KB


In [None]:
# Кодирование категориальных признаков с использованием метода OrdinalEncoder

In [9]:
oe = OrdinalEncoder(unknown_value=-1, handle_unknown='use_encoded_value')
cat = df.select_dtypes(include='object').columns.tolist()
df[cat] = oe.fit_transform(df[cat])
df_test[cat] = oe.transform(df_test[cat])

In [None]:
#Удаление строк с пропущенными значениями в обучающем наборе данных 
# и заполнение пропущенных значений в тестовом наборе данных средними значениями

In [None]:
df.dropna(inplace=True)
df_test.fillna(df_test.mean(), inplace=True)

In [None]:
# Разделение данных на матрицу признаков X и целевую переменную y

In [10]:
X = df.drop('Survived', axis=1)
y = df['Survived']

In [None]:
# Разделение обучающего набора данных на обучающую и проверочную выборки

In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Масштабирование числовых признаков с использованием метода StandardScaler

In [11]:
scaler = StandardScaler()
X_train[['Age', 'Fare']] = scaler.fit_transform(X_train[['Age', 'Fare']])
X_valid[['Age', 'Fare']] = scaler.transform(X_valid[['Age', 'Fare']])
df_test[['Age', 'Fare']] = scaler.transform(df_test[['Age', 'Fare']])

In [12]:
def fit_print(model, X_train, y_train, X_valid, y_valid):
    model.fit(X_train, y_train) # Обучение модели на обучающей выборке
    y_pred = model.predict(X_valid) # Предсказание на проверочной выборке
    print(confusion_matrix(y_valid, y_pred)) # Вывод матрицы ошибок, точности и отчета о классификации
    print(accuracy_score(y_valid, y_pred))
    print(classification_report(y_valid, y_pred))

In [None]:
# Определение модели логистической регрессии и модели дерева принятия решений
# Определение сетки параметров для поиска оптимальных значений

In [13]:
lr = LogisticRegression()
fit_print(lr, X_train, y_train, X_valid, y_valid)

[[89 16]
 [21 53]]
0.7932960893854749
              precision    recall  f1-score   support

           0       0.81      0.85      0.83       105
           1       0.77      0.72      0.74        74

    accuracy                           0.79       179
   macro avg       0.79      0.78      0.78       179
weighted avg       0.79      0.79      0.79       179



In [None]:
# Инициализация случайного поиска с использованием модели дерева принятия решений, 
# определенной сетки параметров и критерия точности оценки
# Выполнение случайного поиска параметров для модели дерева принятия решений и 
# вывод лучших найденных параметров и соответствующей оценки

In [14]:
dt = DecisionTreeClassifier()

params = {'max_depth': [3, 5, 7, 9, 11, 13, 15],
          'min_samples_split': [2, 4, 6, 8, 10, 12, 14, 16],
          'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8]}

random_search_dt = RandomizedSearchCV(dt, param_distributions=params, n_iter=100, cv=10, scoring='accuracy', n_jobs=-1, verbose=1)

random_search_dt.fit(X, y)
print(random_search_dt.best_params_)
print(random_search_dt.best_score_)

Fitting 10 folds for each of 100 candidates, totalling 1000 fits
{'min_samples_split': 14, 'min_samples_leaf': 6, 'max_depth': 7}
0.8283395755305867


In [21]:
# Определение модели случайного леса. Определение сетки параметров для поиска оптимальных значений
# Инициализация случайного поиска с использованием модели случайного леса, 
# определенной сетки параметров и критерия точности оценки
# Выполнение случайного поиска параметров для модели случайного леса и 
# вывод лучших найденных параметров и соответствующей оценки

In [15]:
rf = RandomForestClassifier()

params = {'n_estimators': range(10, 120, 10),
          'max_depth': range(5, 12),
          'min_samples_split': range(6, 12),
          'min_samples_leaf': range(3, 6)}

random_search_rf = RandomizedSearchCV(rf, param_distributions=params, n_iter=100, cv=10, scoring='accuracy', n_jobs=-1, verbose=1)

random_search_rf.fit(X, y)
print(random_search_rf.best_params_)
print(random_search_rf.best_score_)

Fitting 10 folds for each of 100 candidates, totalling 1000 fits
{'n_estimators': 40, 'min_samples_split': 9, 'min_samples_leaf': 4, 'max_depth': 10}
0.8429088639200998


In [None]:
# Определение модели-дамми и ее оценка с использованием ранее определенной функции

In [16]:
dummy = DummyClassifier()
fit_print(dummy, X_train, y_train, X_valid, y_valid)

[[105   0]
 [ 74   0]]
0.5865921787709497
              precision    recall  f1-score   support

           0       0.59      1.00      0.74       105
           1       0.00      0.00      0.00        74

    accuracy                           0.59       179
   macro avg       0.29      0.50      0.37       179
weighted avg       0.34      0.59      0.43       179



In [None]:
# Предсказание для тестового набора данных с использованием модели случайного леса с наилучшими найденными параметрами. 
# Создание файла 'submission.csv' с предсказанными значениями для отправки на соревнование или дальнейшую обработку

In [17]:
y_pred = random_search_rf.predict(df_test)
df_test = pd.read_csv('test.csv')
submission = pd.DataFrame({'PassengerId': df_test['PassengerId'], 'Survived': y_pred})
submission.to_csv('submission.csv', index=False)