# Аналитика и предсказание выживаемости на Титанике


## План

- Загрузка и базовое исследование данных

- Построение модели машинного обучения

## Подключение зависимостей / Загрузка библиотек

In [1]:
import pandas as pd # для работы с таблицами
import numpy as np # для эффективных вычислений
import matplotlib.pyplot as plt
import seaborn as sns # для построения графиков

# Загрузка и базовый анализ данных

Загрузим данные с помощью библиотеки ```pandas```, она же - ```pd``` в нашем примере. Для этого используем стандартный метод ```.read_csv(..)```, принимающий на вход путь к файлу с данными.


Загружаем данные о пассажирах Титаника по ссылке

In [2]:
url = "https://raw.githubusercontent.com/Murcha1990/datasets/main/Titanic.xlsx"
df = pd.read_excel(url)

Анализ данных и, вообще их исследование, начинается с того, что просто глазами смотрим на то, что находится внутри .csv файлов. Для этого достаточно вывести на экран первые несколько строк загруженных таблиц.

Метод ```.head()``` поможет нам в этом. С его помощью печатаем первые 5 строк из нашей таблицы:

In [7]:
df.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


## Задание 1

Посмотрите на размер таблицы `df`.
Сколько строк в таблице?

In [9]:
# ваш код здесь
df.shape

(891, 13)

Оценим уровень выживаемости

In [None]:
df['Survived']

Unnamed: 0,Survived
0,0
1,1
2,1
3,1
4,0
...,...
886,0
887,1
888,0
889,1


## Задание 2

Какая доля пассажиров Титаника выжила? Ответ округлите до сотых.

In [11]:
# ваш код здесь
df['Survived'].value_counts(normalize=True)

np.float64(0.3838383838383838)

Можно вычислять различные числовые характеристики столбцов.

Выше мы вычисляли среднее значение так:
`df['Survived'].mean() # доля выживших на Титанике`.

Аналогично, поставив после точки
* `max()`

* `min()`

* `median()`

можно вычислить максимум, минимум и медиану набора данных.

### Задание 3

Вычислите максимальный возраст пассажиров Титаника.

In [12]:
# ваш код здесь
df['Age'].max()

80.0

### Задание 4

Вычислите средний возраст пассажиров Титаника.

Затем вычислите средний возраст пассажиров только 1 класса.

Верно ли, что пассажиры 1 класса в среднем более возрастные, чем по всему Титанику?

In [21]:
# ваш код здесь
mask = df['Pclass'] == 1
df['Age'].mean() < df['Age'][mask].mean()

np.True_

# Машинное обучение

Сделаем следующие шаги:

* Сначала нужно разбить данные на тренировочную и тестовую части

* На тренировочных данных обучить модель

* На тестовых данных применить ее и получить прогнозы

* На тестовых данных оценить качество модели

Сначала отделим признаки от целевой переменной:

In [22]:
y = df['Survived'] # вектор целевой переменной

X = df.drop('Survived', axis = 1) # матрица объект-признак

In [23]:
X.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,3,Braund; Mr. Owen Harris,male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,Cumings; Mrs. John Bradley (Florence Briggs Th...,female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,3,Heikkinen; Miss. Laina,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,Futrelle; Mrs. Jacques Heath (Lily May Peel),female,35.0,1,0,113803,53.1,C123,S
4,4,5,3,Allen; Mr. William Henry,male,35.0,0,0,373450,8.05,,S


Заполним пропуски в данных

In [24]:
df.describe()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,445.0,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,0.0,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,222.5,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,445.0,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,667.5,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,890.0,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [25]:
mean_age = X['Age'].mean()

X['Age'] = X['Age'].fillna(mean_age)

При помощи функции `train_test_split` разбейте данные на тренировочную и тестовую части в пропорции 7 к 3. Зафиксируйте `random_state=42`.

In [26]:
from sklearn.model_selection import train_test_split

# ваш код здесь
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, random_state=42)

Обучите модель CatBoostClassifier на тренировочных данных по аналогии с кодом из [примера](https://colab.research.google.com/drive/1V2VSoyAXHwx63QNVoQK6F6oQbRTGbhz4?usp=sharing).

- Сначала создайте `cat_features` - список категориальных признаков
- Объявите модель CatBoostClassifier и передайте в нее cat_features; остальные параметры оставьте по умолчанию, то есть не задавайте
- Обучите модель на тренировочных данных

In [29]:
cat_features = X.select_dtypes(include=["object"]).columns.to_list() # ваш код здесь

cat_features

['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']

Заполним пропуски в категориальных столбцах пустыми строками.

In [28]:
for col in cat_features:
    Xtrain[col] = Xtrain[col].astype(str).fillna("")
    Xtest[col] = Xtest[col].astype(str).fillna("")

Обучаем модель:

In [36]:
!pip install catboost -q

from catboost import CatBoostClassifier

<catboost.core.CatBoostClassifier at 0x78c0d1282c30>

In [39]:
# ваш код здесь
model = CatBoostClassifier(iterations=100,
                          depth=2,
                          learning_rate=0.1,
                          loss_function='Logloss',
                          eval_metric='AUC',
                          cat_features=cat_features,
                          verbose=False)


# ваш код здесь
model.fit(Xtrain, ytrain)

<catboost.core.CatBoostClassifier at 0x78c0d01941a0>

In [40]:
pred_test = model.predict(Xtest) # предсказание классов

## Задание 5

- Сделайте прогноз целевой переменной на тестовых данных при помощи обученной модели

- Посчитайте долю правильных ответов модели. Это можно сделать вручную, а можно использовать готовую функцию `accuracy` (доля правильных ответов).

Метрику необходимо вычислять на тестовых данных. Ответ округлите до десятых.

In [41]:
from sklearn.metrics import accuracy_score

# ваш код здесь
accuracy_score(ytest, pred_test)

0.8161434977578476