### Загрузка датасета из kaggle.com

In [1]:
!gdown --id 1XQWW7lsK0EiaibyDnSfQ1wKoZqdDZ2xu
! mkdir ~/.kaggle
! cp kaggle.json ~/.kaggle/
! chmod 600 ~/.kaggle/kaggle.json
! kaggle datasets download -d yasserh/titanic-dataset
! unzip titanic-dataset.zip -d titanic-dataset

Downloading...
From: https://drive.google.com/uc?id=1XQWW7lsK0EiaibyDnSfQ1wKoZqdDZ2xu
To: /content/kaggle.json
100% 73.0/73.0 [00:00<00:00, 275kB/s]
Downloading titanic-dataset.zip to /content
  0% 0.00/22.0k [00:00<?, ?B/s]
100% 22.0k/22.0k [00:00<00:00, 9.12MB/s]
Archive:  titanic-dataset.zip
  inflating: titanic-dataset/Titanic-Dataset.csv  


### Импорт библиотек и работа с датасетом

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('/content/titanic-dataset/Titanic-Dataset.csv')

In [4]:
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
45,46,0,3,"Rogers, Mr. William John",male,,0,0,S.C./A.4. 23567,8.05,,S
241,242,1,3,"Murphy, Miss. Katherine ""Kate""",female,,1,0,367230,15.5,,Q
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5,,S
245,246,0,1,"Minahan, Dr. William Edward",male,44.0,2,0,19928,90.0,C78,Q
632,633,1,1,"Stahelin-Maeglin, Dr. Max",male,32.0,0,0,13214,30.5,B50,C


#### Определить количество пустых ячеек

In [5]:
# Количество пустых ячеек в каждом столбце
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [6]:
# Общее количество пустых ячеек
print(f'Общее количество пустых ячеек = {df.isnull().sum().sum()}')

Общее количество пустых ячеек = 866


#### Заполнение пустых ячеек

In [7]:
# В колонке Age, 177 пропущенных значений
# Зполним пропуски средним значением
df['Age'].fillna(df['Age'].mean(), inplace = True)

In [8]:
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
615,616,1,2,"Herman, Miss. Alice",female,24.0,1,2,220845,65.0,,S
470,471,0,3,"Keefe, Mr. Arthur",male,29.699118,0,0,323592,7.25,,S
318,319,1,1,"Wick, Miss. Mary Natalie",female,31.0,0,2,36928,164.8667,C7,S
87,88,0,3,"Slocovski, Mr. Selman Francis",male,29.699118,0,0,SOTON/OQ 392086,8.05,,S
73,74,0,3,"Chronopoulos, Mr. Apostolos",male,26.0,1,0,2680,14.4542,,C


In [9]:
# В колонке Cabin больше всего пропущенных значений
# Проверим существует ли какая-то взаимосвязь между выживанием и тем, была ли у пассажира отдельная каюта
df['Survived'].groupby(df['Cabin'].isnull()).mean()

Cabin
False    0.666667
True     0.299854
Name: Survived, dtype: float64

 Пассажиры у кого запись отсутствует - выжили около 30%. А у кого запись о наличии каюты есть - выжило 67%, поэтому заменим значения в колонке Cabin категориальным признаком (0 - нет отдельной каюты, 1 - есть каюта)




In [10]:
df['Cabin'] = np.where(df['Cabin'].isnull(), 0,1)

In [11]:
df.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
664,665,1,3,"Lindqvist, Mr. Eino William",male,20.0,1,0,STON/O 2. 3101285,7.925,0,S
386,387,0,3,"Goodwin, Master. Sidney Leonard",male,1.0,5,2,CA 2144,46.9,0,S
524,525,0,3,"Kassem, Mr. Fared",male,29.699118,0,0,2700,7.2292,0,C
622,623,1,3,"Nakid, Mr. Sahid",male,20.0,1,1,2653,15.7417,0,C
243,244,0,3,"Maenpaa, Mr. Matti Alexanteri",male,22.0,0,0,STON/O 2. 3101275,7.125,0,S


В колонке Embarked два пропущенных значения, заполним их наиболее часто встречаемым значением

In [12]:
df['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

Наиболее часто встречаемое значение "S"

In [13]:
df['Embarked'].replace(np.nan, 'S', inplace = True)

#### Аналитика

1. Количество уникальных значений

In [14]:
df.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             89
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin            2
Embarked         3
dtype: int64

2. Минимальное и максимальное значение

In [15]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,Cabin
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208,0.228956
std,257.353842,0.486592,0.836071,13.002015,1.102743,0.806057,49.693429,0.420397
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104,0.0
50%,446.0,0.0,3.0,29.699118,0.0,0.0,14.4542,0.0
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0,0.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292,1.0


In [16]:
df.agg(['min','max'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
min,1,0,1,"Abbing, Mr. Anthony",female,0.42,0,0,110152,0.0,0,C
max,891,1,3,"van Melkebeke, Mr. Philemon",male,80.0,8,6,WE/P 5735,512.3292,1,S




*   Количество пассажиров = 891
*   Всего 3 класса круиза
*   Возраст пассажиров от меньше 1 года до 80
*   Максимальное число братьев,сестер или супругов на борту у человека = 8
*   Максимальное число людей в семье (родители, дети) = 6
*   Максимальная цена билета = $512
*   Всего 3 порта посадки










3. Влияние всех признаков напризнак Survived

In [17]:
df['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64

Из 891 пассажиров выжили 342

In [19]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,0,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,1,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,0,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,0,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,0,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,1,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,0,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,1,C


In [20]:
surv = df.groupby(df['Name'].str.split(r'[,.]').str[1])
surv['Survived'].mean()

Name
 Capt            0.000000
 Col             0.500000
 Don             0.000000
 Dr              0.428571
 Jonkheer        0.000000
 Lady            1.000000
 Major           0.500000
 Master          0.575000
 Miss            0.697802
 Mlle            1.000000
 Mme             1.000000
 Mr              0.156673
 Mrs             0.792000
 Ms              1.000000
 Rev             0.000000
 Sir             1.000000
 the Countess    1.000000
Name: Survived, dtype: float64

Среднее значение выживших в зависимости от приставки в имени. Например Sir, Lady люди из высокого класса выжили в 100%

In [21]:
df.groupby(['Pclass','Sex'])['Survived'].mean().unstack(level=1)

Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.968085,0.368852
2,0.921053,0.157407
3,0.5,0.135447


В каждом классе доля выживших женщин больше чем мужчин

In [22]:
# Средний возраст выживших в каждом классе
s = df[df['Survived'] == 1]
pd.pivot_table(s, values='Age', index='Pclass', columns='Sex', aggfunc='mean').round()

Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,34.0,36.0
2,28.0,18.0
3,23.0,24.0


In [23]:
pd.pivot_table(df, index='SibSp', columns='Survived', values='PassengerId', aggfunc='count')

Survived,0,1
SibSp,Unnamed: 1_level_1,Unnamed: 2_level_1
0,398.0,210.0
1,97.0,112.0
2,15.0,13.0
3,12.0,4.0
4,15.0,3.0
5,5.0,
8,7.0,


In [24]:
pd.pivot_table(df, index='Parch', columns='Survived', values='PassengerId', aggfunc='count')

Survived,0,1
Parch,Unnamed: 1_level_1,Unnamed: 2_level_1
0,445.0,233.0
1,53.0,65.0
2,40.0,40.0
3,2.0,3.0
4,4.0,
5,4.0,1.0
6,1.0,


У пассажиров без семьи или с количеством людей в семье (родители, дети, родственники) до 2 было больше шансов на выживание.