In [3]:
import pandas as pd
from statistics import mode # https://docs.python.org/3/library/statistics.html

# из библиотеки google.colab импортируем класс files
from google.colab import files

# Загрузка датасета
titanic = pd.read_csv('train.csv')
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [4]:
# Отображение статистики по числовым признакам
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [5]:
# Отображение статистики по нечисловым признакам
titanic.describe(include=['O'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,B96 B98,S
freq,1,577,7,4,644


In [6]:
# Определение количества пассажиров (len пробегается по индексу https://docs.python.org/3/library/functions.html#len)
len(titanic)

891

In [7]:
# Определение среднего возраста пассажиров
titanic['Age'].mean()

29.69911764705882

In [8]:
# Определение медианного возраста пассажиров
titanic['Age'].median()

28.0

In [9]:
# Определение моды возраста пассажиров
mode(titanic['Age'])

24.0

In [10]:
# Определение среднего количества братьев/сестер на борту
titanic["SibSp"].mean()

0.5230078563411896

In [11]:
# Определение среднего количества родственников на борту
titanic['SibSp'].mean() + titanic['Parch'].mean()

0.9046015712682378

In [12]:
# Кол-во выживших пассажиров
survived_passengers = titanic['Survived'].sum()
survived_passengers

342

In [13]:
# Кол-во погибших пассажиров
died_passengers = len(titanic) - survived_passengers
died_passengers

549

In [14]:
# Кол-во пассажиров по классам
passengers_by_class = titanic['Pclass'].value_counts()
passengers_by_class

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [15]:
# Средняя цена билета для каждого класса
mean_fare_by_class = titanic.groupby('Pclass')['Fare'].mean()

In [16]:
# Средняя цена билета для каждого пола
mean_fare_by_sex = titanic.groupby('Sex')['Fare'].mean()
mean_fare_by_sex 

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

In [17]:
# Количество пассажиров, путешествовавших вместе с родственниками
total_passengers_with_relatives = titanic[(titanic['SibSp'] > 0) | (titanic['Parch'] > 0)]['PassengerId'].count() # .count возвращает нам сколько встречается тот или иной элемент в списке
total_passengers_with_relatives

354

In [18]:
# Средняя цена билета для выживших пассажиров
mean_fare_for_survivors = titanic[titanic['Survived'] == 1]['Fare'].mean()
mean_fare_for_survivors

48.39540760233918

In [19]:
# Количество пустых значений в каждой колонке 
null_counts = titanic.isnull().sum() # https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isnull.html
null_counts

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [20]:
# Пустые значения колонки Age заменены средним значением
mean_age = titanic['Age'].mean()
titanic['Age'].fillna(mean_age, inplace=True)

In [21]:
# Создание нового признака, обозначающего семейный статус
titanic['FamilySize'] = titanic['SibSp'] + titanic['Parch'] + 1 # +1 для учета самого пассажира
titanic['FamilySize']

0      2
1      2
2      1
3      2
4      1
      ..
886    1
887    1
888    4
889    1
890    1
Name: FamilySize, Length: 891, dtype: int64

In [23]:
# Самый популярный порт отправления
most_common_port = mode(titanic['Embarked'])
if most_common_port == 'S' :
    print("Самый популярный порт отправления: Southampton")
if most_common_port == 'Q' :
    print('Самый популярный порт отправления: Queenstown')
if most_common_port == 'C' :
    print('Самый популярный порт отправления: Cherbourg')

Самый популярный порт отправления: Southampton
