# Python для анализа данных

## Введение в Pandas 

Pandas - библиотека для работы с табличными данными в питоне.
* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#min
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [1]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd 

In [2]:
data = pd.read_csv('train.csv')

Функция read_csv читает данные из файла формата csv данные и преобразует в pandas.DataFrame. Аналогичная функция read_excel может читать данные в офрмате xls(x).

Посмотрим на наши данные:

In [3]:
data.head(10) # функция head() показывает первые строки датафрейма, по умолчанию 5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [4]:
data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [125]:
data.shape # функция shape показывает размерность датафрейма (строк, столбцов)

(891, 12)

In [126]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Описание признаков из [источника данных](https://www.kaggle.com/competitions/titanic/data):

**PassengerId** - id пассажира

**Survived** бинарная переменная: выжил пассажирил (1) или нет (0)

**Pclass** - класс пассажира

**Name** - имя пассажира

**Sex** - пол пассажира

**Age** - возраст пассажира

**SibSp** - количество родственников (братьев, сестер, супругов) пассажира на борту

**Parch** - количество родственников (родителей / детей) пассажира на борту

**Ticket** - номер билета

**Fare** - тариф (стоимость билета)

**Cabin** - номер кабины

**Embarked** - порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

Так можно обратиться к столбцу:

In [127]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [128]:
data.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [129]:
data.age

AttributeError: 'DataFrame' object has no attribute 'age'

Или к нескольким столбцам сразу:

In [5]:
data[['Age', 'Sex']].head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


A так - к строке по индексу:

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

In [6]:
data.loc[3, ['Name', 'Age', 'Survived']]

Name        Futrelle, Mrs. Jacques Heath (Lily May Peel)
Age                                                 35.0
Survived                                               1
Name: 3, dtype: object

In [7]:
data.iloc[3, 3:5]

Name    Futrelle, Mrs. Jacques Heath (Lily May Peel)
Sex                                           female
Name: 3, dtype: object

In [8]:
data.loc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [9]:
data.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [10]:
data.iloc[1:3] # строки с 1 по 3

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [11]:
data.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [12]:
data.describe()

# data.describe().applymap('{:,.2f}'.format) # чтобы сделать форматирование читабельнее

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [13]:
data[['Age', 'Fare']].describe() # также можно применять только к отдельным колонкам

Unnamed: 0,Age,Fare
count,714.0,891.0
mean,29.699118,32.204208
std,14.526497,49.693429
min,0.42,0.0
25%,20.125,7.9104
50%,28.0,14.4542
75%,38.0,31.0
max,80.0,512.3292


Статистики:

* count - количество непустых значений
* mean - среднее значение
* std - стандартное отклонение – мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от среднего арифметического (mean) находятся точки данных. Чем выше значение стандартного отклонения, тем более разбросаны значения в выборке. И наоборот, чем ниже значение стандартного отклонения, тем более плотно упакованы значения.
* min - минимальное значение
* 25% - 25% перцентиль
* 50% - 50% перцентиль
* 75% - 75% перцентиль
* max - максимальное значение

Подробнее про квантили и перцентили: https://vk.com/@hsotalks-zachem-yaschiku-usy-kvartili-raspredeleniya

In [14]:
data.describe(include=['object'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,B96 B98,S
freq,1,577,7,4,644


In [15]:
data['Age'].min()

0.42

In [16]:
data['Age'].max()

80.0

In [17]:
data['Age'].median()

28.0

In [18]:
data['Age'].quantile(0.9)

50.0

In [19]:
data['Age'].mean()

29.69911764705882

In [20]:
data['Age'] > data['Age'].mean()

0      False
1       True
2      False
3       True
4       True
       ...  
886    False
887    False
888    False
889    False
890     True
Name: Age, Length: 891, dtype: bool

In [21]:
data[data['Age'] > data['Age'].mean()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [22]:
data[data['Age'] > data['Age'].mean()]['Name'].head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
3          Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                              Allen, Mr. William Henry
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
Name: Name, dtype: object

In [23]:
data[(data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S


In [24]:
data[data['Fare'] > 200]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
118,119,0,1,"Baxter, Mr. Quigg Edmond",male,24.0,0,1,PC 17558,247.5208,B58 B60,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
299,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C
311,312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
341,342,1,1,"Fortune, Miss. Alice Elizabeth",female,24.0,3,2,19950,263.0,C23 C25 C27,S
377,378,0,1,"Widener, Mr. Harry Elkins",male,27.0,0,2,113503,211.5,C82,C
380,381,1,1,"Bidois, Miss. Rosalie",female,42.0,0,0,PC 17757,227.525,,C
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [25]:
q = (data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1) & \
    (data['Sex'] == 'female')

In [26]:
data[q].shape

(55, 12)

In [27]:
data[q]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
52,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,
177,178,0,1,"Isham, Miss. Ann Elizabeth",female,50.0,0,0,PC 17595,28.7125,C49,C
194,195,1,1,"Brown, Mrs. James Joseph (Margaret Tobin)",female,44.0,0,0,PC 17610,27.7208,B4,C
195,196,1,1,"Lurette, Miss. Elise",female,58.0,0,0,PC 17569,146.5208,B80,C
215,216,1,1,"Newell, Miss. Madeleine",female,31.0,1,0,35273,113.275,D36,C
218,219,1,1,"Bazzani, Miss. Albina",female,32.0,0,0,11813,76.2917,D15,C


In [28]:
data[(data['Sex'] == 'female') | ((data['Pclass'] == 1))]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S


In [29]:
data[data['PassengerId'] == 2][['Name','Pclass']]

Unnamed: 0,Name,Pclass
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1


In [30]:
data.loc[1:3, 'Survived':'Sex'] # строки с 1 по 3, колонки от Survived до Sex

Unnamed: 0,Survived,Pclass,Name,Sex
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,1,3,"Heikkinen, Miss. Laina",female
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female


In [31]:
data.iloc[1:3, 1:5]

Unnamed: 0,Survived,Pclass,Name,Sex
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female
2,1,3,"Heikkinen, Miss. Laina",female


Кроме того, можно выбирать объекты, удовлетворяющие каким-то свойствам, например, все пассажиры-женщины:

In [32]:
data[data.Sex == 'female'].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Пассажиры первого класса:

In [33]:
data[(data.Pclass == 1) & (data.Sex == 'female')].shape

(94, 12)

Пассажиры первого или второго классов:

In [34]:
data[data.Pclass.isin([1,2])].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


In [35]:
data.Pclass.isin([1, 2])

0      False
1       True
2      False
3       True
4      False
       ...  
886     True
887     True
888    False
889     True
890    False
Name: Pclass, Length: 891, dtype: bool

Пассажиры младше 18:

In [36]:
data[data.Age < 18].shape

(113, 12)

Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [37]:
data[(data.Sex == 'female') & (data.Age > 18) & (
    data.Age < 25) & (data.SibSp == 0) & (data.Parch == 0)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
44,45,1,3,"Devaney, Miss. Margaret Delia",female,19.0,0,0,330958,7.8792,,Q
56,57,1,2,"Rugg, Miss. Emily",female,21.0,0,0,C.A. 31026,10.5,,S
106,107,1,3,"Salkjelsvik, Miss. Anna Kristine",female,21.0,0,0,343120,7.65,,S
141,142,1,3,"Nysten, Miss. Anna Sofia",female,22.0,0,0,347081,7.75,,S
199,200,0,2,"Yrois, Miss. Henriette (""Mrs Harbeck"")",female,24.0,0,0,248747,13.0,,S
289,290,1,3,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,,Q
293,294,0,3,"Haas, Miss. Aloisia",female,24.0,0,0,349236,8.85,,S
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C
345,346,1,2,"Brown, Miss. Amelia ""Mildred""",female,24.0,0,0,248733,13.0,F33,S
369,370,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3,B35,C


Сколько таких путешественниц?

In [38]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25)
     & (data.SibSp == 0) & (data.Parch == 0) & (data.Survived == 0)].shape[0]

7

<hr>

### Задачи

1) Посчитайте количество пассажиров первого класса, которые сели на борт в Саутгемптоне.

In [None]:
# TODO

2) Сколько пассажиров третьего класса, которые путешествовали в компании 2 или более родственников?

In [None]:
# TODO

3) Сколько в среднем стоил билет первого класса?

In [None]:
# TODO

<hr>

Иногда нужно создать новый признак из уже существующих, например, нам интересно, сколько всего родственников путешествовало с каждым пассажиром - просто сложим столбцы SibSp и Parch и поместим сумму в новый столбец FamilySize. Такая процедура называет broadcasting. 

In [39]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0


А теперь давайте создадим переменную, которая бы нам показывала, что пассажир ехал в одиночку. Такой пассажир путешествовал без родственников. Мы напишем условие с помощью анонимной функции (1, если FamilySize равно 0 и 0 во всех остальных случаях) и применим ее к столбцу FamilySize с помощью метода .apply().

In [40]:
data['Alone'] = data['FamilySize'].apply(lambda x: 1 if x == 0 else 0)
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Alone
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,1,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,1,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,0,1


In [41]:
data[data['Alone'] == 0]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Alone
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1,0
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S,4,0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C,1,0
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C,1,0
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S,1,0
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q,5,0


Функция, которую применяем к столбцу, может быть и посложнее. Давайте из каждого имени пассажира достанем его титул. Сначала потренируемся на одном пассажире.

In [42]:
data.loc[0]['Name']

'Braund, Mr. Owen Harris'

Ок, выбрали имя. Это строка. Давайте подумаем, как достать из нее титул. Вроде бы титул всегда после фамилии. Разобьем строку по пробелу и доставим второй (первый по индексу) элемент.

In [43]:
data.loc[0]['Name'].split(', ')[1].split('.')[0]

'Mr'

Ура! Теперь напишем функцию, которая будет забирать титул из имени, а потом применим ее к колонке Name.

In [46]:
def return_title(full_name):
    return full_name.split(', ')[1].split('.')[0] + '.'

Теперь сформируем новый столбец family_name из столбца Name с помощью написанной нами функции:

In [47]:
data['Title'] = data.Name.apply(return_title)

In [48]:
data.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Alone,Title
364,365,0,3,"O'Brien, Mr. Thomas",male,,1,0,370365,15.5,,Q,1,0,Mr.
171,172,0,3,"Rice, Master. Arthur",male,4.0,4,1,382652,29.125,,Q,5,0,Master.
681,682,1,1,"Hassab, Mr. Hammad",male,27.0,0,0,PC 17572,76.7292,D49,C,0,1,Mr.
835,836,1,1,"Compton, Miss. Sara Rebecca",female,39.0,1,1,PC 17756,83.1583,E49,C,2,0,Miss.
133,134,1,2,"Weisz, Mrs. Leopold (Mathilde Francoise Pede)",female,29.0,1,0,228414,26.0,,S,1,0,Mrs.


Кстати, удалить колонку можно так. В нашем анализе мы не будем использовать колонку Ticket, даайте удалим ее.

In [49]:
del data['Ticket']

In [50]:
data['Title'].unique()

array(['Mr.', 'Mrs.', 'Miss.', 'Master.', 'Don.', 'Rev.', 'Dr.', 'Mme.',
       'Ms.', 'Major.', 'Lady.', 'Sir.', 'Mlle.', 'Col.', 'Capt.',
       'the Countess.', 'Jonkheer.'], dtype=object)

In [51]:
data['Title'].nunique()

17

Полезно посмотреть, какие значения содержатся в столбце. Для категориальных данных можно посчитать частоту встречаемости каждого значения с помошью функции value_counts:

In [52]:
data['Title'].value_counts()

Mr.              517
Miss.            182
Mrs.             125
Master.           40
Dr.                7
Rev.               6
Mlle.              2
Major.             2
Col.               2
the Countess.      1
Capt.              1
Ms.                1
Sir.               1
Lady.              1
Mme.               1
Don.               1
Jonkheer.          1
Name: Title, dtype: int64

In [53]:
data['Title'].value_counts(normalize=True) # * 100

Mr.              0.580247
Miss.            0.204265
Mrs.             0.140292
Master.          0.044893
Dr.              0.007856
Rev.             0.006734
Mlle.            0.002245
Major.           0.002245
Col.             0.002245
the Countess.    0.001122
Capt.            0.001122
Ms.              0.001122
Sir.             0.001122
Lady.            0.001122
Mme.             0.001122
Don.             0.001122
Jonkheer.        0.001122
Name: Title, dtype: float64

Очень много уникальных значений! Обычно это не очень хорошо для статистического анализа, давайте все такие титулы переиминуем в Misc (другие).

In [54]:
data['Title'] = data['Title'].apply(lambda x: 'Misc' if x not in ['Mr.', 'Miss.', 'Mrs.', 'Master.'] else x)

In [55]:
data['Title'].value_counts()

Mr.        517
Miss.      182
Mrs.       125
Master.     40
Misc        27
Name: Title, dtype: int64

In [56]:
data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [57]:
data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64

Данные можно сортировать:

In [58]:
data.sort_values(by=['Age']).head() # сортируем по возрасту, по умолчанию сортирвка по возрастанию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,8.5167,,C,1,0,Master.
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,14.5,,S,2,0,Master.
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,19.2583,,C,3,0,Miss.
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,19.2583,,C,3,0,Miss.
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,29.0,,S,2,0,Master.


In [59]:
data.sort_values(by=['Age'], ascending=False).head() # сортируем по возрасту, теперь по убыванию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr.
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr.
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr.
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr.
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr.


In [60]:
data.sort_values(
    by=['Age', 'Fare'],
    ascending=False).head(15)  # сортируем сперва по возрасту (по убыванию),
# потом стоимости билета  (по убыванию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr.
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr.
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr.
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr.
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr.
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,71.0,B22,S,2,0,Misc
672,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,10.5,,S,0,1,Mr.
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,10.5,,S,0,1,Mr.
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,61.9792,B30,C,1,0,Mr.
456,457,0,1,"Millet, Mr. Francis Davis",male,65.0,0,0,26.55,E38,S,0,1,Mr.


In [61]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head(15)
# сортируем сперва по возрасту (по убыванию),
# потом стоимости билета  (по возрастанию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,30.0,A23,S,0,1,Mr.
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,7.775,,S,0,1,Mr.
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,34.6542,A5,C,0,1,Mr.
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,49.5042,,C,0,1,Mr.
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,7.75,,Q,0,1,Mr.
672,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,10.5,,S,0,1,Mr.
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,71.0,B22,S,2,0,Misc
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,10.5,,S,0,1,Mr.
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,7.75,,Q,0,1,Mr.
456,457,0,1,"Millet, Mr. Francis Davis",male,65.0,0,0,26.55,E38,S,0,1,Mr.


И группировать:

In [62]:
data.groupby('Pclass')['Fare'].mean()

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64

In [100]:
data.groupby('Pclass')[['Fare']].mean()

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,84.154687
2,20.662183
3,13.67555


In [64]:
data.groupby('Pclass')[['Fare']].mean().shape

(3, 1)

In [65]:
data.groupby('Pclass')[['Fare']].mean().index

Int64Index([1, 2, 3], dtype='int64', name='Pclass')

In [66]:
data.groupby('Pclass')[['Fare']].mean().reset_index()

Unnamed: 0,Pclass,Fare
0,1,84.154687
1,2,20.662183
2,3,13.67555


In [67]:
data.groupby('Pclass')['Fare'].min()

Pclass
1    0.0
2    0.0
3    0.0
Name: Fare, dtype: float64

In [68]:
data[data['Fare'] == 0]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
179,180,0,3,"Leonard, Mr. Lionel",male,36.0,0,0,0.0,,S,0,1,Mr.
263,264,0,1,"Harrison, Mr. William",male,40.0,0,0,0.0,B94,S,0,1,Mr.
271,272,1,3,"Tornquist, Mr. William Henry",male,25.0,0,0,0.0,,S,0,1,Mr.
277,278,0,2,"Parkes, Mr. Francis ""Frank""",male,,0,0,0.0,,S,0,1,Mr.
302,303,0,3,"Johnson, Mr. William Cahoone Jr",male,19.0,0,0,0.0,,S,0,1,Mr.
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,,0,0,0.0,,S,0,1,Mr.
466,467,0,2,"Campbell, Mr. William",male,,0,0,0.0,,S,0,1,Mr.
481,482,0,2,"Frost, Mr. Anthony Wood ""Archie""",male,,0,0,0.0,,S,0,1,Mr.
597,598,0,3,"Johnson, Mr. Alfred",male,49.0,0,0,0.0,,S,0,1,Mr.
633,634,0,1,"Parr, Mr. William Henry Marsh",male,,0,0,0.0,,S,0,1,Mr.


In [69]:
data.groupby('Pclass')['Fare'].max()

Pclass
1    512.3292
2     73.5000
3     69.5500
Name: Fare, dtype: float64

In [70]:
data.groupby('Pclass')['Fare'].agg(['min', 'max', 'median', 'mean'])

Unnamed: 0_level_0,min,max,median,mean
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0.0,512.3292,60.2875,84.154687
2,0.0,73.5,14.25,20.662183
3,0.0,69.55,8.05,13.67555


In [71]:
data.groupby('Sex') # разбиение всех объектов на 2 группы по полу - возращает просто сгруппированый датафрейм

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd1380758b0>

In [72]:
# группируем по полу и считаем для каждого пассажирова разных классов
data.groupby('Sex')['Pclass'].value_counts()

Sex     Pclass
female  3         144
        1          94
        2          76
male    3         347
        1         122
        2         108
Name: Pclass, dtype: int64

In [73]:
data.groupby('Sex')['Age'].mean() # средний возраст для пассажиров каждого из полов

Sex
female    27.915709
male      30.726645
Name: Age, dtype: float64

## И еще чуть-чуть! Работа с пропущенными значениями.

Если вы помните, то переменная Age содержит пропущенные значения. Давайте посмотрим информацию об этой колонке.


In [74]:
data[['Age']].info()  

# обратите внимание - двойные скобки. Так pandas нам вернет датафрейм из одной колонки, а не список.
# А метод info() работает только с датафреймом

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Age     714 non-null    float64
dtypes: float64(1)
memory usage: 7.1 KB


In [75]:
data.shape

(891, 14)

In [76]:
type(data['Age'])  # вот так - объект подобный списку (Series)

pandas.core.series.Series

In [77]:
type(data[['Age']])  # а вот так - датафрейм

pandas.core.frame.DataFrame

Вернемся к info(). Мы видим, что из 891 наблюдения у нас только 714 ненулевых значений. Значит, у этих пассажиров возраст неизвестен. Ваши идеи, что можно с этим сделать?

Есть разные варианты того, что делать с пропущенными значениями - от "не делать ничего и выкинуть их" до "давайте предскажем их значения с помощью нейронки". Почитать можно здесь: 

https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

Мы с вами попробуем сделать второй по сложности вариант (после не делать ничего) и заменить их средним значением (средним или медианой). Для категориальных данных можно заполнять пропущенные значения модой.

Пропущенные значения могут быть закодированы по-разному - 0, 'No response', '999'. В итоге мы их всегда хотим привести к объекту NaN (not a number), с которым могут работать методы pandas. В нашем датасете они уже нужного формата. В других случаях, нужно будет отфильтровать значения и привести их к нужному виду.


In [78]:
print(data.loc[5, 'Age'])
print(type(data.loc[5, 'Age']))

nan
<class 'numpy.float64'>


In [79]:
data[data['Age'].isnull()].head() 
# выводим значения датафрейма, в которых отсутствует возраст
# Они возращают True методу .isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title
5,6,0,3,"Moran, Mr. James",male,,0,0,8.4583,,Q,0,1,Mr.
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,13.0,,S,0,1,Mr.
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,7.225,,C,0,1,Mrs.
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,7.225,,C,0,1,Mr.
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,7.8792,,Q,0,1,Miss.


In [80]:
data['Age'].median() # вспомним какая у нас медиана

28.0

In [81]:
data['Age_Median'] = data['Age'].fillna(data['Age'].median())  
# сохраняю результат заполнения в новую колонку

In [82]:
data[data['Age'].isnull()].head()  
# смотрим, что произошло с возрастом в новой колонке у тех, у кого он отсутсвовал

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title,Age_Median
5,6,0,3,"Moran, Mr. James",male,,0,0,8.4583,,Q,0,1,Mr.,28.0
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,13.0,,S,0,1,Mr.,28.0
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,7.225,,C,0,1,Mrs.,28.0
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,7.225,,C,0,1,Mr.,28.0
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,7.8792,,Q,0,1,Miss.,28.0


In [83]:
data.head() # А у всех остальных - их нормальный возраст.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title,Age_Median
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.25,,S,1,0,Mr.,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.2833,C85,C,1,0,Mrs.,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,7.925,,S,0,1,Miss.,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.1,C123,S,1,0,Mrs.,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.05,,S,0,1,Mr.,35.0


Такой метод один из самых топорных, но сойдет для первого знакомства или черновика анализа в серьезном исследовании. Давайте попробуем теперь немного улучшить его. Посмотрим, как отличается медианный возраст для мужчин и женщин.

In [84]:
data.groupby('Sex')['Age'].median()

Sex
female    27.0
male      29.0
Name: Age, dtype: float64

In [85]:
data.groupby('Sex')["Age"].transform('median')

0      29.0
1      27.0
2      27.0
3      27.0
4      29.0
       ... 
886    29.0
887    27.0
888    27.0
889    29.0
890    29.0
Name: Age, Length: 891, dtype: float64

Разница два года! Было бы логично в наших данных заполнять недостающие значения по полу.

In [86]:
data["Age_Median_Sex"] = data["Age"].fillna(data.groupby('Sex')["Age"]\
                                            .transform('median'))

In [87]:
data[data['Age'].isnull()].head() 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title,Age_Median,Age_Median_Sex
5,6,0,3,"Moran, Mr. James",male,,0,0,8.4583,,Q,0,1,Mr.,28.0,29.0
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,13.0,,S,0,1,Mr.,28.0,29.0
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,7.225,,C,0,1,Mrs.,28.0,27.0
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,7.225,,C,0,1,Mr.,28.0,29.0
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,7.8792,,Q,0,1,Miss.,28.0,27.0


In [132]:
data.head() # Опять проверяем, что это все применилось только к нужным людям

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median_Sex
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0


Разберем как работает предыдущий кусок кода

In [88]:
# эта функция возвращает нам колонку возраст, где все значения заменены медианой по условию пола
# data.groupby('Sex') - группирует наши значения по полу
# ['Age'] - колонка, с которой работаем
# transform('median') - высчитывает медианный возраст для каждого пола и подставляет ее вместо значения

data.groupby('Sex')['Age'].transform('median').head()

0    29.0
1    27.0
2    27.0
3    27.0
4    29.0
Name: Age, dtype: float64

In [89]:
data.iloc[5]

PassengerId                      6
Survived                         0
Pclass                           3
Name              Moran, Mr. James
Sex                           male
Age                            NaN
SibSp                            0
Parch                            0
Fare                        8.4583
Cabin                          NaN
Embarked                         Q
FamilySize                       0
Alone                            1
Title                          Mr.
Age_Median                    28.0
Age_Median_Sex                29.0
Name: 5, dtype: object

In [90]:
data['Age'] = data['Age'].fillna(data['Age_Median_Sex'])

In [91]:
data.iloc[5]

PassengerId                      6
Survived                         0
Pclass                           3
Name              Moran, Mr. James
Sex                           male
Age                           29.0
SibSp                            0
Parch                            0
Fare                        8.4583
Cabin                          NaN
Embarked                         Q
FamilySize                       0
Alone                            1
Title                          Mr.
Age_Median                    28.0
Age_Median_Sex                29.0
Name: 5, dtype: object

<hr>

## Задание
Заполните осутствующие значения переменной "возраст" на основании титула.

In [101]:
# TODO

<hr>

### Заполнение по моде для категориальных переменных

Тоже самое (почти!) работает и для категориальных переменных.

In [92]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title,Age_Median,Age_Median_Sex
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,80.0,B28,,0,1,Miss.,38.0,38.0
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,80.0,B28,,0,1,Mrs.,62.0,62.0


Давайте посмотрим, что возвращает нам функция мода - не число, как например median или mean, а список. 

In [93]:
data['Embarked'].mode()

0    S
Name: Embarked, dtype: object

Чтобы передать ее результат методу fillna, нам нужно "вытащить" значение из него (а это мы умеем делать - оно лежит под нулевым индексом).

In [94]:
data['Embarked'].mode()[0]

'S'

In [95]:
# применяем
data["Embarked_Mode"] = data["Embarked"].fillna(data['Embarked'].mode()[0])

In [96]:
# проверяем
data.loc[61]

PassengerId                        62
Survived                            1
Pclass                              1
Name              Icard, Miss. Amelie
Sex                            female
Age                              38.0
SibSp                               0
Parch                               0
Fare                             80.0
Cabin                             B28
Embarked                          NaN
FamilySize                          0
Alone                               1
Title                           Miss.
Age_Median                       38.0
Age_Median_Sex                   38.0
Embarked_Mode                       S
Name: 61, dtype: object

In [97]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked,FamilySize,Alone,Title,Age_Median,Age_Median_Sex,Embarked_Mode
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,80.0,B28,,0,1,Miss.,38.0,38.0,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,80.0,B28,,0,1,Mrs.,62.0,62.0,S


### Самое важное! Сохраним результаты изменений таблицы

In [98]:
data.to_csv('titanic_new.csv')