# Python для анализа данных

## Введение в Pandas 

Pandas - библиотека для работы с табличными данными в питоне.
* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html#min
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [1]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd 

In [18]:
data = pd.read_csv('train.csv')

Функция read_csv читает данные из файла формата csv данные и преобразует в pandas.DataFrame. Аналогичная функция read_excel может читать данные в офрмате xls(x).

Посмотрим на наши данные:

In [19]:
data.head(10) # функция head() показывает первые строки датафрейма, по умолчанию 5

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
6,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
8,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
9,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S


In [185]:
data.tail(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [186]:
data.shape # функция shape показывает размерность датафрейма (строк, столбцов)

(891, 12)

In [187]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Описание признаков из [источника данных](https://www.kaggle.com/competitions/titanic/data):

**PassengerId** - id пассажира

**Survived** бинарная переменная: выжил пассажирил (1) или нет (0)

**Pclass** - класс пассажира

**Name** - имя пассажира

**Sex** - пол пассажира

**Age** - возраст пассажира

**SibSp** - количество родственников (братьев, сестер, супругов) пассажира на борту

**Parch** - количество родственников (родителей / детей) пассажира на борту

**Ticket** - номер билета

**Fare** - тариф (стоимость билета)

**Cabin** - номер кабины

**Embarked** - порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

Так можно обратиться к столбцу:

In [188]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [189]:
data.Age.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [190]:
data.age

AttributeError: 'DataFrame' object has no attribute 'age'

Или к нескольким столбцам сразу:

In [13]:
data[['Age', 'Sex']].head()

Unnamed: 0,Age,Sex
0,,
1,,
2,,
3,,
4,,


A так - к строке по индексу:

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

In [14]:
data.loc[3, ['Name', 'Age', 'Survived']]

Name        NaN
Age         NaN
Survived    NaN
Name: 3, dtype: object

In [15]:
data.iloc[3, 3:5]

Name    NaN
Sex     NaN
Name: 3, dtype: object

In [16]:
data.loc[0]

PassengerId    1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,A/...
Survived                                                     NaN
Pclass                                                       NaN
Name                                                         NaN
Sex                                                          NaN
Age                                                          NaN
SibSp                                                        NaN
Parch                                                        NaN
Ticket                                                       NaN
Fare                                                         NaN
Cabin                                                        NaN
Embarked                                                     NaN
Name: 0, dtype: object

In [None]:
data.iloc[0]

In [None]:
data.iloc[1:3] # строки с 1 по 3

In [7]:
data.dtypes
# object - имеется в виду строчной тип данных 

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [6]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [5]:
data.describe()

data.describe().applymap('{:,.2f}'.format) # чтобы сделать форматирование читабельнее
# в расчете пропущенные ячейки не учитываются

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.38,2.31,29.7,0.52,0.38,32.2
std,257.35,0.49,0.84,14.53,1.1,0.81,49.69
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.12,0.0,0.0,7.91
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.45
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.33


In [None]:
data[['Age', 'Fare', 'Survived']].describe() # также можно применять только к отдельным колонкам

Статистики:

* count - количество непустых значений
* mean - среднее значение
* std - стандартное отклонение – мера разброса в наборе числовых данных. Выражаясь простыми словами, насколько далеко от среднего арифметического (mean) находятся точки данных. Чем выше значение стандартного отклонения, тем более разбросаны значения в выборке. И наоборот, чем ниже значение стандартного отклонения, тем более плотно упакованы значения.
* min - минимальное значение
* 25% - 25% перцентиль
* 50% - 50% перцентиль
* 75% - 75% перцентиль
* max - максимальное значение

Подробнее про квантили и перцентили: https://vk.com/@hsotalks-zachem-yaschiku-usy-kvartili-raspredeleniya

In [9]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [10]:
data.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [20]:
data.describe(include=['object'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,892,892,892,204,890
unique,891,2,681,147,3
top,"Heikkinen, Miss. Laina",male,1601,B96 B98,S
freq,2,577,7,4,645


In [21]:
data['Age'].min()

0.42

In [22]:
data['Age'].max()

80.0

In [23]:
data['Age'].median()

28.0

In [24]:
data['Age'].quantile(0.9)

50.0

In [25]:
data['Age'].mean()

29.693944055944055

In [26]:
data['Age'] > data['Age'].mean()

0      False
1       True
2      False
3      False
4       True
       ...  
887    False
888    False
889    False
890    False
891     True
Name: Age, Length: 892, dtype: bool

In [27]:
data[data['Age'] > data['Age'].mean()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
7,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
874,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
880,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
882,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
886,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [29]:
data[data['Age'] > data['Age'].mean()]['Name'].head(10)

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
4          Futrelle, Mrs. Jacques Heath (Lily May Peel)
5                              Allen, Mr. William Henry
7                               McCarthy, Mr. Timothy J
12                             Bonnell, Miss. Elizabeth
14                          Andersson, Mr. Anders Johan
16                     Hewlett, Mrs. (Mary D Kingcome) 
19    Vander Planke, Mrs. Julius (Emelia Maria Vande...
21                                 Fynney, Mr. Joseph J
22                                Beesley, Mr. Lawrence
Name: Name, dtype: object

In [30]:
data[(data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
7,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
12,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
31,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
863,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
868,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S
872,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
873,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S


In [None]:
data[data['Fare'] > 200] #.shape[0]

In [31]:
q = (data['Age'] > data['Age'].mean()) & (data['Pclass'] == 1) & \
    (data['Sex'] == 'female')

In [32]:
data[q].shape
# 55- кол-во строк, 12 - кол-во колонок

(55, 12)

In [33]:
data[q]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
12,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
53,53,1,1,"Harper, Mrs. Henry Sleeper (Myna Haxtun)",female,49.0,1,0,PC 17572,76.7292,D33,C
62,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,
178,178,0,1,"Isham, Miss. Ann Elizabeth",female,50.0,0,0,PC 17595,28.7125,C49,C
195,195,1,1,"Brown, Mrs. James Joseph (Margaret Tobin)",female,44.0,0,0,PC 17610,27.7208,B4,C
196,196,1,1,"Lurette, Miss. Elise",female,58.0,0,0,PC 17569,146.5208,B80,C
216,216,1,1,"Newell, Miss. Madeleine",female,31.0,1,0,35273,113.275,D36,C
219,219,1,1,"Bazzani, Miss. Albina",female,32.0,0,0,11813,76.2917,D15,C


In [None]:
data[(data['Sex'] == 'female') | ((data['Pclass'] == 1))]

In [34]:
data[data['PassengerId'] == 2][['Name','Pclass']]

Unnamed: 0,Name,Pclass
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1


In [None]:
loc работает с индексами(которые могут быть слова)
iloc работает с относительными индексами, т.е. только циферки от 0 ..

In [None]:
data.loc[1:3, 'Survived':'Sex'] # строки с 1 по 3, колонки от Survived до Sex

In [None]:
data.iloc[1:3, 1:5]

Кроме того, можно выбирать объекты, удовлетворяющие каким-то свойствам, например, все пассажиры-женщины:

In [None]:
data[data.Sex == 'female'].head()

Пассажиры первого класса:

In [None]:
data[(data.Pclass == 1) & (data.Sex == 'female')].shape

Пассажиры первого или второго классов: # (равно предыдущему выражению)

In [None]:
data[data.Pclass.isin([1,2])].head()

In [None]:
data.Pclass.isin([1, 2])

Пассажиры младше 18:

In [None]:
data[data.Age < 18].shape

Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (
    data.Age < 25) & (data.SibSp == 0) & (data.Parch == 0)]

Сколько таких путешественниц?

In [None]:
data[(data.Sex == 'female') & (data.Age > 18) & (data.Age < 25)
     & (data.SibSp == 0) & (data.Parch == 0) & (data.Survived == 0)].shape[0]

<hr>

### Задачи

1) Посчитайте количество пассажиров первого класса, которые сели на борт в Саутгемптоне.

In [None]:
data

In [None]:
# TODO
data[(data['Pclass'] == 1) & (data['Embarked'] == 'S')].shape[0]

2) Сколько пассажиров третьего класса, которые путешествовали в компании 2 или более родственников?

In [None]:
# TODO
data[(data['Pclass'] == 3) & (data['SibSp'] + data['Parch'] >= 2) ] #.shape

3) Сколько в среднем стоил билет первого класса?

In [None]:
# TODO
round(data[(data['Pclass'] == 1)]['Fare'].mean(), 2)

<hr>

Иногда нужно создать новый признак из уже существующих, например, нам интересно, сколько всего родственников путешествовало с каждым пассажиром - просто сложим столбцы SibSp и Parch и поместим сумму в новый столбец FamilySize. Такая процедура называет broadcasting. 

In [None]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.head()

In [None]:
data.sample(5) #рандомный набор

А теперь давайте создадим переменную, которая бы нам показывала, что пассажир ехал в одиночку. Такой пассажир путешествовал без родственников. Мы напишем условие с помощью анонимной функции (1, если FamilySize равно 0 и 0 во всех остальных случаях) и применим ее к столбцу FamilySize с помощью метода .apply().

In [None]:
data['Alone'] = data['FamilySize'].apply(lambda x: 1 if x == 0 else 0)
data.head()

In [None]:
data[data['Alone'] == 0]

Функция, которую применяем к столбцу, может быть и посложнее. Давайте из каждого имени пассажира достанем его титул. Сначала потренируемся на одном пассажире.

In [None]:
data.loc[0]['Name']

Ок, выбрали имя. Это строка. Давайте подумаем, как достать из нее титул. Вроде бы титул всегда после фамилии. Разобьем строку по пробелу и доставим второй (первый по индексу) элемент.

In [None]:
data.loc[0]['Name'].split(', ')[1].split('.')[0]

Ура! Теперь напишем функцию, которая будет забирать титул из имени, а потом применим ее к колонке Name.

In [35]:
def return_title(full_name):
    return full_name.split(', ')[1].split('.')[0] + '.'

Теперь сформируем новый столбец family_name из столбца Name с помощью написанной нами функции:

In [36]:
data['Title'] = data.Name.apply(return_title)

In [37]:
data.sample(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
244,244,0,3,"Maenpaa, Mr. Matti Alexanteri",male,22.0,0,0,STON/O 2. 3101275,7.125,,S,Mr.
56,56,1,1,"Woolner, Mr. Hugh",male,,0,0,19947,35.5,C52,S,Mr.
826,826,0,3,"Flynn, Mr. John",male,,0,0,368323,6.95,,Q,Mr.
803,803,1,1,"Carter, Master. William Thornton II",male,11.0,1,2,113760,120.0,B96 B98,S,Master.
377,377,1,3,"Landergren, Miss. Aurora Adelia",female,22.0,0,0,C 7077,7.25,,S,Miss.


Кстати, удалить колонку можно так. В нашем анализе мы не будем использовать колонку Ticket, даайте удалим ее.

In [None]:
del data['Ticket']

In [42]:
data['Title'].unique()

array(['Mr.', 'Mrs.', 'Miss.', 'Master.', 'Don.', 'Rev.', 'Dr.', 'Mme.',
       'Ms.', 'Major.', 'Lady.', 'Sir.', 'Mlle.', 'Col.', 'Capt.',
       'the Countess.', 'Jonkheer.'], dtype=object)

In [39]:
data['Title'].nunique()

17

Полезно посмотреть, какие значения содержатся в столбце. Для категориальных данных можно посчитать частоту встречаемости каждого значения с помошью функции value_counts:

In [43]:
data['Title'].value_counts()

Title
Mr.              517
Miss.            183
Mrs.             125
Master.           40
Dr.                7
Rev.               6
Mlle.              2
Major.             2
Col.               2
the Countess.      1
Capt.              1
Ms.                1
Sir.               1
Lady.              1
Mme.               1
Don.               1
Jonkheer.          1
Name: count, dtype: int64

In [44]:
data['Title'].value_counts(normalize=True) # * 100

Title
Mr.              0.579596
Miss.            0.205157
Mrs.             0.140135
Master.          0.044843
Dr.              0.007848
Rev.             0.006726
Mlle.            0.002242
Major.           0.002242
Col.             0.002242
the Countess.    0.001121
Capt.            0.001121
Ms.              0.001121
Sir.             0.001121
Lady.            0.001121
Mme.             0.001121
Don.             0.001121
Jonkheer.        0.001121
Name: proportion, dtype: float64

Очень много уникальных значений! Обычно это не очень хорошо для статистического анализа, давайте все такие титулы переиминуем в Misc (другие).

In [45]:
data['Title'] = data['Title'].apply(lambda x: 'Misc' if x not in ['Mr.', 'Miss.', 'Mrs.', 'Master.'] else x)

In [46]:
data['Title'].value_counts()

Title
Mr.        517
Miss.      183
Mrs.       125
Master.     40
Misc        27
Name: count, dtype: int64

In [47]:
data['Pclass'].value_counts()

Pclass
3    492
1    216
2    184
Name: count, dtype: int64

In [48]:
data['Embarked'].value_counts()

Embarked
S    645
C    168
Q     77
Name: count, dtype: int64

Данные можно сортировать:

In [50]:
data.sort_values(by=['Age']).head() # сортируем по возрасту, по умолчанию сортирвка по возрастанию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
804,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C,Master.
756,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S,Master.
645,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C,Miss.
470,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C,Miss.
79,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S,Master.


In [53]:
data.sort_values(by=['Age']).iloc[0]
data.sort_values(by=['Age']).iloc[803]

PassengerId                                452
Survived                                     0
Pclass                                       3
Name           Hagland, Mr. Ingvald Olai Olsen
Sex                                       male
Age                                        NaN
SibSp                                        1
Parch                                        0
Ticket                                   65303
Fare                                   19.9667
Cabin                                      NaN
Embarked                                     S
Title                                      Mr.
Name: 452, dtype: object

In [None]:
data.sort_values(by=['Age'], ascending=False).head() # сортируем по возрасту, теперь по убыванию

In [54]:
data.sort_values(
    by=['Age', 'Fare'],
    ascending=False).head(15)  # сортируем сперва по возрасту (по убыванию),
# потом по стоимости билета  (по убыванию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
631,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S,Mr.
852,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S,Mr.
494,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,Mr.
97,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,Mr.
117,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,Mr.
746,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0,B22,S,Misc
673,673,0,2,"Mitchell, Mr. Henry Michael",male,70.0,0,0,C.A. 24580,10.5,,S,Mr.
34,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S,Mr.
55,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C,Mr.
457,457,0,1,"Millet, Mr. Francis Davis",male,65.0,0,0,13509,26.55,E38,S,Mr.


In [None]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head(15)
# сортируем сперва по возрасту (по убыванию),
# потом стоимости билета  (по возрастанию)

И группировать:

In [55]:
data.groupby('Pclass')['Fare'].mean()

Pclass
1    84.154687
2    20.662183
3    13.663862
Name: Fare, dtype: float64

In [56]:
data.groupby('Pclass')[['Fare']].mean() # так просто симпатичней выведет

Unnamed: 0_level_0,Fare
Pclass,Unnamed: 1_level_1
1,84.154687
2,20.662183
3,13.663862


In [57]:
data.groupby('Pclass')[['Fare']].mean().shape

(3, 1)

In [58]:
data.groupby('Pclass')[['Fare']].mean().index

Index([1, 2, 3], dtype='int64', name='Pclass')

In [62]:
data.groupby('Pclass')[['Fare']].mean().reset_index()

Unnamed: 0,Pclass,Fare
0,1,84.154687
1,2,20.662183
2,3,13.663862


In [63]:
data.groupby('Pclass')['Fare'].min()

Pclass
1    0.0
2    0.0
3    0.0
Name: Fare, dtype: float64

In [None]:
data[data['Fare'] == 0]

In [None]:
data.groupby('Pclass')['Fare'].max()

In [64]:
data.groupby('Pclass')['Fare'].agg(['min', 'max', 'median', 'mean'])

Unnamed: 0_level_0,min,max,median,mean
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0.0,512.3292,60.2875,84.154687
2,0.0,73.5,14.25,20.662183
3,0.0,69.55,8.05,13.663862


In [65]:
data.groupby('Sex') # разбиение всех объектов на 2 группы по полу - возращает просто сгруппированый датафрейм

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000238AA00A590>

In [66]:
# группируем по полу и считаем для каждого пассажирова разных классов
data.groupby('Sex')['Pclass'].value_counts()

Sex     Pclass
female  3         145
        1          94
        2          76
male    3         347
        1         122
        2         108
Name: count, dtype: int64

In [None]:
data.groupby('Sex')['Age'].mean() # средний возраст для пассажиров каждого из полов

## И еще чуть-чуть! Работа с пропущенными значениями.

Если вы помните, то переменная Age содержит пропущенные значения. Давайте посмотрим информацию об этой колонке.


In [69]:
data['Age']

0      22.0
1      38.0
2      26.0
3      26.0
4      35.0
       ... 
887    27.0
888    19.0
889     NaN
890    26.0
891    32.0
Name: Age, Length: 892, dtype: float64

In [67]:
data[['Age']].info()  

# обратите внимание - двойные скобки. Так pandas нам вернет датафрейм из одной колонки, а не список.
# А метод info() работает только с датафреймом

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 892 entries, 0 to 891
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Age     715 non-null    float64
dtypes: float64(1)
memory usage: 7.1 KB


In [70]:
data.shape

(892, 13)

In [71]:
type(data['Age'])  # вот так - объект подобный списку (Series)

pandas.core.series.Series

In [72]:
type(data[['Age']])  # а вот так - датафрейм

pandas.core.frame.DataFrame

Вернемся к info(). Мы видим, что из 891 наблюдения у нас только 714 ненулевых значений. Значит, у этих пассажиров возраст неизвестен. Ваши идеи, что можно с этим сделать?

Есть разные варианты того, что делать с пропущенными значениями - от "не делать ничего и выкинуть их" до "давайте предскажем их значения с помощью нейронки". Почитать можно здесь: 

https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

Мы с вами попробуем сделать второй по сложности вариант (после не делать ничего) и заменить их средним значением (средним или медианой). Для категориальных данных можно заполнять пропущенные значения модой.

Пропущенные значения могут быть закодированы по-разному - 0, 'No response', '999'. В итоге мы их всегда хотим привести к объекту NaN (not a number), с которым могут работать методы pandas. В нашем датасете они уже нужного формата. В других случаях, нужно будет отфильтровать значения и привести их к нужному виду.


In [192]:
print(data.loc[5, 'Age'])
print(type(data.loc[5, 'Age']))

nan
<class 'numpy.float64'>


In [73]:
data['Age'].isnull()

0      False
1      False
2      False
3      False
4      False
       ...  
887    False
888    False
889     True
890    False
891    False
Name: Age, Length: 892, dtype: bool

In [193]:
data[data['Age'].isnull()].head() 
# выводим значения датафрейма, в которых отсутствует возраст
# Они возращают True методу .isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q


In [74]:
data['Age'].median() # вспомним какая у нас медиана

28.0

In [76]:
data['Age_Median'] = data['Age'].fillna(data['Age'].median())   #fillna сделает расчет только для полей которые Nan
# сохраняю результат заполнения в новую колонку

In [77]:
data[data['Age'].isnull()].head(10)  
# смотрим, что произошло с возрастом в новой колонке у тех, у кого он отсутсвовал

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,Age_Median
6,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,Mr.,28.0
18,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,Mr.,28.0
20,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,Mrs.,28.0
27,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,Mr.,28.0
29,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,Miss.,28.0
30,30,0,3,"Todoroff, Mr. Lalio",male,,0,0,349216,7.8958,,S,Mr.,28.0
32,32,1,1,"Spencer, Mrs. William Augustus (Marie Eugenie)",female,,1,0,PC 17569,146.5208,B78,C,Mrs.,28.0
33,33,1,3,"Glynn, Miss. Mary Agatha",female,,0,0,335677,7.75,,Q,Miss.,28.0
37,37,1,3,"Mamee, Mr. Hanna",male,,0,0,2677,7.2292,,C,Mr.,28.0
43,43,0,3,"Kraeff, Mr. Theodor",male,,0,0,349253,7.8958,,C,Mr.,28.0


In [78]:
data.head() # А у всех остальных - их нормальный возраст.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,Age_Median
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr.,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs.,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss.,26.0
3,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss.,26.0
4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs.,35.0


Такой метод один из самых топорных, но сойдет для первого знакомства или черновика анализа в серьезном исследовании. Давайте попробуем теперь немного улучшить его. Посмотрим, как отличается медианный возраст для мужчин и женщин.

In [79]:
data.groupby('Sex')['Age'].median()

Sex
female    27.0
male      29.0
Name: Age, dtype: float64

In [80]:
data.groupby('Sex')["Age"].transform('median')

0      29.0
1      27.0
2      27.0
3      27.0
4      27.0
       ... 
887    29.0
888    27.0
889    27.0
890    29.0
891    29.0
Name: Age, Length: 892, dtype: float64

Разница два года! Было бы логично в наших данных заполнять недостающие значения по полу.

In [200]:
data["Age_Median_Sex"] = data["Age"].fillna(data.groupby('Sex')["Age"]\
                                            .transform('median'))

In [201]:
data[data['Age'].isnull()].head() 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,28.0,29.0
17,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,28.0,29.0
19,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,28.0,27.0
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,28.0,29.0
28,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,28.0,27.0


In [202]:
data.head(6) # Опять проверяем, что это все применилось только к нужным людям

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,22.0,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,38.0,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,26.0,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,35.0,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0,35.0
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,28.0,29.0


Разберем как работает предыдущий кусок кода

In [203]:
# эта функция возвращает нам колонку возраст, где все значения заменены медианой по условию пола
# data.groupby('Sex') - группирует наши значения по полу
# ['Age'] - колонка, с которой работаем
# transform('median') - высчитывает медианный возраст для каждого пола и подставляет ее вместо значения

data.groupby('Sex')['Age'].transform('median').head()

0    29.0
1    27.0
2    27.0
3    27.0
4    29.0
Name: Age, dtype: float64

In [82]:
data.iloc[5]

PassengerId                           5
Survived                              0
Pclass                                3
Name           Allen, Mr. William Henry
Sex                                male
Age                                35.0
SibSp                                 0
Parch                                 0
Ticket                           373450
Fare                               8.05
Cabin                               NaN
Embarked                              S
Title                               Mr.
Age_Median                         35.0
Name: 5, dtype: object

In [180]:
# data['Age'] = data['Age'].fillna(data['Age_Median_Sex'])

In [181]:
data.iloc[5]

PassengerId                      6
Survived                         0
Pclass                           3
Name              Moran, Mr. James
Sex                           male
Age                           29.0
SibSp                            0
Parch                            0
Ticket                      330877
Fare                        8.4583
Cabin                          NaN
Embarked                         Q
Age_Median                    28.0
Age_Median_Sex                29.0
Name: 5, dtype: object

<hr>

## Задание
Заполните осутствующие значения переменной "возраст" на основании титула.

In [95]:
data[data['Age'].isnull()].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,Age_Median,Age_mean_Title
6,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,Mr.,28.0,32.36809
18,18,1,2,"Williams, Mr. Charles Eugene",male,,0,0,244373,13.0,,S,Mr.,28.0,32.36809
20,20,1,3,"Masselmani, Mrs. Fatima",female,,0,0,2649,7.225,,C,Mrs.,28.0,35.898148
27,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,Mr.,28.0,32.36809
29,29,1,3,"O'Dwyer, Miss. Ellen ""Nellie""",female,,0,0,330959,7.8792,,Q,Miss.,28.0,21.802721


In [88]:
data['Age_mean_Title'] = data.groupby('Title')['Age'].transform('mean')

In [92]:
data['Age_mean_Title'] = data['Age'].fillna(data.groupby('Title')['Age'].transform('mean'))

In [206]:
data.Age.isna().sum()

177

In [213]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,22.0,22.0,Mr.
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,38.0,38.0,Mrs.
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,26.0,26.0,Miss.
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,35.0,35.0,Mrs.
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,35.0,35.0,Mr.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,27.0,27.0,Rev.
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,19.0,19.0,Miss.
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,28.0,27.0,Miss.
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,26.0,26.0,Mr.


In [236]:
data.groupby('Title')["Age"].median()

Title
Master.     3.5
Misc       44.5
Miss.      21.0
Mr.        30.0
Mrs.       35.0
Name: Age, dtype: float64

In [240]:
# TODO
# data["MedianAge"] = 
data["MedianAge"] = data['Age'].fillna(data.groupby('Title')["Age"].transform('median'))
#                                             .transform('median')
data.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex,Title,MedianAge
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,22.0,22.0,Mr.,22.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,38.0,38.0,Mrs.,38.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,26.0,26.0,Miss.,26.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,35.0,35.0,Mrs.,35.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,35.0,35.0,Mr.,35.0
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,28.0,29.0,Mr.,30.0
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S,54.0,54.0,Mr.,54.0
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S,2.0,2.0,Master.,2.0
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S,27.0,27.0,Mrs.,27.0
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C,14.0,14.0,Mrs.,14.0


<hr>

### Заполнение по моде для категориальных переменных

Тоже самое (почти!) работает и для категориальных переменных.

In [241]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex,Title,MedianAge
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,38.0,38.0,Miss.,38.0
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,62.0,62.0,Mrs.,62.0


Давайте посмотрим, что возвращает нам функция мода - не число, как например median или mean, а список. 

In [242]:
data['Embarked'].mode()

0    S
Name: Embarked, dtype: object

Чтобы передать ее результат методу fillna, нам нужно "вытащить" значение из него (а это мы умеем делать - оно лежит под нулевым индексом).

In [243]:
data['Embarked'].mode()[0]

'S'

In [244]:
# применяем
data["Embarked_Mode"] = data["Embarked"].fillna(data['Embarked'].mode()[0])

In [245]:
# проверяем
data.loc[61]

PassengerId                        62
Survived                            1
Pclass                              1
Name              Icard, Miss. Amelie
Sex                            female
Age                              38.0
SibSp                               0
Parch                               0
Ticket                         113572
Fare                             80.0
Cabin                             B28
Embarked                          NaN
Age_Median                       38.0
Age_Median_Sex                   38.0
Title                           Miss.
MedianAge                        38.0
Embarked_Mode                       S
Name: 61, dtype: object

In [246]:
data[data["Embarked"].isnull()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_Median,Age_Median_Sex,Title,MedianAge,Embarked_Mode
61,62,1,1,"Icard, Miss. Amelie",female,38.0,0,0,113572,80.0,B28,,38.0,38.0,Miss.,38.0,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,,62.0,62.0,Mrs.,62.0,S


### Самое важное! Сохраним результаты изменений таблицы

In [98]:
# data.to_csv('titanic_new.csv', index = False)
data.to_csv('titanic_new.csv')

In [99]:
df = pd.read_csv('titanic_new.csv')
df.head(6)

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title,Age_Median,Age_mean_Title
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr.,22.0,22.0
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs.,38.0,38.0
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss.,26.0,26.0
3,3,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss.,26.0,26.0
4,4,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs.,35.0,35.0
5,5,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr.,35.0,35.0
