# Анализ данных на Python

## Библиотека `Pandas`
#### <i>Малкова Ксения, Преподаватель ФКН НИУ ВШЭ, kemalkova@hse.ru</i>

Продолжаем работать с данными о пассажирах Титаника

1. **`PassengerId`** - id пассажира
2. **`Survived`** бинарная переменная: выжил пассажирил (1) или нет (0)
3. **`Pclass`** - класс пассажира
4. **`Name`** - имя пассажира
5. **`Sex`** - пол пассажира
6. **`Age`** - возраст пассажира
7. **`SibSp`** - количество родственников (братьев, сестер, супругов) пассажира на борту
8. **`Parch`** - количество родственников (родителей / детей) пассажира на борту
9. **`Ticket`** - номер билета
10. **`Fare`** - тариф (стоимость билета)
11. **`Cabin`** - номер кабины
12. **`Embarked`** - порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

In [31]:
import pandas as pd

In [32]:
data = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv')
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## **Фильтрация данных** <a name="part4"></a>

Фильтрация данных в pandas — это способ выбрать только те строки из DataFrame, которые соответствуют определенным **условиям**

### 1. Фильтрация по одному условию

**Синтаксис**

```python
    датафрейм[датафрейм['признак'] ==/!=/</<=/>/>= значение]
```

Где `датафрейм['признак'] ==/!=/</<=/>/>= значение` - **условие**

In [33]:
# Посмотрим на то, как выглядит условие (типа Bool Series)
data['Sex'] == 'female'

0      False
1       True
2       True
3       True
4      False
       ...  
886    False
887     True
888     True
889    False
890    False
Name: Sex, Length: 891, dtype: bool

Условие `data['Sex'] == 'female'` - это так называемый Bool Series. Он создается с теми же индексами, что и изначальный датафрейм `data`. Каждый элемент этого массива равен **True**, если значение в соответствующей строке столбца Sex равно female (условие выполняется), и **False** в противном случае (условие не выполняется).

In [36]:
# сделаем фильтрацию датафрейма по условию выше
# выведутся только строки, соответствующие female
data[data['Sex'] == 'female']

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [37]:
# можно записать условие в отдельную переменную
condition = data['Sex'] == 'female'
data[condition]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


### 2. Несколько условий

Для фильтрации данных по нескольким условиям нужно просто следовать следующей мантре:

1. **Использование побитовых операторов** (не бойтесь этого слова - это просто символы, которые математики назвали страшным словом, чтобы пугать народ)
    - **`&`** (апперсант) - эквивалент **логического И**, **`and`**. Используется для условий, которые должны быть *одновременно* истинными
    - **`|`** - эквивалент **логического ИЛИ**, **`or`**. Используется для условий, где *достаточно, чтобы одно из них было истинным*
    - **`~`** (тильда) - эквивалент **отрицания**, **`not`**. Используется для отрицания условия

2. **Использование скобок**
    - Всегда используйте скобки вокруг каждого условия! С помощью них пандас понимает, что с чем мы хотим объединить. Если не поставите скобки - пандас заругается!
    - Внутри скобок указывайте условия, а за пределами скобок объединяйте их с помощью побитовых операторов (`&`, `|`, `~`)

**Синтаксис**

```python
    датафрейм[(условие_1) & или | или ~ (условие_2) ...]
```

In [39]:
# 1. Два условия - выводим Женщин (условие 1) старше 30 лет (условие два)
data[(data["Sex"] == 'female') & (data["Age"] > 30)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [40]:
# Можем вывести и другим образом, записав условия в переменные
condition_1 = data["Sex"] == 'female'
condition_2 = data["Age"] > 30
data[condition_1 & condition_2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
18,19,0,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female,31.0,1,0,345763,18.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
862,863,1,1,"Swift, Mrs. Frederick Joel (Margaret Welles Ba...",female,48.0,0,0,17466,25.9292,D17,S
865,866,1,2,"Bystrom, Mrs. (Karolina)",female,42.0,0,0,236852,13.0000,,S
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C


In [41]:
data[condition_1 and condition_2]  # будет ошибка

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

Обратите внимание, что во втором случае не обязательно писать скобки, потому что пандасу как бы "нечего путать". А в первом случае, без записи условий в переменные, если мы забудем поставить скобки над каждым условием, пандам захочет объединить `female` и `data["Age"]`, что сделать никак нельзя (и что не следует нашим изначальным желаниям):

In [42]:
data[data["Sex"] == 'female' & data["Age"] > 30]

TypeError: Cannot perform 'rand_' with a dtyped [float64] array and scalar of type [bool]

Поэтому мой совет - просто ставьте всегда скобки над условиями, чтобы не путаться. Вне зависимости от того, используете ли вы фильтрацию сразу или пишите условия в отдельные переменные. 

In [43]:
# 2. Фильтрация по трем условиям: выводим женщин (условие 1) из класса 1 (условие 2) или из класса 2 (условие 3)
condition_1 = data["Pclass"] == 1
condition_2 = data["Pclass"] == 2
condition_3 = data["Sex"] == 'female'

data[((condition_1) | (condition_2)) & (condition_3)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S


In [44]:
# 3. Фильтрация по четырем условиям - девушки (условие 1) от 18 лет (условие 2)
# севшие в порту Cherbourg(С) (условие 3), или Southampton (S) (условие 4)

cond1 = data['Sex'] == 'female'
cond2 = data['Age'] > 18
cond3 = (data['Embarked'] =='S') | (data['Embarked'] =='C')

data[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S


In [45]:
# 4. Фильтрация по пяти условиям: девушки (условие 1) от 18 до 25 (условие 2 и 3), 
# путешествующие в одиночку (без каких-либо родственников) - условия 4 и 5
data[(data['Sex'] == 'female') & (data['Age'] > 18) & (data['Age'] < 25) &
     (data['SibSp'] == 0) & (data['Parch'] == 0)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
44,45,1,3,"Devaney, Miss. Margaret Delia",female,19.0,0,0,330958,7.8792,,Q
56,57,1,2,"Rugg, Miss. Emily",female,21.0,0,0,C.A. 31026,10.5,,S
106,107,1,3,"Salkjelsvik, Miss. Anna Kristine",female,21.0,0,0,343120,7.65,,S
141,142,1,3,"Nysten, Miss. Anna Sofia",female,22.0,0,0,347081,7.75,,S
199,200,0,2,"Yrois, Miss. Henriette (""Mrs Harbeck"")",female,24.0,0,0,248747,13.0,,S
289,290,1,3,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,,Q
293,294,0,3,"Haas, Miss. Aloisia",female,24.0,0,0,349236,8.85,,S
310,311,1,1,"Hays, Miss. Margaret Bechstein",female,24.0,0,0,11767,83.1583,C54,C
345,346,1,2,"Brown, Miss. Amelia ""Mildred""",female,24.0,0,0,248733,13.0,F33,S
369,370,1,1,"Aubart, Mme. Leontine Pauline",female,24.0,0,0,PC 17477,69.3,B35,C


### 3. Подсчет количества наблюдений после фильтрации `.shape`

In [46]:
data_filtered = data[
    (data['Sex'] == 'female') & 
    (data['Age'] > 18) & 
    (data.Age < 25) & 
    (data.SibSp == 0) & 
    (data.Parch == 0)
    ]

print(data_filtered.shape)      # размер датафрейма после фильтрации (число наблюдений, число столбцов)
print(data_filtered.shape[0])   # число наблюдений после фильтрации

(25, 12)
25


## **Сортировка данных** `.sort_values()` <a name="part5"></a>

In [19]:
data.sort_values(by='Age').head(10)             # сортируем по возрасту, по умолчанию сортирвка по возрастанию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.75,,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
386,387,0,3,"Goodwin, Master. Sidney Leonard",male,1.0,5,2,CA 2144,46.9,,S
172,173,1,3,"Johnson, Miss. Eleanor Ileen",female,1.0,1,1,347742,11.1333,,S
183,184,1,2,"Becker, Master. Richard F",male,1.0,2,1,230136,39.0,F4,S


In [20]:
data.sort_values(by='Age', ascending=False)     # сортируем по возрасту, теперь по убыванию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [21]:
data.sort_values(by=['Age', 'Fare'], ascending=False).head()    # сортируем сперва по возрасту (по убыванию),
                                                                # потом по стоимости билета  (по убыванию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


In [22]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head()    # сортируем сперва возрасту (по убыванию),
                                                                        # потом по стоимости билета  (по возрастанию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


## **Удаление повторений** `.drop_duplicates()`

In [23]:
df1 = pd.DataFrame()
df1["Блогер"] = ['Катя', 'Иван', 'Катя', 'Мария']
df1["Подписчики"] = [1500, 2300, 1500, 1200]
df1

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
2,Катя,1500
3,Мария,1200


In [24]:
df1.drop_duplicates()

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
3,Мария,1200


In [25]:
df2 = pd.DataFrame()
df2["Блогер"] = ['Катя', 'Иван', 'Катя', 'Мария']
df2["Подписчики"] = [1500, 2300, 1600, 1200]        # Теперь у Кати два различных значения количества ее подписчиков
df2

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
2,Катя,1600
3,Мария,1200


In [26]:
df2.drop_duplicates()       # Так остается две записи с числом подписчиков Кати

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
2,Катя,1600
3,Мария,1200


In [27]:
# Удаляем дубликаты по столбцу - так на Катю теперь приходится одна запись
df2.drop_duplicates('Блогер')

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
3,Мария,1200


In [28]:
df2.drop_duplicates('Блогер', ignore_index=True)    # С помощью 'ignore_index'=True можно сделать индексы новыми, 
                                                    # от 0 до n (n - число записей в удаленной от дубликатов таблице)

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
2,Мария,1200


In [29]:
df2.drop_duplicates('Блогер', keep='last')      # Можно сохранять не первое вхождение 'дубликата', а последнее

Unnamed: 0,Блогер,Подписчики
1,Иван,2300
2,Катя,1600
3,Мария,1200


In [30]:
df2.drop_duplicates(['Блогер', 'Подписчики'])   # Можно удалять дубликаты по нескольким столбцам

Unnamed: 0,Блогер,Подписчики
0,Катя,1500
1,Иван,2300
2,Катя,1600
3,Мария,1200
