# Введение в Pandas

## **Датафреймы. Библиотека `Pandas`**

Pandas — библиотека для работы с табличными данными в питоне.

Numpy — библиотека для выполнения арифметических операций в питоне. 

In [1]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd
import numpy as np # импортируем библиотеку numpy и называем её np

### Создание собственного датафрейма

1. Создаем пустой датафрейм с помощью функции `DataFrame()` из библиотеки `pandas`

In [2]:
df = pd.DataFrame()

In [3]:
df # выводим датафрейм

In [4]:
type(df)

pandas.core.frame.DataFrame

2. Добавялем в, пока что пустой, датафрейм `df` столбец **a** с данными [10, 20, 30]



```
датафрейм[столбец] = [строка 1, строка 2, ...]
```



In [11]:
# создаем колонки "а" и помещаем в нее столбец с данными - [10, 20, 30]
df["c"] = [10, 20, 30]
df["a"] = ['one', 12, 13]
df["a"] = [1, 12, 13]

In [12]:
df

Unnamed: 0,c,a
0,10,1
1,20,12
2,30,13


В датафрейме автоматически создалась нумерация строк - по умолчанию она с 0.

Заметим, что синтаксис обращения к столбцам похож на python-словари (dict)

3. Можно добавлять еще данные 

In [13]:
df["b"] = ['one', 1, 'three']

In [15]:
df

Unnamed: 0,c,a,b
0,10,1,one
1,20,12,1
2,30,13,three


4. А можно перезаписывать старые

In [16]:
df["b"] = ['new_one', 2, 'new_three']

In [17]:
df

Unnamed: 0,c,a,b
0,10,1,new_one
1,20,12,2
2,30,13,new_three


### Работа с готовыми таблицами

#### Считывание таблицы

Конечно, чаще всего приходится работать с уже готовыми наборами данных. Такие данные обычно хранятся в формтае xls(x) - для работы в Excel, или (чаще) в формате csv - comma-separated value. Попробуем импортировать csv файл с данными о пассажирах Титаника: они лежат в файле 'titanic.csv' (попробуйте открыть его в текстовом редакторе и посмотрите, как он устроен внутри).

In [20]:
data = pd.read_csv('https://raw.githubusercontent.com/rogovich/Data/master/data/titanic/train.csv', sep=',')

In [21]:
# также можно загружать DataFrame из файла с компьютера
# пусть файл лежит у нас на компьютере с названием data.csv
# data = pd.read_csv('data.csv')

In [22]:
type(data)

pandas.core.frame.DataFrame

Функция `read_csv` читает данные из файла формата *csv* данные и преобразует в pandas.DataFrame. 

Аналогичная функция `read_excel` может читать данные в офрмате *xls(x)*.

#### Просмотр датафрейма

Посмотреть весь датафрейм



```
название датафрейма
```



In [23]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Посмотреть первые строки датафрейма с помощью функции `head()`. По умолчанию 5



```
название датафрейма.head()
```



In [24]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [25]:
data.head(10) # можно передать аргументом количество строк, которые хотите увидеть

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


Посмотреть последние строки датафрейма с помощью функции `tail()`. По умолчанию 5



```
название датафрейма.tail()
```

In [26]:
data.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [27]:
data.tail(7) # можно передать аргументом количество строк, которые хотите увидеть

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Аналогично можно посмотреть на случайные строки датафрейма с помощью функции `sample()`. По умолчанию 1

In [29]:
data.sample()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
875,876,1,3,"Najib, Miss. Adele Kiamie ""Jane""",female,15.0,0,0,2667,7.225,,C


In [31]:
data.sample(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
641,642,1,1,"Sagesser, Mlle. Emma",female,24.0,0,0,PC 17477,69.3,B35,C
684,685,0,2,"Brown, Mr. Thomas William Solomon",male,60.0,1,1,29750,39.0,,S


### Базовая информация про датафрейм

```
датафрейм.info()
```

#### Основная информация `.info()`

In [32]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### Формат данных `.dtypes`

In [33]:
data.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

#### Размер датафрейма `.shape`



```
датафрейм.shape
```



In [34]:
data.shape #(строк, столбцов)

(891, 12)

In [35]:
# количество строк 
data.shape[0]

891

In [36]:
# количество колонок 
data.shape[1]

12

#### Название колонок `.columns`

```
название датафрейма.columns
```

In [37]:
data.columns # список столбцов 

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [38]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### Обращение к элементам датафрейма

Описание признаков:

+ `PassengerId` — id пассажира
+ `Survived` — бинарная переменная: выжил пассажирил (1) или нет (0)
+ `Pclass` — класс пассажира
+ `Name` — имя пассажира
+ `Sex` — пол пассажира
+ `Age` — возраст пассажира
+ `SibSp` — количество родственников (братьев, сестер, супругов) пассажира на борту
+ `Parch` — количество родственников (родителей / детей) пассажира на борту
+ `Ticket` — номер билета
+ `Fare` — тариф (стоимость билета)
+ `Cabin` — номер кабины
+ `Embarked` — порт, в котором пассажир сел на борт (C - Cherbourg, S - Southampton, Q = Queenstown)

#### Обращение к столбцу



```
датафрейм[столбец]
```
или

```
датафрейм.столбец
```





In [39]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [40]:
data["Age"] # обращаемся к колонке

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [41]:
data['Age'].head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

In [42]:
data.Age

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [43]:
data.Age.tail()

886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, dtype: float64

In [44]:
data.Age.sample(7)

173    21.0
527     NaN
163    17.0
435    14.0
858    24.0
137    37.0
97     23.0
Name: Age, dtype: float64

#### Обращение нескольким столбцам



```
датафрейм[[столбец 1, столбец 2, ...]]
```



In [45]:
data[['Age', 'Sex', 'Ticket']]

Unnamed: 0,Age,Sex,Ticket
0,22.0,male,A/5 21171
1,38.0,female,PC 17599
2,26.0,female,STON/O2. 3101282
3,35.0,female,113803
4,35.0,male,373450
...,...,...,...
886,27.0,male,211536
887,19.0,female,112053
888,,female,W./C. 6607
889,26.0,male,111369


#### Обращение к строке



```
датафрейм.loc[индекс]
```
или
```
датафрейм.iloc[индекс]
```



In [47]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [48]:
data.loc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [49]:
data.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

`loc` возвращает данные на основе индекса, а `iloc` - основываясь исключительно на позиции строки в датафрейме, начиная с 0

In [50]:
# создадим датафрейм-копию и сделаем там новый индекс,
# который начинается с 5

data_copy = data.copy()
data_copy['new_index'] = list(range(5, 5 + 891))
data_copy.set_index('new_index', inplace=True)
data_copy.head()

Unnamed: 0_level_0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
5,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
6,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
7,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
8,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
9,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [51]:
# работает
data_copy.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 5, dtype: object

In [52]:
# падает с ошибкой
data_copy.loc[0]

KeyError: 0

## **Фильтрация данных**

Очень часто на практике возникает необходимость рассматривать не весь датафрейм, а какое-то подмножество его строк. 

Фильтрация в pandas устроена похожим с numpy образом. Возьмём какую-нибудь колонку (например, Age) и проверим какое-нибудь условие для неё

In [53]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [54]:
# берём какую-нибудь колонку и проверяем условие для неё
data['Age'] >= 27

0      False
1       True
2      False
3       True
4       True
       ...  
886     True
887    False
888    False
889    False
890     True
Name: Age, Length: 891, dtype: bool

In [55]:
# как видно, для каждой строки мы получили True, если строка подходит под условие, 
# и False, если не подходит

### Фильтрация по столбцу

Теперь мы можем выбрать строки из таблицы согласно этому списку True и False:

```датафрейм[датафрейм['признак'] ==/!=/</<=/>/>= условие]```

#### Одно условие

##### `==`

In [56]:
data[data['Sex'] == 'female']

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


##### `<`/>/`<=`/`>=` 

In [57]:
data[data['Age'] < 18]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.1250,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
850,851,0,3,"Andersson, Master. Sigvard Harald Elias",male,4.0,4,2,347082,31.2750,,S
852,853,0,3,"Boulos, Miss. Nourelain",female,9.0,1,1,2678,15.2458,,C
853,854,1,1,"Lines, Miss. Mary Conover",female,16.0,0,1,PC 17592,39.4000,D28,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S


#### Несколько условий

Пассажиры первого или второго классов:

+ `|` - или
+ `&` - и

In [58]:
data[
    ((data['Pclass'] == 1) | (data['Pclass'] == 2)) 
    &
    (data['Sex']=='female')
]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S


Девушки в возрасте от 18:

In [59]:
data[(data['Sex'] == 'female') & (data['Age'] > 18)]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


Девушки в возрасте от 18 до 25, путешествующие в одиночку (без каких-либо родственников):

In [64]:
data[
    (data['Sex'] == 'female')
    & (data['Age'] > 18)
    & (data['Age'] < 25)
    & (data['SibSp'] == 0) & (data['Parch'] == 0)
       ].shape[0]

25

Девушки в возрасте от 18 лет, севшие или в порту Cherbourg(С), или Southampton (S)

In [65]:
data[(
    (data['Embarked'] =='C') | (data['Embarked'] =='S'))
    & (data['Sex'] == 'female') & 
     (data['Age'] > 18)
]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S


### Подсчет количества наблюдений после фильтрации `.shape`

In [66]:
data[(data['Sex'] == 'female') & (data['Age'] > 18) & 
     (data.Age < 25) & (data.SibSp == 0) &(data.Parch == 0)].shape[0]

25

## **Сортировка данных** `.sort_values()`

In [67]:
data.sort_values(by=['Age']) # сортируем по возрасту, по умолчанию сортирвка по возрастанию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5000,,S
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [68]:
data.sort_values(by=['Age'], ascending=False) # сортируем по возрасту, теперь по убыванию

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.7500,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
859,860,0,3,"Razi, Mr. Raihed",male,,0,0,2629,7.2292,,C
863,864,0,3,"Sage, Miss. Dorothy Edith ""Dolly""",female,,8,2,CA. 2343,69.5500,,S
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
878,879,0,3,"Laleff, Mr. Kristo",male,,0,0,349217,7.8958,,S


In [69]:
data.sort_values(by=['Age', 'Fare'], ascending=False).head() # сортируем сперва (по убыванию),
                                                             # потом по стоимости билета  (по убыванию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


In [70]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True]).head() # сортируем сперва возраст (по убыванию),
                                                                     # потом по стоимости билета  (по возрастанию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


In [72]:
data.sort_values(by=['Fare', 'Age', 'PassengerId'], ascending=[False, True, True]).head() # сортируем сперва возраст (по убыванию),
                                                                     # потом по стоимости билета  (по возрастанию)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S


Заметим при этом, что наш исходный датафрейм никак не меняется!

На самом деле, `sort_values()` по умолчанию создаёт **копию** датафрейма, сортирует её и возвращает, никоим образом не меняя исходный датафрейм. Если необходимо отсортировать исходный датафрейм, можно либо явно указать, что сортировать надо на месте, при помощи аргумента `inplace`: 

```data.sort_values(..., inplace=True)```

либо присвоить переменной `data` то, что возвращает сортировка:

```data = data.sort_values(...)```

In [78]:
data.sort_values(by=['Age', 'Fare'], ascending=[False, True], inplace=True)
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q


## **Новые столбцы и удаление старых**

Иногда нужно создать новый признак из уже существующих, например, нам интересно, сколько всего родственников путешествовало с каждым пассажиром - просто сложим столбцы `SibSp` и `Parch` и поместим сумму в новый столбец `FamilySize`.

In [79]:
data['FamilySize'] = data['SibSp'] + data['Parch']
data.sample(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize
314,315,0,2,"Hart, Mr. Benjamin",male,43.0,1,1,F.C.C. 13529,26.25,,S,2
722,723,0,2,"Gillespie, Mr. William Henry",male,34.0,0,0,12233,13.0,,S,0
43,44,1,2,"Laroche, Miss. Simonne Marie Anne Andree",female,3.0,1,2,SC/Paris 2123,41.5792,,C,3
387,388,1,2,"Buss, Miss. Kate",female,36.0,0,0,27849,13.0,,S,0
379,380,0,3,"Gustafsson, Mr. Karl Gideon",male,19.0,0,0,347069,7.775,,S,0
745,746,0,1,"Crosby, Capt. Edward Gifford",male,70.0,1,1,WE/P 5735,71.0,B22,S,2
348,349,1,3,"Coutts, Master. William Loch ""William""",male,3.0,1,1,C.A. 37671,15.9,,S,2
484,485,1,1,"Bishop, Mr. Dickinson H",male,25.0,1,0,11967,91.0792,B49,C,1
94,95,0,3,"Coxon, Mr. Daniel",male,59.0,0,0,364500,7.25,,S,0
97,98,1,1,"Greenfield, Mr. William Bertram",male,23.0,0,1,PC 17759,63.3583,D10 D12,C,1


In [80]:
# также мы можем делить, умножать столбцы друг на друга и возводить их в степень
# создадим два признака
# класс пассажира, умноженный на цену за билет 
data['Pclass_mult_Fare'] = data['Pclass'] * data['Fare']

# а также квадрат возраста пассажира 
data['Age_squared'] = data['Age'] ** 2

In [81]:
# проверим 
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Pclass_mult_Fare,Age_squared
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S,0,30.0,6400.0
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S,0,23.325,5476.0
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,0,34.6542,5041.0
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,0,49.5042,5041.0
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q,0,23.25,4970.25


### Функции

А теперь давайте создадим признак, который бы нам показывал, что пассажир ехал в одиночку. 

Для этого опишем функцию, которая принимает количество родственников на борту, и возвращает True, если пассажир ехал один, и False иначе.

Применим ее к столбцу `FamilySize` с помощью метода `.apply()`.

In [82]:
def was_alone(fam_size):
    return fam_size == 0

In [85]:
data['Alone'] = data['FamilySize'].apply(was_alone)
data.sample(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Pclass_mult_Fare,Age_squared,Alone
509,510,1,3,"Lang, Mr. Fang",male,26.0,0,0,1601,56.4958,,S,0,169.4874,676.0,True
494,495,0,3,"Stanley, Mr. Edward Roland",male,21.0,0,0,A/4 45380,8.05,,S,0,24.15,441.0,True
68,69,1,3,"Andersson, Miss. Erna Alexandra",female,17.0,4,2,3101281,7.925,,S,6,23.775,289.0,False
584,585,0,3,"Paulner, Mr. Uscher",male,,0,0,3411,8.7125,,C,0,26.1375,,True
783,784,0,3,"Johnston, Mr. Andrew G",male,,1,2,W./C. 6607,23.45,,S,3,70.35,,False
717,718,1,2,"Troutt, Miss. Edwina Celia ""Winnie""",female,27.0,0,0,34218,10.5,E101,S,0,21.0,729.0,True
26,27,0,3,"Emir, Mr. Farred Chehab",male,,0,0,2631,7.225,,C,0,21.675,,True


### Анонимные функции (`lambda` функции)

Это же можно реализовать короче с помощью анонимных функций.

Это особый вид функций, которые объявляются с помощью ключевого слова `lambda` вместо `def`:
Лямбда-функции принимают любое количество аргументов, но не могут содержать несколько выражений и всегда возвращают только одно значение.

В программировании на **Python** можно обойтись без анонимных функций, которые по сути являются обычными, но без имени и с ограничением в одно выражение. Однако их использование в нужных местах упрощает написание и восприятие кода. Пишется так:

    lambda arguments: expression

arguments - аргументы, expression - выражение, возвращающее значение.

In [87]:
data['Alone_1'] = data['FamilySize'].apply(lambda x: x == 0)
data.sample(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize,Pclass_mult_Fare,Age_squared,Alone,Alone_1
675,676,0,3,"Edvardsson, Mr. Gustaf Hjalmar",male,18.0,0,0,349912,7.775,,S,0,23.325,324.0,True,True
491,492,0,3,"Windelov, Mr. Einar",male,21.0,0,0,SOTON/OQ 3101317,7.25,,S,0,21.75,441.0,True,True
625,626,0,1,"Sutton, Mr. Frederick",male,61.0,0,0,36963,32.3208,D50,S,0,32.3208,3721.0,True,True
753,754,0,3,"Jonkoff, Mr. Lalio",male,23.0,0,0,349204,7.8958,,S,0,23.6874,529.0,True,True
515,516,0,1,"Walker, Mr. William Anderson",male,47.0,0,0,36967,34.0208,D46,S,0,34.0208,2209.0,True,True
349,350,0,3,"Dimic, Mr. Jovan",male,42.0,0,0,315088,8.6625,,S,0,25.9875,1764.0,True,True
327,328,1,2,"Ball, Mrs. (Ada E Hall)",female,36.0,0,0,28551,13.0,D,S,0,26.0,1296.0,True,True


## **Удаление повторений** `.drop_duplicates()`

In [90]:
df1 = pd.DataFrame()
df1["Продукты"] = ["Яблоки", "Бананы", "Морковка", "Огурец", "Яблоки", "Томат", "Яблоки"]
df1["Цвет"] = ["Красный", "Желтый", "Оранжевый", "Зеленый", "Зеленый", "Красный", "Зеленый"]
df1

Unnamed: 0,Продукты,Цвет
0,Яблоки,Красный
1,Бананы,Желтый
2,Морковка,Оранжевый
3,Огурец,Зеленый
4,Яблоки,Зеленый
5,Томат,Красный
6,Яблоки,Зеленый


In [91]:
df1.drop_duplicates(['Продукты'])

Unnamed: 0,Продукты,Цвет
0,Яблоки,Красный
1,Бананы,Желтый
2,Морковка,Оранжевый
3,Огурец,Зеленый
5,Томат,Красный


In [92]:
df1.drop_duplicates(['Продукты', 'Цвет'])

Unnamed: 0,Продукты,Цвет
0,Яблоки,Красный
1,Бананы,Желтый
2,Морковка,Оранжевый
3,Огурец,Зеленый
4,Яблоки,Зеленый
5,Томат,Красный


## Сохранение датафрейма 

In [93]:
# читать: read_csv()

# записывать: to_csv()

df1.to_csv('products.csv')