# Введение в Pandas [предварительная версия]

Pandas - библиотека для работы с табличными данными в питоне. Странное название происходит от `Pan`el + `Da`ta - [панельных данных](https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5#:~:text=%D0%9F%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%2C%20%D0%B8%D0%BB%D0%B8%20%D0%BB%D0%BE%D0%BD%D0%B3%D0%B8%D1%82%D1%8E%D0%B4%D0%BD%D1%8B%D0%B5%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5,%D0%BF%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%20%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5%2C%20%D0%BD%D0%B0%D0%B7%D1%8B%D0%B2%D0%B0%D0%B5%D1%82%D1%81%D1%8F%20%D0%BF%D0%B0%D0%BD%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%BC%20%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC) - структуры данных, которая используется в социологии и эконометрике и представляет собой последовательные наблюдения за одними и теми же объектами, например - компаниями или людьми. Создатель пакета, Уэс Маккинни, позаимствовал идею датафрейма - структуры для хранения и обработки табличных данных в R. Однако ему было необходимо работать с временными рядами, поэтому в `pandas` были добавлены мощные инструменты, позволяющие работать с хронологически упорядоченными данными, автоматически выравнивать временные ряды, менять их частоту, восстанавливать пропущенные значения и т.п.


Как и `numpy`, `pandas` позволяет быстро обрабатывать большие объемы данных, но, в отличие от массивов `numpy`, таблицы `pandas` могут содержать данные разных типов, что критично для работы с данными.

С помощью библиотеки `pandas` можно:  
 - загружать данные из разных форматов и источников,
 - отфильтровывать и выбирать нужные данные,
 - выполнять вычисления на основе данных,
 - агрегировать данные,
 - переструктурировать данные,
 - объединять данные из разных источников,
 - выполнять очистку данных и замену пропущенных значений,
 - быстро визуализировать данные,
 - экспортировать данные в различные форматы.


Библиотека `pandas` - это основной инструмент для работы с табличными данными в Python. Она рассчитана на наборы данных, которые помещаются в память компьютера. Если же необходима работа с очень большими данными, то существуют другие инструменты - например, пакеты [dask](https://dask.org/) и [vaex](https://medium.com/nuances-of-programming/vaex-python-%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0-%D0%B4%D0%BB%D1%8F-%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B-%D1%81-dataframe-%D0%B2%D0%BD%D0%B5-%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D0%B8-%D0%B8-%D0%B1%D1%8B%D1%81%D1%82%D1%80%D0%BE%D0%B9-%D0%B2%D0%B8%D0%B7%D1%83%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8-e0e0b9adbfa7). Их мы в курсе рассматривать не будем.

## Ресурсы

* Книги Уэса Маккинни Python и анализ данных и Дж. Вандер Пласа Python для сложных задач (см. ресурсы в LMS)
* Документация: https://pandas.pydata.org/
* 10 minutes intro: https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
* Pandas Cheat-Sheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* Pandas Basics Cheat-Sheet: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3

## Таблицы и ряды `pandas`

Подключим библиотеку и загрузим набор данных из текстового файла. [CSV = Comma Separated Values](https://ru.wikipedia.org/wiki/CSV) - распространенный формат обмена табличными данными, в котором каждой строке файла соответствует строка таблицы данных, а значения их разных столбцов разделяются запятыми или другими разделителями. Обычно также присутствует строка заголовка таблицы с названиями ее столбцов.

In [2]:
import pandas as pd
import numpy as np
mpg = pd.read_csv('../datasets/mpg.csv')
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize


Мы загрузили данные о расходе топлива автомобилями разных марок и годов производства. Столбцы таблицы обозначают:

 - `manufacturer` - марка машины
 - `model` - модель
 - `displ` - объем двигателя в л
 - `year` - год выпуска
 - `cyl` - количество цилиндров
 - `trans` - тип трансмиссии (ручная или автоматическая коробка передач)
 - `drv` - тип привода (`f` - передний, `r` - задний, `4` - полный)
 - `cty` - пробег на 1 галлоне топлива (~4 л) в городе
 - `cty` - пробег на 1 галлоне топлива на трассе
 - `fl` - тип топлива
 - `class` - класс машины
 
Загруженный набор данных доступен в виде объекта `mpg`. Тип объекта - `DataFrame` (датафрейм, или просто таблица данных).

In [3]:
type(mpg)

pandas.core.frame.DataFrame

Таблица содержит данные разных типов, краткую сводку о содержимом можно получить с помощью метода `info()`:

In [4]:
mpg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  class         234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


Сводка содержит важную информацию о типах данных столбцов таблицы. После загрузки данных, особенно из текстовых файлов, следует их проверять. Часто из-за несоответствия форматов представления дробные числа и даты загружаются неправильно. В данном случае мы видим, что столбцы, в которых должны быть числа, действительно имеют числовой тип данных.

Большие таблицы Jupyter при выводе автоматически сокращает, показывая несколько начальных и конечных строк. При необходимости, можно вывести нужное число строк в начале или в конце таблицы, используя методы `head()` и `tail()`:

In [5]:
mpg.head(3)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


In [6]:
mpg.tail(3)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


Таблица ведет себя похоже на словарь: мы можем извлекать из нее по ключу (индексу) отдельные столбцы. Какие столбцы доступны, мы можем посмотреть в самой таблице, или посмотрев индекс столбцов - атрибут `columns`:

In [7]:
mpg.columns

Index(['manufacturer', 'model', 'displ', 'year', 'cyl', 'trans', 'drv', 'cty',
       'hwy', 'fl', 'class'],
      dtype='object')

Так можно извлечь отдельный столбец:

In [8]:
x = mpg['cty']
x

0      18
1      21
2      20
3      21
4      16
       ..
229    19
230    21
231    16
232    18
233    17
Name: cty, Length: 234, dtype: int64

In [9]:
type(x)

pandas.core.series.Series

Отдельный столбец таблицы - это еще один базовый тип `pandas`, который называется `Series` (ряд).
Ряд похож на одномерный массив `numpy`, однако в массивах можно обращатья к элементу только по его порядковому номеру, а у ряда `pandas` есть индекс, который может быть и не числовым. Чаще всего в `pandas` используются индексы на основе строк или дат.

In [10]:
x.index

RangeIndex(start=0, stop=234, step=1)

В нашем примере индекс оказался числовым.

In [11]:
x[0:3] # Сделали срез данных ряда по индексу

0    18
1    21
2    20
Name: cty, dtype: int64

В качестве примера создадим ряд вручную, задав ему текстовый индекс:

In [12]:
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
s

a    10
b    20
c    30
d    40
dtype: int64

In [13]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [14]:
s['d']

40

In [15]:
s['a':'c']

a    10
b    20
c    30
dtype: int64

Мы видим, что доступ по индексу и срезы работают и с текстовыми индексами ряда.

На основе индекса `pandas` автоматически выравнивает ряды данных, чтобы можно было корректно выполнять поэлементные операции с ними даже когда длина рядов отличается.

Мы можем выполнять векторизованные вычисления с рядами точно так же, как это происходило с массивами `numpy`. Посчитаем, например, среднюю топливную эффективность машин - как среднее между показателями для города и трассы.

In [16]:
avg_mileage = mpg['cty'] + mpg['hwy'] / 2
print(type(avg_mileage))
avg_mileage

<class 'pandas.core.series.Series'>


0      32.5
1      35.5
2      35.5
3      36.0
4      29.0
       ... 
229    33.0
230    35.5
231    29.0
232    31.0
233    30.0
Length: 234, dtype: float64

Получился новый ряд такой же длины как и те, что использовались для расчета.

У таблицы данных тоже есть индексы - это индекс строк и индекс столбцов.

In [17]:
mpg.index # индекс строк

RangeIndex(start=0, stop=234, step=1)

In [18]:
mpg.columns # индекс столбцов

Index(['manufacturer', 'model', 'displ', 'year', 'cyl', 'trans', 'drv', 'cty',
       'hwy', 'fl', 'class'],
      dtype='object')

Структура таблицы `pandas` показана на рисунке:

![](pics/pandas-data-structure.svg)

Размер таблицы можно получить с помощью атрибута `shape`:

In [19]:
mpg.shape

(234, 11)

## Переименование столбцов таблицы

Удобнее всего, когда имена столбцов таблицы - это короткие слова на латинице, не содержащие пробелов. В этом случае удобно использовать их в расчетах. При загрузке данных могут получиться длинные или некорректные имена. Либо, наоборот, имена слишком короткие и неинформативные. Поменять имя столбца можно используя метод `rename()`:

In [20]:
mpg.rename(columns={'fl':'fuel'}, inplace=True) # переименовали столбец fl в fuel
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


По умолчанию метод возвращает новую таблицу с измененными именами. Здесь с помощью аргумента `inplace=True` таблицу изменили на месте.

Если необходимо сделать много замен, то проще присвоить новые значения индексу столбцов:

```Python
mpg.columns=[...список с новыми именами всех столбцов... ]
```

## Выборка строк и столбцов таблицы

Очень часто требуется выбрать из большой таблицы только нужные данные.

Для выбора столбцов удобнее всего использовать доступ по индексу. Мы уже использовали этот способ, чтобы извлечь один столбец:

In [21]:
mpg['cty']

0      18
1      21
2      20
3      21
4      16
       ..
229    19
230    21
231    16
232    18
233    17
Name: cty, Length: 234, dtype: int64

В таблице `pandas` столбцы доступны и как атрибуты:

In [22]:
mpg.cty

0      18
1      21
2      20
3      21
4      16
       ..
229    19
230    21
231    16
232    18
233    17
Name: cty, Length: 234, dtype: int64

Однако такой способ работает не всегда: не применим, когда имя содержит пробелы или спецсимволы, совпадает с другими атрибутами таблицы. Также таким образом нельзя создать новый столбец в таблице. Поэтому использование такого варианта обращения к столбцу не рекомендуется.

Если нужны несколько столбцов, то их имена можно передать в виде списка:

In [23]:
mpg[['manufacturer', 'model', 'cty', 'hwy']].head()

Unnamed: 0,manufacturer,model,cty,hwy
0,audi,a4,18,29
1,audi,a4,21,29
2,audi,a4,20,31
3,audi,a4,21,30
4,audi,a4,16,26


Обратите внимание, что если для извлечения передается список, то даже если в этом списке был всего один элемент, на выходе получится таблица, а не ряд.

In [24]:
test = mpg[['cty']]
print(type(test))
test.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,cty
0,18
1,21
2,20
3,21
4,16


Для больших таблиц перечислять все нужные столбцы - долго, поэтому удобнее использовать срезы. Чтобы они работали, необходимо использовать атрибут `loc`. Этот атрибут позволяет извлекать строки и столбцы таблицы на основе их индексов.

In [25]:
mpg.loc[:, 'manufacturer':'cty'] #все строки и столбцы от manufacturer до cty включительно

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty
0,audi,a4,1.8,1999,4,auto(l5),f,18
1,audi,a4,1.8,1999,4,manual(m5),f,21
2,audi,a4,2.0,2008,4,manual(m6),f,20
3,audi,a4,2.0,2008,4,auto(av),f,21
4,audi,a4,2.8,1999,6,auto(l5),f,16
...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18


Также можно извлекать столбцы по их порядковому номеру (от нуля), используя атрибут `iloc`:

In [26]:
mpg.iloc[:, 0:8]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty
0,audi,a4,1.8,1999,4,auto(l5),f,18
1,audi,a4,1.8,1999,4,manual(m5),f,21
2,audi,a4,2.0,2008,4,manual(m6),f,20
3,audi,a4,2.0,2008,4,auto(av),f,21
4,audi,a4,2.8,1999,6,auto(l5),f,16
...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18


Обратите внимание, что при использовании порядковых номеров правая граница диапазона не была включена, как и везде в Python. При выборке по именам столбцов в предыдущем примере, правая граница была включена в диапазон.

Срезы можно применять и к строкам. При использовании числового индекса это не очень полезно, т.к. для просмотра части таблицы есть методы `head()` и `tail()`, но если индекс текстовый и содержит осмысленные значения - названия объектов или их групп, то это удобно использовать для отбора значений по условию.

In [27]:
mpg[0:3] # Первые 3 строки

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


In [28]:
mpg.iloc[0:3] # Лучше так

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact


Для извлечения данных в `pandas` есть 3 синтаксиса - просто `[]`, свойство `loc` (выборка по индексу) и свойство `iloc` (выборка по порядковому номеру). Разработчики `pandas` рекомендуют пользоваться `loc` и `iloc`, чтобы явным образом показать, какая операция нужна. Скобки и устаревшее свойство `.ix` работают по-разному, в зависимости от того, числовой ли индекс используется, или текстовый, поэтому их использование может приводить к ошибкам.

Доступ к одной ячейке с заданными индексами можно получить с помощью атрибута `at`:

In [29]:
mpg.at[0, 'cty']

18

Или по порядковому номеру с помощью атрибута `iat`:

In [30]:
mpg.iat[0, 0]

'audi'

### Задачи для тренировки

Загрузим набор данных `diamonds`, который содержит сведения о ~50 тысячах бриллиантов:

In [31]:
diamonds = pd.read_csv('../datasets/diamonds.csv')
diamonds.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


**Столбцы**

- `price` - цена в USD
- `carat` - вес бриллианта в каратах (0.2 г) 
- `cut` - качество огранки, в порядке улучшения: Fair, Good, Very Good, Premium, Ideal
- `color` - оттенок цвета, в порядке ухудшения: D (лучший) - J (худший)
- `clarity` - прозрачность бриллианта, в порядке улучшения: I1 (худший), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (лучший))
- `x` - длина в мм
- `y` - ширина в мм
- `z` - глубина в мм
- `depth` - соотношение глубины и видимого размера: `total depth percentage = z / mean(x, y) = 2 * z / (x + y)`
- `table` - ширина верхней плоской грани относительно самого широкого сечения

#### Задача 1.1 Характеристики набора данных

Посмотрите сводку по таблице. Проверьте, правильно ли загрузились числовые данные.

In [32]:
# Ваш код здесь

#### Задача 1.2. Срез данных по строкам

Сохраните в переменную `diamonds100` первые 100 бриллиантов из таблицы (все строки данных).
Определите форму полученной таблицы.

In [33]:
### Ваш код здесь

#### Задача 1.3. Выборка столбцов

Получите таблицу, содержащую цвет, прозрачность, вес и цену бриллиантов.
Получите таблицу, содержащую все столбцы от `carat` до `price`

In [34]:
### Ваш код здесь

## Фильтрация данных по условию

### Логическая фильтрация 

Часто требуется отобрать строки не по номеру, а по заданному условию. В `pandas` для выборки по условию применяется такой же механизм, как в `numpy` - логическая фильтрация. Включив столбец в операцию сравнения, мы получаем ряд (столбец) логических значений. Этот ряд можно использовать, чтобы извлечь строки таблицы, для которых результат сравнения истинный:

In [35]:
mpg['model'] == 'a4' # Ряд логических значений

0       True
1       True
2       True
3       True
4       True
       ...  
229    False
230    False
231    False
232    False
233    False
Name: model, Length: 234, dtype: bool

In [36]:
mpg[mpg['model'] == 'a4'] # Строки таблицы, удовлетворяющие условию

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact


Несколько условий можно скомбинировать при помощи логических операций: `~ | &` 

In [37]:
mpg[(mpg['displ'] > 6) & (mpg['drv']=='4')]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
31,chevrolet,k1500 tahoe 4wd,6.5,1999,8,auto(l4),4,14,17,d,suv
129,jeep,grand cherokee 4wd,6.1,2008,8,auto(l5),4,11,14,p,suv


Проверить значение в столбце на вхождение в список можно при помощи метода `isin()`:

In [38]:
mpg[mpg['model'].isin(['a4', 'a4 quattro'])]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact
8,audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact


При работе с данными часто необходима проверка на пропущенные данные. Для этого есть два метода: `isna()` - выдает `True` для пропущенных значений и `notna()` - выдает `True` для не пропущенных (известных) значений.

In [39]:
mpg[mpg['displ'].isna()] # В столбце displ пропущенных значений нет

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class


Для текстовых столбцов полезно использовать методы строк `contains`, `startswith`, `endswith`, которые позволяют искать подстроку или метод `match`, который позволяет искать по сложному шаблону, заданному [регулярным выражением](https://habr.com/ru/post/349860/)

In [40]:
mpg[ mpg['trans'].str.startswith('manual') ]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact
...,...,...,...,...,...,...,...,...,...,...,...
223,volkswagen,new beetle,2.0,1999,4,manual(m5),f,21,29,r,subcompact
225,volkswagen,new beetle,2.5,2008,5,manual(m5),f,20,28,r,subcompact
227,volkswagen,passat,1.8,1999,4,manual(m5),f,21,29,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize


### Метод `query()`

При записи сложных условий код получается очень громоздким, потому что приходится каждый раз указывать имя таблицы и индекс столбца. В у таблицы `pandas` есть также метод `query()`, который позволяет записывать условия отбора более компактно:

In [41]:
mpg[(mpg['displ'] > 6) & (mpg['drv']=='4')] # было

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
31,chevrolet,k1500 tahoe 4wd,6.5,1999,8,auto(l4),4,14,17,d,suv
129,jeep,grand cherokee 4wd,6.1,2008,8,auto(l5),4,11,14,p,suv


In [42]:
mpg.query('displ > 6 & drv == "4"') # стало (drv - это текстовое поле)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
31,chevrolet,k1500 tahoe 4wd,6.5,1999,8,auto(l4),4,14,17,d,suv
129,jeep,grand cherokee 4wd,6.1,2008,8,auto(l5),4,11,14,p,suv


Аргументом `query()` является текстовая строка, в которой можно записать любое понятное питону условие относительно столбцов таблицы. При этом имена столбцов можно указывать как есть, без имени таблицы.
Если необходимо использовать в условии переменную не из таблицы данных, то к ней можно обратиться как `@переменная`:

In [43]:
min_displ = 5.5
mpg.query('displ > @min_displ & drv == "4"') #min_displ - внешняя переменная

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
30,chevrolet,k1500 tahoe 4wd,5.7,1999,8,auto(l4),4,11,15,r,suv
31,chevrolet,k1500 tahoe 4wd,6.5,1999,8,auto(l4),4,14,17,d,suv
62,dodge,durango 4wd,5.7,2008,8,auto(l5),4,13,18,r,suv
63,dodge,durango 4wd,5.9,1999,8,auto(l4),4,11,15,r,suv
72,dodge,ram 1500 pickup 4wd,5.7,2008,8,auto(l5),4,13,17,r,pickup
73,dodge,ram 1500 pickup 4wd,5.9,1999,8,auto(l4),4,11,15,r,pickup
128,jeep,grand cherokee 4wd,5.7,2008,8,auto(l5),4,13,18,r,suv
129,jeep,grand cherokee 4wd,6.1,2008,8,auto(l5),4,11,14,p,suv
153,nissan,pathfinder 4wd,5.6,2008,8,auto(s5),4,12,18,p,suv
199,toyota,land cruiser wagon 4wd,5.7,2008,8,auto(s6),4,13,18,r,suv


Вместо `~ | &` в query можно использовать более понятные `and or not`:

In [44]:
mpg.query('displ > @min_displ and drv == "4"') #min_displ - внешняя переменная

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class
30,chevrolet,k1500 tahoe 4wd,5.7,1999,8,auto(l4),4,11,15,r,suv
31,chevrolet,k1500 tahoe 4wd,6.5,1999,8,auto(l4),4,14,17,d,suv
62,dodge,durango 4wd,5.7,2008,8,auto(l5),4,13,18,r,suv
63,dodge,durango 4wd,5.9,1999,8,auto(l4),4,11,15,r,suv
72,dodge,ram 1500 pickup 4wd,5.7,2008,8,auto(l5),4,13,17,r,pickup
73,dodge,ram 1500 pickup 4wd,5.9,1999,8,auto(l4),4,11,15,r,pickup
128,jeep,grand cherokee 4wd,5.7,2008,8,auto(l5),4,13,18,r,suv
129,jeep,grand cherokee 4wd,6.1,2008,8,auto(l5),4,11,14,p,suv
153,nissan,pathfinder 4wd,5.6,2008,8,auto(s5),4,12,18,p,suv
199,toyota,land cruiser wagon 4wd,5.7,2008,8,auto(s6),4,13,18,r,suv


При использовании в запросе некорректных с точки зрения синтаксиса питона имен столбцов, например: `fuel efficiency` или `x.2` такие имена следует экранировать, заключая в \`\`:

```Python
df.query('(`кривое имя` > 0) ')
```

### Задачи для тренировки

Вернемся к набору данных `diamonds`

#### Задача 2.1

Есть ли в таблице бриллианты с весом более 4 карат? Найдите ответ с помощью логической фильтрации и `query()`


In [45]:
# Ваш код здесь

#### Задача 2.2

Есть ли бриллианты с идеальной огранкой и весом более 3 карат? 
Найдите ответ с помощью логической фильтрации и `query()`

**Замечание**: при сравнении строк питон различает заглавные и строчные буквы.

In [46]:
diamonds.query('cut=="Ideal" and carat > 3' )

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
24297,3.22,Ideal,I,I1,62.6,55.0,12545,9.49,9.42,5.92
24328,3.5,Ideal,H,I1,62.8,57.0,12587,9.65,9.59,6.03
26467,3.01,Ideal,J,SI2,61.7,58.0,16037,9.25,9.2,5.69
26744,3.01,Ideal,J,I1,65.4,60.0,16538,8.99,8.93,5.86


In [47]:
# Ваш код здесь

#### Задача 2.3

Сколько в таблице бриллиантов у которых категория прозрачности начинается на `V`?

In [48]:
# Ваш код здесь

## Вычисление новых столбцов

### Арифметические выражения и универсальные функции

Добавление в таблицу новых вычисленных столбцов - еще одна частая операция. В `pandas` для этого используются векторизованные вычисления, также как и в пакете `numpy`, только вместо массивов используются ряды, соответствующие столбцам. Мы уже делали вычисления с отдельными рядами, извлекая их из таблицы. Однако, как правило, результаты необходимо добавить в ту же таблицу. Это гарантирует, что данные не "разъедутся" при дальнейших преобразованиях данных, например при фильтрации строк.

В России принято характеризовать топливную эффективность машин расходом топлива на 100 км. Пересчитаем мили на галлон в расход на 100 км.

In [49]:
mile = 1.609344 # км
gallon = 3.785411784 # л


mpg['liters100'] =  100 / (mpg['cty'] * mile / gallon)
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.067477
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.200694
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.760729
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.200694
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,14.700911
...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,12.379715
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,11.200694
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,14.700911
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,13.067477


Для вычислений со столбцами необходимо применять универсальные функции из пакета `numpy` или встроенные в `pandas`.
Например, посчитать округленное значение расхода топлива можно так:

In [50]:
mpg['liters100'] =  (100 / (mpg['cty'] * mile / gallon)).round(1) # используем метод Series
mpg

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.1
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.2
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.8
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.2
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,14.7
...,...,...,...,...,...,...,...,...,...,...,...,...
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize,12.4
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize,11.2
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize,14.7
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize,13.1


### Условные вычисления, применение функции к столбцу, обработка строк

Пусть необходимо разделить все автомобили на категории с высоким и низким расходом топлива на 100 км. В качестве порога возьмем среднее значение расхода:

In [51]:
avg100 = mpg['liters100'].mean()
round(avg100, 1)

14.8

Для вычисления категории можем воспользоваться функцией `where()` из пакета `numpy()`. В `pandas` есть похожая [функция](https://pandas.pydata.org/docs/reference/api/pandas.Series.where.html?highlight=where#pandas.Series.where), но она может заменять только те значения, которые не подошли под условие.

In [52]:
mpg['liters_cat'] = np.where(mpg['liters100'] > avg100, 'high','low')
mpg[10:15]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat
10,audi,a4 quattro,2.0,2008,4,auto(s6),4,19,27,p,compact,12.4,low
11,audi,a4 quattro,2.8,1999,6,auto(l5),4,15,25,p,compact,15.7,high
12,audi,a4 quattro,2.8,1999,6,manual(m5),4,17,25,p,compact,13.8,low
13,audi,a4 quattro,3.1,2008,6,auto(s6),4,17,25,p,compact,13.8,low
14,audi,a4 quattro,3.1,2008,6,manual(m6),4,15,25,p,compact,15.7,high


Еще один способ - применение обычной функции к каждому элементу столбца. Это напоминает обработку списков с помощью `map()`. В `pandas` применить функцию к каждому элементу столбца можно через метод `apply()`:

In [53]:
mpg['liters_cat'] = mpg['liters100'].apply(lambda x: 'high' if x > avg100 else 'low')
mpg[10:15]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat
10,audi,a4 quattro,2.0,2008,4,auto(s6),4,19,27,p,compact,12.4,low
11,audi,a4 quattro,2.8,1999,6,auto(l5),4,15,25,p,compact,15.7,high
12,audi,a4 quattro,2.8,1999,6,manual(m5),4,17,25,p,compact,13.8,low
13,audi,a4 quattro,3.1,2008,6,auto(s6),4,17,25,p,compact,13.8,low
14,audi,a4 quattro,3.1,2008,6,manual(m6),4,15,25,p,compact,15.7,high


Результат идентичен, но этот способ работает немного медленнее, чем первый.

Похожая ситуация возникает при работе со строками. Пусть нам необходимо извлечь модель коробки передач из столбца `trans` (он в скобках). Из обычной строки можно было бы извлечь его так:

In [54]:
'auto(s6)'[-3:-1]

's6'

Однако для ряда срез будет интерпретирован как извлечение элементов ряда, а не символов строки, поэтому придется применять функцию к отдельным строкам через `apply()`:

In [55]:
mpg['trans'].apply(lambda x: x[-3:-1]) #не будем сохранять результат в таблицу, просто попробовали на столбце

0      l5
1      m5
2      m6
3      av
4      l5
       ..
229    s6
230    m6
231    l5
232    m5
233    s6
Name: trans, Length: 234, dtype: object

Правда, для работы со строками более эффективен другой подход - срезы строк и методы строк доступны через атрибут `str`:

In [56]:
mpg['trans'].str[-3:-1]

0      l5
1      m5
2      m6
3      av
4      l5
       ..
229    s6
230    m6
231    l5
232    m5
233    s6
Name: trans, Length: 234, dtype: object

### Метод `eval()`

У таблиц `pandas` есть метод `eval()`, который, как и `query()` позволяет записывать выражения с именами столбцов без необходимости указывать еще и имя таблицы:

In [57]:
mpg.eval("100 / (cty * @mile / @gallon)") # mile и gallon - две внешние переменные, которые мы задали ранее в блокноте

0      13.067477
1      11.200694
2      11.760729
3      11.200694
4      14.700911
         ...    
229    12.379715
230    11.200694
231    14.700911
232    13.067477
233    13.836152
Length: 234, dtype: float64

Можно сохранить результаты в новый столбец:

In [58]:
mpg.eval("avg_mpg = (cty + hwy) / 2").head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.1,low,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.2,low,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.8,low,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.2,low,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,14.7,low,21.0


По умолчанию, `eval()` возвращает новую таблицу, в которую добавлен вычисленный столбец. Ее надо присвоить переменной, чтобы использовать дальне. Или можно поменять исходную таблицу, добавив в вызов `eval()` аргумент `inplace=True`.

In [59]:
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.1,low
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.2,low
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.8,low
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.2,low
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,14.7,low


In [60]:
mpg.eval("avg_mpg = (cty + hwy) / 2", inplace=True)
mpg.head()

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.1,low,23.5
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.2,low,25.0
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.8,low,25.5
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.2,low,25.5
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,14.7,low,21.0


### Задачи для тренировки

#### Задача 3.1

Добавьте в таблицу `diamonds` новый столбец `price_per_carat` - цена бриллианта за карат. Попробуйте вычислить его используя традиционный способ - обращение к столбцу по индексу - и метод `eval()`.

In [61]:
# Ваш код здесь

#### Задача 3.2

Разделите бриллианты на три категории на основе их цены за карат: в категорию `low` должны попасть бриллианты, цена за карат которых меньше медианной цены за карат всех бриллиантов, в категорию `high` - бриллианты с ценой за карат в интервале от медианной до утроенной медианной цены, в категорию `insane` - бриллианты с ценой за карат в три и более раза превышающей медианную. Категорию цены надо добавить как новый столбец в таблицу.

[Медиану (центральное значение)](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D0%B4%D0%B8%D0%B0%D0%BD%D0%B0_(%D1%81%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0)) цены за карат можно посчить методом `median()`.


In [62]:
# Ваш код здесь

## Сортировка и ранжирование

Ряды и таблицы `pandas` можно упорядочивать по индексу или значениям. Сортировка по индексу необходима, когда требуется делать по нему срезы, а сортировка по значениям нужна для поиска лучших/худших элементов и составления рейтингов. 

### Сортировка по индексу

Сортировка по индексу выполняется с помощью метода `sort_index()`, который есть у ряда и у таблицы. Таблицы можно сортировать по любой оси (строкам или столбцам).

В нашем случае все наборы данных имеют числовой индекс строк, который уже упорядочен. Но мы можем отсортировать столбцы:

In [63]:
mpg.head(0)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg


In [64]:
mpg.sort_index(axis='columns').head(0)

Unnamed: 0,avg_mpg,class,cty,cyl,displ,drv,fuel,hwy,liters100,liters_cat,manufacturer,model,trans,year


По убыванию можно упорядочить так:

In [65]:
mpg.sort_index(axis='columns', ascending=False).head(0)

Unnamed: 0,year,trans,model,manufacturer,liters_cat,liters100,hwy,fuel,drv,displ,cyl,cty,class,avg_mpg


### Сортировка по значениям

Для сортировки по значениям используется метод `sort_values()`.  

Сортировка ряда:

In [66]:
mpg['cty'].sort_values(ascending=False)

221    35
212    33
222    29
196    28
99     28
       ..
126     9
65      9
69      9
54      9
59      9
Name: cty, Length: 234, dtype: int64

Сортировка таблицы требует указания столбцов, по которым необходимо упорядочить строки.

Общий рейтинг автомобилей по топливной эффективности:

In [67]:
mpg.sort_values(by='cty', ascending=False).head(5)

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,6.7,low,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,7.1,low,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,8.1,low,35.0
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,8.4,low,30.5
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,8.4,low,32.5


Рейтинг по топливной эффективности для каждой марки машин:

In [68]:
mpg.sort_values(by=['manufacturer', 'cty'], ascending=[True, False]).head(20) 

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,11.2,low,25.0
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,11.2,low,25.5
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,11.8,low,25.5
9,audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact,11.8,low,24.0
10,audi,a4 quattro,2.0,2008,4,auto(s6),4,19,27,p,compact,12.4,low,23.0
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,13.1,low,23.5
5,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact,13.1,low,22.0
6,audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact,13.1,low,22.5
7,audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact,13.1,low,22.0
12,audi,a4 quattro,2.8,1999,6,manual(m5),4,17,25,p,compact,13.8,low,21.0


При сортировке по нескольким полям необходимо указать список этих полей и, при необходимости, список направлений сортировки по каждому полю. Если все столбцы должны быть упорядочены по убыванию, то достаточно указать одно значение: `ascending=False`.

### Ранжирование

При ранжировании каждому элементу ряда присваивается ранг - его порядковый номер в отсортированном списке. По умолчанию ранжирование будет выполняться по возрастанию, но можно ранжировать и по убыванию.

In [69]:
s = pd.Series(range(10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

In [70]:
s.rank() # ранг по возрастанию

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
dtype: float64

In [71]:
s.rank(ascending=False) # ранг по убыванию

0    10.0
1     9.0
2     8.0
3     7.0
4     6.0
5     5.0
6     4.0
7     3.0
8     2.0
9     1.0
dtype: float64

Если среди значений есть дубликаты, то понятие ранга неоднозначно.
Существует несколько подходв:

Cредний ранг (`method='average'`) - одинаковым значениям присваивается средний ранг:

In [72]:
pd.Series([1, 2, 2, 5]).rank(method='average')

0    1.0
1    2.5
2    2.5
3    4.0
dtype: float64

В упорядоченном по возрастанию ряду двойки получили бы 2 и 3 место, среднее значение - 2.5. Этот метод используется по умолчанию, поэтому можно не указывать его в аргументе.

В методе `min` всем элементам присваивается минимальный ранг:

In [73]:
pd.Series([1, 2, 2, 5]).rank(method='min')

0    1.0
1    2.0
2    2.0
3    4.0
dtype: float64

Есть противоположный метод - `max`, определяющий максимальный ранг:

In [74]:
pd.Series([1, 2, 2, 5]).rank(method='max')

0    1.0
1    3.0
2    3.0
3    4.0
dtype: float64

В методе `first` одинаковые значения получают разные ранги в порядке появления этих значений в наборе данных:

In [75]:
pd.Series([1, 2, 2, 5]).rank(method='first')

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

Метод `dense` присваивает одинаковым элементам минимальный ранг, но при переходе к следующей группе ранг увеличивается всегда на 1, а не на количество элементов в предыдущей группе:

In [76]:
pd.Series([1, 2, 2, 5]).rank(method='dense')

0    1.0
1    2.0
2    2.0
3    3.0
dtype: float64

Ранжирование можно применять и к таблицам, при этом можно ранжировать как строки, так и столбцы (`axis='columns'`)

Ранжирование можно применять для поиска лучших/худших представителей

In [77]:
mpg[mpg['cty'].rank(ascending=False) <= 5]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,8.4,low,30.5
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,8.4,low,32.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,7.1,low,38.5
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,6.7,low,39.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,8.1,low,35.0


Эту же задачу можно было решить и по-другому - упорядочив таблицу по соответствующему столбцу и взяв первые 5 строк. Результат может отличаться, если есть объекты с одинаковыми рангами.

In [78]:
mpg.sort_values('cty', ascending=False)[:5]

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,6.7,low,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,7.1,low,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,8.1,low,35.0
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,8.4,low,30.5
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,8.4,low,32.5


Поскольку задача определения `n` лучших/худших значений часто встречается, в `pandas` есть специальные методы, позволяющие ее быстро решить - `nlargest()` и `nsmallest()`:

In [79]:
mpg.nlargest(5, 'cty')

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
221,volkswagen,new beetle,1.9,1999,4,manual(m5),f,35,44,d,subcompact,6.7,low,39.5
212,volkswagen,jetta,1.9,1999,4,manual(m5),f,33,44,d,compact,7.1,low,38.5
222,volkswagen,new beetle,1.9,1999,4,auto(l4),f,29,41,d,subcompact,8.1,low,35.0
99,honda,civic,1.6,1999,4,manual(m5),f,28,33,r,subcompact,8.4,low,30.5
196,toyota,corolla,1.8,2008,4,manual(m5),f,28,37,r,compact,8.4,low,32.5


In [80]:
mpg.nsmallest(5, 'cty')

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fuel,class,liters100,liters_cat,avg_mpg
54,dodge,dakota pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,26.1,high,10.5
59,dodge,durango 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,26.1,high,10.5
65,dodge,ram 1500 pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,26.1,high,10.5
69,dodge,ram 1500 pickup 4wd,4.7,2008,8,manual(m6),4,9,12,e,pickup,26.1,high,10.5
126,jeep,grand cherokee 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,26.1,high,10.5


### Задачи для тренировки

#### Задача 4.1

Найдите в таблице `diamonds` 5 самых дорогих и 5 самых дешевых бриллиантов. Попробуйте разные способы это сделать.

In [81]:
# Ваш код здесь

#### Задача 4.2

Отсортируйте таблицу `diamonds` по убыванию цены за карат с учетом огранки, цвета, прозрачности и веса в каратах (т.е. надо расположить бриллианты с одинаковыми характеристиками по убыванию цены за карат)

In [82]:
# Ваш код здесь

## Описательные статистики

[Описательные статистики](http://statistica.ru/glossary/general/opisatelnye-statistiki/) помогают с помощью короткой числовой сводки охарактеризовать форму распределения количественных данных.

Наиболее распространенные:

- количество наблюдений (count), позволяющее оценить объем выборки данных;
- характеристики центра распределения - среднее (mean) и медиана (median);  
- характеристики разброса - минимум, максимум, стандартное отклонение (standard deviation, std);
- характеристики формы распределения - ассиметрия (skew) и эксцесс (kurtosis), а также квартили (quartiles)

![](pics/descriptives.png)

Положительная асимметрия говорит о том, что у распределения есть длинный правый хвост - редкие большие значения, отрицательная асимметрия - о том, что хвост распределения уходит в область малых и отрицательных значений. Нулевая асимметрия означает, что распределение симметрично.

Эксцесс характеризует степень плосковершинности распределения. Нулевой эксцесс у нормального распределение, а увеличение эксцесса означает большую сконцентрированность значений вблизи центра, более высокий пик распределения.

![](pics/kurtosis.jpg)

Квартили (25% - нижний, 50% - медиана, 75% - верхний) - это значения, которые разбивают ранжированный по возрастанию значений ряд на 4 равные по количеству наблюдений части. Медиана используется как характеристика положения центра распределения, а верхний и нижний квартили позволяют понять, в каком диапазоне сконцентрирована половина наблюдаемых значений.


![](pics/quartiles.png)



Таблицы `pandas` содержат метод `describe()`, вычисляющий описательные статистики для количественных переменных:

In [83]:
mpg.describe()

Unnamed: 0,displ,year,cyl,cty,hwy,liters100,avg_mpg
count,234.0,234.0,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171,14.847863,20.149573
std,1.291959,4.509646,1.611534,4.255946,5.954643,3.75645,5.05029
min,1.6,1999.0,4.0,9.0,12.0,6.7,10.5
25%,2.4,1999.0,4.0,14.0,18.0,12.4,15.5
50%,3.3,2003.5,6.0,17.0,24.0,13.8,20.5
75%,4.6,2008.0,8.0,19.0,27.0,16.8,23.5
max,7.0,2008.0,8.0,35.0,44.0,26.1,39.5


Здесь мы видим, например, что распределение объемов двигателей `displ` немного асимметрично, среднее смещено вправо относительно медианы (50% квартиля), а в случае с `cty` среднее, наоборот, немного смещено влево по отношению к медиане.

В `pandas` есть следующие мтеоды для вычисления описательных статистик:
![pics](pics/pandas-descriptives.png)

Методы можно применять как к столбцам, так и к строкам. По умолчанию методы пропускают неизвестные значения `na`. При необходимости, можно отключить это поведение аргументом `skipna=False`.

In [86]:
mpg.mean() # Среднее всех количественных переменных

displ           3.471795
year         2003.500000
cyl             5.888889
cty            16.858974
hwy            23.440171
liters100      14.847863
avg_mpg        20.149573
dtype: float64

In [87]:
mpg.skew() # Асимметрия всех количественных переменных

displ        0.444316
year         0.000000
cyl          0.113800
cty          0.796561
hwy          0.369236
liters100    0.702723
avg_mpg      0.545839
dtype: float64

In [88]:
mpg['cty'].median() # Медиана столбца cty

17.0

### Частоты значений

Для категориальных данных описательные статистики не применяются, т.к. их значения - это не числа (чаще всего это текстовые значения - например, названия продуктов или категорий). Для таких данных применяется подсчет частот отдельных значений.

In [91]:
mpg['manufacturer'].value_counts()

dodge         37
toyota        34
volkswagen    27
ford          25
chevrolet     19
audi          18
subaru        14
hyundai       14
nissan        13
honda          9
jeep           8
pontiac        5
mercury        4
land rover     4
lincoln        3
Name: manufacturer, dtype: int64

Самое частое значение называется **модой**.