# Операции группировки данных (Groupby) и многоуровневый индекс (мульти-индекс)
Операции groupby() позволяют изучать данные отдельно по категориям.

Для groupby() необходимо выбрать категориальную колонку. Категориальные колонки принимают дискретные (не непрерывные) значения.
Категориальные колонки не обязаны быть текстовыми. Они могут быть числовыми, например класс вагона в поезде или каюты на корабле - 1-й класс, 2-й класс, 3-й класс.

После того, как выбрана колонка для группировки данных, вызывается метод groupby() для агрегации данных. Pandas берёт данные, берёт колонку по которой необходимо сгруппировать данные и объединяет между собой строки с одинаковым значением группирующей колонки. Далее выбирается функция агрегации, с помощью которой данные будут агрегироваться - например sum().  
В итоге groupby() возвращает столько строк, сколько различных значений встретилось в колонке группировки.
![groupby.png](attachment:5599f130-8617-4b55-a807-d3f890f854cb.png)

*__Операция groupby() создает "ленивый" объект groupby, который не выполняет всю работу сразу, а ждёт того момента, когда к нему будет вызван метод для получения этх данных.__*

In [9]:
import numpy as np
import pandas as pd

In [11]:
df = pd.read_csv('mpg.csv')
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


In [13]:
# Проверка различных значений в столбце
df['model_year'].unique()

array([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype=int64)

In [15]:
# Второй способ просмотра значений в колнке
df['model_year'].value_counts()

model_year
73    40
78    36
76    34
82    31
75    30
70    29
79    29
80    29
81    29
71    28
72    28
77    28
74    27
Name: count, dtype: int64

## Метод groupby()

In [17]:
df.groupby('model_year') # Получим объект groupby()

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000022142F245B0>

### Добавляем вызов метода агрегации. Чтобы использовать объект groupby, нам нужно сообщить Pandas, как мы зотим агрегировать данные.

Наиболее частые варианты:

* mean() - среднее значение
* sum() - сумма значений
* size() - размер группы
* count() - количество элементов
* std() - среднеквадратическое отклонение (standard deviation)
* var() - дисперсия (variance)
* sem() - стандартная ошибка среднего (standard error of the mean)
* describe() - суммарные статистики
* first() - первое значение
* last() - последнее значение
* nth() - n-ое значение, или набор значений если n является списком
* min() - минимальное значение
* max() - масимальное значение

Полный список функций можно посмотреть в документации: https://pandas.pydata.org/docs/reference/groupby.html

In [21]:
# Обратимся к объекту groupby() с помощью агрегирующей функции

#df.groupby('model_year').maen() -> Работает только в старых версиях Pandas

# Колонка model_year становится индексом! Теперь это НЕ название колонки, а название индекса

df.groupby('model_year').mean(numeric_only=True)

Unnamed: 0_level_0,mpg,cylinders,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,17.689655,6.758621,281.413793,3372.793103,12.948276,1.310345
71,21.25,5.571429,209.75,2995.428571,15.142857,1.428571
72,18.714286,5.821429,218.375,3237.714286,15.125,1.535714
73,17.1,6.375,256.875,3419.025,14.3125,1.375
74,22.703704,5.259259,171.740741,2877.925926,16.203704,1.666667
75,20.266667,5.6,205.533333,3176.8,16.05,1.466667
76,21.573529,5.647059,197.794118,3078.735294,15.941176,1.470588
77,23.375,5.464286,191.392857,2997.357143,15.435714,1.571429
78,24.061111,5.361111,177.805556,2861.805556,15.805556,1.611111
79,25.093103,5.827586,206.689655,3055.344828,15.813793,1.275862


*Мы получили датафрейм с именнованным индексом*

In [26]:
# Как получить одну колонку, а не весь датафрейм
df.groupby('model_year').mean(numeric_only=True)['mpg']

model_year
70    17.689655
71    21.250000
72    18.714286
73    17.100000
74    22.703704
75    20.266667
76    21.573529
77    23.375000
78    24.061111
79    25.093103
80    33.696552
81    30.334483
82    31.709677
Name: mpg, dtype: float64

In [32]:
avg_year = df.groupby('model_year').mean(numeric_only=True)

In [36]:
avg_year.index

Index([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype='int64', name='model_year')

In [38]:
avg_year.columns

Index(['mpg', 'cylinders', 'displacement', 'weight', 'acceleration', 'origin'], dtype='object')

In [40]:
avg_year['mpg']

model_year
70    17.689655
71    21.250000
72    18.714286
73    17.100000
74    22.703704
75    20.266667
76    21.573529
77    23.375000
78    24.061111
79    25.093103
80    33.696552
81    30.334483
82    31.709677
Name: mpg, dtype: float64

In [28]:
df.groupby('model_year').describe()

Unnamed: 0_level_0,mpg,mpg,mpg,mpg,mpg,mpg,mpg,mpg,cylinders,cylinders,...,acceleration,acceleration,origin,origin,origin,origin,origin,origin,origin,origin
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
model_year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
70,29.0,17.689655,5.339231,9.0,14.0,16.0,22.0,27.0,29.0,6.758621,...,15.0,20.5,29.0,1.310345,0.603765,1.0,1.0,1.0,1.0,3.0
71,28.0,21.25,6.591942,12.0,15.5,19.0,27.0,35.0,28.0,5.571429,...,16.125,20.5,28.0,1.428571,0.741798,1.0,1.0,1.0,2.0,3.0
72,28.0,18.714286,5.435529,11.0,13.75,18.5,23.0,28.0,28.0,5.821429,...,16.625,23.5,28.0,1.535714,0.792658,1.0,1.0,1.0,2.0,3.0
73,40.0,17.1,4.700245,11.0,13.0,16.0,20.0,29.0,40.0,6.375,...,16.0,21.0,40.0,1.375,0.667467,1.0,1.0,1.0,2.0,3.0
74,27.0,22.703704,6.42001,13.0,16.0,24.0,27.0,32.0,27.0,5.259259,...,17.0,21.0,27.0,1.666667,0.83205,1.0,1.0,1.0,2.0,3.0
75,30.0,20.266667,4.940566,13.0,16.0,19.5,23.0,33.0,30.0,5.6,...,17.375,21.0,30.0,1.466667,0.730297,1.0,1.0,1.0,2.0,3.0
76,34.0,21.573529,5.889297,13.0,16.75,21.0,26.375,33.0,34.0,5.647059,...,17.55,22.2,34.0,1.470588,0.706476,1.0,1.0,1.0,2.0,3.0
77,28.0,23.375,6.675862,15.0,17.375,21.75,30.0,36.0,28.0,5.464286,...,16.925,19.0,28.0,1.571429,0.835711,1.0,1.0,1.0,2.0,3.0
78,36.0,24.061111,6.898044,16.2,19.35,20.7,28.0,43.1,36.0,5.361111,...,16.825,21.5,36.0,1.611111,0.837608,1.0,1.0,1.0,2.0,3.0
79,29.0,25.093103,6.794217,15.5,19.2,23.9,31.8,37.3,29.0,5.827586,...,17.3,24.8,29.0,1.275862,0.5914,1.0,1.0,1.0,1.0,3.0


In [30]:
df.groupby('model_year').describe().transpose()

Unnamed: 0,model_year,70,71,72,73,74,75,76,77,78,79,80,81,82
mpg,count,29.0,28.0,28.0,40.0,27.0,30.0,34.0,28.0,36.0,29.0,29.0,29.0,31.0
mpg,mean,17.689655,21.25,18.714286,17.1,22.703704,20.266667,21.573529,23.375,24.061111,25.093103,33.696552,30.334483,31.709677
mpg,std,5.339231,6.591942,5.435529,4.700245,6.42001,4.940566,5.889297,6.675862,6.898044,6.794217,7.037983,5.591465,5.392548
mpg,min,9.0,12.0,11.0,11.0,13.0,13.0,13.0,15.0,16.2,15.5,19.1,17.6,22.0
mpg,25%,14.0,15.5,13.75,13.0,16.0,16.0,16.75,17.375,19.35,19.2,29.8,26.6,27.0
mpg,50%,16.0,19.0,18.5,16.0,24.0,19.5,21.0,21.75,20.7,23.9,32.7,31.6,32.0
mpg,75%,22.0,27.0,23.0,20.0,27.0,23.0,26.375,30.0,28.0,31.8,38.1,34.4,36.0
mpg,max,27.0,35.0,28.0,29.0,32.0,33.0,33.0,36.0,43.1,37.3,46.6,39.1,44.0
cylinders,count,29.0,28.0,28.0,40.0,27.0,30.0,34.0,28.0,36.0,29.0,29.0,29.0,31.0
cylinders,mean,6.758621,5.571429,5.821429,6.375,5.259259,5.6,5.647059,5.464286,5.361111,5.827586,4.137931,4.62069,4.193548


## Метод groupby() по нескольким колонкам

Можно изучить средние значения по годам и по количеству цилиндров

In [46]:
# Передадим в groupby [список колонок]

df.groupby(['model_year', 'cylinders']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


*Здесь мы получаем иерархический индекс (мульти-индекс). Сначала данные группируются по годам, а внутри их по количеству цилиндров.*

In [49]:
# Кортежи со всеми возможными значениями индекса
df.groupby(['model_year', 'cylinders']).mean(numeric_only=True).index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

In [51]:
df.groupby(['model_year', 'cylinders']).mean(numeric_only=True).columns

Index(['mpg', 'displacement', 'weight', 'acceleration', 'origin'], dtype='object')

## Мульти-индекс (MultiIndex)

### Объект MultiIndex

In [59]:
year_cyl = df.groupby(['model_year', 'cylinders']).mean(numeric_only=True)
year_cyl.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0


In [61]:
# Чтобы узнать как называются отдельные составляющие индекса
year_cyl.index.names

FrozenList(['model_year', 'cylinders'])

In [63]:
# Как получить различные уровни мульти-индекса
# Получим список состоящий из списоков
year_cyl.index.levels

FrozenList([[70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], [3, 4, 5, 6, 8]])

*__Эти списки не означают, что все из этих комбинаций могут встретиться в датафрейме!!!__*

## Индексирование с помощью иерархического индекса
Документация: https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html

In [68]:
# Индексирование по внешнему индексу
year_cyl.loc[70]

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


*Внешний индекс изчез, остался только внутренний*

In [71]:
# Индесирование по списку
year_cyl.loc[[70, 82]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
82,6,28.333333,225.0,2931.666667,16.033333,1.0


*Оба индекса на месте, чтобы отделить года друг от друга*

__Чтобы получить одну строку (конкретный год, конкретное количество цилиндров) - необходимо передать кортеж__

In [76]:
year_cyl.loc[(70, 4)]

mpg               25.285714
displacement     107.000000
weight          2292.571429
acceleration      16.000000
origin             2.285714
Name: (70, 4), dtype: float64

*В таком случае мы получим объект Series*

Метод .loc() не работает для внутреннего индекса, для этого существует метод .xs()

## Получение данных на основе пересечения (cross-section) с помощью метода .xs()
Этот метод использует параметр `key` для выборки данных на некотором уровен мульти-индекса.

__Параметы__:
--------
    key - метка (label) или кортеж из меток  
        Метка должна содержаться в индексе, или частично в мульти-индексе.
    axis - {0 или 'index', 1 или 'columns'}, по умолчанию 0  
        Ось, по которой делаем пересечение.
    level - объект, по умолчанию первые n уровней (n=1 или len(key))  
        В случае, если ключ частично содержится в мульти-индексе, то этот параметр указывает на те
    уровни, которые следует использовать. Уровни можно указывать с помощью меток или позиции.


In [85]:
# Выберем все строки для 'model_year'=70
year_cyl.xs(key=70, level='model_year')

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


*__Метод xs() - принимает на вход только одно значение ключа, ему нельзя передать список__*

С помощью метода .xs() можно работать со внутренними индексами

In [90]:
year_cyl

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,3,19.0,70.0,2330.0,13.5,3.0
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,3,18.0,70.0,2124.0,13.5,3.0


In [92]:
year_cyl.xs(key=4, level='cylinders')

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
70,25.285714,107.0,2292.571429,16.0,2.285714
71,27.461538,101.846154,2056.384615,16.961538,1.923077
72,23.428571,111.535714,2382.642857,17.214286,1.928571
73,22.727273,109.272727,2338.090909,17.136364,2.0
74,27.8,96.533333,2151.466667,16.4,2.2
75,25.25,114.833333,2489.25,15.833333,2.166667
76,26.766667,106.333333,2306.6,16.866667,1.866667
77,29.107143,106.5,2205.071429,16.064286,1.857143
78,29.576471,112.117647,2296.764706,16.282353,2.117647
79,31.525,113.583333,2357.583333,15.991667,1.583333


*__Важно: на выходе метод .xs() не показывает тот уровень мультииндекса, по которому выполнялась фильтрация данных! Так можно заметить что выбирались 4 цилиндра, а в резльтирующем датафрейме уровень 'cylinders' отсутствует. Так как для всех выбранных строк значение 'cylinders'=4, считается, что нет смысла отдельно указывать его для всех строк.__*

### Обратите внимание!
Гораздо проще отфильтровать данные __перед__ вызовом функции groupby(), чем после. Например, намного проще удалить строки со значениями cylinder=4 перед вызовом groupby(), а после это сделать уже сложнее.

In [99]:
# Как получить не одно значение, а несколько
df[df['cylinders'].isin([6, 8])].groupby(['model_year', 'cylinders']).mean(numeric_only=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,6,18.0,243.375,3171.875,14.75,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0
72,8,13.615385,344.846154,4228.384615,13.0,1.0
73,6,19.0,212.25,2917.125,15.6875,1.25
73,8,13.2,365.25,4279.05,12.25,1.0
74,6,17.857143,230.428571,3320.0,16.857143,1.0
74,8,14.2,315.2,4438.4,14.7,1.0
75,6,17.583333,233.75,3398.333333,17.708333,1.0


## Как поменять уровни мульти-индекса местами
* Как поменять уровни местами: https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#swapping-levels-with-swaplevel
* Общий метод по изменению порядка уровней:  https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#reordering-levels-with-reorder-levels

In [102]:
year_cyl.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0


In [104]:
year_cyl.swaplevel().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
cylinders,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,70,25.285714,107.0,2292.571429,16.0,2.285714
6,70,20.5,199.0,2710.5,15.5,1.0
8,70,14.111111,367.555556,3940.055556,11.194444,1.0
4,71,27.461538,101.846154,2056.384615,16.961538,1.923077
6,71,18.0,243.375,3171.875,14.75,1.0


## Сортировка мульти-индекса
* https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#sorting-a-multiindex

In [107]:
# Как сделать сортировку по убыванию
year_cyl.sort_index(level='model_year', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
82,6,28.333333,225.0,2931.666667,16.033333,1.0
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
81,8,26.6,350.0,3725.0,19.0,1.0
81,6,23.428571,184.0,3093.571429,15.442857,1.714286
81,4,32.814286,108.857143,2275.47619,16.466667,2.095238
80,6,25.9,196.5,3145.5,15.05,2.0
80,5,36.4,121.0,2950.0,19.9,2.0
80,4,34.612,111.0,2360.08,17.144,2.2
80,3,23.7,70.0,2420.0,12.5,3.0
79,8,18.63,321.4,3862.9,15.4,1.0


*__Важно: если выполнить сортировку по внутреннему индексу, то можно повлиять на отображение всех данных! Получится так что один год и несколько цилиндров этого года не будут располагаться вместе.__*

In [110]:
year_cyl.sort_index(level='cylinders', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
81,8,26.6,350.0,3725.0,19.0,1.0
79,8,18.63,321.4,3862.9,15.4,1.0
78,8,19.05,300.833333,3563.333333,13.266667,1.0
77,8,16.0,335.75,4177.5,13.6625,1.0
76,8,14.666667,324.0,4064.666667,13.222222,1.0
75,8,15.666667,330.5,4108.833333,13.166667,1.0
74,8,14.2,315.2,4438.4,14.7,1.0
73,8,13.2,365.25,4279.05,12.25,1.0
72,8,13.615385,344.846154,4228.384615,13.0,1.0
71,8,13.428571,371.714286,4537.714286,12.214286,1.0


## Как указать разные функции агрегации для разных колонок (метод .agg())

Метод .agg() позволяет явно указать, какие именно методы агрегации следует использовать для каждой из категорий.

In [113]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,1,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,1,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,1,ford torino


### Метод .agg() для DataFrame

In [122]:
# Строковые значения, передаваемые в список, должны совпадать со встроенными названиями методов агрегации

# df.agg(['std', 'mean']) -> Работает только в старых версиях Pandas, теперь необходимо выбирать колонки вручную

df[['mpg', 'cylinders', 'displacement', 'weight', 'acceleration', 'model_year', 'origin']].agg(['std', 'mean'])

Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,model_year,origin
std,7.815984,1.701004,104.269838,846.841774,2.757689,3.697627,0.802055
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864


### Указание методов агрегации для колонок
agg() позволяет передавать словарь, в котором ключи словаря - это названия колонок, а значения словаря - это методы агрегации для этих колонок.

In [126]:
df.agg({'mpg':['max', 'mean'], 'weight':['mean', 'std']})

Unnamed: 0,mpg,weight
max,46.6,
mean,23.514573,2970.424623
std,,846.841774


*Здесь в колонках - колонки исходного датафрейма, в строках - функции агрегации, на пересечении - вычисленнные функции агрегации. Лишние строки заполняются значением NaN!*

### Метод .agg() с .groupby()

In [130]:
df.groupby('model_year').agg({'mpg':['median', 'mean'], 'weight':['mean', 'std']})

Unnamed: 0_level_0,mpg,mpg,weight,weight
Unnamed: 0_level_1,median,mean,mean,std
model_year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
70,16.0,17.689655,3372.793103,852.868663
71,19.0,21.25,2995.428571,1061.830859
72,18.5,18.714286,3237.714286,974.52096
73,16.0,17.1,3419.025,974.809133
74,24.0,22.703704,2877.925926,949.308571
75,19.5,20.266667,3176.8,765.179781
76,21.0,21.573529,3078.735294,821.371481
77,21.75,23.375,2997.357143,912.825902
78,20.7,24.061111,2861.805556,626.023907
79,23.9,25.093103,3055.344828,747.881497
