# Операции группировки данных (Groupby) и многоуровневый индекс (мульти-индекс)

In [1]:
import numpy as np
import pandas as pd
pd.options.display.max_rows = 5

## Данные

In [2]:
df = pd.read_csv('mpg.csv')

In [3]:
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
...,...,...,...,...,...,...,...,...,...
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger
397,31.0,4,119.0,82,2720,19.4,82,1,chevy s-10


## Метод groupby()

In [4]:
# Создаёт объект groupby, который ожидает метода агрегации
df.groupby('model_year')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002201B2181F0>

#### Добавляем вызов метода агрегации. Чтобы использовать объект groupby, нам нужно сообщить pandas, как мы хотим агрегировать данные.

Наиболее частые варианты:

    mean(): среднее значение 
    sum(): сумма значений
    size(): размер группы
    count(): количество элементов
    std(): среднеквадратичное отклонение (standard deviation)
    var(): дисперсия (variance)
    sem(): стандартная ошибка среднего (standard error of the mean)
    describe(): суммарные статистики
    first(): первое значение
    last(): последнее значение
    nth() : n-ое значение, или набор значений если n является списком
    min(): минимальное значение
    max(): максимальное значение
    
Полный список функций можно посмотреть в документации: https://pandas.pydata.org/docs/reference/groupby.html

In [5]:
# Колонка model_year становится индексом! Теперь это НЕ название колонки, а название индекса
df.groupby('model_year').mean()

Unnamed: 0_level_0,mpg,cylinders,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,17.689655,6.758621,281.413793,3372.793103,12.948276,1.310345
71,21.250000,5.571429,209.750000,2995.428571,15.142857,1.428571
...,...,...,...,...,...,...
81,30.334483,4.620690,135.310345,2522.931034,16.306897,1.965517
82,31.709677,4.193548,128.870968,2453.548387,16.638710,1.645161


In [6]:
avg_year = df.groupby('model_year').mean()

In [7]:
avg_year.index

Int64Index([70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], dtype='int64', name='model_year')

In [8]:
avg_year.columns

Index(['mpg', 'cylinders', 'displacement', 'weight', 'acceleration', 'origin'], dtype='object')

In [9]:
avg_year['mpg']

model_year
70    17.689655
71    21.250000
        ...    
81    30.334483
82    31.709677
Name: mpg, Length: 13, dtype: float64

In [10]:
df.groupby('model_year').mean()['mpg']

model_year
70    17.689655
71    21.250000
        ...    
81    30.334483
82    31.709677
Name: mpg, Length: 13, dtype: float64

In [11]:
df.groupby('model_year').describe()

Unnamed: 0_level_0,mpg,mpg,mpg,mpg,mpg,mpg,mpg,mpg,cylinders,cylinders,...,acceleration,acceleration,origin,origin,origin,origin,origin,origin,origin,origin
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
model_year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
70,29.0,17.689655,5.339231,9.0,14.0,16.0,22.0,27.0,29.0,6.758621,...,15.000,20.5,29.0,1.310345,0.603765,1.0,1.0,1.0,1.0,3.0
71,28.0,21.250000,6.591942,12.0,15.5,19.0,27.0,35.0,28.0,5.571429,...,16.125,20.5,28.0,1.428571,0.741798,1.0,1.0,1.0,2.0,3.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81,29.0,30.334483,5.591465,17.6,26.6,31.6,34.4,39.1,29.0,4.620690,...,17.300,20.7,29.0,1.965517,0.944259,1.0,1.0,2.0,3.0,3.0
82,31.0,31.709677,5.392548,22.0,27.0,32.0,36.0,44.0,31.0,4.193548,...,18.000,24.6,31.0,1.645161,0.914636,1.0,1.0,1.0,3.0,3.0


In [12]:
df.groupby('model_year').describe().transpose()

Unnamed: 0,model_year,70,71,72,73,74,75,76,77,78,79,80,81,82
mpg,count,29.000000,28.00,28.000000,40.0,27.000000,30.000000,34.000000,28.000,36.000000,29.000000,29.000000,29.000000,31.000000
mpg,mean,17.689655,21.25,18.714286,17.1,22.703704,20.266667,21.573529,23.375,24.061111,25.093103,33.696552,30.334483,31.709677
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
origin,75%,1.000000,2.00,2.000000,2.0,2.000000,2.000000,2.000000,2.000,2.000000,1.000000,3.000000,3.000000,3.000000
origin,max,3.000000,3.00,3.000000,3.0,3.000000,3.000000,3.000000,3.000,3.000000,3.000000,3.000000,3.000000,3.000000


## Groupby по нескольким колонкам
Давайте изучим средние значения по годам и по количеству цилиндров

In [13]:
df.groupby(['model_year','cylinders']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.000000,2292.571429,16.000000,2.285714
70,6,20.500000,199.000000,2710.500000,15.500000,1.000000
...,...,...,...,...,...,...
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
82,6,28.333333,225.000000,2931.666667,16.033333,1.000000


In [14]:
df.groupby(['model_year','cylinders']).mean().index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

# Мульти-индекс (MultiIndex)

## Объект MultiIndex

In [15]:
year_cyl = df.groupby(['model_year','cylinders']).mean()

In [16]:
year_cyl

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.000000,2292.571429,16.000000,2.285714
70,6,20.500000,199.000000,2710.500000,15.500000,1.000000
...,...,...,...,...,...,...
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
82,6,28.333333,225.000000,2931.666667,16.033333,1.000000


In [17]:
year_cyl.index

MultiIndex([(70, 4),
            (70, 6),
            (70, 8),
            (71, 4),
            (71, 6),
            (71, 8),
            (72, 3),
            (72, 4),
            (72, 8),
            (73, 3),
            (73, 4),
            (73, 6),
            (73, 8),
            (74, 4),
            (74, 6),
            (74, 8),
            (75, 4),
            (75, 6),
            (75, 8),
            (76, 4),
            (76, 6),
            (76, 8),
            (77, 3),
            (77, 4),
            (77, 6),
            (77, 8),
            (78, 4),
            (78, 5),
            (78, 6),
            (78, 8),
            (79, 4),
            (79, 5),
            (79, 6),
            (79, 8),
            (80, 3),
            (80, 4),
            (80, 5),
            (80, 6),
            (81, 4),
            (81, 6),
            (81, 8),
            (82, 4),
            (82, 6)],
           names=['model_year', 'cylinders'])

In [18]:
year_cyl.index.levels

FrozenList([[70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82], [3, 4, 5, 6, 8]])

In [19]:
year_cyl.index.names

FrozenList(['model_year', 'cylinders'])

# Индексирование с помощью иерархического индекса

In [20]:
year_cyl.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.0,2292.571429,16.0,2.285714
70,6,20.5,199.0,2710.5,15.5,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
71,4,27.461538,101.846154,2056.384615,16.961538,1.923077
71,6,18.0,243.375,3171.875,14.75,1.0


## Получаем данные на основе внешнего индекса

In [21]:
year_cyl.loc[70]

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


In [22]:
year_cyl.loc[[70,72]]

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,4,25.285714,107.000000,2292.571429,16.000000,2.285714
70,6,20.500000,199.000000,2710.500000,15.500000,1.000000
...,...,...,...,...,...,...
72,4,23.428571,111.535714,2382.642857,17.214286,1.928571
72,8,13.615385,344.846154,4228.384615,13.000000,1.000000


## Получаем одну строку

In [23]:
year_cyl.loc[(70,8)]

mpg               14.111111
displacement     367.555556
weight          3940.055556
acceleration      11.194444
origin             1.000000
Name: (70, 8), dtype: float64

# Получаем данные на основе пересечения (cross-section) с помощью .xs()

Этот метод использует параметр `key` для выборки данных на некотором уровне мульти-индекса.

Параметры
----------
    key : метка (label) или кортеж из меток
        Метка должна содержаться в индексе, или частично в мульти-индексе.
    axis : {0 или 'index', 1 или 'columns'}, по умолчанию 0
        Ось, по которой делаем пересечение.
    level : объект, по умолчанию первые n уровней (n=1 или len(key))
        В случае, если ключ частично содержится в мульти-индексе, то этот параметр указывает на те
        уровни, которые следует использовать. Уровни можно указывать с помощью меток или позиции.

In [24]:
year_cyl.xs(key=70,axis=0,level='model_year')

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
cylinders,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4,25.285714,107.0,2292.571429,16.0,2.285714
6,20.5,199.0,2710.5,15.5,1.0
8,14.111111,367.555556,3940.055556,11.194444,1.0


In [25]:
# Средние значения для 4 цилиндров по годам
year_cyl.xs(key=4,axis=0,level='cylinders')

Unnamed: 0_level_0,mpg,displacement,weight,acceleration,origin
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
70,25.285714,107.000000,2292.571429,16.000000,2.285714
71,27.461538,101.846154,2056.384615,16.961538,1.923077
...,...,...,...,...,...
81,32.814286,108.857143,2275.476190,16.466667,2.095238
82,32.071429,118.571429,2402.321429,16.703571,1.714286


### Обратите внимание!

Имейте ввиду, что обычно гораздо проще отфильтровать данные **перед** вызовом функции groupby(), чем после. Например, намного проще удалить строки со значениями **cylinder=4** перед вызовом groupby(), а после это сделать уже сложнее.

In [26]:
df[df['cylinders'].isin([6,8])].groupby(['model_year','cylinders']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
70,6,20.500000,199.000000,2710.500000,15.500000,1.0
70,8,14.111111,367.555556,3940.055556,11.194444,1.0
...,...,...,...,...,...,...
81,8,26.600000,350.000000,3725.000000,19.000000,1.0
82,6,28.333333,225.000000,2931.666667,16.033333,1.0


## Поменять уровни местами

In [27]:
year_cyl.swaplevel().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
cylinders,model_year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4,70,25.285714,107.0,2292.571429,16.0,2.285714
6,70,20.5,199.0,2710.5,15.5,1.0
8,70,14.111111,367.555556,3940.055556,11.194444,1.0
4,71,27.461538,101.846154,2056.384615,16.961538,1.923077
6,71,18.0,243.375,3171.875,14.75,1.0


## Сортировка мульти-индекса

* https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#sorting-a-multiindex 

In [28]:
year_cyl.sort_index(level='model_year',ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
82,6,28.333333,225.000000,2931.666667,16.033333,1.000000
82,4,32.071429,118.571429,2402.321429,16.703571,1.714286
...,...,...,...,...,...,...
70,6,20.500000,199.000000,2710.500000,15.500000,1.000000
70,4,25.285714,107.000000,2292.571429,16.000000,2.285714


In [29]:
year_cyl.sort_index(level='cylinders',ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,mpg,displacement,weight,acceleration,origin
model_year,cylinders,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
81,8,26.60,350.0,3725.0,19.0,1.0
79,8,18.63,321.4,3862.9,15.4,1.0
...,...,...,...,...,...,...
73,3,18.00,70.0,2124.0,13.5,3.0
72,3,19.00,70.0,2330.0,13.5,3.0


# Дополнительные материалы: метод agg()

Метод agg() позволяет Вам явно указать, какие именно методы агрегации следует использовать для каждой из категорий.

In [30]:
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130,3504,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,1,buick skylark 320
...,...,...,...,...,...,...,...,...,...
396,28.0,4,120.0,79,2625,18.6,82,1,ford ranger
397,31.0,4,119.0,82,2720,19.4,82,1,chevy s-10


## agg() для DataFrame

In [31]:
# Эти строковые значения должны совпадать со встроенными названиями методов агрегации
df.agg(['median','mean'])

  df.agg(['median','mean'])


Unnamed: 0,mpg,cylinders,displacement,weight,acceleration,model_year,origin
median,23.0,4.0,148.5,2803.5,15.5,76.0,1.0
mean,23.514573,5.454774,193.425879,2970.424623,15.56809,76.01005,1.572864


In [32]:
df.agg(['sum','mean'])[['mpg','weight']]

  df.agg(['sum','mean'])[['mpg','weight']]


Unnamed: 0,mpg,weight
sum,9358.8,1182229.0
mean,23.514573,2970.425


### Указываем методы агрегации для колонок

**agg()** позволяет Вам передавать словарь, в котором ключи словаря это названия колонок, а значения словаря это методы агрегации для этих колонок.

In [33]:
df.agg({'mpg':['median','mean'],'weight':['mean','std']})

Unnamed: 0,mpg,weight
median,23.0,
mean,23.514573,2970.424623
std,,846.841774


## agg() с groupby()

In [34]:
df.groupby('model_year').agg({'mpg':['median','mean'],'weight':['mean','std']})

Unnamed: 0_level_0,mpg,mpg,weight,weight
Unnamed: 0_level_1,median,mean,mean,std
model_year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
70,16.0,17.689655,3372.793103,852.868663
71,19.0,21.250000,2995.428571,1061.830859
...,...,...,...,...
81,31.6,30.334483,2522.931034,533.600501
82,32.0,31.709677,2453.548387,354.276713
