In [144]:
import pandas as pd
import numpy as np

In [145]:
from IPython.core.display import display, HTML # Расширить рабочее поле ноутбука на весь экран
display(HTML("<style>.container { width:100% !important; }</style>"))

Часто бывает удобно выйти за пределы  двух измерений и хранить многомерные данные, тоесть данные, индексированные по более чем двум ключам. На практике для этих целей чаще всего используется **иерарахическая индексация** (hierarchical indexing) или **мультииндексация** (multi-indexing), для включения в один индекс нескольких **уровней**. Многомерные данные могут быть компактно представлены в уже привычных нам одномерных объектах Series и двумерных объектах DataFrame.

# Объект MultiIndex
https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.html

Рассморим, как можно представить двумерные данные в одномерном объекте Series. Для конкретики изучим ряд данных, в котором у каждой точки имеются символичный и числовой ключи

### Плохой способ

In [146]:
index = [
    ('California', 2000), ('California', 2010), 
    ('New York', 2000), ('New York', 2010), 
    ('Texas', 2000), ('Texas', 2010 )
]

populations = [
    33_871_648, 37_253_956, 
    18_976_457, 19_378_102, 
    20_851_820, 25_145_561
]

pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

При такой схеме индексации появляется возможность непосредственно индексировать или выполнять срез ряда данных на основе такого мультииндекса

In [147]:
pop[('California', 2010):('Texas', 2000)]

(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

Однако на этом удобство заканчивается. Например, при необходимости выбрать все значения из 2010 года придется проделать громоздкую (и потенциально медленную) очистку данных:

In [148]:
pop[[i for i in pop.index if i[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

Это хоть и приводит к желаемомоу результату, но гораздо изящно (и далеко не так эффективно), как использование синтаксиса срезов

### Лучший способ

В библиотеке Pandas есть лучший способ выполнения таких операций. Приведенная выше индексация, основанная на корежах, по сути, является примитивным мультииндексом, и тип MultiIndex как раз обеспечивает необходимые операции. Создать мультииндекс из кортежей можно следующим образом:

In [149]:
multi_index = pd.MultiIndex.from_tuples(index)
multi_index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

Проиндексировав заново наши ряды данных с помощью MultiIndex, мы увидим иерархическое представление данных:

In [150]:
pop = pop.reindex(multi_index) # Что это за метод, как его можно использовать?
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Здесь первые два столбца представления объекта Series отражают значения мультииндекса, а третий столбец - данные. В первом столбце отсутстуют некоторые элементы: в этом мультииндексном представлении все пропущенные элементы означают то же значение, что и строкой выше.

Выберем все значения из 2010 года с помошью среза

In [151]:
pop[:, 2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

Результат представляет собой массив с одиночным индексом и тоьлко теми ключами, которые нас интересуют. Такой синтаксис намного удобнее (а операции выполняются гораздо быстрее), чем мультммндексное решение на основе кортежей.  

# Мультииндекс как дополнительное измерение

Метод .unstack() может быстро преобразовать мультииндексный объект Series в индексирвоанный обычным образом объект DataFrame

In [152]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


Метод .stack() выполняет противоположную операцию

In [153]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Аналогично тому, как мы использовали мультииндексацию для представления двумерных данных в одномерном объекте Series, можно использовать ее для представления данных стремя или более измерениями в объектах Series или DataFrame. Каждый новый уровень в мультииндексе представляет дополнительное измерение данных. Благодаря этому свойству, мы получаем гораздо больше свободы в представлении типов данных.

Введем в данные столбец, отражающий размер начеления младше 18 лет

In [154]:
pop_df = pd.DataFrame({
    'total': pop,
    'under18': [926_089, 9_284_094, 
                4_687_374, 4_318_033, 
                5_906_301, 6_879_014]
})

pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,926089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


Вычислим по годам долю населения младше 18 лет

In [155]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.027341,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


Мы получили возможность легко и быстро манипулировать многомерными данными и исследовать их

# Создание мультииндексов

Ниболее простой способ создания мультииндексированного объекта Series или DataFrame - передать в конструктор список из двух или более индексных массивов.

In [156]:
df = pd.DataFrame(
    np.random.rand(4, 2), 
    index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], 
    columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.39422,0.539795
a,2,0.682573,0.136664
b,1,0.942595,0.36156
b,2,0.201617,0.557926


Если передать словарь с кортежами в качестве ключей, библиотека Pandas автоматически распознает такой синтаксис и будет по умолчанию использовать мультииндекс

In [157]:
data = {
    ('California', 2000): 338_716_48,
    ('California', 2010): 32_753_956,
    ('Texas', 2000): 20_851_820,
    ('Texas', 2010): 25_145_561,
    ('New York', 2000): 18_976_457,
    ('New York', 2010): 19_378_102
}

In [158]:
pd.Series(data)

California  2000    33871648
            2010    32753956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

## Явные конструкторы для объектов MultiIndex

Из списка массивов

In [159]:
pd.MultiIndex.from_arrays([['a','a','b','b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Из списка кортежей, задающих все значения индекса в каждой из точек

In [160]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), 
                           ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Из декартового произведения обычных индексов.

**Декартово произведение двух множеств** — множество, элементами которого являются все возможные упорядоченные пары элементов исходных множеств.

In [161]:
pd.MultiIndex.from_product([['a','b'], [1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

С помощью внутреннего представления

In [162]:
pd.MultiIndex(
    levels=[['a','b'], [1,2]], # список списков, содержащих имеющиеся значения индекса для каждого уровня
    codes=[[0,0,1,1], [0,1,0,1]] # список списков меток. Индексы первого и второго списка. Отображают соответствия. Попробуй поменять и станет понятно
)

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Любой из этих объектов можно передать в качестве аргумента метода index при создании объектов Series или DataFrame или методу reindex уже существующих объектов Series или DataFrame

## Названия уровней мультииндексов

Передать аргумент names конструктову класса MultiIndex, или задать значения атрибута names постфактум

In [163]:
pd.MultiIndex.from_product([['a','b'], [1, 2]], names=['letters', 'numbers'])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['letters', 'numbers'])

In [164]:
mi = pd.MultiIndex.from_arrays([['a','a','b','b'], [1, 2, 1, 2]])
mi.names = ['letters', 'numbers']
mi

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['letters', 'numbers'])

С объектами Series или DataFrame это делается так

In [165]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

В случае более сложных наборов данных такой способ дает возможность не терять из виду, что означают различные значения индекса

## Мультииндекс для столбцов

У столбцов, как и у строк, может быть несколько урвоней индексов

In [166]:
# Иерархические индексы и столбцы

index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], 
                                   names=['year', 'visit'])

columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], 
                                      ['HR', 'Temp']], 
                                     names=['subject', 'type'])

In [167]:
# Создаем имитационные данные
data = np.round(np.random.randn(4, 6), 1) # Создать матрицу рандомных чисел размерности 4 x 6 b округлить их до первого знака
data[:, ::2] *= 10 # Умножить значения в столбиках на 10 через 2
data += 37 # Прибавить ко всем значением 37

In [168]:
# Создаем объект DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,37.9,43.0,35.7,38.0,35.7
2013,2,21.0,37.2,35.0,36.5,38.0,37.3
2014,1,30.0,38.3,37.0,36.8,39.0,37.0
2014,2,59.0,37.7,54.0,37.3,49.0,35.9


Мы получили четырехмерные данные со следующими измерениями: субъект, измеряемый параметр (HR - heart rate), год и номер посещения. Мы можем индексировать столбец верхнего уровня по имени человека и получить объект DataFrame, содержащий информацию только об этом человеке:

In [169]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,43.0,35.7
2013,2,35.0,36.5
2014,1,37.0,36.8
2014,2,54.0,37.3


А если я хочу сопоставить данные сердцебиения между разными людьми?

In [170]:
# Первое, что приходит в голову
health_data[[col for col in health_data.columns if 'HR' in col]] # напоминает плохой вариант из начала. Нужно что-нибудь получше

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,27.0,43.0,38.0
2013,2,21.0,35.0,38.0
2014,1,30.0,37.0,39.0
2014,2,59.0,54.0,49.0


# Индексация и срезы по мультииндексу

## Мультииндексация объектов Series

In [171]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Мы можем обратится к объекту напрямую

In [172]:
#       state     year
pop['California', 2000]

33871648

Объект MultiIndex поддерживает также **частичную индексацию** (partial indexing), то есть индексацию только по доному из уровней индекса. Результат  - тоже объект Series, с более низкоуровневыми индексами:

In [173]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

Возможно такде выполнение частичных срезов, если мультииндекс отсортирован

In [174]:
pop.loc['California' : 'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

С помощью отсортированных индексов можно выполнять частичную индексацию по нижним уровня, указав пустой срез в первом индексе:

In [175]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

Выборка данных на основе булевой маски:

In [176]:
pop[pop > 22_000_000]

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

Выборка на основе "прихотливой индексации"

In [177]:
pop[['California', 'Texas']]

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

## Мультииндексация объектов DataFrame 

In [178]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,37.9,43.0,35.7,38.0,35.7
2013,2,21.0,37.2,35.0,36.5,38.0,37.3
2014,1,30.0,38.3,37.0,36.8,39.0,37.0
2014,2,59.0,37.7,54.0,37.3,49.0,35.9


В объектах DataFrame основными являются столбцы, и исплользуемый для мультииндексирванных Series синтаксис применяется тоже к столбцам.

Обратится как конкретной колонке (посмотрим пульс Гвидо)

In [179]:
health_data['Guido', 'HR']

year  visit
2013  1        43.0
      2        35.0
2014  1        37.0
      2        54.0
Name: (Guido, HR), dtype: float64

Использование индексатора .iloc

In [180]:
health_data.iloc[:2, :2] # все строки до третей, все столбцы до третей

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,27.0,37.9
2013,2,21.0,37.2


Использование индексатора .loc

In [181]:
health_data.loc[:, ('Bob', 'HR')]

year  visit
2013  1        27.0
      2        21.0
2014  1        30.0
      2        59.0
Name: (Bob, HR), dtype: float64

Работать со срезами в подобных кортежах индексов не очень удобно: попытка создать срез в кортеже может привести к синтаксической ошибке

In [182]:
health_data.loc[(:, 1), (:, 'HR')]

SyntaxError: invalid syntax (<ipython-input-182-fb34fa30ac09>, line 1)

Избежать этого можно, сформировав срез явным образом с помощью встроенной функции Python slice(), но лучше в данном случае использовать объект IndexSlice, предназначеный библиотекой Pandas как раз для подобной ситуации

In [183]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,27.0,43.0,38.0
2014,1,30.0,37.0,39.0


Таким образом, если мы хотим посмотреть сердцебиение всех поциентов, это можно сделать так

In [184]:
idx = pd.IndexSlice
health_data.loc[:, idx[:,'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,27.0,43.0,38.0
2013,2,21.0,35.0,38.0
2014,1,30.0,37.0,39.0
2014,2,59.0,54.0,49.0


# Перегруппировка мультииндексов

Один из ключей к эффективной работе с даннымы - умение их эфеективно преобразовыветь. Мы рассмотрели методы .stack() и .unstack(), но есть гораздо больше способов точного контроля над перегруппировакой данных между иерархическими индексами и столбцами.

## Отсортированные и неотсортированные индексы 

*Большинство операций резов с мултииндексами завершится ошибкой, если индекс не отсортирован*

Созданим мультииндексированные данные, **индексы которы не отсортированы лексографически**:

In [185]:
index = pd.MultiIndex.from_product([['a','c','b'], [1, 2]])

series = pd.Series(np.random.rand(6), index=index)
series.index.names = ['char', 'int']
series

char  int
a     1      0.039926
      2      0.901634
c     1      0.769549
      2      0.335468
b     1      0.533427
      2      0.801971
dtype: float64

Если мы попытаемся выполнить частичный срез этого индекса, то получим ошибку:

In [186]:
try:
    series['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


'Key length (1) was greater than MultiIndex lexsort depth (0)' - Длина ключа была больше, чем глубина лексикографической сортироваки объекта MultiIndex - эта ошибка возникает, потому что MultiIndex не отсортирована. По различным причинам частичные срезы и другие подобные операции требуют, чтобы уровни мультииндекса были отсортированы (лексикографически упорядочены)

Библиотека Pandas предоставляет множество удобных инструментов для выполнения подобной сортироваки. 

In [187]:
series = series.sort_index()
series

char  int
a     1      0.039926
      2      0.901634
b     1      0.533427
      2      0.801971
c     1      0.769549
      2      0.335468
dtype: float64

После подобной сротировки индекса частичный срез будет выполняться как положено:

In [188]:
series['a': 'b']

char  int
a     1      0.039926
      2      0.901634
b     1      0.533427
      2      0.801971
dtype: float64

## Выполнение над индексами операций stack и unstack

Существует возможность преобразовывать набор данных из вертикального мультииндексированного в простое двумерное представление, при необходимости указывая требуемый уровень:

In [189]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [190]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [191]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


Методу .unstack() противоположен по действию метод stack(), которым можно воспользоваться, чтобы получить обратно исходный ряд данных

In [192]:
pop.unstack().stack()

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [193]:
pop.unstack(level=0).stack()

year  state     
2000  California    33871648
      New York      18976457
      Texas         20851820
2010  California    37253956
      New York      19378102
      Texas         25145561
dtype: int64

## Создание и перестройка индексов

Еще один способ перегруппироваки иерарахических данных - преобразовать метки индекса в столбцы с помощью метода .reset_index(). Для большей ясности можно при желании задать название для представленных в виде столбцов данных: 

In [194]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


При работе с реальными данными исходные входные данные очень часто выглядят подобным образом, поэтому удобно создать объект MultiIndex из значений столбцов. Это можно сделать с помощью метода .set_index() объекта DataFrame, возвращающего мультииндексированный объект DataFrame: 

In [195]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


# Агрегирование по мультииндексам

В библиотеке Pandas имеются встроенные методы для агрегирования данных, например .mean(), .sum() и .max(). В случае иерархически индексированных данных им можно передать параметр level для указания подмножества данных, на котором будет вычисляться сводный показатель.

In [196]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,27.0,37.9,43.0,35.7,38.0,35.7
2013,2,21.0,37.2,35.0,36.5,38.0,37.3
2014,1,30.0,38.3,37.0,36.8,39.0,37.0
2014,2,59.0,37.7,54.0,37.3,49.0,35.9


Допустим, нужно усреднить результаты измерений показателей по двум визитам в течении года. Сделать это можно путем указания урованя индекса, который мы хотели бы исследовать, в данном случае года (year):

In [197]:
data_mean = health_data.mean(level='year')
data_mean

  """Entry point for launching an IPython kernel.


subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,24.0,37.55,39.0,36.1,38.0,36.5
2014,44.5,38.0,45.5,37.05,44.0,36.45


Такой способ скоро устареет, так что здесь лучше использовать groupby

In [198]:
data_mean = health_data.groupby(level='year').mean()
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,24.0,37.55,39.0,36.1,38.0,36.5
2014,44.5,38.0,45.5,37.05,44.0,36.45


Далее, воспользовавшись ключевым словом axis, можно получить и среднее значение по уровням по столбцам 

In [199]:
data_mean.groupby(axis=1, level='type').mean()

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,33.666667,36.716667
2014,44.666667,37.166667


Так, всего двумя строками кода мы смогли найти средний пульс и температуру по всем субъектам и визитам за каждый год