Muslimov Arthur, Last Checkpoint: 03/26/2020

До сих пор мы рассматривали одномерные и двумерные данные в объектах     <br/>
Series и DataFrame. Но в Pandas есть возможность хранить и многомерные   <br/>
данные, даже нативным образом, используя объекты Panel и Panel4D для     <br/>
трёх и четырёхмерных данных. Но на практике чаще пользуются              <br/>
***иерархической индексацией*** (hierarchical indexing), или по другому  <br/>
***мультииндексацией*** (multi-indexing), для включения в один индекс    <br/>
несколько ***уровней***. При этом данные могут быть комактно упаковываны     <br/>
в привычных объектах Series и DataFrame.

Здесь ты познаешь создание объектов MultiIndex напрямую, почитаешь   <br/>
о соображениях насчёт индексации, срезах и вычислениях статистических     <br/>
показателей по мультииндексированным данным. Также ты увидишь          <br/>
ползные методы по преобразования между простым и иерархически          <br/>
индексированным представлением данных.

Ну, приступим.

In [1]:
import numpy as np
import pandas as pd

rng = np.random.RandomState(42)  # для одинаковых результатов

%xmode Minimal
%autosave 0

Exception reporting mode: Minimal


Autosave disabled


# Мультииндексированный объект Series

Здесь мы рассмотрим то, как можно представить двумерные  <br/>
данные в одномерном Series на простом примере.

### Плохой способ

Допустим, нам надо проанализировать данные о населении штатов за два разных года.  <br/>
Ты конечно можешь сделать по простому, задав кортежы в качестве ключей.

In [2]:
index = [('California', 2000), ('California', 2010),
         ('New York', 2000), ('New York', 2010),
         ('Texas', 2000), ('Texas', 2010)]
population = [33871648, 37253856,
              18976457, 19378102,
              20851820, 25145561]
pop = pd.Series(population, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253856
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

Теперь можешь делать интересные срезы прямо на массиве, как этот:

In [3]:
pop[('California', 2010):('Texas', 2000)]  # как бы ты такое сделал в матрице?

(California, 2010)    37253856
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
dtype: int64

Но на этом удобства заканчиваются. Если ты захочешь выделить данные,  <br/>
например, за 2010 год, то тебе придётся делать громозкую работу.

In [4]:
pop[[i for i in pop.index if i[1] == 2010]]  # кастыль? кастыль!

(California, 2010)    37253856
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

Да, желаемый результат получен, но гораздо менее изящно (и далеко      <br/>
не так эффективно), как использование полюбившихся нам срезов Pandas.

### Лучший способ

В Pandas для таких операций есть способ получше. Наш костылик,  <br/>
по сути, является примитивным мультииндексом, который как-раз      <br/>
нам и нужен. Создать из кортежей его можно так:

In [5]:
index = pd.MultiIndex.from_tuples(index)  # впихнём в него наш индекс, ведь он тоже почти кортеж
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

*Мда... Pandas решил, что представление выше будет лучше. А вот что должно быть по книге:*
```
MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])
```

Как ты видишь, MultiIndex хранит несколько *уровней* индексации. Здесь  <br/>
у нас это штаты и годы, а также несколько *меток* (labels) для данных.

Если мы переиндексируем наш Series, то увидим иерархическое представление данных.

In [6]:
pop = pop.reindex(index)  # reindex() безопасно переиндексирует объект, т.е. данные
pop                       # остаются со своими индексами. Если в метод попадает новый индекс,
                          # то к нему подставляется NA-значение. Если старый индекс
                          # не попадает в новую партию, то не попадает и его значение.
                          # Избежать этого можно просто сделавтак: pop.index = newIndex

California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Вот это уже выглядит красиво и логично. Даже напоминает древо папок, когда ты  <br/>
вводишь tree в консоль Windows. Наши данные здесь отображены справа.

Теперь, чтобы получать данные по нашему году,  <br/>
можно воспользоваться привычными методами.

In [7]:
pop[:, 2010]  # да это же почти двумерный массив в Series!

California    37253856
New York      19378102
Texas         25145561
dtype: int64

Так уже удобнее (а скорость гораздо выше!). Давай   <br/>
теперь посмотрим на мультииндексацию в действии.

### Мультииндекс как дополнительное измерение

Почему бы сразу не использовать DataFrame? Да, ты можешь преобразовать     <br/>
мультииндексный Series в DataFrame, даже используя готовый метод `unstack()`.

In [8]:
pop_df = pop.unstack()  # разложим наш Series на второе измерение
pop_df

Unnamed: 0,2000,2010
California,33871648,37253856
New York,18976457,19378102
Texas,20851820,25145561


In [9]:
pop_df.stack()  # с помощью stack() выходит обратный эффект. Здесь мы складываем
             # новенький DataFrame, получая Series с мультииндексацией

California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Но чтобы наращивать измерения дальше, без мультииндексации  <br/>
не обойтись. Ну т.е. пока Panel и Panel4D не кончатся.

На самом деле это всё те же одномерные Series и двумерные DataFrame массивы,  <br/>
просто доступ к ним будет такой, как к действительно многомерным.

Такими представлениями очень удобно пользоваться. Например, нам  <br/>
нужно добавить в наши данные по штатам ещё один столбец -      <br/>
численность людей, возраст которых меньше 18 по нашим годам.     <br/>
Нам всего-лишь нужно сделать новый DataFrame.

In [10]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318933,    # новый столбец аккуратно
                                   5906301, 6879014]})  # размажется по индексам
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253856,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318933
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


Вся функциональность, которую мы разбирали ранее, тоже прекрасно  <br/>
работает с иерархической индексацией. Мы можем добавить ещё      <br/>
данных в наш объект - процент несовершеннолетних по годам.

In [11]:
pop_df['f_u18'] = pop_df['under18'] / pop_df['total']
pop_df

Unnamed: 0,Unnamed: 1,total,under18,f_u18
California,2000,33871648,9267089,0.273594
California,2010,37253856,9284094,0.249212
New York,2000,18976457,4687374,0.24701
New York,2010,19378102,4318933,0.222877
Texas,2000,20851820,5906301,0.283251
Texas,2010,25145561,6879014,0.273568


Видим, что ко-во детей потихоньку уменьшается, и радуемся.

# Методы создания мультииндексов

Наиболее простой способ создать мультииндекс - это просто передать  <br/>
в конструктор список из обычных индексов, даже не объектов Index.

In [12]:
pf = pd.DataFrame(np.random.rand(4, 2), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                                    columns=['first', 'second'])
pf

Unnamed: 0,Unnamed: 1,first,second
a,1,0.464326,0.849914
a,2,0.002867,0.630818
b,1,0.974409,0.092152
b,2,0.514781,0.837443


Всю работу здесь Pandas берёт на себя.

Pandas способен переварить даже индексы, переданные в виде словаря с кортежами.

In [13]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253856,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('Louisiana', 2020): 4645184   }  # индексы необязательно должны быть симметричны
pd.Series(data)  # создаём Series из словаря. В DataFrame сразу так нельзя

California  2000    33871648
            2010    37253856
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
Louisiana   2020     4645184
dtype: int64

Выглядит хорошо. Но, всё же иногда удобнее  <br/>
создавать мультииндексы явно.

### Явные конструкторы для объектов MultiIndex

При формировании индекса для большей гибкости можно воспользоваться  <br/>
внутренним конструктором-методом класса `pd.MultiIndex`. Например, вот    <br/>
как формируется объект MultiIndex из простого списка массивов индексов.

In [14]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Или из списка кортежей, поточечно задающих индексы.

In [15]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Ещё можно из декартова произведение обычных индексов.

In [16]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])  # координаты получаются как-бы фонтанчиком

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

Можно даже сформировать MultiIndex, прямо задав  <br/>
его внутреннее представление.

In [17]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              codes=[[0, 0, 1, 1], [0, 1, 0, 1]])  # раньше codes назывался labels

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

И все только-что созданные объекты могут быть переданы  <br/>
как аргумент index при создании Series и DataFrame или  <br/>
методу `reindex` уже cуществующим объектам.

### Названия уровней мультииндексов

Иногда бывает удобно задать названия для уровней.      <br/>
Это можно было сделать задав аргумент names в любом    <br/>
из кострукторах выше, ну или постскриптум чуть позже.

In [18]:
pop.index.names = ['state', 'year']
pop

state       year
California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

В наборах данных посложнее эти имена, наверное, здорово выручают.

### Мультииндекс для столбцов

Столбцы объектов DataFrame так же как и строки могут     <br/>
состоять из нескольких уровней. Например, вот имитация   <br/>
медицинских данных. В чём-то они даже реалистичны.

In [19]:
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])
data = np.round(rng.randn(4, 6), 1)  # округляем наш рандом до единиц

# Имитация реальности
data[:, ::2] *= 10
data += 37

health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,42.0,36.9,43.0,38.5,35.0,36.8
2013,2,53.0,37.8,32.0,37.5,32.0,36.5
2014,1,39.0,35.1,20.0,36.4,27.0,37.3
2014,2,28.0,35.6,52.0,36.8,38.0,35.6


Как мы видим, мультииндексация строк и столбцов может  <br/>
оказаться чрезвычайно удобной! По сути, теперь у нас   <br/>
четырёхмерные данные с такой иерархией: субьект,       <br/>
измеряемый параметр, год и номер визита. Теперь мы     <br/>
можем, например, удобно получать данные о Бобе.

In [20]:
health_data['Bob']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,42.0,36.9
2013,2,53.0,37.8
2014,1,39.0,35.1
2014,2,28.0,35.6


Похоже, что это был не лучший период в его жизни.  <br/>
Зато как красиво выглядят его данные! В записях    <br/>
посложнее тоже проблем быть не должно.

# Индексация и срезы по мультииндексу

Мультииндексация и срезы по мультииндексу такие же интуитивные. Можно  <br/>
считать, что ты работаешь с действительно многомерным массивом. Как и  <br/>
всегда, рассмотрим сначала работу с Series, а затем уже и с DataFrame.

### Мультииндексация объектов Series

И снова на рассмотрении у нас будут штаты.

In [21]:
pop

state       year
California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

Обращаться к отдельным элементам можно  <br/>
с помощью нескольких термов.

In [22]:
pop['Texas', 2000]  # можно даже pop.Texas[2000]. Да, атрибуты тоже присутствуют

20851820

MultiIndex поддерживает и ***частичную индексацию***   <br/>
(partial indexing), т.е. по отдельным уровням.         <br/>
Результатом будет часть того же Series объекта,        <br/>
но с более низкоуровневыми индексами.

In [23]:
pop['New York']

year
2000    18976457
2010    19378102
dtype: int64

Возможны также частичные срезы, если мультииндекс  <br/>
отсортирован (об этом поговорим чуть позже).

In [24]:
pop['California': 'New York']  # у нас индексы итак идут по порядку

state       year
California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
dtype: int64

С помощью отсортированных индексов можно делать  <br/>
частичную индексацию по более низкому уровню.

In [25]:
pop[:, 2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

Ну, т.е. отличий от привычного нам стиля почти нет.

In [26]:
pop[pop > 22e6]  # и даже маски здесь работают

state       year
California  2000    33871648
            2010    37253856
Texas       2010    25145561
dtype: int64

In [27]:
pop.loc[['California', 'Texas'], 2000]  # здесь уже нужно использовать индексатор loc

state       year
California  2000    33871648
Texas       2000    20851820
dtype: int64

### Мультииндексация объектов DataFrame

Мультииндексация в DataFrame ведёт себя также,  <br/>
как и в Series. Вот наш медицинский пакет.

In [28]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,42.0,36.9,43.0,38.5,35.0,36.8
2013,2,53.0,37.8,32.0,37.5,32.0,36.5
2014,1,39.0,35.1,20.0,36.4,27.0,37.3
2014,2,28.0,35.6,52.0,36.8,38.0,35.6


Не забываем, что доступ по умолчанию у нас открыт  <br/>
только к столбцам. Давай посмотрим на пульс Сью.

In [29]:
health_data['Sue', 'HR']  # hr - heart rate - темп сердца

year  visit
2013  1        35.0
      2        32.0
2014  1        27.0
      2        38.0
Name: (Sue, HR), dtype: float64

Как и в случаем с одиночными индексами, у нас есть  <br/>
возможность использовать индексаторы loc и iloc.

In [30]:
health_data.iloc[2:, 2:4]  # а что там у Гвидо?

Unnamed: 0_level_0,subject,Guido,Guido
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2014,1,20.0,36.4
2014,2,52.0,36.8


Тут есть одна дополнительная фишка - мы можем задавать котежы индексов.

In [31]:
health_data.loc[(2014, 2), ('Bob', 'Temp')]  # сначала кортеж строк, затем столбцов.
                                             # Т.к. у нас фактически два измерения, нам
                                             # доступно только два поля для задания ключей

35.6

In [32]:
health_data.loc[2014, 2]  # но мы не обязаны выделять по одному на измерение.
                          # здесь у нас заданы ключи только по строкам

subject  type
Bob      HR      28.0
         Temp    35.6
Guido    HR      52.0
         Temp    36.8
Sue      HR      38.0
         Temp    35.6
Name: (2014, 2), dtype: float64

Но, как мы знаем, срез в кортеж запихнуть нельзя.

![syntax-error.png](syntax-error.png)

На самом деле можно, если задать его явно объектом slice из Python.

In [33]:
health_data.loc[(slice(2013, 2014), 1), :]  # да, не элегантно, но работает

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,42.0,36.9,43.0,38.5,35.0,36.8
2014,1,39.0,35.1,20.0,36.4,27.0,37.3


Но на этот случай в Pandas предусмотрен объект  <br/>
IndexSlice, поэтому испльзуем его.

In [34]:
health_data  # напоминаем нашего подопытного

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,42.0,36.9,43.0,38.5,35.0,36.8
2013,2,53.0,37.8,32.0,37.5,32.0,36.5
2014,1,39.0,35.1,20.0,36.4,27.0,37.3
2014,2,28.0,35.6,52.0,36.8,38.0,35.6


In [35]:
idx = pd.IndexSlice
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,42.0,43.0,35.0
2014,1,39.0,20.0,27.0


> Существует множество способов взаиодействия с данными          <br/>
> в мультииндексированных объектах Series и DataFrame, и лучший  <br/>
> способ привыкнуть к ним - начать с ними экспериментировать!

# Перегруппировка мультииндексов

Владение данными - это хорошо, но было бы лучше, если мы ещё      <br/>
могли их преобразовывать в удобную нам форму. Методы `stack()`    <br/>
и `unstack()` - это лишь малая часть арсенала, предназначенного   <br/>
для перегруппировки мультииндексов в объектах Pandas без          <br/>
потерь данных. Есть гораздо более точные инструменты для работой  <br/>
с иерархией индексов и столбцов!

### Отсортированные и неотсортированные индексы

***Большинство операций срезов с мультииндексами завершится  <br/> 
ошибкой, если индекc не отсортирован.*** Давай разберёмся.

In [36]:
index = pd.MultiIndex.from_product([list('acb'), [1, 2]])  # наши не отсортированные индексы
data = pd.Series(rng.randint(0, 10, 6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      8
      2      2
c     1      4
      2      2
b     1      6
      2      4
dtype: int64

Пытаемся сделать типичный срез.

In [37]:
try:
    data['a':'b']
except KeyError as e:  # в трассировке выдаётся UnsortedIndexError
    print(e)  # Длина ключа была больше, чем глубина лексикографичекой
              # сортировки объекта MultiIndex

'Key length (1) was greater than MultiIndex lexsort depth (0)'


Из ошибки это понять трудно, но дело в том, что наш          <br/>
MultiIndex не отсортирован. По различным причинам            <br/>
подобные операции требуют, чтобы уровни мультииндекса        <br/>
были сортированы. К счастью, нам доступны методы             <br/>
`sort_index()` и `sortlevel()`. Второй имеется в DataFrame.

In [38]:
data = data.sort_index()
data

char  int
a     1      8
      2      2
b     1      6
      2      4
c     1      4
      2      2
dtype: int64

Теперь проблем быть не должно.

In [39]:
data['a':'b']

char  int
a     1      8
      2      2
b     1      6
      2      4
dtype: int64

### Выполнение над индексами операций `stack()` и `unstack()`

Ты уже встречал одного из них. Метод `unstack()` преобразовывает  <br/>
вертикальное иерархическое предаставление в простое двумерное.    <br/>
При необходимости ему можно указать уровень.

In [40]:
pop  # вспоминаем нашего подопытного

state       year
California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [54]:
pop.unstack()  # по умолчанию к столбцам перебрасывается нижний уровень.
               # Интересно то, что если применить unstack() дважды, то будет
               # тот же Series, но с переставленными уровнями

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253856
New York,18976457,19378102
Texas,20851820,25145561


In [42]:
pop.unstack(level=0)

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253856,19378102,25145561


В противоположность ему есть метод `unstack()`. Но, т.к.  <br/>
Series складываться некуда, он есть только у DataFrame.

In [43]:
pop.unstack().stack()  # у stack() тоже есть выбор уровней.
                       # если поиграться с level, то можно даже поменять местами уровни

state       year
California  2000    33871648
            2010    37253856
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

### Создание и перестройка индексов

Ещё один способ перегруппировки иерархических данных -    <br/>
преобразование уровней в столбцы. Это значит, что         <br/>
результатом всегда будет DataFrame. Параметром `name`     <br/>
в случае Series объекта можно задать имя столбца значений.

In [44]:
pop_flat = pop.reset_index(name='population')  # выделяется по столбцу на уровень
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253856
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


Реальные данные очень часто примерно так и выглядят, поэтому       <br/>
удобно создавать MultiIndex из этих столбцов. Метод `set_index()`  <br/>
объекта DataFrame, возвращающий мультииндексированный DataFrame.

In [45]:
pop_flat.set_index(['state', 'year'])  # возвращает DataFrame! Но есть метод stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253856
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


При работе с реальными данными это, наверное, один      <br/>
из самых удобных паттернов, здорово облегчающих жизнь.

# Агрегирование по мультииндексам

В Pandas есть свои аналоги функций агрегирования NumPy. Разумеется,  <br/>
они тоже не просто скопированы, а дополнены под нужды объектов.      <br/>
В случае иерархической индексации им можно передать параметр level,  <br/>
по которому и будет вычислятся сводный показатель.                   

In [68]:
health_data  # напоминаем нашего подопытного

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,42.0,36.9,43.0,38.5,35.0,36.8
2013,2,53.0,37.8,32.0,37.5,32.0,36.5
2014,1,39.0,35.1,20.0,36.4,27.0,37.3
2014,2,28.0,35.6,52.0,36.8,38.0,35.6


Допустим, мы хотим усреднить результаты измерений  <br/>
по двум визитам за год для каждого субъекта.

In [77]:
data_year = health_data.mean(level='year')  # выставляем годы в качестве уровня схлопывания
data_year

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,47.5,37.35,37.5,38.0,33.5,36.65
2014,33.5,35.35,36.0,36.6,32.5,36.45


Стоит помнить, что по умолчанию нам доступны только    <br/>
уровни высшего измерения. Чтобы схлопывать столбцы,    <br/>
мы можем указать второе измерение в параметре `axis`.

In [80]:
data_year.mean(axis=1, level='type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,39.5,37.333333
2014,34.0,36.133333


Вот так в паре строк мы нашли средние показатели пациентов  <br/>
за каждый год. Такой синтаксис представляет собой краткую   <br/>
форму функциональности GroupBy, о которой позже.

> Хотя наш пример - всего лишь модель, структура многих    <br/>
> реальных наборов данных аналогичным образом иерархична.

# > Данные объектов Panel

В Pandas есть ещё несколько пока незатронутых нами объектов,       <br/>
а именно Panel и Panel4D. Их можно рассматривать как трёхмерное    <br/>
и четырёхмерное обобщение (одномерной структуры) объекта Series    <br/>
и (двумерной структуры) объекта DataFrame. Но, к сожалению, они    <br/>
устарели и были почти полностью удалены из Pandas (в версии        <br/>
Pandas 1.0.2 от Panel осталось только упоминание о его удалении).  <br/>
Но есть и плюсы - это всё-таки упращение библиотеки, да, может     <br/>
и с потерей некоторой функциональности. Хотя автор говорит, что    <br/>
по его опыту предпочтительнее было использовать иерархическую      <br/>
индексацию, т.к. это более удобный интерфейс и представление.      <br/>
Ещё автор возводит в плюс то, что такое плотное представление      <br/>
данных, как Panel, плохо себя показывает в реальных данных.