“Python Data Science Handbook by Jake VanderPlas (O’Reilly). Copyright 2017 Jake VanderPlas, 978-1-491-91205-8.”

## Бібліотека Pandas. Частина 3. Ієрархічна індексація 

Ми розглянули одномірні і двовимірні дані, що знаходяться в об'єктах Series і DataFrame бібліотеки Pandas.

Часто буває зручно вийти за межі двох вимірів і зберігати багатовимірні дані, тобто дані,
індексовані по більш ніж двом ключам. Хоча бібліотека Pandas надає об'єкти Panel і Panel4D, що дозволяють зберігати тривимірні
і чотиривимірні дані, на практиці часто використовується ієрархічна індексація (hierarchical indexing),
або мультиіндексація (multi-indexing), для включення в один індекс декількох
рівнів. При цьому багатовимірні дані можуть бути компактно представлені в уже
звичних нам одновимірних об'єктах Series і двовимірних об'єктах DataFrame. 

In [None]:
import pandas as pd
import numpy as np

### Мультиіндексний об'єкт Series 

Розглянемо, як можна подати двовимірні дані в одновимірному об'єкті Series. 
Вивчимо ряд даних, в якому у кожної точки є символьний і числовий ключі. 

#### Поганий спосіб

Нехай нам потрібно проаналізувати дані про населення штатів за два різних роки. 

In [None]:
# нехай наші індекси - кортежі 


Якщо застосовується така схема індексації, то з'являється можливість безпосередньо індексувати або виконувати зріз ряду даних на основі такого мультиіндексу: 

Але на цьому зручність закінчується. Наприклад, при необхідності вибрати всі значення з 2010 року доведеться виконати громіздке (і потенційно повільне) очищення даних: 

Це хоча і призводить до бажаного результату, але набагато менш витончено (і далеко не так ефективно), як використання синтаксису зрізів в бібліотеці Pandas. 

#### Кращий спосіб

У бібліотеці Pandas є кращий спосіб виконання таких операцій. 
Наша індексація, заснована на кортежах, по суті, є примітивним мультиіндекс, 
і тип MultiIndex бібліотеки Pandas якраз забезпечує необхідні нам
операції. Створити мультиіндекс з кортежів можна наступним чином: 

Проіндексувавши заново наші дані про населення за допомогою MultiIndex, ми здобуваємо ієрархічне подання даних: 

Перші два стовбці подання об'єкта Series відображають значення мультиіндексу, а третій стовпець - дані. 
Зверніть увагу, що в першому стовбці відсутні деякі елементи: в цьому мультиіндексному поданні всі
пропущені елементи означають те ж значення, що і рядком вище. 

Іноді буває зручно задати назви для рівнів об'єкта MultiIndex. 

Тепер для вибору даних можна просто скористатися синтаксисом зрізів бібліотеки Pandas: 

In [None]:
# дані за 2010 рік


Результат являє собою масив з одиночним індексом і тільки тими ключами, які нас цікавлять. 
Такий синтаксис набагато зручніше (а операція виконується набагато швидше!), ніж мультиіндексне рішення на основі кортежів,
з якого ми почали (див. Поганий спосіб).

In [None]:
# дані по California


In [None]:
# дані по California за 2010 рік


Зараз ми розглянемо докладніше подібні операції індексації над ієрархічно індексованими даними. 

#### Мультиіндекс як додатковий вимір даних

Ми можемо зберігати ті ж самі дані за допомогою простого об'єкта DataFrame з індексом і мітками стовпців. 
Насправді бібліотека Pandas створена з урахуванням цієї рівнозначності. 
Метод **unstack()** може швидко перетворити мультиіндексний об'єкт Series в індексований звичайний об'єкт DataFrame: 

In [None]:
# звичайний об'єкт DataFrame


Як і можна було очікувати, метод **stack()** виконує протилежну операцію: 

In [None]:
# мультиіндексний об'єкт Series 


Чому взагалі має сенс возитися з ієрархічної індексацією? Причина проста: 
аналогічно тому, як ми використовували мультиіндексацію для подання двовимірних даних 
в одновимірному об'єкті Series, можна використовувати її для подання даних з трьома або більше вимірами 
в об'єктах Series або DataFrame. 

Кожен новий рівень в мультиіндексі представляє додатковий вимір даних. Завдяки використанню цієї властивості 
ми отримуємо набагато більше свободи в поданні типів даних. Наприклад, нам може знадобитися додати в демографічні дані 
по кожному штату за кожен рік ще один стовпець (припустимо, кількість населення молодше 18 років). Завдяки типу
MultiIndex це зводиться до додавання ще одного стовпчика в об'єкт DataFrame: 

In [None]:
# мультиіндексний об'єкт Series 


Всі універсальні функції працюють з ієрархічними індексами. У наступному фрагменті коду ми обчислюємо по роках частку населення молодше 18 років на основі вищенаведених даних: 

In [None]:
# мультиіндексний об'єкт Series 


In [None]:
# звичайний об'єкт DataFrame


Це дає можливість легко і швидко маніпулювати навіть багатовимірними даними і досліджувати їх. 

### Методи створення мультиіндексів 

Найбільш простий метод створення мультиіндексного об'єкту Series або DataFrame - передати в конструктор список з двох або більше індексованих масивів,
наприклад: 

Якщо передати словник з відповідними кортежами як ключами, бібліотека Pandas автоматично розпізнає такий синтаксис 
і буде за замовчуванням використовувати мультиіндекс: 

Проте іноді буває зручно створювати об'єкти MultiIndex явно. Далі ми розглянемо декілька методів для цього. 

#### Явні конструктори для об'єктів MultiIndex

При формуванні індексу для більшої гнучкості можна скористатися наявними в класі pd.MultiIndex конструкторами-методами класу. 
Наприклад, можна сформувати об'єкт MultiIndex з простого списку масивів, які задають значення індексу в кожному з рівнів: 

Або зі списку кортежів, які задають всі значення індексу в кожній з точок: 

Або з декартового добутка звичайних індексів: 

Або з об'єкту DataFrame: 

Будь-який з цих об'єктів можна передати як аргумент методу **index** при створенні об'єктів Series або DataFrame або 
методу **reindex** вже існуючих об'єктів Series або DataFrame. 

#### Мультиіндекс для стовпців

В об'єктах DataFrame рядки і стовпці повністю симетричні, і у стовпців, як і у рядків, 
може бути кілька рівнів індексів. Наведемо приклад, який представляє собою імітацію деяких (в чомусь досить
реалістичних) медичних даних: 

In [None]:
# Ієрархічні індекси і стовпці 

# пульс (HR, від англ. Heart rate - «частота серцебиття») і температура (temperature). 

In [None]:
# Створюємо імітаційні дані 


In [None]:
# Створюємо об'єкт DataFrame 


Як бачимо, мультиіндексація як рядків, так і стовпців може виявитися надзвичайно зручною. 
По суті справи, це чотиривимірні дані з наступними вимірами: суб'єкт, вимірюваний параметр, рік і номер відвідування. 
При наявності цього ми можемо, наприклад, індексувати стовпець верхнього рівня по імені людини
і отримати об'єкт DataFrame, що містить інформацію тільки про цю людину: 

Для складних записів, що містять кілька неодноразово вимірюваних параметрів для багатьох суб'єктів (людей, країн, міст і т. д.), Буде
виключно зручно використовувати ієрархічні рядки і стовпці! 

### Індексація і зрізи по мультиіндексу 

Об'єкт MultiIndex спроектований так, щоб індексація і зрізи по мультиіндексу були інтуїтивно зрозумілими, 
особливо якщо думати про індекси як про додаткові виміри. Вивчимо спочатку індексацію мультиіндексного
об'єкту Series, а потім мультиіндексного об'єкту DataFrame. 

#### Мультиіндексація об'єктів Series 

Розглянемо мультиіндексний об'єкт Series, що містить кількість населення по штатах: 

Можна звертатися до окремих елементів: 

Об'єкт MultiIndex підтримує також часткову індексацію (partial indexing), тобто індексацію тільки по одному з рівнів індексу. 
Результатом буде також об'єкт Series, з більш низькорівневими індексами: 

Можливо також виконання часткових зрізів, якщо мультиіндекс відсортований: 

За допомогою відсортованих індексів можна виконувати часткову індексацію по нижнім рівнями, вказавши порожній зріз в першому індексі:

Інші типи індексації та вибірки теж працюють. Вибірка даних на основі булевої маски: 

Вибірка за допомогою "примхливої індексації":

#### Мультиіндексація об'єктів DataFrame

Мультиіндексні об'єкти DataFrame поводяться аналогічно. Розглянемо наш модельний медичний об'єкт DataFrame: 

В об'єктах DataFrame основними є стовпці, і синтаксис для мультиіндексних Series застосовується також до стовпців.
Наприклад, можна дізнатися пульс Гвідо за допомогою простої операції: 

Як і у випадку з одиночним індексом, можна використовувати індексатори loc, iloc. 

Працювати зі зрізами в подібних кортежі індексів не дуже зручно: спроба створити зріз в кортежі може привезти до синтаксичної помилки: 

Уникнути цього можна, сформувавши зріз явно за допомогою вбудованої функції Python **slice()**, але краще в даному випадку 
використовувати об'єкт **IndexSlice**, призначений бібліотекою Pandas якраз для подібної ситуації. Наприклад: 

Існує безліч способів взаємодії з даними в мультиіндексних об'єктах Series і DataFrame, і кращий спосіб звикнути до них - почати
з ними експериментувати! 

### Перегрупування мультиіндексів

Один з ключів до ефективної роботи з мультиіндексними даними - вміння ефективно перетворювати дані. 
Існує чимало операцій, що зберігають всю інформацію з набору даних, але перетворюють її заради зручності
проведення різних обчислень. Ми розглянули приклад цього з методами **stack()** і **unstack()**, але 
є набагато більше способів точного контролю над перегрупуванням даних між ієрархічними індексами і стовпцями. 

#### Відсортовані та невідсортовані індекси

Більшість операцій зрізів з мультиіндексами завершиться помилкою, якщо індекс НЕ ВІДСОРТОВАНИЙ. Розглянемо це питання.
Почнемо зі створення простих мультиіндексних даних, індекси в яких НЕ відсортовані лексикографічно: 

Якщо ми спробуємо виконати частковий зріз цього індексу, то отримаємо помилку: 

Хоча з повідомлення про помилку ('Довжина ключа була більше, ніж глибина лексикографічного сортування об'єкта MultiIndex') це не зрозуміло, помилка генерується, тому що об'єкт MultiIndex НЕ відсортований. 
З різних причин часткові зрізи і інші подібні операції вимагають, щоб рівні мультиіндексів були
відсортовані (лексикографічно впорядковані). Бібліотека Pandas надає безліч зручних інструментів для виконання подібного
сортування. Як приклади можемо вказати методи **sort_index()** і **sortlevel()** об'єкта DataFrame. 
Ми скористаємося найпростішим з них - методом **sort_index()**: 

Після такого сортування індексу частковий зріз буде виконуватися правильно: 

#### Виконання над індексами операцій stack і unstack 

Існує можливість перетворювати набір даних з вертикального мультиіндексного в двовимірне подання, при необхідності
вказуючи необхідний рівень **level**: 

Метод **unstack()** протилежний за дією методу **stack()**, яким можна скористатися, щоб отримати назад вихідний ряд даних: 

#### Створення і перебудова індексів 

Ще один спосіб перегрупування ієрархічних даних - перетворити мітки індексу в стовпці за допомогою методу **reset_index**. 
Результатом виклику цього методу для нашого асоціативного словника населення буде об'єкт DataFrame зі
стовпцями state (штат) і year (рік), що містять інформацію, яка раніше знаходилася в індексі. 
Для більшої ясності можна при бажанні поставити назву для подання у вигляді стовпців даних: 

При роботі з реальними даними вихідні вхідні дані дуже часто виглядають подібним чином, 
тому зручно створити об'єкт MultiIndex зі значень стовпців. 
Це можна зробити за допомогою методу **set_index** об'єкта DataFrame, що повертає мультиіндексний об'єкт DataFrame: 

На практиці цей тип перебудови індексу - один з найбільш зручних способів при роботі з реальними наборами даних. 

### Агрегування за мультиіндексами 

У бібліотеці Pandas є вбудовані методи для агрегування даних, наприклад **mean()**, **sum()** і **max()**. 
У разі ієрархічно індексованих даних цим функціям можна передати параметр **level** для вказання підмножини даних, на яких
буде обчислюватися зведений показник.

Наприклад, повернемося до наших медичних даних: 

Припустимо, нам потрібно усереднити результати вимірювань показників за двома візитам протягом року. 
Зробити це можна шляхом вказівки рівня індексу **level**, який ми хотіли б дослідити, в даному випадку року (year): 

Далі, скориставшись ключовим словом **axis**, можна отримати і середнє значення за рівнями за стовпцями: 

Так, всього двома рядками коду ми змогли знайти середній пульс і температуру по
всім суб'єктам і візитам за кожен рік. Хоча наш приклад - всього лише модель,
структура багатьох реальних наборів даних ієрархічна. 

У бібліотеці Pandas є ще кілька поки не охоплених нами структур даних, а саме об'єкти **pd.Panel** і **pd.Panel4D**. 
Їх можна розглядати як відповідно тривимірне і чотиривимірний узагальнення (одновимірної структури) об'єкта
Series і (двовимірної структури) об'єкта DataFrame. Оскільки ви вже знайомі з індексацією даних в об'єктах Series і DataFrame 
і маніпуляціями над ними, то використання об'єктів Panel і Panel4D не повинно викликати у вас труднощів. 

Ми не будемо розглядати багатовимірні структури далі, оскільки, в більшості випадків мультііндексація - зручне
і концептуально просте подання для даних більш високих розмірностей. 