In [1]:
import numpy as np
import pandas as pd

## Работа мультииндексов у Серий

In [None]:
#Простая серия

In [12]:
s = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90], 
              index=[0, 1, 2, 3, 4, 5, 6, 7, 8])
s

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [13]:
#Мультииндексы
s1 = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90], 
              index=[['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c'], [0, 1, 2, 3, 4, 5, 6, 7, 8]])

In [14]:
s1

a  0    10
   1    20
   2    30
b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

- Получение данных из серии с мультииндексом

In [15]:
#Один "главный" индекс
s1['a']

0    10
1    20
2    30
dtype: int64

In [18]:
#Диапазон
s1['b':'c']

b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

In [19]:
#.loc
s1.loc[['a','c']]

a  0    10
   1    20
   2    30
c  6    70
   7    80
   8    90
dtype: int64

In [24]:
#Вот это несовсем понятно как работает, надо будет почитать
s1.loc[:,4]

b    50
dtype: int64

- .unstack() - преобразует мультииндексы в датафрэйм

In [25]:
s3 = pd.Series([50000, 45000, 40000, 55000, 47000, 45000, 52000, 43000, 41000], 
               index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 
                       'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
                      ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 
                       'Специалист', 'Начальник', 'Эксперт', 'Специалист']])

In [27]:
s3

Тестирование  Начальник     50000
              Эксперт       45000
              Специалист    40000
Разработка    Начальник     55000
              Эксперт       47000
              Специалист    45000
Аналитика     Начальник     52000
              Эксперт       43000
              Специалист    41000
dtype: int64

In [29]:
#Первый уровень становится строками
#Второй уровень становится колонками
s3.unstack()

Unnamed: 0,Начальник,Специалист,Эксперт
Аналитика,52000,41000,43000
Разработка,55000,45000,47000
Тестирование,50000,40000,45000


- .stack() - раскладывает датафрэйм в мультииндексы

In [32]:
df = s3.unstack()

In [33]:
df.stack()

Аналитика     Начальник     52000
              Специалист    41000
              Эксперт       43000
Разработка    Начальник     55000
              Специалист    45000
              Эксперт       47000
Тестирование  Начальник     50000
              Специалист    40000
              Эксперт       45000
dtype: int64

Теперь посмотрим, что будет если у нас будут пропущенные значения

In [34]:
s4 = pd.Series([50000, 45000, 40000, 55000, 47000, 45000, 52000, 43000, 41000],
               index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 
                       'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'],
                      ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 
                       'Начальник', 'Эксперт', 'Советник']])

In [35]:
s4

Тестирование  Начальник     50000
              Эксперт       45000
              Специалист    40000
Разработка    Начальник     55000
              Эксперт       47000
              Специалист    45000
Аналитика     Начальник     52000
              Эксперт       43000
              Советник      41000
dtype: int64

In [37]:
#Пропущенные значения заполняются Nan
s4.unstack()

Unnamed: 0,Начальник,Советник,Специалист,Эксперт
Аналитика,52000.0,41000.0,,43000.0
Разработка,55000.0,,45000.0,47000.0
Тестирование,50000.0,,40000.0,45000.0


In [39]:
#После обратного преобразования наши Int преобразовались во Float
s4.unstack().stack()

Аналитика     Начальник     52000.0
              Советник      41000.0
              Эксперт       43000.0
Разработка    Начальник     55000.0
              Специалист    45000.0
              Эксперт       47000.0
Тестирование  Начальник     50000.0
              Специалист    40000.0
              Эксперт       45000.0
dtype: float64

## Работа мультииндексов у Датафрэймов

In [40]:
data = np.array([[50000, 16],
                 [45000, 15],
                 [40000, 14],
                 [55000, 15],
                 [47000, 13],
                 [45000, 12],
                 [52000, 17],
                 [43000, 15],
                 [41000, 13]])

index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 
        'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 
        'Эксперт', 'Советник']]

columns = ['Зарплата', 'Уровень']

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,Unnamed: 1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [41]:
df.loc['Разработка']

Unnamed: 0,Зарплата,Уровень
Начальник,55000,15
Эксперт,47000,13
Специалист,45000,12


In [42]:
#Чтобы получить серию, нам необходимо передать кортеж!
df.loc[('Разработка','Специалист')]

Зарплата    45000
Уровень        12
Name: (Разработка, Специалист), dtype: int32