In [35]:
import pandas as pd
import numpy as np

# Знакомство с иерархической индексацией

## Мульти индексы

In [11]:
# задаем значнения и индексы серии в явном виде:

s = pd.Series([i for i in range(10, 100,10)], index = [0,1,2,3,4,5,6,7,8])

In [12]:
s

0    10
1    20
2    30
3    40
4    50
5    60
6    70
7    80
8    90
dtype: int64

In [15]:
# для того, чтобы был мультииндекс, в индекс надо передать два массива - индекс первого уровня, индекс второго уровня:

index = [['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c' ], 
         [ 0,   1,   2,   3,   4,   5,   6,   7,   8]]


s1 = pd.Series([i for i in range(10, 100,10)], index = index)

In [16]:
s1

a  0    10
   1    20
   2    30
b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

In [18]:
# вытаскиваем данные из мульти индекса:

s1['a']

0    10
1    20
2    30
dtype: int64

In [19]:
s1['b': 'c']

b  3    40
   4    50
   5    60
c  6    70
   7    80
   8    90
dtype: int64

In [20]:
s1.loc[['a', 'c']]

a  0    10
   1    20
   2    30
c  6    70
   7    80
   8    90
dtype: int64

In [21]:
# если мы хотим сразу вытаскивать данные по индексу не с нулевого уровня, а со второго:

s1.loc[:,1] 

# двоеточие говорит о том, что мы игнорируем нулевой индекс, ну или проходимся по нему всему и ищем уже в первом уровне

a    20
dtype: int64

## Раскладываем серию с мультииндексом на датафрейм

In [36]:
s3 = pd.Series([50000, 45000, 40000, 55000, 47000, 45000, 52000, 43000, 41000], 
               index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
                      ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист']])

In [37]:
s3

Тестирование  Начальник     50000
              Эксперт       45000
              Специалист    40000
Разработка    Начальник     55000
              Эксперт       47000
              Специалист    45000
Аналитика     Начальник     52000
              Эксперт       43000
              Специалист    41000
dtype: int64

In [38]:
s3.unstack()

Unnamed: 0,Начальник,Специалист,Эксперт
Аналитика,52000,41000,43000
Разработка,55000,45000,47000
Тестирование,50000,40000,45000


In [39]:
# обратное преобразование датафрейма в серию с мультииндексом:

df = s3.unstack()
df.stack()

Аналитика     Начальник     52000
              Специалист    41000
              Эксперт       43000
Разработка    Начальник     55000
              Специалист    45000
              Эксперт       47000
Тестирование  Начальник     50000
              Специалист    40000
              Эксперт       45000
dtype: int64

In [45]:
# как в данном случае работает !???
df.unstack()

Начальник   Аналитика       52000
            Разработка      55000
            Тестирование    50000
Специалист  Аналитика       41000
            Разработка      45000
            Тестирование    40000
Эксперт     Аналитика       43000
            Разработка      47000
            Тестирование    45000
dtype: int64

## доступ к значениям

In [47]:
data = np.array([[50000, 16],
                 [45000, 15],
                 [40000, 14],
                 [55000, 15],
                 [47000, 13],
                 [45000, 12],
                 [52000, 17],
                 [43000, 15],
                 [41000, 13]])

index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = ['Зарплата', 'Уровень']

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,Unnamed: 1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [48]:
df.loc[('Тестирование', 'Начальник')]

Зарплата    50000
Уровень        16
Name: (Тестирование, Начальник), dtype: int32

In [49]:
df.loc[('Тестирование', 'Начальник'), 'Зарплата']

50000

In [None]:
Далее следует Контрольная работа по Мульти индексам.
см. файл : 'stepik_multiindex_lesson_1_v2 / ДЗ - Знакомство с иерархической индексацией (2).ipynb'

# Действия с мультииндексами в датафреймах

In [55]:
data = np.array([[50000, 16],
                 [45000, 15],
                 [40000, 14],
                 [55000, 15],
                 [47000, 13],
                 [45000, 12],
                 [52000, 17],
                 [43000, 15],
                 [41000, 13]],
               
               )

index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = [['Москва', 'Москва'], ['Зарплата', 'Уровень']]

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [56]:
data = np.array([[50000, 16, 50000, 16],
                 [45000, 15, 45000, 15,],
                 [40000, 14, 40000, 14],
                 [55000, 15, 55000, 15],
                 [47000, 13, 47000, 13],
                 [45000, 12, 45000, 12],
                 [52000, 17, 52000, 17],
                 [43000, 15, 43000, 15],
                 [41000, 13, 41000, 13]])

In [57]:
index=[['Тестирование', 'Тестирование', 'Тестирование', 'Разработка', 'Разработка', 'Разработка', 'Аналитика', 'Аналитика', 'Аналитика'], 
       ['Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Специалист', 'Начальник', 'Эксперт', 'Советник']]

columns = [['Москва', 'Москва', 'Казань', 'Казань'], ['Зарплата', 'Уровень', 'Зарплата', 'Уровень']]

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень,Зарплата,Уровень
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [58]:
df['Москва']

Unnamed: 0,Unnamed: 1,Зарплата,Уровень
Тестирование,Начальник,50000,16
Тестирование,Эксперт,45000,15
Тестирование,Специалист,40000,14
Разработка,Начальник,55000,15
Разработка,Эксперт,47000,13
Разработка,Специалист,45000,12
Аналитика,Начальник,52000,17
Аналитика,Эксперт,43000,15
Аналитика,Советник,41000,13


In [None]:
# можно переименовать уровни индексов и колонок и обращаться к ним не по номерам - нулевой, первый и т.д, а по именам:

In [59]:
df.index

MultiIndex([('Тестирование',  'Начальник'),
            ('Тестирование',    'Эксперт'),
            ('Тестирование', 'Специалист'),
            (  'Разработка',  'Начальник'),
            (  'Разработка',    'Эксперт'),
            (  'Разработка', 'Специалист'),
            (   'Аналитика',  'Начальник'),
            (   'Аналитика',    'Эксперт'),
            (   'Аналитика',   'Советник')],
           )

In [60]:
df.index.names

FrozenList([None, None])

In [61]:
df.index.names = ['Имя для нулевого уровня', 'Имя для первого уровня']

In [62]:
df.index.names

FrozenList(['Имя для нулевого уровня', 'Имя для первого уровня'])

In [63]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Unnamed: 1_level_1,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [64]:
df.columns

MultiIndex([('Москва', 'Зарплата'),
            ('Москва',  'Уровень'),
            ('Казань', 'Зарплата'),
            ('Казань',  'Уровень')],
           )

In [65]:
df.columns.names

FrozenList([None, None])

In [66]:
df.columns.names = ['Города', 'Показатель']

In [67]:
df

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [None]:
# swaplevel - поменять уровни местами

In [68]:
df.swaplevel(1,0)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Имя для нулевого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Начальник,Тестирование,50000,16,50000,16
Эксперт,Тестирование,45000,15,45000,15
Специалист,Тестирование,40000,14,40000,14
Начальник,Разработка,55000,15,55000,15
Эксперт,Разработка,47000,13,47000,13
Специалист,Разработка,45000,12,45000,12
Начальник,Аналитика,52000,17,52000,17
Эксперт,Аналитика,43000,15,43000,15
Советник,Аналитика,41000,13,41000,13


In [69]:
# можно делать swaplevel не по индексам, а по названиям:

df.swaplevel('Имя для первого уровня', 'Имя для нулевого уровня')

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Имя для нулевого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Начальник,Тестирование,50000,16,50000,16
Эксперт,Тестирование,45000,15,45000,15
Специалист,Тестирование,40000,14,40000,14
Начальник,Разработка,55000,15,55000,15
Эксперт,Разработка,47000,13,47000,13
Специалист,Разработка,45000,12,45000,12
Начальник,Аналитика,52000,17,52000,17
Эксперт,Аналитика,43000,15,43000,15
Советник,Аналитика,41000,13,41000,13


In [None]:
# сортировка мульти индекса

In [71]:
df.sort_index(level = 0, ascending = False)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Тестирование,Начальник,50000,16,50000,16
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Разработка,Начальник,55000,15,55000,15
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13
Аналитика,Начальник,52000,17,52000,17


In [72]:
df.sort_index(level = 'Имя для первого уровня', ascending = False)

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Эксперт,45000,15,45000,15
Разработка,Эксперт,47000,13,47000,13
Аналитика,Эксперт,43000,15,43000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Специалист,45000,12,45000,12
Аналитика,Советник,41000,13,41000,13
Тестирование,Начальник,50000,16,50000,16
Разработка,Начальник,55000,15,55000,15
Аналитика,Начальник,52000,17,52000,17


In [74]:
df.sort_index(level = 0, axis = 1)

Unnamed: 0_level_0,Города,Казань,Казань,Москва,Москва
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [None]:
# переустановить индексы

In [75]:
df.reset_index()

Города,Имя для нулевого уровня,Имя для первого уровня,Москва,Москва,Казань,Казань
Показатель,Unnamed: 1_level_1,Unnamed: 2_level_1,Зарплата,Уровень,Зарплата,Уровень
0,Тестирование,Начальник,50000,16,50000,16
1,Тестирование,Эксперт,45000,15,45000,15
2,Тестирование,Специалист,40000,14,40000,14
3,Разработка,Начальник,55000,15,55000,15
4,Разработка,Эксперт,47000,13,47000,13
5,Разработка,Специалист,45000,12,45000,12
6,Аналитика,Начальник,52000,17,52000,17
7,Аналитика,Эксперт,43000,15,43000,15
8,Аналитика,Советник,41000,13,41000,13


In [None]:
# собрать обратно мульти индекс set_index

In [None]:
df2 = df.reset_index()

In [78]:
df2.set_index(['Имя для нулевого уровня', 'Имя для первого уровня'])

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


# Суммирование значений с учетом мульти индексов

In [79]:
df

Unnamed: 0_level_0,Города,Москва,Москва,Казань,Казань
Unnamed: 0_level_1,Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Имя для первого уровня,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Тестирование,Начальник,50000,16,50000,16
Тестирование,Эксперт,45000,15,45000,15
Тестирование,Специалист,40000,14,40000,14
Разработка,Начальник,55000,15,55000,15
Разработка,Эксперт,47000,13,47000,13
Разработка,Специалист,45000,12,45000,12
Аналитика,Начальник,52000,17,52000,17
Аналитика,Эксперт,43000,15,43000,15
Аналитика,Советник,41000,13,41000,13


In [80]:
df.sum()

Города  Показатель
Москва  Зарплата      418000
        Уровень          130
Казань  Зарплата      418000
        Уровень          130
dtype: int64

In [81]:
df.sum(level = 0)

  df.sum(level = 0)


Города,Москва,Москва,Казань,Казань
Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для нулевого уровня,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Тестирование,135000,45,135000,45
Разработка,147000,40,147000,40
Аналитика,136000,45,136000,45


In [82]:
df.sum(level = 1)

  df.sum(level = 1)


Города,Москва,Москва,Казань,Казань
Показатель,Зарплата,Уровень,Зарплата,Уровень
Имя для первого уровня,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Начальник,157000,48,157000,48
Эксперт,135000,43,135000,43
Специалист,85000,26,85000,26
Советник,41000,13,41000,13


In [None]:
# Далее идет домашнее задание в отдельном Jupyter Notebooke:

#     Папка называется: Homework_multiindex_2
#     Файл: ДЗ - Действия с мультииндексами в датафреймах.ipynb