In [1]:
import numpy as np
import pandas as pd

Сегодня мы углубимся в объект **Index** библиотеки _Pandas_ и посмотрим на сложности, возникающие, когда в наших данных есть пропущенные значения.

# 1. Данные с разными индексами

Мы работаем с уже знакомыми нам данными про пьющих студентов. Однако теперь у нас есть 2 объекта _Series_, не все индексы в которых совпадают.

In [2]:
cock = pd.Series({'Tom': 7, 
                  'George': 10,
                  'Ann': 4}, 
                     name='cocktails')
time = pd.Series({'Ann': 1, 
                  'Polina': 3,
                  'Ujin': 2,
                  'Tom': 2.5},
                     name='hours')

Попробуем еще раз оценить мощь студента и видим, что появились какие-то странные `NaN`. Забегая вперед, стоит сказать, что это показатель пропущенного значения. Мы поговорим об этом чуть позже более подробно, а пока что просто знаем, что, так как индексы в разных массивах не совпадали, деление одного на другой дало нам пропущенные значения. 

In [3]:
cock / time

Ann       4.0
George    NaN
Polina    NaN
Tom       2.8
Ujin      NaN
dtype: float64

Рассмотрим пример уже с более общим _DataFrame_

In [4]:
A = pd.DataFrame(np.random.randint(0, 20, (2, 2)),
                 columns=list('AB'))
A

Unnamed: 0,A,B
0,19,13
1,5,6


In [5]:
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)),
                 columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,3,5,0
1,5,0,3
2,7,4,0


In [6]:
A + B

Unnamed: 0,A,B,C
0,24.0,16.0,
1,5.0,11.0,
2,,,


| Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

Мы рассмотрим, что такое `NaN` и как с ним бороться в следующей тетрадке, а пока что продолжим говорить об индексах

# 2. Мультииндексы (обрабатываем панельные данные)

Пусть наш индекс задается двумя значениями: именем студента и годом, когда тот ходил в бар

**P.S.** Вообще когда у нас есть признаки, зависящие от двух факторов (например, от имени и года), то такие данные называются панельными. Именно с ними мы и будем работать, рассматривая объект _MultiIndex_

In [10]:
index = [('Tom', 2017), ('Tom', 2019),
         ('George', 2017), ('George', 2019),
         ('Ann', 2017), ('Ann', 2019)]
cocktails = [12,7,
             8,10,
             3,4]
cock = pd.Series(cocktails, index=index)
cock

(Tom, 2017)       12
(Tom, 2019)        7
(George, 2017)     8
(George, 2019)    10
(Ann, 2017)        3
(Ann, 2019)        4
dtype: int64

Создадим тип объекта _MultiIndex_

In [11]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex(levels=[['Ann', 'George', 'Tom'], [2017, 2019]],
           labels=[[2, 2, 1, 1, 0, 0], [0, 1, 0, 1, 0, 1]])

In [12]:
cock = cock.reindex(index)
cock

Tom     2017    12
        2019     7
George  2017     8
        2019    10
Ann     2017     3
        2019     4
dtype: int64

## 2.1 Открываем еще одно измерение

Метод `unstack` хорошо использовать когда у нас двойной мультииндекс и есть **один признак**. В таком случае мультииндексы разобьются по строкам и столбцам, а в качестве элементов будут выступать значения нашего признака, хоть и в таблице его название нигде фигурировать не будет. Также заметим, что здесь используется параметр `level`, который очень напоминает уже рассмотренный нами параметр `axis`. 

Метод `stack`,наоборот, преобразует индексы.

In [14]:
cock_df = cock.unstack(level=0)
cock_df

Unnamed: 0,Ann,George,Tom
2017,3,8,12
2019,4,10,7


In [15]:
cock_df = cock.unstack(level=1)
cock_df

Unnamed: 0,2017,2019
Ann,3,4
George,8,10
Tom,12,7


In [16]:
cock_df.stack()

Ann     2017     3
        2019     4
George  2017     8
        2019    10
Tom     2017    12
        2019     7
dtype: int64

Также можно "распаковать" индексы в столбцы и "запаковать" столбцы в индексы методами `reset_index()` и `set_index()`. В параметрах можно задать названия

In [18]:
cock_ch = cock.reset_index()
cock_ch

Unnamed: 0,level_0,level_1,0
0,Tom,2017,12
1,Tom,2019,7
2,George,2017,8
3,George,2019,10
4,Ann,2017,3
5,Ann,2019,4


In [19]:
cock_ch.set_index(['level_0', 'level_1'])

Unnamed: 0_level_0,Unnamed: 1_level_0,0
level_0,level_1,Unnamed: 2_level_1
Tom,2017,12
Tom,2019,7
George,2017,8
George,2019,10
Ann,2017,3
Ann,2019,4


## 2.2 Создаем мультииндексы

До этого мы создали мультииндексы методом кортежей. Рассмотрим другие способы

In [20]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.613942,0.325471
a,2,0.608719,0.20867
b,1,0.759778,0.830467
b,2,0.754374,0.55628


#### Из массива

In [21]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

#### Из кортежей

In [22]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

#### Из декартового произведения

Видим, что в предыдущих методах приходилось один из уровней мультииндекса дублировать столько раз, сколько значений следующего уровня к нему относится. Это не всегда удобно, поэтому существует метод создания индекса из декартового произведения, рассматривающего сочетания первого уровня со вторым

In [23]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

#### Подбирая вручную метки

In [24]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]],
              labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

## 2.3 Задаем названия

In [25]:
cock.index.names = ['name', 'year']
cock

name    year
Tom     2017    12
        2019     7
George  2017     8
        2019    10
Ann     2017     3
        2019     4
dtype: int64

## 2.4 Мультииндексы для столбцов

До этого мы рассматривали мультииндексы только в строках. Аналогично, можно задать и для столбцов

Пусть теперь у нас есть данные по кол-ву выпитых тяжелых и легких коктейлей каждым студентом в 2017 году и в 2019 году, причем за каждый год рассмотрено 2 дня посещения бара

In [27]:
index = pd.MultiIndex.from_product([[2017,2019], [1, 2]],
                                   names=['year', 'day'])
columns = pd.MultiIndex.from_product([['Tom','George','Polina'], ['Strong', 'Light']],
                                     names=['name', 'cocktail'])

data = abs(np.round(np.random.normal(0,5,(4,6))))

huge_data = pd.DataFrame(data, index=index, columns=columns)
huge_data

Unnamed: 0_level_0,name,Tom,Tom,George,George,Polina,Polina
Unnamed: 0_level_1,cocktail,Strong,Light,Strong,Light,Strong,Light
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,4.0,11.0,3.0,6.0,12.0,2.0
2017,2,1.0,1.0,1.0,5.0,8.0,2.0
2019,1,0.0,4.0,2.0,0.0,8.0,5.0
2019,2,3.0,2.0,5.0,5.0,0.0,9.0


In [28]:
huge_data['Polina']

Unnamed: 0_level_0,cocktail,Strong,Light
year,day,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,1,12.0,2.0
2017,2,8.0,2.0
2019,1,8.0,5.0
2019,2,0.0,9.0


## 2.5 Индексирование с мультииндексом

Индексирование тоже очень удобно реализовано в классе _MultiIndex_. Сначала рассмотрим данные, где мультииндекс находится только по строкам.

In [161]:
cock

name    year
Max     2017    12
        2019     7
George  2017     8
        2019    10
Ann     2017     3
        2019     4
dtype: int64

Так, например, можно через запятую задавать значения в разных уровнях индекса

In [162]:
cock['Ann', 2019]

4

А можно и один уровень, в таком случае значения выведутся для всех следующих уровней

In [29]:
cock['Tom']

year
2017    12
2019     7
dtype: int64

Для каждого имени выводим значения за 2017 год

In [164]:
cock[:, 2017]

name
Max       12
George     8
Ann        3
dtype: int64

Применяем маскирование

In [165]:
cock[cock > 5]

name    year
Max     2017    12
        2019     7
George  2017     8
        2019    10
dtype: int64

Если же хотим задать несколько значений в одном уровне, нужно передать это в виде списка (то есть в $[$ $]$)

In [30]:
cock[['George', 'Ann']]

name    year
George  2017     8
        2019    10
Ann     2017     3
        2019     4
dtype: int64

Перейдем к индексированию данных, где мультииндексы расположены как по строкам, так и по столбцам

In [31]:
huge_data

Unnamed: 0_level_0,name,Tom,Tom,George,George,Polina,Polina
Unnamed: 0_level_1,cocktail,Strong,Light,Strong,Light,Strong,Light
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,4.0,11.0,3.0,6.0,12.0,2.0
2017,2,1.0,1.0,1.0,5.0,8.0,2.0
2019,1,0.0,4.0,2.0,0.0,8.0,5.0
2019,2,3.0,2.0,5.0,5.0,0.0,9.0


Через запятую можно задавать значения в уровнях мультииндекса, находящимся в разных местах (то есть в строках и в столбцах)

In [32]:
huge_data['Polina', 'Strong']

year  day
2017  1      12.0
      2       8.0
2019  1       8.0
      2       0.0
Name: (Polina, Strong), dtype: float64

In [33]:
huge_data.iloc[:4, :2]

Unnamed: 0_level_0,name,Tom,Tom
Unnamed: 0_level_1,cocktail,Strong,Light
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2
2017,1,4.0,11.0
2017,2,1.0,1.0
2019,1,0.0,4.0
2019,2,3.0,2.0


Для всех индексов по строкам выводим значения для разных уровней индексов в столбцах

In [34]:
huge_data.loc[:, (('Tom','Polina'), 'Strong')]

Unnamed: 0_level_0,name,Tom,Polina
Unnamed: 0_level_1,cocktail,Strong,Strong
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2
2017,1,4.0,12.0
2017,2,1.0,8.0
2019,1,0.0,8.0
2019,2,3.0,0.0


Метод `idx` для удобного перехода. Помним, что он сочетает в себе возможность явного и неявного индексирования

In [36]:
idx = pd.IndexSlice
huge_data.loc[idx[:, 1], idx[:, 'Light']]

Unnamed: 0_level_0,name,Tom,George,Polina
Unnamed: 0_level_1,cocktail,Light,Light,Light
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2017,1,11.0,6.0,2.0
2019,1,4.0,0.0,5.0


## 2.6 Агрегирующие функции для мультииндексов

In [37]:
huge_data

Unnamed: 0_level_0,name,Tom,Tom,George,George,Polina,Polina
Unnamed: 0_level_1,cocktail,Strong,Light,Strong,Light,Strong,Light
year,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2017,1,4.0,11.0,3.0,6.0,12.0,2.0
2017,2,1.0,1.0,1.0,5.0,8.0,2.0
2019,1,0.0,4.0,2.0,0.0,8.0,5.0
2019,2,3.0,2.0,5.0,5.0,0.0,9.0


Для вычисления агрегирующей функции для какого-то конкретного индекса, значение индекса передается в параметре `level`, который оказался более функциональным, чем `axis`

In [38]:
# вычисляем среднее число коктейлей для каждого года в независимости от дня в году 
data_mean = huge_data.mean(level='year')
data_mean

name,Tom,Tom,George,George,Polina,Polina
cocktail,Strong,Light,Strong,Light,Strong,Light
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2017,2.5,6.0,2.0,5.5,10.0,2.0
2019,1.5,3.0,3.5,2.5,4.0,7.0


Сочетание `level` и `axis`. В таком случае `axis` задает направление (строки либо столбцы), а `level` - название индекса

In [39]:
# среднее по столбцам
data_mean.mean(axis=1, level='name')

name,Tom,George,Polina
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,4.25,3.75,6.0
2019,2.25,3.0,5.5


Таким образом, мы рассмотрели удобный способ обработки панельных данных с помощью объекта _MultiIndex_ библиотеки _Pandas_. Но в процессе изучения столкнулись с таким типом переменных, как пропущенное значение. О нем мы и поговорим в следующей тетрадке