In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.0.5'

## Объект series

Это одномерный массив индексированных данных

In [2]:
some_data = [1, 2, 3, 4, 5]
data = pd.Series(some_data)
data

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# значения из массива Series
data.values

array([1, 2, 3, 4, 5])

In [4]:
# индекс из массива Series
data.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
# Обращение по индексу доступно
data[1:3]

1    2
2    3
dtype: int64

Фактически серия в pandas инициализирует одномерный массив pandas с той лишь разницей, что к ниму добавляется явно описанный объект index, связанные со значениями массива. Это позволяет, в отличии от numpy использовать не только целые числа в качестве индекса, но и любые объекты, которыми нам удобно индексировать.

In [6]:
data = pd.Series(some_data, index=['a', 'b', 'c', 'd', 'e'])
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [7]:
data['a']

1

Объект Series - "специализированный словарь", структура, задающая соответствие типизированных ключей набору типизированных значений. В отличае от словаря, серия поддерживает типичные для среза операции, например срезы.

In [8]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [9]:
data['a':'c']

a    1111
b    2222
c    3333
dtype: int64

#### Создание серий

ожидаемый синтаксис 

```python
pd.Series(data, index=index)
```

index не обязателен

data может быть словарем, тогда ключи становятся индексом

data может быть списком или массивом numpy, тогда index не обязателен 

data может быть скаляром, который будет скопирован по индексу

В любом случае индекс можно указать вручную.

In [10]:
pd.Series(5, index=[1, 2, 3, 4, 5])

1    5
2    5
3    5
4    5
5    5
dtype: int64

In [11]:
pd.Series({1: 'a', 2: 'b', 3: 'c'}, index=[1, 2])

1    a
2    b
dtype: object

## Объект DataFrame

Аналог двумерного массива numpy, где у строк и столбцов есть явные обобщенные индексы для доступа к данным. Его можно рассматривать как упорядоченную последовательность выровненных (использующих один и тот же индекс) серий.

In [12]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [13]:
some_data_1 = {
    'a': 1000,
    'b': 2000,
    'c': 3000,
    'd': 4000,
    'e': 5000
}
data_1 = pd.Series(some_data_1)
data_1

a    1000
b    2000
c    3000
d    4000
e    5000
dtype: int64

In [14]:
# сконструируем из этого фрейм
frame = pd.DataFrame({'some_data': some_data, 'some_data_1': some_data_1})
frame

Unnamed: 0,some_data,some_data_1
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [15]:
# объект индекса строк
frame.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [16]:
# объект индекса стролбцов
frame.columns

Index(['some_data', 'some_data_1'], dtype='object')

DataFrame - специализированный словарь, где задано соответствие имени столбца объекту серии с данными этого столбца.

In [17]:
# доступ к сериям
frame.some_data

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64

In [18]:
frame['some_data']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64

#### Создание dataframe

In [19]:
# из одиночного объекта серии
pd.DataFrame(data, columns=['data'])

Unnamed: 0,data
a,1111
b,2222
c,3333
d,4444
e,5555


In [20]:
# из списка словарей
data = [{'a': i, 'b': 2 * i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [21]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [22]:
# при отсутствии некоторых ключей проставляется специальный оюъект Pandas NaN (с приведением во флот)
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [23]:
# из словаря объектов серий
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
pd.DataFrame({'data_1': data_1, 'data_2': data_2})

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [24]:
# из двумерного массива NumPy
pd.DataFrame(np.random.rand(3, 3), columns=['this', 'that', 'where'], index=['a', 'b', 'c'])

Unnamed: 0,this,that,where
a,0.507337,0.584327,0.768385
b,0.91631,0.997848,0.646777
c,0.284489,0.142414,0.533005


In [25]:
# из структурированного массива NumPy
struct = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
struct

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [26]:
pd.DataFrame(struct)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Объект Index

Все серии и датафреймы содерат индекс, который можно рассматривать как незименяемый массив или как упорядоченное множество, которое может содержать повторяющиеся значения.

In [27]:
ind = pd.Index([2, 3, 5, 7, 9, 12])
ind

Int64Index([2, 3, 5, 7, 9, 12], dtype='int64')

In [28]:
# обхект index ведет себя как массив, его можно индексировать или применять к нему срезы
ind[1]

3

In [29]:
ind[1:3]

Int64Index([3, 5], dtype='int64')

In [30]:
# обекту index доступны аттрибуты массивов NumPy
print(ind.size, ind.shape, ind.ndim, ind.dtype)

6 (6,) 1 int64


In [31]:
# index является множеством. Доступны все лог.операции над множествами
pd.Index([1, 2, 3, 5, 6]) & pd.Index([1, 2, 3, 4, 5])

Int64Index([1, 2, 3, 5], dtype='int64')

In [32]:
pd.Index([1, 2, 3, 5, 6]) | pd.Index([1, 2, 3, 4, 5])

Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')

## Индексация и выборка данных

### Выборка данных из Series

#### Series как словарь

In [33]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [34]:
data['b']

0.5

In [35]:
'a' in data

True

In [36]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [37]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [38]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Series как одномерный массив

In [39]:
# срех через явный индекс
data['a': 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [40]:
# срез через неявный индекс
data[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

**<span class="burk">При явном срезе последнее значение включается в срез, а пре неявном - нет!</span>**

In [41]:
# использование маски
data[(data > 0.3) & (data < 1)]

b    0.50
c    0.75
dtype: float64

In [42]:
# индексация через массив индексов
data[['a', 'c']]

a    0.25
c    0.75
dtype: float64

#### Индексаторы loc, iloc, ix

Индексация через срезы может вызвать путаницу, когда у серии индекс числовой, что делает его похожим на неявный индекс. Чтобы устранить путаницу хорошей практикойявляется использование специальных индексирующих атрибутов

In [43]:
# атрибут .loc - индексация с явным индексом
data.loc['a']

0.25

In [44]:
data.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [45]:
# атрибут .iloc - индексация с неявным индексом
data.iloc[0]

0.25

In [46]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

атрибут .ix deprecated с 20.0

### Выборка данных из DatFrame

#### DataFrame  как словарь

In [47]:
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
data = pd.DataFrame({'data_1': data_1, 'data_2': data_2})
data

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [48]:
data['data_1']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

In [49]:
data.data_1

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

In [50]:
data.data_1 is data['data_1']

True

Обращаться через атрибут возможно не всегда - иногда название столбца может конфликтовать с методами объекта DataFrame или не быть строкой. Также нежелательно присваивать значения через атрибуты

In [51]:
data['data_3'] = data['data_1'] / data['data_2']
data

Unnamed: 0,data_1,data_2,data_3
a,1111,1000,1.111
b,2222,2000,1.111
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


#### DataFrame как двумерный массив NumPy

In [52]:
data.values

array([[1.111e+03, 1.000e+03, 1.111e+00],
       [2.222e+03, 2.000e+03, 1.111e+00],
       [3.333e+03, 3.000e+03, 1.111e+00],
       [4.444e+03, 4.000e+03, 1.111e+00],
       [5.555e+03, 5.000e+03, 1.111e+00]])

In [53]:
data.T

Unnamed: 0,a,b,c,d,e
data_1,1111.0,2222.0,3333.0,4444.0,5555.0
data_2,1000.0,2000.0,3000.0,4000.0,5000.0
data_3,1.111,1.111,1.111,1.111,1.111


<span class="burk">Указание отдельного индекса для массива означает доступ к строке, а указание отдельного индекса для объекта DataFrame - доступ к столбцу</span>

In [54]:
data.values[0]

array([1111.   , 1000.   ,    1.111])

In [55]:
data['data_1']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

<span class="burk">Чтобы индексировать DataFrame необходим еще один тип индекса:</span>

.iloc индексирует с помощью неявного индекса

.loc с помощью явного

.ix deprecated с 20.0

In [56]:
data.iloc[3, 2]

1.111

In [57]:
data.iloc[0:3, 0:3]

Unnamed: 0,data_1,data_2,data_3
a,1111,1000,1.111
b,2222,2000,1.111
c,3333,3000,1.111


In [58]:
data.loc['a', 'data_1']

1111

In [59]:
data.loc['a':'c', 'data_1':'data_2']

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000


In [60]:
# в обоих атрибутах доступны все методы отбора данных и способы присваивания
data.loc['a', 'data_2'] = 5656
data

Unnamed: 0,data_1,data_2,data_3
a,1111,5656,1.111
b,2222,2000,1.111
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


#### другие возможности индексации

In [61]:
# Срезы DataFrame индексируют только строки
data['a':'b']

Unnamed: 0,data_1,data_2,data_3
a,1111,5656,1.111
b,2222,2000,1.111


In [62]:
# со столбцами не выйдет
data['data_1': 'data_2']

Unnamed: 0,data_1,data_2,data_3


In [63]:
# можно по неявному индексу
data[1:2]

Unnamed: 0,data_1,data_2,data_3
b,2222,2000,1.111


In [64]:
# можно через маску
data[data.data_1 > 2222]

Unnamed: 0,data_1,data_2,data_3
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


## Операции над данными

### Универсальные функции

In [65]:
rnd = np.random.RandomState(42)
ser = pd.Series(rnd.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [66]:
df = pd.DataFrame(rnd.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [67]:
# универсальные функции NumPy применяются, создается новый объект с сохранением индекса
np.exp(df)

Unnamed: 0,A,B,C,D
0,403.428793,8103.083928,7.389056,403.428793
1,1096.633158,54.59815,20.085537,1096.633158
2,1096.633158,7.389056,148.413159,54.59815


In [68]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [69]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### Выравнивание индексов

#### Выравнивание индексов в сериях

Итоговый, в результате операций, массив будет включать объединение индексов исходных массивов, которые можно определить посредством стандартной арифметики python для этих массивов. Если определить нельзя - NaN

In [70]:
ser1 = pd.Series({
    'a': 1111,
    'b': 2222,
    'c': 3333
}, name='ser1')
ser2 = pd.Series({
    'a': 1111,
    'b': 2222,
    'e': 4444
}, name='ser2')
ser1 / ser2

a    1.0
b    1.0
c    NaN
e    NaN
dtype: float64

In [71]:
ser1.index | ser2.index

Index(['a', 'b', 'c', 'e'], dtype='object')

In [72]:
# можно заменить NaN другим значением, но придется использовать эквивалентные методы
# (вместо унарного + метод add() к примеру)
ser1.add(ser2, fill_value=0)

a    2222.0
b    4444.0
c    3333.0
e    4444.0
dtype: float64

#### Выравнивание индексов в DataFrame

во фреймах выравниваются столбцы и строки. Индексы сортируются перед объединением и <span class="burk">индексы в полученном объекте отсортированы</span>

In [73]:
A = pd.DataFrame(rnd.randint(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rnd.randint(0, 10, (3, 3)), columns=list('ACB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [74]:
B

Unnamed: 0,A,C,B
0,4,0,9
1,5,8,0
2,9,2,6


In [75]:
A + B

Unnamed: 0,A,B,C
0,5.0,20.0,
1,10.0,1.0,
2,,,


In [76]:
# можно сипользовать собственные значения вместо NaN
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,5.0,20.0,4.5
1,10.0,1.0,12.5
2,13.5,10.5,6.5


Соответствие между операторами

|Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

#### Выполнение операций между Series и DataFrame

In [77]:
A = rnd.randint(10, size=(3, 4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [78]:
# в NumPy частая операция - разность двумерного массива и одной из его строк. Выполняется построчно
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [79]:
# в Pandas тоже самое
df = pd.DataFrame(A, columns=list('QWGT'))
df

Unnamed: 0,Q,W,G,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [80]:
# необходимо указание измерения, в котором будет производиться операция. axis 1 - строки, axis 2 - столбцы
df.subtract(df['W'], axis=0)

Unnamed: 0,Q,W,G,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [81]:
# выравнивание выполняется автоматически
df.subtract(df['W'], axis=1)

Unnamed: 0,0,1,2,G,Q,T,W
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [82]:
# вычтем строку
df.subtract(df.loc[0], axis=1)

Unnamed: 0,Q,W,G,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [83]:
df.subtract(df.loc[0], axis=0)

Unnamed: 0,Q,W,G,T
0,,,,
1,,,,
2,,,,
G,,,,
Q,,,,
T,,,,
W,,,,


In [84]:
# без указания измерения, операция применяется ко всему массиву, естественно с сортировкой индексов
h = df.loc[0, ::2]
h

Q    3
G    2
Name: 0, dtype: int64

In [85]:
df - h

Unnamed: 0,G,Q,T,W
0,0.0,0.0,,
1,2.0,-1.0,,
2,1.0,3.0,,


## Обработка отсутствующих данных

Еть несколько стратеги обозначения пропусков:

Значение - индикатор (может привести к дополнительным неоптимизированным расчетам):

- условное оозначение, например число -9999 или редко встречающееся сочетание битов
- условное обозначение через NaN - специальное значение, определенное спецификацией для чисел с плавающей точкой. NaN доступен не для всех типов данных

Маска (требует памяти):

- отдельный булевый массив
- выделение одного бита представления на локальную индикацию пропуска

Pandas построена на NumPy, в котором отсутствует понятие пропуска для всех данных кроме данных с плавающей точкой. NumPy поддерживает маски, но использование такого подходжа в Pandas влечет значительные накладные расходы на хранение и ычисление и поддержку кода.

<span class="burk">В итоге в Pandas используется:

- индикаторы - числа
- NaN из Numpy
- None из Python</span>

### Объект None

None - объект python. Его нельзя использовать в NumPy и производных массивах Pandas. None используется только в массивах с типом object, т.е. массивох данных языка Python. <span class="burk">Когда мы создаем массив используя None, автоматически создается массив с типом object</span>

Тип object означает, что NumPy не смог установить тип объектов массива, единственное что он знает - это то, что это объекты python. <span class="burk">Операции с такими массивами будут производится на уровне языка python, т.е. со всеми накладными расходами.</span>

Кроме того, функции агрегирования по масиву, например massive.sum() или massive.min() выбросят ошибку, так как операции между численным значением и значением None не определены

In [86]:
vl1 = np.array([1, None, 3, 4])
vl1

array([1, None, 3, 4], dtype=object)

In [87]:
for dtype in ['object', 'int']:
    print('dtype=', dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype= object
35.3 ms ± 595 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype= int
839 µs ± 6.31 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)



### Объект NaN - отсутстие числового значения

NaN обусловлен стандартом IEEE и присутствует во всех системах, поддерживающих этот стандарт. Это филлер для письма с плавающей точкой. 

Это вызывает некоторые проблемы - если NaN попадает в массив, все данные приводятся к числам с плавающей точкой. Кроме того, все операции с NaN приводят к NaN, в том числе и функции агрегирования.

In [88]:
vl2 = np.array([1, np.nan, 3, 4])
vl2

array([ 1., nan,  3.,  4.])

In [89]:
vl2.dtype

dtype('float64')

In [90]:
1 + np.nan

nan

In [91]:
0 / np.nan

nan

In [92]:
type(np.nan)

float

In [93]:
vl2.sum()

nan

In [94]:
# NumPy предоставляет специальные агрегирующие функции для NaN. Например так:
np.nanmax(vl2)

4.0

### Nan и None

Pandas преобразует None в NaN в предельном случае. Естственно осуществляется и повышающее преобразование с приведением всех непустых числовых значений к числу с плавающей точкой, а всех отсальных к NaN

In [95]:
pd.Series([1, np.nan, 3, None])

0    1.0
1    NaN
2    3.0
3    NaN
dtype: float64

In [96]:
x = pd.Series([1, 2, 3], dtype='int8')
x

0    1
1    2
2    3
dtype: int8

In [97]:
x[0] = None
x

0    NaN
1    2.0
2    3.0
dtype: float64

Правила повышающих преобразований типов в Pandas (строки всегда хранятся как object)

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### Операции над пустыми значениями

Методы в Pandas:

- isnull() - генерирует булеву маску для отсутствующих значений
- notnull()
- dropna() - филтрация данных по отсутствующим значениям
- fillna() - замена пропусков с возвратом копии

In [98]:
data = pd.Series([1, np.nan, 'this', None])
data

0       1
1     NaN
2    this
3    None
dtype: object

In [99]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [100]:
data.notnull()

0     True
1    False
2     True
3    False
dtype: bool

In [101]:
# отбрасываем строки с пустыми значениями
data.dropna()

0       1
2    this
dtype: object

In [102]:
# в случае фрейма можно выбрать колонки
frame = pd.DataFrame([[1, 1, np.nan],
                     [2, 2, 2],
                     [3, 3, np.nan]])
frame

Unnamed: 0,0,1,2
0,1,1,
1,2,2,2.0
2,3,3,


In [103]:
frame.dropna()

Unnamed: 0,0,1,2
1,2,2,2.0


In [104]:
frame.dropna(axis='columns')

Unnamed: 0,0,1
0,1,1
1,2,2
2,3,3


Можно задать два параметра:

how='any' по дефолту, можно переопределить как 'all' - будут отбрасываться только полностью пустые строки/столбцы

thresh задает минимальное значение непустых значений, выше которого строки/столбцы не отбрасываются

In [105]:
frame.dropna(axis='columns', how='all')

Unnamed: 0,0,1,2
0,1,1,
1,2,2,2.0
2,3,3,


In [106]:
frame.dropna(axis='columns', thresh=1)

Unnamed: 0,0,1,2
0,1,1,
1,2,2,2.0
2,3,3,


In [107]:
frame.dropna(axis='columns', thresh=2)

Unnamed: 0,0,1
0,1,1
1,2,2
2,3,3


In [108]:
# заполнение пропусков
frame.fillna(0)

Unnamed: 0,0,1,2
0,1,1,0.0
1,2,2,2.0
2,3,3,0.0


In [109]:
# копируя предыдущее значение (по дефолту заполнение идет по столбцам)
frame.fillna(method='ffill')

Unnamed: 0,0,1,2
0,1,1,
1,2,2,2.0
2,3,3,2.0


In [110]:
# копируя следующее значение
frame.fillna(method='bfill')

Unnamed: 0,0,1,2
0,1,1,2.0
1,2,2,2.0
2,3,3,


In [111]:
# теперь по строкам
frame.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2
0,1.0,1.0,1.0
1,2.0,2.0,2.0
2,3.0,3.0,3.0


## Иерархическая индексация

Pandas предоставляет объекты Panel и Panel4D, которые позволяют хранить 3д и 4д данные. На практике чаще используется иерархическая индексация или мултииндекс, когда в один индекс включается несколько уровней.

### Мульти-индексный Series и его преобразование в DataFrame

In [133]:
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
#создадим мульти-индекс (аргумент names не обязателен, можно не именовать подиндексы)
index = pd.MultiIndex.from_tuples(index, names=['one', 'two'])
index

MultiIndex([( 'this', 1000),
            ( 'this', 2000),
            ( 'that', 1000),
            ( 'that', 2000),
            ('where', 1000),
            ('where', 2000)],
           names=['one', 'two'])

In [134]:
ser = pd.Series(data, index=index)
ser

one    two 
this   1000    12345
       2000    23456
that   1000    34567
       2000    45678
where  1000    56789
       2000    67890
dtype: int64

In [135]:
# есть метод для преобразования в датафрейм
[['a', 'b'], [1, 2]]
frame = ser.unstack()
frame

two,1000,2000
one,Unnamed: 1_level_1,Unnamed: 2_level_1
that,34567,45678
this,12345,23456
where,56789,67890


In [136]:
# и обратно в серию
frame.stack()

one    two 
that   1000    34567
       2000    45678
this   1000    12345
       2000    23456
where  1000    56789
       2000    67890
dtype: int64

In [137]:
# если нужно добавить новое измерение, мы просто расширяем серию до массива
frame = pd.DataFrame({'some': ser, 'who': [11111, 22222,
                                          33333, 44444,
                                          55555, 66666]})
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,some,who
one,two,Unnamed: 2_level_1,Unnamed: 3_level_1
this,1000,12345,11111
this,2000,23456,22222
that,1000,34567,33333
that,2000,45678,44444
where,1000,56789,55555
where,2000,67890,66666


In [138]:
# все универсальные функции доступны
frame_1 = frame['some'] / frame['who']
frame_1.unstack()

two,1000,2000
one,Unnamed: 1_level_1,Unnamed: 2_level_1
that,1.03702,1.027765
this,1.111061,1.055531
where,1.022212,1.01836


### Создание мульти-индексов

Наиболее простой метод - переда ть в конструктор список из двух и более индексных массивов

In [139]:
df = pd.DataFrame(np.random.rand(4, 2),
                 index=[['a', 'b', 'c', 'd'], [1, 1, 2, 2]],
                 columns=['one', 'two'])
df

Unnamed: 0,Unnamed: 1,one,two
a,1,0.18285,0.205171
b,1,0.561798,0.938923
c,2,0.332001,0.36086
d,2,0.283602,0.889382


Вариант №2 - передать словарь с соответствующими кортежами вместо ключей

In [141]:
index = {('this', 1000): 12345, 
         ('this', 2000): 23456,
         ('that', 1000): 34567, 
         ('that', 2000): 45678,
         ('where', 1000): 56789, 
         ('where', 2000): 67890}
pd.Series(index)

this   1000    12345
       2000    23456
that   1000    34567
       2000    45678
where  1000    56789
       2000    67890
dtype: int64

Часто более эффективно - явнос создать индекс и передать его при создании объекта серии или фрейма

- pd.MultiIndex.from_arrays()
- pd.MultiIndex.from_tuples()
- pd.MultiIndex.from_product()
- pd.MultiIndex.from_frame()

In [142]:
# из простго списка массивов, задающих значения в каждом из уровней
pd.MultiIndex.from_arrays([['a', 'b', 'a', 'b'], [1, 1, 2, 2]], names=['one', 'two'])

MultiIndex([('a', 1),
            ('b', 1),
            ('a', 2),
            ('b', 2)],
           names=['one', 'two'])

In [143]:
# из списка кортежей, задающих все значения индекса в кажжой из точек
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)], names=['one', 'two'])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['one', 'two'])

In [144]:
# из декартова произведения обычных индексов
pd.MultiIndex.from_product([['a', 'b'], [1, 2]], names=['one', 'two'])

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           names=['one', 'two'])

In [147]:
# из фрейма
df = pd.DataFrame([['HI', 'Temp'], ['HI', 'Precip'],
                   ['NJ', 'Temp'], ['NJ', 'Precip']],
                   columns=['a', 'b'])
pd.MultiIndex.from_frame(df, names=['one', 'two'])

MultiIndex([('HI',   'Temp'),
            ('HI', 'Precip'),
            ('NJ',   'Temp'),
            ('NJ', 'Precip')],
           names=['one', 'two'])

[Подробнее тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html)

#### Названия мульти-индексов

In [148]:
# можно передать после создания
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
index = pd.MultiIndex.from_tuples(index)
ser = pd.Series(data, index=index)
ser

this   1000    12345
       2000    23456
that   1000    34567
       2000    45678
where  1000    56789
       2000    67890
dtype: int64

In [149]:
ser.index.names = ['one', 'two']
ser

one    two 
this   1000    12345
       2000    23456
that   1000    34567
       2000    45678
where  1000    56789
       2000    67890
dtype: int64

#### Мульти-индекс для столбцов

Несколько индексов может быть и у столбцов. Индекс задается так-же

In [152]:
index = pd.MultiIndex.from_product([[2020, 2021], 
                                    [1, 2]], names=['one', 'two'])
columns = pd.MultiIndex.from_product([['uno', 'two', 'quatro'], 
                                     ['odin', 'dva']], names=['one', 'two'])
data = np.round(np.random.randn(4, 6), 1)
frame = pd.DataFrame(data, index=index, columns=columns)
frame

Unnamed: 0_level_0,one,uno,uno,two,two,quatro,quatro
Unnamed: 0_level_1,two,odin,dva,odin,dva,odin,dva
one,two,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2020,1,0.5,0.6,-0.4,1.2,1.7,1.9
2020,2,-0.6,0.2,0.7,-0.1,-0.4,-1.3
2021,1,1.3,0.8,-1.3,1.3,0.7,1.3
2021,2,-0.8,0.2,2.0,-1.1,0.6,-0.5


### Индексация и срезы по мульти-индексу

#### Мультииндексация Series

In [173]:
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
index = pd.MultiIndex.from_tuples(index)
ser = pd.Series(data, index=index)
ser

this   1000    12345
       2000    23456
that   1000    34567
       2000    45678
where  1000    56789
       2000    67890
dtype: int64

In [174]:
ser['that', 2000]

45678

In [175]:
# поддерживается частичная индексация
ser['that']

1000    34567
2000    45678
dtype: int64

In [180]:
# поддерживаются частичные срезы, если мультииндекс отсортирован
ser = ser.sort_index()
ser

that   1000    34567
       2000    45678
this   1000    12345
       2000    23456
where  1000    56789
       2000    67890
dtype: int64

In [182]:
ser.loc['that':'this']

that  1000    34567
      2000    45678
this  1000    12345
      2000    23456
dtype: int64

In [183]:
# астиная индексация по нижнему уровню отсортированного массива
ser[:, 1000]

that     34567
this     12345
where    56789
dtype: int64

In [185]:
# маски работают
ser[ser > 50000]

where  1000    56789
       2000    67890
dtype: int64

In [186]:
# выборки тоже
ser[['that', 'this']]

that  1000    34567
      2000    45678
this  1000    12345
      2000    23456
dtype: int64

#### Дата-фреймы ведут себя аналогично

In [187]:
index = pd.MultiIndex.from_product([[2020, 2021], 
                                    [1, 2]], names=['one', 'two'])
columns = pd.MultiIndex.from_product([['uno', 'two', 'quatro'], 
                                     ['odin', 'dva']], names=['one', 'two'])
data = np.round(np.random.randn(4, 6), 1)
frame = pd.DataFrame(data, index=index, columns=columns)
frame

Unnamed: 0_level_0,one,uno,uno,two,two,quatro,quatro
Unnamed: 0_level_1,two,odin,dva,odin,dva,odin,dva
one,two,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2020,1,0.4,0.4,0.3,-0.8,-0.3,1.1
2020,2,0.1,1.0,-0.6,-0.8,-0.2,0.3
2021,1,-0.1,1.4,-0.8,-0.1,-0.4,-0.4
2021,2,-0.8,0.5,-0.6,-0.7,-0.8,-0.6


In [190]:
# по столбцам в неявном виде
frame['uno', 'dva']

one   two
2020  1      0.4
      2      1.0
2021  1      1.4
      2      0.5
Name: (uno, dva), dtype: float64

In [198]:
# в неявном виде вначале идут столбцы
frame['uno', 'dva'][2020, 2]

1.0

In [196]:
# в явном виде сначала строки (через .loc)
frame.loc[(2020, 2), ('uno', 'dva')]

1.0

In [199]:
# чтобы избежать ошибки со срезами внутри кортежа, используется явный вид среза
# встроенная ф-ия python slice() или объект IndexSlice
idx = pd.IndexSlice
frame.loc[idx[:, 1], idx[:, 'odin']]

Unnamed: 0_level_0,one,uno,two,quatro
Unnamed: 0_level_1,two,odin,odin,odin
one,two,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2020,1,0.4,0.3,-0.3
2021,1,-0.1,-0.8,-0.4
