In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.0.5'

## Объект series

Это одномерный массив индексированных данных

In [None]:
some_data = [1, 2, 3, 4, 5]
data = pd.Series(some_data)
data

In [None]:
# значения из массива Series
data.values

In [None]:
# индекс из массива Series
data.index

In [None]:
# Обращение по индексу доступно
data[1:3]

Фактически серия в pandas инициализирует одномерный массив pandas с той лишь разницей, что к ниму добавляется явно описанный объект index, связанные со значениями массива. Это позволяет, в отличии от numpy использовать не только целые числа в качестве индекса, но и любые объекты, которыми нам удобно индексировать.

In [None]:
data = pd.Series(some_data, index=['a', 'b', 'c', 'd', 'e'])
data

In [None]:
data['a']

Объект Series - "специализированный словарь", структура, задающая соответствие типизированных ключей набору типизированных значений. В отличае от словаря, серия поддерживает типичные для среза операции, например срезы.

In [None]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

In [None]:
data['a':'c']

#### Создание серий

ожидаемый синтаксис 

```python
pd.Series(data, index=index)
```

index не обязателен

data может быть словарем, тогда ключи становятся индексом

data может быть списком или массивом numpy, тогда index не обязателен 

data может быть скаляром, который будет скопирован по индексу

В любом случае индекс можно указать вручную.

In [None]:
pd.Series(5, index=[1, 2, 3, 4, 5])

In [None]:
pd.Series({1: 'a', 2: 'b', 3: 'c'}, index=[1, 2])

## Объект DataFrame

Аналог двумерного массива numpy, где у строк и столбцов есть явные обобщенные индексы для доступа к данным. Его можно рассматривать как упорядоченную последовательность выровненных (использующих один и тот же индекс) серий.

In [None]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

In [None]:
some_data_1 = {
    'a': 1000,
    'b': 2000,
    'c': 3000,
    'd': 4000,
    'e': 5000
}
data_1 = pd.Series(some_data_1)
data_1

In [None]:
# сконструируем из этого фрейм
frame = pd.DataFrame({'some_data': some_data, 'some_data_1': some_data_1})
frame

In [None]:
# объект индекса строк
frame.index

In [None]:
# объект индекса стролбцов
frame.columns

DataFrame - специализированный словарь, где задано соответствие имени столбца объекту серии с данными этого столбца.

In [None]:
# доступ к сериям
frame.some_data

In [None]:
frame['some_data']

#### Создание dataframe

In [None]:
# из одиночного объекта серии
pd.DataFrame(data, columns=['data'])

In [None]:
# из списка словарей
data = [{'a': i, 'b': 2 * i} for i in range(3)]
data

In [None]:
pd.DataFrame(data)

In [None]:
# при отсутствии некоторых ключей проставляется специальный оюъект Pandas NaN (с приведением во флот)
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
# из словаря объектов серий
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
pd.DataFrame({'data_1': data_1, 'data_2': data_2})

In [None]:
# из двумерного массива NumPy
pd.DataFrame(np.random.rand(3, 3), columns=['this', 'that', 'where'], index=['a', 'b', 'c'])

In [None]:
# из структурированного массива NumPy
struct = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
struct

In [None]:
pd.DataFrame(struct)

## Объект Index

Все серии и датафреймы содерат индекс, который можно рассматривать как незименяемый массив или как упорядоченное множество, которое может содержать повторяющиеся значения.

In [None]:
ind = pd.Index([2, 3, 5, 7, 9, 12])
ind

In [None]:
# обхект index ведет себя как массив, его можно индексировать или применять к нему срезы
ind[1]

In [None]:
ind[1:3]

In [None]:
# обекту index доступны аттрибуты массивов NumPy
print(ind.size, ind.shape, ind.ndim, ind.dtype)

In [None]:
# index является множеством. Доступны все лог.операции над множествами
pd.Index([1, 2, 3, 5, 6]) & pd.Index([1, 2, 3, 4, 5])

In [None]:
pd.Index([1, 2, 3, 5, 6]) | pd.Index([1, 2, 3, 4, 5])

## Индексация и выборка данных

### Выборка данных из Series

#### Series как словарь

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])
data

In [None]:
data['b']

In [None]:
'a' in data

In [None]:
data.keys()

In [None]:
list(data.items())

In [None]:
data['e'] = 1.25
data

#### Series как одномерный массив

In [None]:
# срех через явный индекс
data['a': 'c']

In [None]:
# срез через неявный индекс
data[0:3]

**<span class="burk">При явном срезе последнее значение включается в срез, а пре неявном - нет!</span>**

In [None]:
# использование маски
data[(data > 0.3) & (data < 1)]

In [None]:
# индексация через массив индексов
data[['a', 'c']]

#### Индексаторы loc, iloc, ix

Индексация через срезы может вызвать путаницу, когда у серии индекс числовой, что делает его похожим на неявный индекс. Чтобы устранить путаницу хорошей практикойявляется использование специальных индексирующих атрибутов

In [None]:
# атрибут .loc - индексация с явным индексом
data.loc['a']

In [None]:
data.loc['a':'c']

In [None]:
# атрибут .iloc - индексация с неявным индексом
data.iloc[0]

In [None]:
data.iloc[0:3]

атрибут .ix deprecated с 20.0

### Выборка данных из DatFrame

#### DataFrame  как словарь

In [None]:
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
data = pd.DataFrame({'data_1': data_1, 'data_2': data_2})
data

In [None]:
data['data_1']

In [None]:
data.data_1

In [None]:
data.data_1 is data['data_1']

Обращаться через атрибут возможно не всегда - иногда название столбца может конфликтовать с методами объекта DataFrame или не быть строкой. Также нежелательно присваивать значения через атрибуты

In [None]:
data['data_3'] = data['data_1'] / data['data_2']
data

#### DataFrame как двумерный массив NumPy

In [None]:
data.values

In [None]:
data.T

<span class="burk">Указание отдельного индекса для массива означает доступ к строке, а указание отдельного индекса для объекта DataFrame - доступ к столбцу</span>

In [None]:
data.values[0]

In [None]:
data['data_1']

<span class="burk">Чтобы индексировать DataFrame необходим еще один тип индекса:</span>

.iloc индексирует с помощью неявного индекса

.loc с помощью явного

.ix deprecated с 20.0

In [None]:
data.iloc[3, 2]

In [None]:
data.iloc[0:3, 0:3]

In [None]:
data.loc['a', 'data_1']

In [None]:
data.loc['a':'c', 'data_1':'data_2']

In [None]:
# в обоих атрибутах доступны все методы отбора данных и способы присваивания
data.loc['a', 'data_2'] = 5656
data

#### другие возможности индексации

In [None]:
# Срезы DataFrame индексируют только строки
data['a':'b']

In [None]:
# со столбцами не выйдет
data['data_1': 'data_2']

In [None]:
# можно по неявному индексу
data[1:2]

In [None]:
# можно через маску
data[data.data_1 > 2222]

## Операции над данными

### Универсальные функции

In [None]:
rnd = np.random.RandomState(42)
ser = pd.Series(rnd.randint(0, 10, 4))
ser

In [None]:
df = pd.DataFrame(rnd.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

In [None]:
# универсальные функции NumPy применяются, создается новый объект с сохранением индекса
np.exp(df)

In [None]:
np.exp(ser)

In [None]:
np.sin(df * np.pi / 4)

### Выравнивание индексов

#### Выравнивание индексов в сериях

Итоговый, в результате операций, массив будет включать объединение индексов исходных массивов, которые можно определить посредством стандартной арифметики python для этих массивов. Если определить нельзя - NaN

In [None]:
ser1 = pd.Series({
    'a': 1111,
    'b': 2222,
    'c': 3333
}, name='ser1')
ser2 = pd.Series({
    'a': 1111,
    'b': 2222,
    'e': 4444
}, name='ser2')
ser1 / ser2

In [None]:
ser1.index | ser2.index

In [None]:
# можно заменить NaN другим значением, но придется использовать эквивалентные методы
# (вместо унарного + метод add() к примеру)
ser1.add(ser2, fill_value=0)

#### Выравнивание индексов в DataFrame

во фреймах выравниваются столбцы и строки. Индексы сортируются перед объединением и <span class="burk">индексы в полученном объекте отсортированы</span>

In [None]:
A = pd.DataFrame(rnd.randint(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rnd.randint(0, 10, (3, 3)), columns=list('ACB'))
A

In [None]:
B

In [None]:
A + B

In [None]:
# можно сипользовать собственные значения вместо NaN
fill = A.stack().mean()
A.add(B, fill_value=fill)

Соответствие между операторами

|Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

#### Выполнение операций между Series и DataFrame

In [None]:
A = rnd.randint(10, size=(3, 4))
A

In [None]:
# в NumPy частая операция - разность двумерного массива и одной из его строк. Выполняется построчно
A - A[0]

In [None]:
# в Pandas тоже самое
df = pd.DataFrame(A, columns=list('QWGT'))
df

In [None]:
# необходимо указание измерения, в котором будет производиться операция. axis 1 - строки, axis 2 - столбцы
df.subtract(df['W'], axis=0)

In [None]:
# выравнивание выполняется автоматически
df.subtract(df['W'], axis=1)

In [None]:
# вычтем строку
df.subtract(df.loc[0], axis=1)

In [None]:
df.subtract(df.loc[0], axis=0)

In [None]:
# без указания измерения, операция применяется ко всему массиву, естественно с сортировкой индексов
h = df.loc[0, ::2]
h

In [None]:
df - h

## Обработка отсутствующих данных

Еть несколько стратеги обозначения пропусков:

Значение - индикатор (может привести к дополнительным неоптимизированным расчетам):

- условное оозначение, например число -9999 или редко встречающееся сочетание битов
- условное обозначение через NaN - специальное значение, определенное спецификацией для чисел с плавающей точкой. NaN доступен не для всех типов данных

Маска (требует памяти):

- отдельный булевый массив
- выделение одного бита представления на локальную индикацию пропуска

Pandas построена на NumPy, в котором отсутствует понятие пропуска для всех данных кроме данных с плавающей точкой. NumPy поддерживает маски, но использование такого подходжа в Pandas влечет значительные накладные расходы на хранение и ычисление и поддержку кода.

<span class="burk">В итоге в Pandas используется:

- индикаторы - числа
- NaN из Numpy
- None из Python</span>

### Объект None

None - объект python. Его нельзя использовать в NumPy и производных массивах Pandas. None используется только в массивах с типом object, т.е. массивох данных языка Python. <span class="burk">Когда мы создаем массив используя None, автоматически создается массив с типом object</span>

Тип object означает, что NumPy не смог установить тип объектов массива, единственное что он знает - это то, что это объекты python. <span class="burk">Операции с такими массивами будут производится на уровне языка python, т.е. со всеми накладными расходами.</span>

Кроме того, функции агрегирования по масиву, например massive.sum() или massive.min() выбросят ошибку, так как операции между численным значением и значением None не определены

In [None]:
vl1 = np.array([1, None, 3, 4])
vl1

In [None]:
for dtype in ['object', 'int']:
    print('dtype=', dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

### Объект NaN - отсутстие числового значения

NaN обусловлен стандартом IEEE и присутствует во всех системах, поддерживающих этот стандарт. Это филлер для письма с плавающей точкой. 

Это вызывает некоторые проблемы - если NaN попадает в массив, все данные приводятся к числам с плавающей точкой. Кроме того, все операции с NaN приводят к NaN, в том числе и функции агрегирования.

In [None]:
vl2 = np.array([1, np.nan, 3, 4])
vl2

In [None]:
vl2.dtype

In [None]:
1 + np.nan

In [None]:
0 / np.nan

In [None]:
type(np.nan)

In [None]:
vl2.sum()

In [None]:
# NumPy предоставляет специальные агрегирующие функции для NaN. Например так:
np.nanmax(vl2)

### Nan и None

Pandas преобразует None в NaN в предельном случае. Естственно осуществляется и повышающее преобразование с приведением всех непустых числовых значений к числу с плавающей точкой, а всех отсальных к NaN

In [None]:
pd.Series([1, np.nan, 3, None])

In [None]:
x = pd.Series([1, 2, 3], dtype='int8')
x

In [None]:
x[0] = None
x

Правила повышающих преобразований типов в Pandas (строки всегда хранятся как object)

|Typeclass     | Conversion When Storing NAs | NA Sentinel Value      |
|--------------|-----------------------------|------------------------|
| ``floating`` | No change                   | ``np.nan``             |
| ``object``   | No change                   | ``None`` or ``np.nan`` |
| ``integer``  | Cast to ``float64``         | ``np.nan``             |
| ``boolean``  | Cast to ``object``          | ``None`` or ``np.nan`` |

### Операции над пустыми значениями

Методы в Pandas:

- isnull() - генерирует булеву маску для отсутствующих значений
- notnull()
- dropna() - филтрация данных по отсутствующим значениям
- fillna() - замена пропусков с возвратом копии

In [None]:
data = pd.Series([1, np.nan, 'this', None])
data

In [None]:
data.isnull()

In [None]:
data.notnull()

In [None]:
# отбрасываем строки с пустыми значениями
data.dropna()

In [None]:
# в случае фрейма можно выбрать колонки
frame = pd.DataFrame([[1, 1, np.nan],
                     [2, 2, 2],
                     [3, 3, np.nan]])
frame

In [None]:
frame.dropna()

In [None]:
frame.dropna(axis='columns')

Можно задать два параметра:

how='any' по дефолту, можно переопределить как 'all' - будут отбрасываться только полностью пустые строки/столбцы

thresh задает минимальное значение непустых значений, выше которого строки/столбцы не отбрасываются

In [None]:
frame.dropna(axis='columns', how='all')

In [None]:
frame.dropna(axis='columns', thresh=1)

In [None]:
frame.dropna(axis='columns', thresh=2)

In [None]:
# заполнение пропусков
frame.fillna(0)

In [None]:
# копируя предыдущее значение (по дефолту заполнение идет по столбцам)
frame.fillna(method='ffill')

In [None]:
# копируя следующее значение
frame.fillna(method='bfill')

In [None]:
# теперь по строкам
frame.fillna(method='ffill', axis=1)

## Иерархическая индексация

Pandas предоставляет объекты Panel и Panel4D, которые позволяют хранить 3д и 4д данные. На практике чаще используется иерархическая индексация или мултииндекс, когда в один индекс включается несколько уровней.

### Мульти-индексный Series и его преобразование в DataFrame

In [None]:
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
#создадим мульти-индекс (аргумент names не обязателен, можно не именовать подиндексы)
index = pd.MultiIndex.from_tuples(index, names=['one', 'two'])
index

In [None]:
ser = pd.Series(data, index=index)
ser

In [None]:
# есть метод для преобразования в датафрейм
[['a', 'b'], [1, 2]]
frame = ser.unstack()
frame

In [None]:
# и обратно в серию
frame.stack()

In [None]:
# если нужно добавить новое измерение, мы просто расширяем серию до массива
frame = pd.DataFrame({'some': ser, 'who': [11111, 22222,
                                          33333, 44444,
                                          55555, 66666]})
frame

In [None]:
# все универсальные функции доступны
frame_1 = frame['some'] / frame['who']
frame_1.unstack()

### Создание мульти-индексов

Наиболее простой метод - переда ть в конструктор список из двух и более индексных массивов

In [None]:
df = pd.DataFrame(np.random.rand(4, 2),
                 index=[['a', 'b', 'c', 'd'], [1, 1, 2, 2]],
                 columns=['one', 'two'])
df

Вариант №2 - передать словарь с соответствующими кортежами вместо ключей

In [None]:
index = {('this', 1000): 12345, 
         ('this', 2000): 23456,
         ('that', 1000): 34567, 
         ('that', 2000): 45678,
         ('where', 1000): 56789, 
         ('where', 2000): 67890}
pd.Series(index)

Часто более эффективно - явнос создать индекс и передать его при создании объекта серии или фрейма

- pd.MultiIndex.from_arrays()
- pd.MultiIndex.from_tuples()
- pd.MultiIndex.from_product()
- pd.MultiIndex.from_frame()

In [None]:
# из простго списка массивов, задающих значения в каждом из уровней
pd.MultiIndex.from_arrays([['a', 'b', 'a', 'b'], [1, 1, 2, 2]], names=['one', 'two'])

In [None]:
# из списка кортежей, задающих все значения индекса в кажжой из точек
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)], names=['one', 'two'])

In [None]:
# из декартова произведения обычных индексов
pd.MultiIndex.from_product([['a', 'b'], [1, 2]], names=['one', 'two'])

In [None]:
# из фрейма
df = pd.DataFrame([['HI', 'Temp'], ['HI', 'Precip'],
                   ['NJ', 'Temp'], ['NJ', 'Precip']],
                   columns=['a', 'b'])
pd.MultiIndex.from_frame(df, names=['one', 'two'])

[Подробнее тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html)

#### Названия мульти-индексов

In [None]:
# можно передать после создания
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
index = pd.MultiIndex.from_tuples(index)
ser = pd.Series(data, index=index)
ser

In [None]:
ser.index.names = ['one', 'two']
ser

#### Мульти-индекс для столбцов

Несколько индексов может быть и у столбцов. Индекс задается так-же

In [None]:
index = pd.MultiIndex.from_product([[2020, 2021], 
                                    [1, 2]], names=['one', 'two'])
columns = pd.MultiIndex.from_product([['uno', 'two', 'quatro'], 
                                     ['odin', 'dva']], names=['one', 'two'])
data = np.round(np.random.randn(4, 6), 1)
frame = pd.DataFrame(data, index=index, columns=columns)
frame

### Индексация и срезы по мульти-индексу

#### Мультииндексация Series

In [None]:
index = [('this', 1000), ('this', 2000),
        ('that', 1000), ('that', 2000),
        ('where', 1000), ('where', 2000)]
data =[12345, 23456,
      34567, 45678,
      56789, 67890]
index = pd.MultiIndex.from_tuples(index)
ser = pd.Series(data, index=index)
ser

In [None]:
ser['that', 2000]

In [None]:
# поддерживается частичная индексация
ser['that']

In [None]:
# поддерживаются частичные срезы, если мультииндекс отсортирован
ser = ser.sort_index()
ser

In [None]:
ser.loc['that':'this']

In [None]:
# астиная индексация по нижнему уровню отсортированного массива
ser[:, 1000]

In [None]:
# маски работают
ser[ser > 50000]

In [None]:
# выборки тоже
ser[['that', 'this']]

#### Дата-фреймы ведут себя аналогично

In [None]:
index = pd.MultiIndex.from_product([[2020, 2021], 
                                    [1, 2]], names=['one', 'two'])
columns = pd.MultiIndex.from_product([['uno', 'two', 'quatro'], 
                                     ['odin', 'dva']], names=['one', 'two'])
data = np.round(np.random.randn(4, 6), 1)
frame = pd.DataFrame(data, index=index, columns=columns)
frame

In [None]:
# по столбцам в неявном виде
frame['uno', 'dva']

In [None]:
# в неявном виде вначале идут столбцы
frame['uno', 'dva'][2020, 2]

In [None]:
# в явном виде сначала строки (через .loc)
frame.loc[(2020, 2), ('uno', 'dva')]

In [None]:
# чтобы избежать ошибки со срезами внутри кортежа, используется явный вид среза
# встроенная ф-ия python slice() или объект IndexSlice
idx = pd.IndexSlice
frame.loc[idx[:, 1], idx[:, 'odin']]

[подробнее тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-indexing-with-hierarchical-index)

### Перегруппировка мульти-индексов

Сортировка индекса (в том числе для успешных срезов) осуществляется через .sort_index() и .sortlevel()

Преобразование фрейма в серию и обратно с сохранением мульти-индекса осуществляется через .stack() и .unstack()ю При этом можно указать требуемый уровень

In [None]:
ser.unstack(level=0)

In [None]:
ser.unstack(level=1)

In [None]:
ser.unstack(level=1).stack()

Еще один способ перегруппировки - преобразование с помощью метода reset_index() и set_index()

In [None]:
frame

In [None]:
frame.reset_index(level=['one', 'two'])

In [None]:
frame.reset_index(level=['one', 'two'], inplace=True)

In [None]:
frame

In [None]:
frame.set_index('one')

[подробнее тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reset_index.html) и [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.set_index.html)

#### Агрегирование по мульти-индексам

Осуществляется с передачей параметра level для указания подмножества данных

In [None]:
index = pd.MultiIndex.from_product([[2020, 2021], 
                                    [1, 2]], names=['one', 'two'])
columns = pd.MultiIndex.from_product([['uno', 'two', 'quatro'], 
                                     ['odin', 'dva']], names=['one', 'two'])
data = np.round(np.random.randn(4, 6), 1)
frame = pd.DataFrame(data, index=index, columns=columns)
frame
data_mean = frame.mean(level='one')
data_mean

In [None]:
# извлекаем по столбцам
data_mean.mean(axis=1, level='two')

## Объединение данных

### Конкатенация и добавление в конец

In [None]:
def make_df(cols, ind):
    data = {c: [str(c) + str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [None]:
make_df('ABC', range(3))

Функция pd.concat() аналогична np.сoncatenate.По умолчанию конкатенация производится построчно, т.е. axis=0

In [None]:
# простая конкатенация масивов
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

In [None]:
# простая конкатенация датафреймов
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
print(df1)
print(df2)
print(pd.concat([df1, df2]))

In [None]:
# с конкатенацией по колонкам
df1 = make_df('AB', [1, 2])
df2 = make_df('CD', [1, 2])
print(df1)
print(df2)
print(pd.concat([df1, df2], axis=1))

#### Дублирование индексов

In [None]:
# при конкатенации в пандас, в отличае от numpy производится дублирование индексов - т.е. повторяющися
# индексы не заменяются, а добавляются
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
df1.index = df2.index
print(df1)
print(df2)
print(pd.concat([df1, df2]))

In [None]:
# решение №1 - перехват повторов как ошибки
try:
    pd.concat([df1, df2], verify_integrity=True)
except ValueError as e:
    print('ValueError:', e)

In [None]:
# решение №2 - игнор индекса. В этом случае конкатенируемые индексы игнорируются
# создается новый целочисленный
print(pd.concat([df1, df2], ignore_index=True))

In [None]:
# решение №3 - добавление ключей мультииндекса
print(pd.concat([df1, df2], keys=['df1', 'df2']))

#### Конкатенация с использованием соединений

Позволяет конкатенировать фреймы, у которых названия столбцов частично не совпадают. По умолчанию элементы, данные для которых отсутствуют, получают NaN. Чтобы изменить это поведение, можно указать соответствующие опции

In [None]:
df1 = make_df('ABC', [1, 2])
df2 = make_df('BCD', [3, 4])
print(df1)
print(df2)
print(pd.concat([df1, df2]))

In [None]:
# join='inner' - пересечение столбцов
print(pd.concat([df1, df2], join='inner'))

#### Метод append() - метод для непосредственной конкатенации массивов

Не изменяет исходный объект в отличае от питоньего append() extend(). Вместо этого создается новый объект. Это затратно, поэтому, когда есть множество операций с массивами, лучше использовать concat()

In [None]:
df1.append(df2)

[Подробнее про concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)

### Слияние и соединение

pd.merge и join() реализуют реляционную алгебру в pandas, что позволяет работать с данными как с БД

pd.merge реализуте несколько соединений:

- один-к-одному
- многие-ко-многому
- многие-ко-многим

Тип соединения зависит от формы представленных данных

#### один-к-одному

Подобно конкатенации по столбцам. Функция merge находит общий столбец и автоматически соединяет по нему. Порядок записей может не сохраняться. Кроме того, слияние игнорирует индекс.

In [None]:
df1 = pd.DataFrame({'emploee': ['bob', 'jake', 'lisa', 'sue'],
                   'group': ['accounting', 'engineering', 'engineering', 'hr']})
df2 = pd.DataFrame({'emploee': ['lisa', 'bob', 'jake', 'sue'],
                   'date': [2004, 2008, 2012, 2014]})
print(df1); print(df1)

In [None]:
df3 = pd.merge(df1, df2)
print(df3)

#### многие-ко-многому

Один из двух ключевых столбцов содержит дубли. Добавляются столбцы, в которых будут дублирующие данные

In [None]:
df4 = pd.DataFrame({'group': ['accounting', 'engineering', 'hr'],
                   'supervisor': ['carly', 'guido', 'steve']})
print(df4)

In [None]:
print(pd.merge(df3, df4))

#### Многие ко многим

Если столбец ключа как в левом так и вправом массиве содержит дубли. В этом случае дубли появятся во всех столбцах, там где это необходимо для отображения данных

In [None]:
df5 = pd.DataFrame({'group': ['accounting', 'accounting', 'engineering', 'engineering', 'hr', 'hr'],
                   'skills': ['math', 'speaking', 'coding', 'speaking', 'eating', 'sleeping']})
print(df5)

In [None]:
print(pd.merge(df1, df5))

### Задание ключа слияния

#### Ключевое слово on

В этом атрибуте указывается столбец или список столбцов, п ок котороым надо производить слияние

In [None]:
print(pd.merge(df1, df2, on='emploee'))

#### Ключевые слова left_on и right_on

Если названия столбцов разные, так можно указать ключевые столбцы для слияния из левого и из правого массива

In [None]:
df3 = pd.DataFrame({'name': ['bob', 'jake', 'lisa', 'sue'],
                   'salary': [7000, 10000, 5000, 12000]})
print(pd.merge(df1, df3, left_on='emploee', right_on='name'))

In [None]:
# один столбец оказался избыточным
print(pd.merge(df1, df3, left_on='emploee', right_on='name').drop('name', axis=1))

#### Ключевые слова left_index и right_index

Для слияния по индексу, вместо слияния по столбцам

In [None]:
df1a = df1.set_index('emploee')
df2a = df2.set_index('emploee')
print(df1a); print(df2a); print(pd.merge(df1a, df2a, left_index=True, right_index=True))

In [None]:
# метод join() выполняет тоже самое - по умолчанию по индексам
print(df1a.join(df2a))

Можно соечтать rignt/left_on и right/left_index, объелиняя два массива с одной стороны по индексу, с другой по столбцу.

[Подробнее про merge тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html)

### Задание операций над множествами для соединений

Иногда необходимо задать тип операции при соединении - когда какое-то значение есть в одном ключевом столбце, но отсутствует в другом. Это управялется черех how=' '

- inner
- outer
- left
- right

In [None]:
# по умолчанию используется inner
df6 = pd.DataFrame({'name': ['peter', 'paul', 'mary'],
                   'food': ['fish', 'beans', 'bread']}, columns=['name', 'food'])
df7 = pd.DataFrame({'name': ['joseph', 'mary'],
                   'drink': ['wine', 'beer']}, columns=['name', 'drink'])
print(df6); print(df7); print(pd.merge(df6, df7))

In [None]:
# в явном виде
print(pd.merge(df6, df7, how='inner'))

In [None]:
# outer
print(pd.merge(df6, df7, how='outer'))

In [None]:
# left
print(pd.merge(df6, df7, how='left'))

In [None]:
# right
print(pd.merge(df6, df7, how='right'))

#### Ключевое слово suffixes

Используется, когда названия столбцов конфликтует для задания суффмксов новых столбцов. При конфликте pandas проставляет такие суффиксы автоматом как _x и _y. Эти суффиксы можно задать самостоятельно.

In [None]:
df8 = pd.DataFrame({'name': ['bob', 'jake', 'lisa', 'sue'],
                   'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['bob', 'jake', 'lisa', 'sue'],
                   'rank': [10, 20, 30, 40]})
print(pd.merge(df8, df9, on='name'))

In [None]:
print(pd.merge(df8, df9, on='name', suffixes=['_L', '_R']))

## Агрегирование и группировка

In [None]:
import seaborn as sns

In [None]:
planets = sns.load_dataset('planets')
planets.shape

In [None]:
planets.head()

Для серий и фреймов доступны sum() и mean() также как и в NumPy. В датафреймах по умолчанию агрегируются сводные показатели по каждому столбцу

In [None]:
df = pd.DataFrame({'a': rnd.rand(5),
                  'b': rnd.rand(5)})
df

In [None]:
df.mean()

In [None]:
# по строкам
df.mean(axis=1)

Метод describe из pandas вычисляет сразу несколько агрегированных метрик

In [None]:
planets.dropna().describe()

Основные агрегирующие методы для серий и массивов:

| Aggregation              | Description                     |
|--------------------------|---------------------------------|
| ``count()``              | Total number of items           |
| ``first()``, ``last()``  | First and last item             |
| ``mean()``, ``median()`` | Mean and median                 |
| ``min()``, ``max()``     | Minimum and maximum             |
| ``std()``, ``var()``     | Standard deviation and variance |
| ``mad()``                | Mean absolute deviation         |
| ``prod()``               | Product of all items            |
| ``sum()``                | Sum of all items                |

### Операция GroupBy

Позволяет агрегировать данные по какой-либо метке иили индексу

Применяется операция "разюиение, применение, объединение". На первом шаге датафрейм разбивается и группируется по заданному ключу. Затем применяется агрегирующая функция. После этого результаты сливаются в выходной массив. Промежуточные объекты не создаются, все операции проивзодятся за один проход, что вычислительно не так накладно, как если ьы это делали стандартными методами.

![](img/pandas-groupby-01.png)

In [None]:
df = pd.DataFrame({'key': ['a', 'b', 'c', 'a', 'b', 'c'],
                  'data': range(6)}, columns=['key', 'data'])
df

In [None]:
# получае6м объект groupby - специальное представление датафрейма 
# - готовое к группировке и вычислениям, но еще не посчитанное
df.groupby('key')

In [None]:
# осталось применить агрегирующий метод
df.groupby('key').sum()

#### Объект GroupBy

C этим объектом можно обращаться как с коллекцией объектов DataFrame. Доступна агрегация, фильтрация, преобразование и применеение.

<span class="mark">Объект поддерживает индексацию по столбцам</span>. При этом возвращается модифицированный объект - датафрейм или серия

In [None]:
planets.groupby('method')

In [None]:
planets.groupby('method')['orbital_period']

In [None]:
planets.groupby('method')['orbital_period'].median()

<span class="mark">Поддерживается непосредственное выполнение циклов</span> по группам с возратом каждой группы  в виде серии или фрейма

In [None]:
for method, group in planets.groupby('method'):
    print('{0:30} shape={1}'.format(method, group.shape))

<span class="mark">Все методы, не реализованные явным образом для groupby все равно будут выполняться для групп</span>

In [None]:
planets.groupby('method')['year'].describe().unstack()

#### Методы aggregate(), filter(), transform(), apply()

In [None]:
df = pd.DataFrame({'key': ['a', 'b', 'c', 'a', 'b', 'c'],
                  'data1': range(6),
                  'data2': rnd.randint(0, 10, 6)}, columns=['key', 'data1', 'data2'])
df

In [None]:
# агрегирование - принимает строку, функцию или список и вычисляет сводные показатели сразу
df.groupby('key').aggregate([min, np.median, max])

In [None]:
# второй вариант - передать словарь, связывающий столбцы с требуемыми вычислениями
df.groupby('key').aggregate({'data1': min,
                            'data2': max})

In [None]:
# фильтрация - возвращает булево значение, определяющее, прошла ли группа фильтрацию
def filter_func(x):
    return x['data2'].std() > 1

print(df); print(df.groupby('key').std())
print(df.groupby('key').filter(filter_func))

[подробнее про filter](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.filter.html)

In [None]:
# преобразование - возврат полного набора данных с преобразование для дальнейших вычислений
# пример - центрирование путем вычитания среднего

df.groupby('key').transform(lambda x: x - x.mean())

In [None]:
# метод apply() - применеение произвольной функции к результатам группировки
def norm_by_data2(x):
    x['data1'] /= x['data2'].sum()
    return x

print(df); print(df.groupby('key').apply(norm_by_data2))

### Более сложные примеры группировки

#### Список, массив, Series и индекс как ключ группировки

ключ может быть любой последовательностью с той же длиной, как и датафрейм

In [None]:
L = [0, 1, 0, 2, 0, 3]
print(df); print(df.groupby(L).sum())

#### Словарь или Series, связывающий индекс в группу

Можно указать словарь, задающий соответствие значений индекса и ключей группировки

In [None]:
df2 = df.set_index('key')
mapping = {'a': 'map1', 'b': 'map2', 'c': 'map3'}
print(df2); print(df2.groupby(mapping).sum())

#### Применеение любой функции python

Можно передать любую функцию, принимающую индекс и возвращающую группу

In [None]:
print(df2); print(df2.groupby(str.lower).mean())

#### Можно комбинировать для группировки по мультииндексу

In [None]:
df2.groupby([str.lower, mapping]).mean()

[Подробнее о groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

#### пример реализации groupby

In [None]:
decade = 10 * (planets['year'] // 10)
decade

In [None]:
decade = decade.astype(str) + 's'
decade

In [None]:
decade.name = 'decade'

In [None]:
planets.groupby(['method', decade])['number'].sum().unstack().fillna(0)

## Сводные таблицы (pivot table)

Сводная таблица получает на вход столбцы и группирует эти данные в двумерный массив. Это является многомерным аналогом groupby - применяются операции разбить, применить, объединить, но разбиение и объединение происходит не по одномерному индексу а по двумерной сетке

In [None]:
titanic = sns.load_dataset('titanic')

In [None]:
titanic.head()

In [None]:
# группировка вручную
titanic.groupby('sex')[['survived']].mean()

In [None]:
titanic.groupby(['sex', 'class'])['survived'].aggregate('mean').unstack()

In [None]:
# тоже самое через сводные таблицы
titanic.pivot_table('survived', index='sex', columns='class')

pivot_table позволяет строить многоуровневые таблицы

тут мы <span class="burk">используем метод</span> [cut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html), которым группируем данные от 0 до 18 и от 18 до 80 по возрасту

In [None]:
age = pd.cut(titanic['age'], [0, 18, 80])
age

In [None]:
titanic.pivot_table('survived', ['sex', age], 'class')

Тоже самое можно делать и со столбцами

[qcut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html) <span class="burk">автоматически вычисляет квантили</span>

In [None]:
fare = pd.qcut(titanic['fare'], 2)
fare

In [None]:
titanic.pivot_table('survived', ['sex', age], [fare, 'class'])

#### Дополнительные параметры сводных таблиц

[<span class="burk">Подробнее про pivot_table</span>](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html)

fill_value и dropna позволяют управлять пропусками

aggfunc управляет типом агрегации - 'sum', 'mean', 'count', 'min', 'max', и т.д. или функции np.sum(), np.min() и т.д.Кроме того, агрегирование можно задать словарем.

Атрибут margins позволяет посчитать итоги в кажой группе

In [None]:
titanic.pivot_table(index='sex', columns='class',
                   aggfunc={'survived': np.sum, 'fare': np.mean})

In [None]:
titanic.pivot_table('survived', index='sex', columns='class', margins=True)

#### Пример реализации работы со сводными таблицами

In [None]:
births = pd.read_csv('data/births.csv')

In [None]:
births.head()

In [None]:
# добавим столбец для десятилетия и взгляним на рождение девочек и мальчиков, как функцию от декады
births['decade'] = 10 * (births['year'] // 10)
births.pivot_table('births', index='decade', columns='gender', aggfunc='sum')

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib as mpl
sns.set()  # use Seaborn styles

births.pivot_table('births', index='year', columns='gender', aggfunc='sum').plot()
plt.ylabel('total births per year');

In [None]:
# отсечем аномальные значения с помощью sigma-clipping
quartiles = np.percentile(births['births'], [25, 50, 75])
mu = quartiles[1]
sig = 0.74 * (quartiles[2] - quartiles[0])

In [None]:
# отфильтруем строки, в которых кол-во новорожденных аномально
births = births.query('(births > @mu - 5 * @sig) & (births < @mu + 5 * @sig)')

In [None]:
# сделаем столбец 'day' целочисленным, тк. избавились от пустых значений
births['day'] = births['day'].astype(int)

In [None]:
# создадим индекс для даты, объединив день, месяц и год (временная метка)
births.index = pd.to_datetime(10000 * births.year +
                              100 * births.month +
                              births.day, format='%Y%m%d')

births['dayofweek'] = births.index.dayofweek

In [None]:
# построим график кол-ва новорожденных в зависимости от дня недели
births.pivot_table('births', index='dayofweek',
                    columns='decade', aggfunc='mean').plot()
plt.gca().set_xticklabels(['Mon', 'Tues', 'Wed', 'Thurs', 'Fri', 'Sat', 'Sun'])
plt.ylabel('mean births by day');

In [None]:
# построим такую-же зависимость от дня года. Для начала мгрппируем отдельно по месяцу и дню
births_by_date = births.pivot_table('births', 
                                    [births.index.month, births.index.day])
births_by_date.head()

In [None]:
# Чтобы упростить построение графика, свяжем данные с фиктивным високостным годом
births_by_date.index = [pd.datetime(2012, month, day)
                        for (month, day) in births_by_date.index]
births_by_date.head()

In [None]:
fig, ax = plt.subplots(figsize=(12, 4))
births_by_date.plot(ax=ax);

## Векторизированные операции со строками

Pandas поддерживает векторизированые операции над строками с обработкой пропусков посредством атрибута str

In [None]:
data = ['this', 'that', None, 'who']
ser = pd.Series(data)
ser

In [None]:
ser.str.capitalize()

Доступны следующие методы (аналогичны python):

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

In [None]:
# при этом возвращаемые данные отличаются, к примеру часть методов возвращают серии объектов
data = pd.Series(['Indiana Dj', 'Kolobok Ft', 'Super Nan', 'Mr X'])
data.str.lower()

In [None]:
# часть методов возвращают серии чисел
data.str.len()

In [None]:
# були
data.str.startswith('K')

In [None]:
# списки
data.str.split()

Доступны методы, использующие регулярные выражения (используется API python)

| Method | Description |
|--------|-------------|
| ``match()`` | Вызывается``re.match()`` для каждого элемента, возвращается буль |
| ``extract()`` | Вызывается ``re.match()`` для каждого элемента, возвращаются подходящие группы в виде строк.|
| ``findall()`` | Вызывается``re.findall()`` для каждого элемента |
| ``replace()`` | Заменет вхождение шаблона строкой |
| ``contains()`` | Вызывает ``re.search()`` для каждого элемента, возвращается буль |
| ``count()`` | Подсчитывает вхождения шаблона |
| ``split()``   | Эквивалентно ``str.split()``, но принимает на вход регулярку |
| ``rsplit()`` | Эквивалентно ``str.rsplit()``, но принимает на вход регулярку |

In [None]:
# Вытащим первую непрерывную группу символов в начале строки, начинающуюся с заглавной
data.str.extract('([A-Za-z]+)')

In [None]:
# Найдем все, что начинается и заканчивается с согласной
data.str.findall(r'^[^AEIOU].*[^aeiou]$')

Прочие методы

| Method | Description |
|--------|-------------|
| ``get()`` | идексирует каждый элемент |
| ``slice()`` | вырезает подстроку из каждого элемента |
| ``slice_replace()`` | вырезает и заменяет |
| ``cat()``      | конкатенирует строки |
| ``repeat()`` | повторяет указанное число раз значение |
| ``normalize()`` | возвращает строку в юникоде |
| ``pad()`` | добавляет пробелы слева/справа/слева и с права |
| ``wrap()`` | разбивает строку на строки заданной длины |
| ``join()`` | объединяет строки с использованием заданного разделителя |
| ``get_dummies()`` | извлекает значения переменных-индикаторов в виде дата-фрейма (lдамми кодирование) |

In [None]:
data.str.slice(0, 3)

In [None]:
data.str.get(1)

In [None]:
data.str.split().str.get(-1)

In [None]:
fdata = pd.DataFrame({'name': data,
                    'info': ['B|C|D', 'B|D', 'A|C', 'A|B|C']})
fdata

In [None]:
fdata['info'].str.get_dummies('|')

<span class="burk">Подробные примеры обработки строк</span> [смотри тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

## Обработка временных рядов

- метки даты/времени ссылаются на конкретные моменты времени
- временные интервалы и периоды ссылаются на отрезки времени между конкретными точками
- временные дельты указывают отрезки времени определенной продолжительности

### Дата и время в python

Обработка в питоне ведется с пом.пакета datetime. Дополнительный функционал поставляет dateutil

In [None]:
from datetime import datetime
datetime(year=2020, month=7, day=31)

In [None]:
from dateutil import parser
date = parser.parse('31th of July, 2020')
date

In [None]:
date.strftime('%A')

[Документация по datetime](https://docs.python.org/3/library/datetime.html)

[Документация по dateutil](https://dateutil.readthedocs.io/en/stable/)

работа с часовыми поясами [pydz](https://pythonhosted.org/pytz/)

datetime и dateutil плохо работают с большими массивами данных - низкая производительность. Поэтому при работе в pandas рекомендуется использовать типизированные массивы времени NumPy

### datetime64 библиотеки NumPy

Кодирует дату и время в 64-битные целые числаа. Для этого формата требуется очень точно заданный формат входных данных

In [None]:
date = np.array('2020-07-31', dtype=np.datetime64)
date

In [None]:
# теперь с ней можно проивзодить операции в NumPy
date + np.arange(12)

datetime64 b yimedelta64 основаны на базовой единице времени.Точность 64 бита повзоляет закодировать только базовую единицу, умноженную на $2^{64}$. Например, если надо кодировать наносекунды, то будет доступено пространство только для кодирования 600 лет.

In [None]:
# пример даты и времени на основе единицы в одну минуту
np.datetime64('2020-07-31T12:00')

Доступные коды для формирования даты и времени

|Code    | Meaning     | Time span (relative) | Time span (absolute)   |
|--------|-------------|----------------------|------------------------|
| ``Y``  | Year	       | ± 9.2e18 years       | [9.2e18 BC, 9.2e18 AD] |
| ``M``  | Month       | ± 7.6e17 years       | [7.6e17 BC, 7.6e17 AD] |
| ``W``  | Week	       | ± 1.7e17 years       | [1.7e17 BC, 1.7e17 AD] |
| ``D``  | Day         | ± 2.5e16 years       | [2.5e16 BC, 2.5e16 AD] |
| ``h``  | Hour        | ± 1.0e15 years       | [1.0e15 BC, 1.0e15 AD] |
| ``m``  | Minute      | ± 1.7e13 years       | [1.7e13 BC, 1.7e13 AD] |
| ``s``  | Second      | ± 2.9e12 years       | [ 2.9e9 BC, 2.9e9 AD]  |
| ``ms`` | Millisecond | ± 2.9e9 years        | [ 2.9e6 BC, 2.9e6 AD]  |
| ``us`` | Microsecond | ± 2.9e6 years        | [290301 BC, 294241 AD] |
| ``ns`` | Nanosecond  | ± 292 years          | [ 1678 AD, 2262 AD]    |
| ``ps`` | Picosecond  | ± 106 days           | [ 1969 AD, 1970 AD]    |
| ``fs`` | Femtosecond | ± 2.6 hours          | [ 1969 AD, 1970 AD]    |
| ``as`` | Attosecond  | ± 9.2 seconds        | [ 1969 AD, 1970 AD]    |

[подробнее в документации](https://numpy.org/doc/stable/reference/arrays.datetime.html)

### Дата и время в Pandas

Pandas предоставляет объект Timestamp. Из него можно сделать DatetimeIndex для индексации массива. Доступны методы для временных меток и можно производить векторизированные операции

In [None]:
date = pd.to_datetime('31th of July, 2020')
date

In [None]:
date.strftime('%A')

In [None]:
date + pd.to_timedelta(np.arange(12), 'D')

### Индексация по времени

In [None]:
index = pd.DatetimeIndex(['2019-07-04', '2019-08-04',
                         '2020-07-04', '2020-08-04'])
data = pd.Series([0, 1, 2, 3], index=index)
data

In [None]:
data['2019-08-04':'2020-08-04']

In [None]:
# можно получить срез только по году, если индекс - дата и время
data['2020']

**Pandas располагает следующими структурами для временных рядов:**

- Timestamp для меток даты/времени. Основан на numpy.datetime64. На основе Timestamp можно создать индекс DatetimeIndex
- Period для периодов времени. Основан на numpy.datetime64 и кодирует интервалы времени определенной переодичности. На его основе можно получить индекс PeriodIndex
- для временных дельт - Timedelta. Основан на numpy.timedelta64. Индекс TimedeltaIndex

In [None]:
# проще увсего получить метку через pd.to_datetime()
dates = pd.to_datetime([datetime(2020, 8, 1), '7th July, 2020',
                      '2020-Jun-7', '07-07-2019', '20200908'])
dates

In [None]:
# любой объект datetimeIndex преобразуется в PeriodIndex с помощью to_period() с указанием интервала
dates.to_period('D')

In [None]:
# объект Timedelta можно получить вычитанием из одной даты другой
dates - dates[0]

<span class="burk">Подробнее</span>:

[Timestamp](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html)

[to_datetime](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html)

[to_period](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.to_period.html)

[Period](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Period.html)

[Timedelta](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timedelta.html)

Можно создавать регулярные последовательности с помощью методов:

- pd.date_range() для меток даты/ремени
- pd.period_range() для периодов
- pd.timedelta_range() для временных дельт

все методы принимают начальную точку, конечную точку и шаг.

In [None]:
# по умолчанию шаг pd.date_range()  равен одному дню
pd.date_range('2020-01-03', '2020-01-30')

In [None]:
# можно задать диапазон с помщью начальной точки и кол-ва периодов
pd.date_range('2020-01-03', periods=10)

In [None]:
# интервал изменяется с помщью аргумента freq
pd.date_range('2020-01-03', periods=10, freq='H')

In [None]:
# периоды
pd.period_range('2020-07', periods=8, freq='M')

In [None]:
# делты
pd.timedelta_range(0, periods=10, freq='H')

### Периодичность и смещения дат

**Список стандартных кодов периодичности в pandas**

| Code   | Description         | Code   | Description          |
|--------|---------------------|--------|----------------------|
| ``D``  | Calendar day        | ``B``  | Business day         |
| ``W``  | Weekly              |        |                      |
| ``M``  | Month end           | ``BM`` | Business month end   |
| ``Q``  | Quarter end         | ``BQ`` | Business quarter end |
| ``A``  | Year end            | ``BA`` | Business year end    |
| ``H``  | Hours               | ``BH`` | Business hours       |
| ``T``  | Minutes             |        |                      |
| ``S``  | Seconds             |        |                      |
| ``L``  | Milliseonds         |        |                      |
| ``U``  | Microseconds        |        |                      |
| ``N``  | nanoseconds         |        |                      |

Периодичность в месяц, квартал и год определяется на конец соответствующего периода.

Добавление к любому из кодов суффикса S приводит к определению начала периода

| Code    | Description            || Code    | Description            |
|---------|------------------------||---------|------------------------|
| ``MS``  | Month start            ||``BMS``  | Business month start   |
| ``QS``  | Quarter start          ||``BQS``  | Business quarter start |
| ``AS``  | Year start             ||``BAS``  | Business year start    |

Кроме того, можно изменить для определения квартала или года месяц путем добавления кода месяца в конец

- ``Q-JAN``, ``BQ-FEB``, ``QS-MAR``, ``BQS-APR``, etc.
- ``A-JAN``, ``BA-FEB``, ``AS-MAR``, ``BAS-APR``, etc.

Аналогично для недель

- ``W-SUN``, ``W-MON``, ``W-TUE``, ``W-WED``, etc.

Для другой периодичности можно сочетать коды с числами

In [None]:
pd.timedelta_range(0, periods=9, freq="2H30T")

<span class="burk">Все это подробно описано</span> [тут](https://pandas.pydata.org/pandas-docs/stable/reference/offset_frequency.html)

#### Передескритезация, временные сдвиги и окна

Pandas предоставляет несколько доп.операций для временных индексов

In [None]:
# используем фин.данные из пакета pandas_datareader
from pandas_datareader import data
goog = data.DataReader('GOOG', start='2004', end='2020', data_source='yahoo')
goog.head()

In [None]:
goog = goog['Close']

In [None]:
goog.plot()

Переразбить данные с использованием интервалов другой переодичности можно с помощью resample() - выполняет агрегирование данных, или asfreq() - выполняет выборку данных.

In [None]:
# resample выдает среднее значение за предыдущий год, а asfreq на конец года
goog.plot(alpha=0.5, style='-')
goog.resample('BA').mean().plot(style=':')
goog.asfreq('BA').plot(style='--')
plt.legend(['input', 'resample', 'asfreq'], loc='upper left');

asfreq() принимает аргумент method, который позволяет заполнять пропуски. Разные методы интерполяции приводят к разным результатам.

Подробнее:

- [resample](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.resample.html)
- [asfreq](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.asfreq.html)

Сдвиг данных по времени производится с помощью shift() - сдиг данных, и tshift() - сдвиг индекса

In [None]:
fig, ax = plt.subplots(3, sharex=True)

goog = goog.asfreq('D', method='pad')

goog.plot(ax=ax[0])
goog.shift(1200).plot(ax=ax[1])
goog.tshift(1200).plot(ax=ax[2])

# пояснения на графиках
local_max = pd.to_datetime('2008-11-05')
offset = pd.Timedelta(900, 'D')

ax[0].legend(['input'], loc=2)
ax[0].axvline(local_max, alpha=0.3, color='red')

ax[1].legend(['shift(900)'], loc=2)
ax[1].axvline(local_max + offset, alpha=0.3, color='red')

ax[2].legend(['tshift(900)'], loc=2)
ax[2].axvline(local_max + offset, alpha=0.3, color='red');

Скользящие окна выводятся с помощью атрибута rolling() объектов Series и DataFrame. Возвращается представление, подобное groupby

In [None]:
rolling = goog.rolling(365, center=True)

data = pd.DataFrame({'input': goog,
                     'one-year rolling_mean': rolling.mean(),
                     'one-year rolling_std': rolling.std()})
ax = data.plot(style=['-', '--', ':'])
ax.lines[0].set_alpha(0.3)

Можно использовать aggregate() и apply()

Подробнее о rolling [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.rolling.html) и [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html)

## Увеличение производительности

eval() и query() основаны на пакете Numexpr. Numexpr позволяет вычислять составные выражения (выражения, в которые входит несколько разных операций с массивами данных) поэлементно, не требуя выделения памяти под промежуточные массивы в целом.

In [2]:
import numexpr

rng = np.random.RandomState(42)
x = rng.rand(1000)
y = rng.rand(1000)
mask = (x > 0.5) & (y < 0.5)
mask_numexpr = numexpr.evaluate('(x > 0.5) & (y < 0.5)')
np.allclose(mask, mask_numexpr)

True

In [3]:
nrows, ncols = 100000, 100
df1, df2, df3, df4 = (pd.DataFrame(rng.rand(nrows, ncols)) for i in range(4))

In [4]:
%timeit df1 + df2 + df3 + df4

54 ms ± 424 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [5]:
%timeit pd.eval('df1 + df2 + df3 + df4')

26.3 ms ± 355 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


<span class="burk">Тесты лучше делать отдельно и не в ipython. Но в среднем выигрыш 2 и больше раз</span>
[Подробнее тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.eval.html)

[Варианты бекендов](https://pandas.pydata.org/pandas-docs/stable/user_guide/enhancingperf.html#enhancingperf-eval)

In [6]:
%timeit (df1 > 0) & (df2 > 0) & (df3 > 0) & (df4 > 0)

177 ms ± 2.71 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [7]:
%timeit pd.eval('(df1 > 0) & (df2 > 0) & (df3 > 0) & (df4 > 0)')

16.3 ms ± 172 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [8]:
s = pd.Series(np.random.randn(50))
%timeit df1 + df2 + df3 + df4 + s

133 ms ± 1.28 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [9]:
%timeit pd.eval('df1 + df2 + df3 + df4 + s')

27.5 ms ± 689 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### DataFrame.eval()

[подробнее про DataFrame.eval() тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.eval.html)

[DataFrame.query()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) используется для сложных конструкций, которые не получается записать синтаксисом eval()

Оба метожда позволяют ссылаться на столбцы по именам

In [10]:
df = pd.DataFrame(rng.rand(1000, 3), columns=['A', 'B', 'C'])
df.head()

Unnamed: 0,A,B,C
0,0.231468,0.305752,0.422562
1,0.765048,0.24715,0.029949
2,0.786965,0.101903,0.996462
3,0.868339,0.901011,0.134291
4,0.935778,0.285631,0.678258


In [14]:
result1 = (df['A'] + df['B']) / (df['C'] + 1)
result2 = pd.eval("(df.A + df.B) / (df.C + 1)")
np.allclose(result1, result2)

True

In [16]:
# еще можно и так
result3 = df.eval('(A + B) / (C + 1)')
np.allclose(result1, result3)

True

DataFrame.eval() позволяет выполнять присваивание любому из столбцов

In [18]:
df.eval('D = (A + B)/ C', inplace=True)
df.head()

Unnamed: 0,A,B,C,D
0,0.231468,0.305752,0.422562,1.271341
1,0.765048,0.24715,0.029949,33.797105
2,0.786965,0.101903,0.996462,0.892024
3,0.868339,0.901011,0.134291,13.175484
4,0.935778,0.285631,0.678258,1.800804


Поддерживается дополнительный синтаксис для работы с локальными переменными - через символ @. Поддерживается только DataFrame.eval() но не pandas.eval()

In [19]:
column_mean = df.mean(1)
result1 = df['A'] + column_mean
result2 = df.eval('A + @column_mean')
np.allclose(result1, result2)

True

**Когда использовать повышение производительности?**

Когда размер временных объектов Pandas существенен по сравнению с объемом оперативной памяти. eval() работает быстрее, когда не использована вся доступная оперативка, так как позволяет избежать потенциально медленного перемещения объектов между кешами разного уровня. Для маленьких массивов стандартные методы работают быстрее и eval() дает по сути только выигрыш по памяти.