## Pandas

### 7. Статистические функции

Посмотрим как pandas позволяет вычислять простейшие статистики для датасетов. Методы которые мы перечислим ниже имеют аргумет axis, который указывает вдоль какой оси надо вычислять статистику. Обычно, по-умолчанию axis=0, что соответсвует вычислениям по строкам. Если в данных есть пропуски, то они не учитываются при вычислении статистик!

In [None]:
import pandas as pd

In [None]:
earnings = pd.DataFrame(
    data=[[7629.39, -9357.49, -1661.3, 8597.23],
          [560.68, None, 10.46, 3578.5],
          [487.38, 7560.38, 1090.87, -5164.93],
          [560.68, 7560.38, None, -5164.93]],
    columns=['BTC', 'DOGE', 'ADA', 'ETH'],
    index=['yesterday', 'today', 'tomorrow','aftertomorrow']
)


In [3]:
earnings

Unnamed: 0,BTC,DOGE,ADA,ETH
yesterday,7629.39,-9357.49,-1661.3,8597.23
today,560.68,,10.46,3578.5
tomorrow,487.38,7560.38,1090.87,-5164.93
aftertomorrow,560.68,7560.38,,-5164.93


In [None]:
# Количество не None записей для каждой монеты
earnings.count()

In [None]:
# Заработки по дням
earnings.sum(axis=1)

In [None]:
# Средний заработок по каждой монете
earnings.mean()

In [None]:
earnings

In [None]:
# Медианный заработок по каждой монете
earnings.median()

In [None]:
# Моды заработка по каждой монете
earnings.mode()

In [None]:
# "Разброс" заработка по каждой монете
earnings.std()

In [None]:
# 25, 50 и 75 квантиль заработка по каждой монете
earnings.quantile(q=(0.25, 0.5, 0.75))

In [None]:
# Минимальный заработок по каждой монете
earnings.min()

In [None]:
# Максимальный заработок по каждой монете
earnings.max()

In [None]:
# Абсолюты заработков по каждой монете
earnings.abs()

In [None]:
# Произвдение заработков по каждой монете. Да я знаю, что это бессмысленно
earnings.prod()

In [None]:
# Кумулятивные произведения заработков по каждой монете
earnings.cumprod()

In [None]:
earnings

In [None]:
# Кумулятивные суммы заработков по каждой монете
earnings.cumsum()

In [None]:
# Процентное изменение заработка по сравнению с предыдущим значением
earnings.pct_change()

In [None]:
# Ковариация между заработком по BTC и по DOGE
earnings['BTC'].cov(earnings['DOGE'])

In [None]:
# Корреляция между заработком по BTC и по DOGE
earnings['BTC'].corr(earnings['DOGE'])

In [None]:
# Корреляции по всему датафрейму
earnings.corr()

Иногда хочется посмотреть все статистики сразу. Для этого есть метод describe

In [None]:
earnings.describe()

In [None]:
del earnings

### 8. Применение пользовательских функций

Иногда хочется применить к датасету или одной его колонке функцию. Применять можно ко всей таблице, поэлементно, поколоночно или построчно

In [None]:
earnings = pd.DataFrame(
    data=[[7629.39, -9357.49, -1661.3, 8597.23],
          [560.68, None, 10.46, 3578.5],
          [487.38, 7560.38, 1090.87, -5164.93]],
    columns=['BTC', 'DOGE', 'ADA', 'ETH'],
    index=['yesterday', 'today', 'tomorrow']
)
earnings

Для  применения построчно/поколоночно используйте функцию apply. Если хочется применить построчно добавьте axis=1

In [None]:
#  Посчитать дисперсию заработка для каждой монеты. В лямбду приходит pandas.Series объект каждой колонки
earnings.apply(lambda money: money.std() ** 2)

In [None]:
earnings['BTC']

In [None]:
def func(column):
    return column['yesterday'] + column['tomorrow']

earnings.apply(func)

Для поэлементного применения используйте функцию applymap

In [None]:
# Сделаем вид, что потери превратились в профит
earnings.applymap(abs)

In [None]:
earnings['BTC']

In [None]:
earnings['BTC'].apply(lambda money: money + 100000)

In [None]:
# Применять функцию можно и к отдельной колонке. В лямбду приходит отдельное значение колонки
earnings['BTC+100000'] = earnings['BTC'].apply(lambda money: money + 100500)
earnings.drop(columns=['BTC+100500'], inplace=True)

In [None]:
earnings.apply(lambda row: row['BTC'] + row.DOGE, axis=1)

In [None]:
# Если нужно взаимодействие между колонками - применяйте apply row-wise (по строкам)
earnings['BTC+DOGE'] = earnings.apply(lambda x: x['BTC'] + x.DOGE, axis=1)
earnings

In [None]:
0.39 * x['BTC'] + 0.61 * x.DOGE
0.40 * x['BTC'] + 0.6 * x.DOGE
0.41 * x['BTC'] + 0.59 * x.DOGE

In [None]:
earnings

In [None]:
def one_more_function(row, alpha, betta):
    return alpha * row['BTC'] + betta * row['DOGE']


def one_more_function001(row):
    return 0.01 * row['BTC'] + 0.99 * row['DOGE']

def one_more_function002(row):
    return 0.02 * row['BTC'] + 0.98 * row['DOGE']

earnings.apply(one_more_function, axis=1, args=(0.5, 0.5))

In [None]:
earnings.apply?

#### Не забудьте самостоятельно посмотреть метод pipe

In [None]:
help(earnings.pipe)

In [None]:
del earnings

### 9. Работа со строковыми колонками

На данный момент для работы со строковыми колонками нам пришлось бы постоянно использовать метод apply. Это неудобно и поэтому в pandas сделали удобный инструмент для манипуляций со строками

In [None]:
taxonomy = pd.DataFrame(
    data=[['BTC', 'Bitcoin'],['LTC', 'Litecoin'], ['ETC', 'Etherium'], ['DOGE', 'Doge coin']],
    columns=['symbol', 'name']
)
taxonomy

Чтобы применять строковые функции к колонке надо обратиться к свойству .str.

In [None]:
# Привести все к нижнему регистру
taxonomy['symbol'].str.lower()

In [None]:
# Привести все к верхнему регистру
taxonomy['name'].str.upper()

In [None]:
# Длины строк
taxonomy['symbol'].str.len()

In [None]:
# Убрать по краям пробельные символы
taxonomy['name'].str.strip()

In [None]:
# Разбить строки по заданному символу
taxonomy['name'].str.split('e')

In [None]:
# Склеить все строки в одну. Аналог str.join
taxonomy['symbol'].str.cat(sep=' $$$ ')

In [None]:
# Найти везде подстроку
taxonomy['name'].str.contains('coin')

In [None]:
# Везде заменить строку на другую
taxonomy['name'].str.replace('coin', 'dough')

In [None]:
# Повторить каждую строку указанное число раз
taxonomy['name'].str.repeat(2)

In [None]:
# Посчитать все появления указанной строки
taxonomy['name'].str.count('coin')

In [None]:
# Проверка наличия префикса
taxonomy['symbol'].str.startswith('B')

In [None]:
# Проверка наличия суффикса
taxonomy['symbol'].str.endswith('C')

In [None]:
taxonomy

In [None]:
# Найти место в строках где начинается искомая строка.
taxonomy['name'].str.find('coin')

In [None]:
# Проверка верхнего регистра
taxonomy['symbol'].str.isupper()

In [None]:
# Проверка нижнего регистра
taxonomy['symbol'].str.islower()

In [None]:
# Проверка что все символы - цифры
taxonomy['name'].str.isnumeric()

In [None]:
#Посмотреть все возможные проверки
help(taxonomy['name'].str.isnumeric)

### 10. Агрегации, трансформации и фильтрации

#### 10.1. Скользящие окна

Мы начнем со специального случая аггрегаций данных - оконных функций. Мы поговорим о методах rolling и emw. Самостоятельно посмотрите что делает expanding.

In [None]:
price = pd.DataFrame(
    data=[
        [0.547, 0.745],
        [0.5, 0.964],
        [0.77, 0.718],
        [0.135, 0.845],
        [0.53, None],
        [0.15, 0.795]],
    columns=['ADA', 'DOGE'],
    # Создаем специальный индекс из 6 дней начиная с 2018-11-01
    index=pd.date_range('2018-11-01', periods=6)
)
price

Если вы хотите посчитать какую-нибудь статистическую функци (sum, mean, median, std) в скользящем окне. То есть методы rolling (обычное окно) и ewm (окно с экспоненциальным сглаживанием). Они возвращают специальные объекты которые могут аггрегировать используя стандартную или пользователскую функцию.

In [None]:
price.rolling(window=3)

In [None]:
# Найти скользящую сумму
price.rolling(window=3).sum()

In [None]:
# Сделать агрегацию c пользовательской функцией
price.rolling(window=2).agg(lambda series: sum(series ** 2))

In [None]:
# Сделать агрегацию по имени функции
price.rolling(window=2).agg('max')

In [None]:
# Сделать несколько агрегаций
price.rolling(window=2).agg(['mean', sum, lambda series: max(series ** 2)])

In [None]:
# Сделать несколько агрегаций (для каждой колонки свои)
price.rolling(window=2).agg({'ADA': [sum, max], 'DOGE': lambda series: max(series ** 2)})

Объект ewm работает аналогично rolling с тем лишь отличием, что он назначает веса. Числам $x_0,\ldots,x_t$ будут назначены веса $(1-\alpha)^t, (1-\alpha)^{t-1}, \ldots, 1$, где $\alpha$ - параметр сглаживания. Например, экспоненциальное скользящее среднее будет вычисляться по формуле
$$
ewm_{\alpha}(x)=\frac{\sum_{i=0}^t (1-\alpha)^{t-i} x_i}{\sum_{i=0}^t(1-\alpha)^i}
$$


Если указать **adjust=False**, подсчёт будет идти рекурсивно: ```mean[i] = (1-alpha)*mean[i-1] + alpha*x[i]```

In [None]:
price

In [None]:
# Скользящее среднее cо сглаживанием alpha
price.ewm(alpha=0.5, adjust=False).mean()

In [None]:
del price

#### 10.2. Работа с группами

Иногда хочется разбить данные по группам и посчитать статистики / преобразовать / пофильтровать. Для этого есть метод **groupby**. Он возвращает специальный объект для работы со сгруппированными данными.

In [None]:
operations = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2],
        ['BTC', 'buy', 10, 6000],
        ['BTC', 'buy', 2.5, 5900],
        ['DOGE', 'sell', 3000, 0.1],
        ['BTC', 'sell', 4, 6200],
        ['ETH', 'sell', 10, 400],
        ['BTC', 'buy', 1, 5600],
        ['ETH', 'buy', 20, 350],
        ['ETH', 'sell', 10, 300],
        ['DOGE', 'sell', 3000, 0.15]
    ],
    columns=['symbol', 'type', 'amount', 'price'],
    index=pd.date_range('2018-01-01', periods=10)
)
operations

In [None]:
# Сгруппировать операции по типу монеты
operations.groupby('symbol')

In [None]:
operations.groupby('symbol').groups

In [None]:
# Сгруппировать операции по типу монеты и типу операции
operations.groupby(['symbol', 'type'])

In [None]:
# Получить индексы строк каждой группы
operations.groupby(['symbol', 'type']).groups

In [None]:
# operations.symbol.nunique()
# operations.symbol.unique()

In [None]:
# Посмотреть на содержимое каждой группы
for name, group in operations.groupby(['symbol', 'type']):
    print(name)
    print(group)

In [None]:
# Получить группу
operations.groupby(['symbol', 'type']).get_group(('BTC', 'buy'))

Теперь посмотрим как агрегировать данные для каждой группы

In [None]:
# Найти обороты для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper['amount'].agg(sum)

# Есть ещё полезный метод operations.groupby(...).transform(func) - предлагается разобрать самостоятельно

In [None]:
# Найти обороты и самые крупные сделки для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper['amount'].agg([sum, max])

In [None]:
# Найти обороты и среднюю цену для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper.agg({'amount': sum, 'price': lambda series: series.mean()})

In [None]:
for name, group in operations.groupby(['symbol', 'type']):
    print(name)
    print(group)

In [None]:
# Получить размер группы в которой сидит запись
operations.groupby(['symbol', 'type']).apply(lambda group: group.shape)

In [None]:
#Вывести группы по убыванию числа уникальных значений в колонке amount
operations.groupby(['symbol', 'type'])['amount'].nunique()

Сгруппированные данные можно фильтровать. Вы можете решить какие группы оставить с помощью вашей функции. Она на вход принимает pandas.DataFrame и возвращает bool

In [None]:
# Выбрать монеты и операции для которых оборот был больше 20 монет
operations.groupby(['symbol', 'type']).filter(lambda table: table['amount'].sum() >= 20)

In [None]:
del operations, name, group

#### 10.3 Сводные таблицы

Большинство таблиц в сыром виде похожи на логи где каждая строка это запись. Никакой оргинизации в данных в этих таблицах нет, а хотелось бы. Для этого в pandas существуют сводные таблицы.

In [None]:
operations = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2, 'Joe Doe', 'success'],
        ['BTC', 'buy', 10, 6000, 'Elon Musk', 'error'],
        ['BTC', 'buy', 2.5, 5900, 'George Bush', 'success'],
        ['DOGE', 'sell', 3000, 0.1, 'John Romero', 'success'],
        ['BTC', 'sell', 4, 6200, 'Jack Ma', 'success'],
        ['ETH', 'sell', 10, 400, 'Satoshi Nakomoto', 'error'],
        ['BTC', 'buy', 1, 5600, 'Vladimir Vladimirovich', 'success'],
        ['ETH', 'buy', 20, 350, 'George Bush', 'success'],
        ['ETH', 'sell', 10, 300, 'Jack Ma', 'error'],
        ['DOGE', 'sell', 3000, 0.15, 'Joe Doe', 'success']
    ],
    columns=['symbol', 'type', 'amount', 'price', 'user', 'status'],
    index=pd.date_range('2018-01-01', periods=10)
)
operations

Лучше всего понять как они работают это разобрать пример. Найдем сколько суммарно  было куплено и продано каждого типа монет. В результирующей сводной таблице индексом будет название монеты, колонки - типы транзакций (т.е. покупки или продажи). В самих ячейках будет суммарное количество монет.

In [None]:
operations.pivot_table(
    values='amount',
    index='symbol',
    columns='type',
    aggfunc='sum'
)

Если не указывать явно аргумент aggfunc, то агрегация будет через усреднение (а не через суммирование как было в нашем примере). Расмотрим более сложный пример.

In [None]:
operations.pivot_table(
    values='amount',
    index=['symbol', 'user'],  # Индекс может быть иерархическим и строиться по нескольким колонкам
    columns=['type', 'status'],  # Аналогично иерархическими могут быть и колонки
    aggfunc={'amount': ['sum', 'mean']}  # Можно вычислять сразу несколько агрегаций
)

И самый монструозный пример, где мы сделаем сводную таблиц для цен и объемов торгов.

In [None]:
operations.pivot_table(
    values=['amount', 'price'],  # Можно находить статистику по разным числовым показателям
    index=['symbol', 'user'],
    columns=['type', 'status'],
    aggfunc={
        'amount': ['sum', 'mean'],
        'price': 'max'}  # Тогда для каждого показателя надо указать какие агрегации вы хотите
)

Для построения сводных таблиц в pandas есть более простая функция. pandas.pivot. Она не делает никаких агрегаций, поэтому при ее использовании вы должны быть уверены, что на каждую ячейку результирующей сводной таблицы придется только одно значение показателя из исходной таблицы. В противном случае будет ошибка. Можете попробовать построить сводную таблицу
```
operations.pivot(values='amount', index='user', columns='user')
```
чтобы убедиться.

**Задание:** Самостоятельно разберитесь с функциями pandas.stack, pandas.unstack и pandas.melt. Вам поможет [этот tutorial](https://pandas.pydata.org/pandas-docs/stable/reshaping.html)

### 11. Пропуски и ошибки в данных

В реальной жизни данные с которыми надо работать содержат пропуски или просто неверные значения. Мы обсудим как это можно исправить

In [None]:
price = pd.DataFrame(
    data=[
        [0.547, 0.745],
        [-2, -1],
        [None, 0.718],
        [0.135, 0.845],
        [0.53, None],
        [None, -1]],
    columns=['ADA', 'DOGE'],
    # Создаем специальный индекс из 6 дней начиная с 2018-11-01
    index=pd.date_range('2018-11-01', periods=6)
)
price

In [None]:
# Найти места где есть пропуски методом isnull. Аналогично есть метод notnull
price.isnull()

In [None]:
# Заполнить все пропуски дефолтным занчением
price.fillna(0)

In [None]:
# Заполнить все пропуски занчениями со следующей строки
price.fillna(method='bfill')

In [None]:
# Заполнить все пропуски занчениями с предыдущей строки
price.fillna(method='ffill')

In [None]:
#  Выкинуть строки содержащие nan'ы
price.dropna()

In [None]:
#  Выкинуть колонки содержащие nan'ы
price.dropna(axis=1)

In [None]:
# Подменить значения
price.replace({-1:0, -2:0})

In [None]:
price

In [None]:
price.corr()

In [None]:
price.corr?

In [None]:
import scipy.stats

In [None]:
del price

### 12. Слияния и конкатенации таблиц

Если у вас есть две таблицы, то информацию в них можно объединить двумя способами: конкатенация ("прилепить снизу новую таблицу") и объединение (найти объединение записей таблиц если у них хранятся одни и те же значения в выбранных колонках).

In [None]:
operations_old = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2],
        ['BTC', 'buy', 10, 6000],
        ['BTC', 'buy', 2.5, 5900],
        ['DOGE', 'sell', 3000, 0.1],
        ['BTC', 'sell', 4, 6200],
    ],
    columns=['symbol', 'type', 'amount', 'price']
)

operations_new = pd.DataFrame(
    data=[
        ['ETH', 'sell', 10, 400],
        ['BTC', 'buy', 1, 5600],
        ['ETH', 'buy', 20, 350],
        ['ETH', 'sell', 10, 300],
        ['DOGE', 'sell', 3000, 0.15]
    ],
    columns=['symbol', 'type', 'amount', 'price']
)

In [None]:
operations_old

In [None]:
operations_new

In [None]:
#  Сконкатенировать таблицы в указанном порядке
pd.concat([operations_old, operations_new])
# pd.concat([operations_old, operations_new]).loc[0]
# pd.concat([operations_old, operations_new]).loc[0:2]

In [None]:
# При конкатенации таблицам можно назначать теги чтобы понимать, где какая таблица
pd.concat([operations_old, operations_new], keys=['old', 'new'])


In [None]:
# Как видно при конкатенации индексы старых таблиц копируются.
# Если вам не нужно это поведение, используйте ignore_index
operations = pd.concat([operations_new, operations_old], ignore_index=True)
operations

Данные можно собирать вместе и более умным способом. А именно, вы выбираете какие колонки вас интересуют. Далее если есть записи из двух таблиц у котороых в выбранных колонках значения совпадают мы их "объединяем". Это очень упрощенное объяснение. В pandas эта операция называется merge в SQL - join. Делать объединение можно разными сопособами, поэтому возникает несколько стратегий: left, right, inner и full.

In [None]:
transactions = pd.DataFrame(
    data=[
        ['DOGE', 'sell', 'Rockfeller'],
        ['DOGE', 'buy', 'J.P. Morgan'],
        ['BTC', 'buy', 'John Doe'],
        ['ADA', 'sell', 'Rick'],
        ['ETH', 'buy', 'Morty'],
        ['DOGE', 'sell', 'Rick']
    ],
    columns=['symbol', 'type', 'user']
)
transactions

In [None]:
# Объединение таблиц по типу монеты и операции
# По умолчанию производится inner join остаются записи в которых были полные совпадения
pd.merge(operations, transactions, on=['symbol', 'type'])

In [None]:
# Левый join таблиц - все записи из первой таблицы остаются и к ним присоединяются записи из правой.
# Аналогично работает правый join
pd.merge(operations, transactions, on=['symbol', 'type'], how='left')

In [None]:
# Outer join - собираем вместе записи из обеих таблиц
pd.merge(operations, transactions, on=['symbol', 'type'], how='outer')

[С картинками](https://habr.com/ru/post/450528/)

In [None]:
del operations_new, operations_old, operations, transactions

### 13. Чтение таблиц

Чтобы данные анализировать их надо где-то взять. Для этого в pandas есть множество функций. Все их названия начинаются с префикса 'read_'. Мы разберем функцию read_csv.

In [None]:
# Прочитать таблицу ни о чем не задумываясь
pd.read_csv('/content/sample_data/california_housing_test.csv')

In [None]:
# Прочитать таблицу и использовать колонку date как индекс
pd.read_csv('/content/sample_data/california_housing_test.csv', index_col='longitude')

In [None]:
# Прочитать таблицу и дать pandas подсказки по поводу типов данных в колонках symbol и name
pd.read_csv('/content/sample_data/california_housing_test.csv',
            dtype={'total_rooms': int, 'total_bedrooms': int})

### Запись таблиц

In [None]:
df = pd.read_csv('/content/sample_data/california_housing_test.csv',
            dtype={'total_rooms': int, 'total_bedrooms': int})

df.to_csv('file_name.csv')

In [None]:
df.to_csv?

### 14. Визуализация

В pandas есть очень простые средства визуализации. Они подойдут для быстрого анализа, но если хочется сделать красиво и информативно, то вы не по адресу. Любая визуализация делается через аттрибут plot у объекта pandas.Series или pandas.DataFrame.

Стоит отметить что для отображения графиков нужно использовать магическую команду для jupyter
```
%matplotlib
```
При этом график появится в отдельном окне. Там же будет несколько полезных кнопок для редактирования и сохранения графика. Если хочется чтобы графики отображались прямо в ноутбуке то надо передать аргумент inline
```
%matplotlib inline
```

In [None]:
%matplotlib inline

In [None]:
price = pd.DataFrame(
    data=[
        [0.547, 0.745],
        [0.5, 0.964],
        [0.77, 0.718],
        [0.135, 0.845],
        [0.53, None],
        [0.15, 0.795]],
    columns=['ADA', 'DOGE'],
    index=pd.date_range('2018-11-01', periods=6)
)
price

In [None]:
# Нарисовать график цены монеты ADA.
# Так как индекс в нашей таблице временный, то pandas догадывается, что его можно использовать
# как ось времени на графиках.
price['ADA'].plot()

In [None]:
# Можно на одном графике нарисовать поведение цены сразу нескольких монет
price[['ADA', 'DOGE']].plot()

In [None]:
# Цену можно рисовать и в виде столбцовой диаграммы c различными настройками
price.plot.bar(stacked=True)

In [None]:
# Горизонтальная столбцовая диаграмма
price.plot.barh()

In [None]:
# Гистограмма
price.plot.hist(bins=10)

In [None]:
# Ящики с усами
price.plot.box()

In [None]:
# Графики с заливкой
price.plot.area()

In [None]:
# Если хочется нарисовать пары каких либо значений в виде точек на плоскости, то подойдет scatter plot
price.plot.scatter(x='ADA', y='DOGE')

In [None]:
# И на десерт - пирожковая диаграмма
price.plot.pie(subplots=True, figsize=(15,7.5))

In [None]:
del price