## Pandas

В этом ноутбуке мы познакомимся с основными фичами pandas. Эта библиотека огромна, поэтому мы сможем лишь немного поиграться с доступной функциональностью. Для детального ознакомления стоит почитать документацию

### 1. Первое знакомство

In [1]:
import pandas as pd  # Стандартный алиас для pandas

In [2]:
# Читаем датасет из csv файла
coins = pd.read_csv('coins.csv')  

In [5]:
# Посмотрим что получилось
coins

Unnamed: 0,date,price,txCount,txVolume,activeAddresses,symbol,name,open,high,low,close,volume,market
0,2013-04-28,135.300000,41702.0,6.879868e+07,117984.0,BTC,Bitcoin,135.300000,135.980000,132.100000,134.210000,0.0,1.500520e+09
1,2013-04-28,4.300000,9174.0,4.431952e+07,17216.0,LTC,Litecoin,4.300000,4.400000,4.180000,4.350000,0.0,7.377340e+07
2,2013-04-29,134.440000,51602.0,1.138128e+08,86925.0,BTC,Bitcoin,134.440000,147.490000,134.000000,144.540000,0.0,1.491160e+09
3,2013-04-29,4.370000,9275.0,3.647810e+07,18395.0,LTC,Litecoin,4.370000,4.570000,4.230000,4.380000,0.0,7.495270e+07
4,2013-04-30,144.000000,47450.0,8.426632e+07,76871.0,BTC,Bitcoin,144.000000,146.930000,134.050000,139.000000,0.0,1.597780e+09
...,...,...,...,...,...,...,...,...,...,...,...,...,...
37583,2018-06-06,0.293325,4830.0,2.312763e+05,659.0,XLM,Stellar,0.293325,0.299955,0.289500,0.298269,51165000.0,5.450080e+09
37584,2018-06-06,0.039586,7205.0,4.947760e+06,18228.0,XVG,Verge,0.039586,0.039737,0.037680,0.038797,9307450.0,5.959400e+08
37585,2018-06-06,239.760000,10687.0,3.986308e+07,96516.0,ZEC,Zcash,239.750000,240.340000,229.210000,236.050000,56887000.0,9.769940e+08
37586,2018-06-06,0.127555,1313.0,1.596436e+07,733.0,ZIL,Zilliqa,0.127555,0.133254,0.124194,0.131766,54667900.0,9.348810e+08


Поясним значения хранящиеся в колонках
 - date - дата измерений
 - name - полное название монеты
 - symbol - сокращенное название монеты
 - price - средняя цена монеты за торговый день в USD
 - txCount - количество транзакций в сети данной монеты
 - txVolume - объем монет переведенных между адресами в сети данной монеты
 - activeAddresses - количество адресов совершавших а данный день транзации в сети данной монеты
 - open - цена монеты в начале торгов данного дня
 - close - цена монеты в конце торгов данного дня
 - high - самая высокая цена данной монеты в течение данного торгового дня
 - low - самая низкая цена данной монеты в течение данного торгового дня
 - volume - объем торгов данной монетой на биржах в данный день
 - market - капитализация данной монеты в данный день

По выводу можно получить общее представление о таблице. Видно, что в таблице могут храниться как числовые так и категориальные (строковые) данные, количество строк и столбцов. Всю эту информацию и многое другое можно получить и в коде.

Для удобства мы далее ограничим размер вывода pandas в jupyter notebook.

In [4]:
pd.set_option('display.max_rows', 10)

In [None]:
type(coins)

In [None]:
coins.shape  # Размер таблицы

In [None]:
coins.head(3)  #  Первые 3 строки таблицы. Аналогично tail для последних строк

In [None]:
coins.describe()  # Простейшие статистики для числовых колонок

In [None]:
coins['price']  # Можно выбрать отдельную колонку

In [None]:
coins['high'] - coins['low']  # Над колонками работают поэлементные операции

In [None]:
coins['spread'] = coins['high'] - coins['low']  # Можно добавлять новые колонки в таблицу

In [None]:
coins

In [None]:
del coins['spread']  # Удаляем добавленную колонку. Можно иначе: coins.pop('spread')

Колонки в таблицах pandas ведут себя как массивы неизменяемой длины. Приятное отличие состоит в том, что колонки имеют много полезных для аналитики методов. Например,

In [None]:
coins['symbol'].value_counts() # Количества записей в таблице для каждой монеты

In [None]:
# Самая высокая цена монеты во всей таблице. 
coins['price'].max()

**Задание**: сколько всего различных монет представлено в датасете?

In [None]:
# your code he
len(set(coins['symbol']))

In [None]:
# Для колонок работают стандартные методы индексации списков, но есть и другие...
coins['txVolume'][:4]

Для колонок определны бинарные операции и методы которые возвращают специальную колонку из булевских значений. Истина будет храниться только для тех индексов для которых выполнено условие. Лучше объяснит пример

In [None]:
# Строки колонки для которых txCount был больше 1000
coins['txCount'] > 100

In [None]:
# Строки колонки в которых значение попадает в заранее заданный набор
coins['symbol'].isin(['BTC', 'ADA'])

In [None]:
# Строки колонки в которых имя монеты содержит букву 'C' 
coins['symbol'].str.contains('C')

In [None]:
# Для колонок можно составлять сложные логические выражения (скобки обязательны!)
((coins['price'] > 18000) | (coins['market'] > 200000)) & (coins['symbol'] == 'BTC')

Основное назначение получающихся булевых колонок в том что они могут быть использованы как индексирующий объект. Эдакий продвинутый slicing для колонок и таблиц

In [None]:
# Выбрать из таблицы записи когда цена биткоина была меньше 100 USD
coins[(coins['price'] < 100) & (coins['symbol'] == 'BTC')]

In [None]:
# Количество транзакций лайткойна
coins['txCount'][coins['symbol'] == 'LTC']

**Задание**: У какой монеты была самая высокая цена?

In [None]:
coins[coins.price == coins.price.max()]['name']

Для таблиц есть индексирование и по строкам и по колонкам.

In [None]:
# Выбрать из таблицы максимальную цену и объем торгов за дни когда цена дож была выше 1 цента
coins.loc[
    (coins['symbol'] == 'DOGE') & (coins['price'] > 0.01),
    ['high', 'volume']
]

Начиная с этого момента вы уже можете делать простейшие выборки из данных и немного их преобразовывать. Конечно, не забывайте  использовать help() и tab-completion чтобы узнать больше о возможностях pandas. В голове стоит держать такое правило: если вам очень хочется пройтись циклом по таблице и что-то сделать с данными, очень вероятно, что вы делаете что-то неправильно и, скорее всего, в pandas есть инструмент для вашей задачи. Оставшаяся часть ноутбука посвящена перечислению фич, и может показаться скучной, но не зная этих фич вы каждый раз будете переизобретать велосипед.

### 2. Глобальные настройки

Возможно вам захочется сконфигурировать работу pandas. Большинство глобальных настроек касаются отображения таблицы или данных

In [None]:
# Узнать максимальное кол-во отображаемых в таблице с
pd.get_option('display.max_columns')

In [None]:
# Узнать больше про опцию. Список всех опций тут: 
# https://pandas.pydata.org/pandas-docs/version/0.23.4/options.html#available-options
pd.describe_option('display.max_columns')

In [None]:
# Назначть максимальное число отображаемых строк
pd.set_option('display.max_columns', 15)

### 3. Типы данных в pandas

В pandas есть два основных типа данных. pandas.Series и pandas.DataFrame.

#### 3.1 pandas.Series

Про pandas.Series стоит думать как про одномерный массив фиксированного размера из данных одного типа. В отличие от массивов доступ к элементам может быть по нечисловому индексу. Индекс стоит понимать как имена строк.

Объекты типа pandas.Series очень часто используются как возвращаемые значения в pandas.

In [None]:
import numpy as np
np.array(['BTC', 'LTC', 'DOGE', 'DASH'])

In [None]:
# pandas.Series хранящий буквы со стандартной индексацией
pd.Series(data=['BTC', 'LTC', 'DOGE', 'DASH'])

In [None]:
# pandas.Series хранящий числа типа str cо специальным индексом
pd.Series(data=['BTC', 'ETH', 'XRP'], 
          index=['first_coin', 'second_coin', 'third_coin'], dtype=str)

In [None]:
# pandas.Series созданный из словаря
pd.Series({'first_coin': 'BTC', 'second_coin': 'ETH', 'third_coin': 'XRP'})

In [None]:
# Стандартная индексация
sequence = pd.Series(data=['!', 'the', 'Moon', 'To'])
sequence

In [None]:
sequence[sequence < "P"]

In [None]:
sequence[[3, 1, 2, 0, 0, 0]]  # Доступ к нескольким элементам по их позициям 

In [None]:
sequence[3]  # Доступ к элементу по позиции

In [None]:
# Спец индексация
sequence = pd.Series(data=['!', 'the', 'Moon', 'To'], 
                     index=['04-11-2018', '02-11-2018', '03-11-2018', '01-11-2018'])

In [None]:
sequence

In [None]:
sequence[['01-11-2018', '02-11-2018', '03-11-2018', '04-11-2018']]  # Доступ к нескольким элементам по их индексам

In [None]:
sequence['01-11-2018']  # Доступ к элементу по индексу

In [None]:
# Чтобы не засорять global namespace
del sequence

#### 3.2 pandas.DataFrame

Данные типа pandas.DataFrame это двумерный массив (переменного размера) разнородных данных (но однородных по колонкам). Лучше всего предстаставлять себе pandas.DataFrame как набор колонок, где каждая колонка это pandas.Series.

In [None]:
# Создание простейшей таблицы
pd.DataFrame(data=['BTC', 'LTC', 'XRP'])

In [None]:
# Cоздание таблицы с именами колонок
pd.DataFrame(data=[['BTC', 10000],['LTC', 200],['XRP', 1]], 
             columns=['symbol', 'price'])

In [None]:
# Cоздание таблицы с именами колонок и указанием индекса
pd.DataFrame(
    data=[['BTC', 10000],['LTC', 200],['XRP', 1]],
    columns=['symbol', 'price'],
    # DatetimeIndex - это специальный тип данных для индексов содержащих время
    index=pd.DatetimeIndex(['01-11-2018', '03-11-2018', '23-08-2018'])
)

In [None]:
# Создание по готовым pandas.Series
pd.DataFrame({
    'symbol': pd.Series(data=['BTC','LTC'], index=pd.DatetimeIndex(['01-11-2018', '05-11-2018'])),
    'price': pd.Series(data=[10000, 200], index=pd.DatetimeIndex(['01-11-2018', '03-11-2018']))
}).loc['2018-03-11']['symbol']

Некоторые функции в pandas одинково применимы как строкам так и к столбцам. В этом случае, в функцию можно передать фргумент axis. Значение 0 идет по умолчанию и ему соответствует работа по строкам, 1 - по колонкам.

### 4. Базовые методы pandas.Series

Посмотрим на самые базовые методы класса pandas.Series

In [None]:
sequence = pd.Series(data=['BTC', 'LTC', 'DOGE', 'DASH'], index=['leader', 'alternative', 'joke', 'bouncer'])

In [None]:
sequence

In [None]:
# Индекс наших данных
sequence.axes

In [None]:
# Тип наших данных
sequence.dtype

In [None]:
# Проверка на пустоту
sequence.empty

In [None]:
# Количество размерностей. Для pandas.Series всегда 1
sequence.ndim

In [None]:
# Количество элементов
sequence.size

In [None]:
# Размеры
sequence.shape

In [None]:
# Получить данные в виде numpy массива. Низкоуровневое представление с точки зрения pandas
sequence.values

In [None]:
# Получить первые 3 элемента
sequence.head(3)

In [None]:
# Получить последние 2 элемента
sequence.tail(2)

In [None]:
del sequence

### 5. Базовые методы pandas.DataFrame

Класс DataFrame огромен. Мы рассмотрим только самые часто используемые в нем методы

In [None]:
table = pd.DataFrame(
    data=[['BTC', 10000],['LTC', 200],['XRP', 1]],
    columns=['symbol', 'price'],
    # DatetimeIndex - это специальный тип данных для индексов содержащих время
    index=pd.DatetimeIndex(['01-11-2018', '03-11-2018', '23-08-2018'])
)

In [None]:
table

In [None]:
# Транспонировать таблицу
table.T

In [None]:
# Получить индексы срок и столбцов
table.axes

In [None]:
# Получить типы данных в колонках
table.dtypes

In [None]:
# Проверка на пустоту
table.empty

In [None]:
# Размеры
table.shape

In [None]:
# Количество элементов
table.size

In [None]:
# Низкоуровневое представление таблицы
table.values

In [None]:
# Получить первые 3 строки
table.head(3)

In [None]:
# Получить последние 2 строки
table.tail(2)

In [None]:
del table

### 6. Работа со строками и столбцами

Обращаться к строкам таблицы можно по номеру или по индексу

In [None]:
table = pd.DataFrame(
    data=[['BTC', 10000],['LTC', 200],['XRP', 1], ['BTC', 9000]],
    columns=['symbol', 'price'],
    # DatetimeIndex - это специальный тип данных для индексов содержащих время
    index=pd.DatetimeIndex(['01-11-2018', '03-11-2018', '23-08-2018', '02-11-2018'])
)

In [None]:
table

#### 6.1. Доступ к элементам

In [None]:
# Обращение по номеру
table.iloc[2]

In [None]:
# Обращение по диапазону номеров
table.iloc[1:3]

In [None]:
# Обращение по индексу
table.loc[pd.Timestamp('01-11-2018')]

In [None]:
# Обращение по диапазону индексов
table.loc['01-11-2018':'03-11-2019']

#### 6.2. Добавление, удаление, переименование колонок и строк

In [None]:
table

In [None]:
# Удаление строк по их индексам. Можно использовать для удаления колонок, указав axis=1
# Посмотрите еще методы drop_duplicates and dropna
table.drop([pd.Timestamp('2018-08-23'), pd.Timestamp('2018-01-11')])

In [None]:
# Чтобы добавить новую колонку достаточно присвоить ей значение
table['volume'] = [1e9, 1e6, 1e4, 1e9]
table

In [None]:
# Удалять колонки очень просто
del table['volume']

In [None]:
table

In [None]:
pd.DataFrame(data=[['A', 1], ['B', 2], ['C', 3]], index=['x', 'y', 'z'], columns=['text', 'number']).rename(
    index = {'x': 'I', 'y': 'J', 'k': 'K'},
    columns = {'text': 'STRING'}
)

In [None]:
# Переименовывание колонок
table.rename(columns={'symbol': 'Symbol', 'price': 'Price'})

#### 6.3. Итерирование

Итерироваться по таблице можно разными способами, но обычно так не стоит делать и лучше написать решение в виде манипуляций над столбцами/колонками 

In [None]:
# По колонкам
for column in table:
    print(column)

In [None]:
# По колонкам как по словарю. Значения в "словаре" это pandas.Series
for column, series in table.iteritems():
    print(column)
    print(series)

In [None]:
# По строкам как по словарю. Значения в "словаре" это pandas.Series
for index, row in table.iterrows():
    print(index)
    print(row)

#### 6.4. Сортировка

Строки и столбцы таблицы можно сортировать. Результат сортирующих методов возвращает новую таблицу!

In [None]:
table

In [None]:
# Отсортировать строки по индексу по убыванию
table.sort_index(ascending=False, inplace=True)

In [None]:
table

In [None]:
# Отсортировать колонки по возрастанию
table.sort_index(axis=1, ascending=True)

In [None]:
# Отсортировать таблицу алгоритмом quicksort по названию, а если значения равны то по цене
table.sort_values(by=['symbol', 'price'], kind='quicksort')

In [None]:
#del table, index, row, column, series

### 7. Статистические функции

Посмотрим как pandas позволяет вычислять простейшие статистики для датасетов. Методы которые мы перечислим ниже имеют аргумет axis, который указывает вдоль какой оси надо вычислять статистику. Обычно, по-умолчанию axis=0, что соответсвует вычислениям по строкам. Если в данных есть пропуски, то они не учитываются при вычислении статистик!

In [None]:
earnings = pd.DataFrame(
    data=[[7629.39, -9357.49, -1661.3, 8597.23],
          [560.68, None, 10.46, 3578.5],
          [487.38, 7560.38, 1090.87, -5164.93]],
    columns=['BTC', 'DOGE', 'ADA', 'ETH'],
    index=['yesterday', 'today', 'tomorrow']
)

In [None]:
earnings

In [None]:
# Количество не None записей для каждой монеты
earnings.count()

In [None]:
# Заработки по дням
earnings.sum(axis=1)

In [None]:
# Средний заработок по каждой монете
earnings.mean()

In [None]:
wages = pd.Series(data = [10000]*100 + [100000]*50 + [200000]*50 + [1000000000] + [500000000])

In [None]:
# Медианный заработок по каждой монете
earnings.median(axis=1)

In [None]:
# Моды заработка по каждой монете
earnings.mode(axis=0)

In [None]:
# "Разброс" заработка по каждой монете
earnings.std()

In [None]:
# 25, 50 и 75 квантиль заработка по каждой монете
earnings.quantile(q=(0.25, 0.5, 0.75))

In [None]:
# Минимальный заработок по каждой монете
earnings.min()

In [None]:
# Максимальный заработок по каждой монете
earnings.max()

In [None]:
earnings

In [None]:
# Произвдение заработков по каждой монете. Да я знаю, что это бессмысленно
earnings.prod()

In [None]:
# Частичные произвдения заработков по каждой монете
earnings.cumprod()

In [None]:
earnings

In [None]:
# Частичные суммы заработков по каждой монете
earnings.cumsum()

In [None]:
# Процентное изменеие заработка по сравнению с предыдущим значением
earnings.pct_change()

In [None]:
# Ковариация между заработком по BTC и по DOGE
earnings['BTC'].cov(earnings['DOGE'])

In [None]:
# Корреляций между заработком по BTC и по DOGE
earnings['BTC'].corr(earnings['DOGE'])

Иногда хочется посмотреть все статистики сразу. Для этого есть метод describe

In [None]:
earnings.describe()

In [None]:
del earnings

### 8. Применение пользовательских функций

Иногда хочется применть к датасету или одной его колонке функцию. Применять можно ко всей таблице, поэлементно, поколоночно или построчно

In [None]:
earnings = pd.DataFrame(
    data=[[7629.39, -9357.49, -1661.3, 8597.23],
          [560.68, None, 10.46, 3578.5],
          [487.38, 7560.38, 1090.87, -5164.93]],
    columns=['BTC', 'DOGE', 'ADA', 'ETH'],
    index=['yesterday', 'today', 'tomorrow']
)
earnings

Для  применения построчно/поколоночно используйте функцию apply. Если хочется применить построчно добавьте axis=1

In [None]:
#  Посчитать дисперсию заработка для каждой монеты. В лямбду приходит pandas.Series объект каждой колонки
earnings.apply(lambda money: money.std() ** 2)

Для поэлементного применения используйте функцию applymap

In [None]:
# Сделаем вид, что потери превратились в профит
earnings.applymap(abs)

In [None]:
# Применять функцию можно и к отдельной колонке. В лямбду приходит отдельное значение колонки
earnings['BTC'].apply(lambda money: money + 100500)

In [None]:
del earnings

Не забудьте самостоятельно посмотреть метод pipe

### 9. Работа со строковыми колонками

На данный момент для работы со строковыми колонками нам пришлось бы постоянно использовать метод apply. Это неудобно и поэтому в pandas сделали удобные инструмент для манипуляций со строками

In [None]:
taxonomy = pd.DataFrame(
    data=[['BTC', 'Bitcoin'],['LTC', 'Litecoin'], ['ETC', 'Etherium'], ['DOGE', 'Doge coin']],
    columns=['symbol', 'name']
)

In [None]:
taxonomy

Чтобы применять строковые функции к колонке надо обратиться к свойству .str.

In [None]:
# Привести все к нижнему регистру
taxonomy['symbol'].str.lower()

In [None]:
# Привести все к верхнему регистру
taxonomy['name'].str.upper()

In [None]:
# Длины строк
taxonomy['symbol'].str.len()

In [None]:
# Убрать по краям пробельные символы
taxonomy['name'].str.strip()

In [None]:
# Разбить строки по заданному символу
taxonomy['name'].str.split(' ')

In [None]:
# Склеить все строки в одну. Аналог str.join
taxonomy['symbol'].str.cat(sep=' $$$ ')

In [None]:
# Найти везде подстроку
taxonomy['name'].str.contains('coin')

In [None]:
# Везде заменить строку на другу
taxonomy['name'].str.replace('coin', 'dough')

In [None]:
# Повторить каждую строку указанное число раз
taxonomy['name'].str.repeat(2)

In [None]:
# Посчитать все появления указанной строки
taxonomy['name'].str.count('coin')

In [None]:
# Проверка наличия префикса
taxonomy['symbol'].str.startswith('B')

In [None]:
# Проверка наличия суффикса
taxonomy['symbol'].str.endswith('C')

In [None]:
# Найти место в строках где начинается искомая строка. 
taxonomy['name'].str.find('coin')

In [None]:
# Проверка верхнего регистра
taxonomy['symbol'].str.isupper()

In [None]:
# Проверка нижнего регистра
taxonomy['symbol'].str.islower()

In [None]:
# Проверка что все символы - цифры
taxonomy['name'].str.isnumeric()

### 10. Агрегации, трансформации и фильтрации

#### 10.1. Скользящие окна

Мы начнем со специального случая аггрегаций данных - оконных функций. Мы поговорим о методах rolling и emw. Самостоятельно посмотрите что делает expanding.

In [None]:
price = pd.DataFrame(
    data=np.random.random((40, 2)),
    columns=['ADA', 'DOGE'],
    # Создаем специальный индекс из 6 дней начиная с 2018-11-01 
    index=pd.date_range('2018-11-01', periods=40)
)

In [None]:
price

In [None]:
%matplotlib inline

In [None]:
import matplotlib.pyplot as plt

plt.gcf().set_size_inches(16, 9)

plt.plot(price['ADA'], label='original')
# plt.plot(price['ADA'].rolling(window=2).mean(), label='Win2')

plt.plot(price['ADA'].rolling(window=5).mean(), label='Win5')

plt.plot(price['ADA'].rolling(window=14).mean(), label='Win14')

plt.plot( pd.Series(data=[price['ADA'].mean()]*len(price), index=price.index) , label='mean')


plt.plot(price['ADA'].ewm(alpha=0.5).mean(), label='Exp0.5')
plt.plot(price['ADA'].ewm(alpha=0.1).mean(), label='Exp0.1')

plt.plot(price['ADA'].ewm(alpha=0.9).mean(), label='Exp0.9')


plt.legend()

Если вы хотите посчитать какую-нибудь статистическую функци (sum, mean, median, std) в скользящем окне. То есть методы rolling (обычное окно) и ewm (окно с экспоненциальным сглаживанием). Они возвращают специальные объекты которые могут аггрегировать используя стандартную или пользователскую функцию.

In [None]:
# Найти скользящее среднее
price.rolling(window=2).mean()

In [None]:
# Найти скользящее стандартное отклонение
price.rolling(window=2).std()

In [None]:
# Сделать агрегацию c пользовательской функцией
price.rolling(window=2).agg(lambda series: sum(series ** 2))

In [None]:
# Сделать агрегацию по имени функции
price.rolling(window=2).agg('max')

In [None]:
# Сделать несколько агрегаций
price.rolling(window=2).agg(['mean', sum, lambda series: max(series ** 2)])

In [None]:
# Сделать несколько агрегаций (для каждой колонки свои)
price.rolling(window=2).agg({'ADA': [sum, max], 'DOGE': lambda series: max(series ** 2)})

Объект ewm работает аналогично rolling с тем лишь отличием, что он назначает веса. Числам $x_0,\ldots,x_t$ можно будут назначены веса $(1-\alpha)^t, (1-\alpha)^{t-1}, \ldots, 1$, где $\alpha$ - параметр сглаживания. Например, экспоненциальное скользящее среднее будет вычисляться по формуле 
$$
ewm_{\alpha}(x)=\frac{\sum_{i=0}^t (1-\alpha)^{t-i} x_i}{\sum_{i=0}^t(1-\alpha)^i}
$$
Иногда деления на сумму весов не делают. Для этого в объекте ewm надо указать adjust=False

In [None]:
# Скользящее среднее cо сглаживанием alpha без нормализации.
price.ewm(alpha=0.5, adjust=False).mean()

In [None]:
del price

#### 10.2. Работа с группами

Иногда хочется разбить данные по группам и посчитать статистики преобразовать пофильтровать. Для этого есть метод groupby. Он возвращает специальный объект для работы со сгруппированными данными.

In [None]:
operations = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2],
        ['BTC', 'buy', 10, 6000],
        ['BTC', 'buy', 2.5, 5900],
        ['DOGE', 'sell', 3000, 0.1],
        ['BTC', 'sell', 4, 6200],
        ['ETH', 'sell', 10, 400],
        ['BTC', 'buy', 1, 5600],
        ['ETH', 'buy', 20, 350],
        ['ETH', 'sell', 10, 300],
        ['DOGE', 'sell', 3000, 0.15]
    ],
    columns=['symbol', 'type', 'amount', 'price'],
    index=pd.date_range('2018-01-01', periods=10)
)

In [None]:
operations

In [None]:
# Сгруппировать операции по типу монеты
operations.groupby('symbol')

In [None]:
# Сгруппировать операции по типу монеты и типу операции
operations.groupby(['symbol', 'type'])

In [None]:
# Получить индексы строк каждой группы
operations.groupby(['symbol', 'type']).groups

In [None]:
# Посмотреть на содержимое каждой группы 
for name, group in operations.groupby(['symbol', 'type']):
    print(name)
    print(group)

In [None]:
# Получить группу
operations.groupby(['symbol', 'type']).get_group(('BTC', 'buy'))

Теперь мосмотрим как агрегировать данные для каждой группы

In [None]:
# Найти обороты для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper['amount'].agg(sum)

In [None]:
# Найти обороты и самые крупные сделки для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper['amount'].agg([sum, max])

In [None]:
# Найти обороты и среднюю цену для каждой монеты и операции
grouper = operations.groupby(['symbol', 'type'])
grouper.agg({'amount': sum, 'price': lambda series: series.mean()})

Сгруппированные данные можно не только агрегировать, но и преобразовывать. На вход пользовательского преобразования приходит pandas.Series и ожидается pandas.Series

In [None]:
# Получить размер группы в которой сидит запись
operations.groupby(['symbol', 'type']).transform(lambda series: series.abs() / series.mean())

Сгруппированные данные можно фильтровать. Вы можете решить какие группы оставить с помощью вашей функции. Она на вход принимате pandas.DataFrame и возвращает bool

In [None]:
# Выбрать монеты и операции для которых оборот был больше 20 монет
operations.groupby(['symbol', 'type']).filter(lambda table: table['amount'].sum() > 20)

In [None]:
del operations, name, group

#### 10.3 Сводные таблицы

Большинство таблиц в сыром виде похожи на логи где каждая строка это запись. Никакой организации в данных в этих таблицах нет, а хотелось бы. Для этого в pandas существуют сводные таблицы. 

In [None]:
operations = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2, 'Joe Doe', 'success'],
        ['BTC', 'buy', 10, 6000, 'Elon Musk', 'error'],
        ['BTC', 'buy', 2.5, 5900, 'George Bush', 'success'],
        ['DOGE', 'sell', 3000, 0.1, 'John Romero', 'success'],
        ['BTC', 'sell', 4, 6200, 'Jack Ma', 'success'],
        ['ETH', 'sell', 10, 400, 'Satoshi Nakomoto', 'error'],
        ['BTC', 'buy', 1, 5600, 'Vladimir Vladimirovich', 'success'],
        ['ETH', 'buy', 20, 350, 'George Bush', 'success'],
        ['ETH', 'sell', 10, 300, 'Jack Ma', 'error'],
        ['DOGE', 'sell', 3000, 0.15, 'Joe Doe', 'success']
    ],
    columns=['symbol', 'type', 'amount', 'price', 'user', 'status'],
    index=pd.date_range('2018-01-01', periods=10)
)

In [None]:
operations

Лучше всего понять как они работают это разобрать пример. Найдем сколько суммарно  было куплено и продано каждого типа монет. В результирующей сводной таблице индексом будет название монеты, колонки - типы транзакций (т.е. покупки или продажи). В самих ячейках будет суммарное количество монет.

In [None]:
operations.pivot_table(
    values='amount', 
    index='symbol', 
    columns='type', 
    aggfunc='sum'
)

Если не указывать явно аргумент aggfunc, то агрегация будет через усреднение (а не через суммирование как было в нашем примере). Расмотрим более сложный пример.

In [None]:
operations.pivot_table(
    values='amount',
    index=['symbol', 'user'],  # Индекс может быть иерархическим и строиться по нескольким колонкам
    columns=['type', 'status'],  # Аналогично иерархическими могут быть и колонки
    aggfunc={'amount': ['sum', 'mean']}  # Можно вычислять сразу несколько агрегаций
)

И самый монструозный пример, где мы сделаем сводную таблиц для цен и объемов торгов.

In [None]:
operations.pivot_table(
    values=['amount', 'price'],  # Можно находить статистику по разным числовым показателям
    index=['symbol', 'user'],
    columns=['type', 'status'],
    aggfunc={
        'amount': ['sum', 'mean'], 
        'price': 'max'}  # Тогда дла каждого показателя надо указать какие агрегации вы хотите
)

Для построения сводных таблиц в pandas есть более простая функция. pandas.pivot. Она не делает никаких агрегаций, поэтому при ее использовании вы должны быть уверены, что на каждую ячейку результирующей сводной таблицы придется только одно значение показателя из исходной таблицы. В противном случае будет ошибка. Можете попоробовать построить сводную таблицу
```
operations.pivot(values='amount', index='user', columns='user')
```
чтобы убедиться.

**Задание:** Самостоятельно разоберитесь с функциями pandas.stack, pandas.unstack и pandas.melt. Вам поможет [этот tutorial](https://pandas.pydata.org/pandas-docs/stable/reshaping.html)

### 11. Пропуски и ошибки в данных

В реальной жизни данные с которыми надо работать содержат пропуски или просто неверные значения. Мы обсудим как это можно исправить

In [None]:
price = pd.DataFrame(
    data=[
        [0.547, 0.745],
        [-2, -1],
        [None, 0.718],
        [0.135, 0.845],
        [0.53, None],
        [None, -1]],
    columns=['ADA', 'DOGE'],
    # Создаем специальный индекс из 6 дней начиная с 2018-11-01 
    index=pd.date_range('2018-11-01', periods=6)
)

In [None]:
price

In [None]:
# Найти места где есть пропуски методом isnull. Аналогично есть метод notnull
price.isnull()

In [None]:
# Заполнить все пропуски дефолтным занчением
price.fillna(0)

In [None]:
# Заполнить все пропуски занчениями с предыдущей строки
price.fillna(method='bfill')

In [None]:
# Заполнить все пропуски занчениями с cледующей строки
price.fillna(method='ffill')

In [None]:
#  Выкинуть строки содержащие nan'ы
price.dropna()

In [None]:
#  Выкинуть колонки содержащие nan'ы
price.dropna(axis=1)

In [None]:
# Подменить значения
price.replace({-1:0, -2:0})

In [None]:
price

In [None]:
del price

### 12. Слияния и конкатенации таблиц

Если у вас есть две таблицы, то информацию в них можно объединить двумя способами: конкатенация ("прилепить снизу новую таблицу") и объединение (найти объединение записей таблиц если у них хранятся одни и те же значния в выбранных колонках).

In [None]:
operations_old = pd.DataFrame(
    data=[
        ['DOGE', 'buy', 5000, 0.2],
        ['BTC', 'buy', 10, 6000],
        ['BTC', 'buy', 2.5, 5900],
        ['DOGE', 'sell', 3000, 0.1],
        ['BTC', 'sell', 4, 6200],
    ],
    columns=['symbol', 'type', 'amount', 'price']
)

operations_new = pd.DataFrame(
    data=[
        ['ETH', 'sell', 10, 400],
        ['BTC', 'buy', 1, 5600],
        ['ETH', 'buy', 20, 350],
        ['ETH', 'sell', 10, 300],
        ['DOGE', 'sell', 3000, 0.15]
    ],
    columns=['symbol', 'type', 'amount', 'price']
)

In [None]:
operations_old

In [None]:
#  Сконкатенировать таблицы в указанном порядке
pd.concat([operations_old, operations_new])

In [None]:
# При конкатенации таблицам можно назаначать теги чтобы понимать где какая таблица
pd.concat([operations_old, operations_new], keys=['old', 'new'])

In [None]:
# Как видно при конкатенации индексы старых таблиц копируются. 
# Если вам не нужно это поведение, используйте ignore_index
operations = pd.concat([operations_new, operations_old], ignore_index=True)
operations

Данные можно собирать вместе и более умным способом. А именно, вы выбираете какие колонки вас интересуют. Далее если есть записи из двух таблиц у котороых в выбранных колонках значения совпадают мы их "объединяем". Это очень упрощенное объяснение. В pandas эта операция называется merge в SQL - join. Делать объединение можно разными сопособами, поэтому возникает несколько стратегий: left, right, inner и full. 

In [None]:
transactions = pd.DataFrame(
    data=[
        ['DOGE', 'sell', 'Rockfeller'],
        ['DOGE', 'buy', 'J.P. Morgan'],
        ['BTC', 'buy', 'John Doe'],
        ['ADA', 'sell', 'Rick'],
        ['ETH', 'buy', 'Morty']
    ],
    columns=['symbol', 'type', 'user']
)
transactions

In [None]:
# Объединение таблиц по типу монеты и операции
# По умолчанию производится inner join остаются записи в которых были полные совпадения
pd.merge(operations, transactions, on=['symbol', 'type'])

In [None]:
# Левый join таблиц - все записи из первой таблицы остаются и к ни присоединяются записи из правой.
# Аналогично работает правый join
pd.merge(operations, transactions, on=['symbol', 'type'], how='left')

In [None]:
# Outer join - собираем вместе записи из обеих таблиц
pd.merge(operations, transactions, on=['symbol', 'type'], how='outer')

In [None]:
del operations_new, operations_old, operations, transactions

### 13. Чтение таблиц

Чтобы данные анализировать их надо где-то взять. Для этого в pandas есть множество функций. Все их названия начинаются с префикса 'read_'. Мы разберем функцию read_csv.

In [None]:
# Прочитать таблицу ни о чем не задумываясь
pd.read_csv('coins.csv')

In [None]:
# Прочитать таблицу и использовать колонку date как индекс 
pd.read_csv('coins.csv', index_col='date')

In [None]:
# Прочитать таблицу и дать pandas подсказки по поводу типов данных в колонках symbol и name
df = pd.read_csv('coins.csv', dtype={'symbol': str, 'name': str}).dropna()
df.txCount = df.txCount.astype(int)

### 14. Визуализация

В pandas есть очень простые средства визуализации. Они подойдут для быстрого анализа, но если хочется сделать красиво и информативно, то вы не по адресу. Любая визуализация делается через аттрибут plot у объекта pandas.Series или pandas.DataFrame.

Стоит отметить что для отображения графиков нужно использовать магическую команду для jupyter
```
%matplotlib
```
При этом график появится в отдельном окне. Там же будет несколько полезных кнопок для редактирования и сохранения графика. Если хочется чтобы графики отображались прямо в ноутбуке то надо передать аргумент inline
```
%matplotlib inline
```

In [None]:
%matplotlib inline

In [None]:
price = pd.DataFrame(
    data=[
        [0.547, 0.745],
        [0.5, 0.964],
        [0.77, 0.718],
        [0.135, 0.845],
        [0.53, None],
        [0.15, 0.795]],
    columns=['ADA', 'DOGE'],
    index=pd.date_range('2018-11-01', periods=6)
)
price

In [None]:
# Нарисовать график цены монеты ADA. 
# Так как индекс в нашей таблице временный, то pandas догадывается, что его можно использовать
# как ось времени на графиках.
price['ADA'].plot()

In [None]:
# Можно на одном графике нарисовать поведение цены сразу нескольких монет
price[['ADA', 'DOGE']].plot()

In [None]:
# Цену можно рисовать и в виде столбцовой диаграммы c различными настройками
price.plot.bar(stacked=True)

In [None]:
# Горизонтальная столбцовая диаграмма
price.plot.barh()

In [None]:
# Гистограмма
price.plot.hist(bins=10)

In [None]:
# Ящики с усами
price.plot.box()

In [None]:
# Графики с заливкой
price.plot.area()

In [None]:
# Если хочется нарисовать пары каких либо значений в виде точек на плоскости, то подойдет scatter plot
price.plot.scatter(x='ADA', y='DOGE')

In [None]:
# И на десерт - пирожковая диаграмма
price.plot.pie(subplots=True, figsize=(15,7.5))

In [None]:
del price

# NB


## Другие инструменты работы с данными

Если ваш датасет не слишком большой, то pandas это де-факто лучший инструмент в наличии. В противном случае есть альтернативы:
 - [numpy](http://www.numpy.org/) - библиотека для низкоуровневой работы с многомерными массивами из примитивных типов данных. Подходит для "векторизованной" обработки. Numpy - ваш последний шанс все еще писать на обычном питоне, без биндингов на С. Подходит для задач быстрой обработки не слишком больших данных. На самом деле внутри, pandas использует numpy.
 - [Graphlab](https://turi.com/) - Платная питоновская библиотека для работы как большими данными так и с маленькими датасетами. Данные представляются как SFrame объекты, во многом похожие на DataFrame из pandas.
 - [Hadoop](https://hadoop.apache.org/) - стек технологии для работы с очень большими данными, в частности есть классический MapReduce.
 
## Другие инструменты визуализации


Для визуализации библиотек намного больше. Вот самые популярные
 - [Pandas](https://pandas.pydata.org/) - для быстрой и очень простой визуализации. Любая мелкая настройка потребует знания matplotlib
 - [Seaborn](https://seaborn.pydata.org/) - широкий но фиксированный набор сложных визуализаций с красивыми цветовыми схемами. Библиотека является надстройкой над matplotlib, и, опять же, тонкие настройки потребуют знания matplotlib.
   - [Галерея с примерами](https://seaborn.pydata.org/examples/index.html)
   - [Руководство](https://seaborn.pydata.org/tutorial.html)
 - [ggplot](http://ggplot.yhathq.com/) - многообещающая библиотека скопированная из R. Пока на этапе развития
 - [Bokeh](https://bokeh.pydata.org/en/latest/) - библиотека для визуализации в web.
 - [Plot.ly](https://plot.ly/) - библиотека для интерактивных и статических визуализаций. Нацелена на работу в облаке, но можно работать и локально.
   - [Галерея с примерами](https://plot.ly/python/)
   - [Краткое ввдение](https://images.plot.ly/plotly-documentation/images/python_cheat_sheet.pdf)