In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 10)

In [None]:
titanic = pd.read_csv('titanic.csv', sep=';', index_col='PassengerId')

# Идиома: расчет частоты события

- `.sum()` вектора из нулей и единиц = количество единиц
- `.mean()` вектора из нулей и единиц = доля единиц

In [None]:
titanic.Survived.mean()

Какова частота выполнения условия?

In [None]:
(titanic.Age >= 18).mean()

Сколько всего строк, удовлетворяющих условию?

In [None]:
(titanic.Age >= 18).sum()

# GroupBy

Как посчитать долю выживших в разных группах?

In [None]:
print 'female\t', titanic.loc[titanic.Sex == 'female', 'Survived'].mean()
print 'male\t', titanic.loc[titanic.Sex == 'male', 'Survived'].mean()

In [None]:
titanic.Parch.unique()

[Split -> Apply -> Combine](http://pandas.pydata.org/pandas-docs/stable/groupby.html)

Аналогично `GROUP BY` в SQL:
```sql
SELECT Sex, AVG(Survived)
FROM titanic
GROUP BY Sex;
```

In [None]:
titanic.groupby('Sex').Survived.mean()

In [None]:
titanic.groupby('Parch').Survived.mean()

## 1) Разбиение (Split)

GroupBy хранит исходный `DataFrame` (или `Series`) и разбиение на группы, т.е. соответствие "название группы (значение колонки, по которой группируем) – список индексов"

In [None]:
splits = titanic.groupby('Sex')
print type(splits)

In [None]:
splits.groups

In [None]:
splits.get_group('female')  # тот же результат, что и titanic.loc[titanic.Sex == 'female']

Другие способы разбиения:

- по нескольким колонкам

In [None]:
titanic.groupby(['Sex', 'Pclass']).groups.keys()

- по колонке, которой нет в исходном `DataFrame`

In [None]:
adult = (titanic.Age >= 18)
adult.loc[titanic.Age.isnull()] = np.nan

In [None]:
adult.value_counts(dropna=False)

In [None]:
titanic.groupby(adult).groups.keys()

NB: группа, соответствующая значению `NaN`, не создается. Можно это обойти, предварительно заполнив `NaN` каким-нибудь специальным значением.

In [None]:
titanic.groupby(adult.fillna('NA')).groups.keys()

- по значению функции, рассчитанной по индексу

In [None]:
titanic.groupby(lambda s: s % 3).groups

In [None]:
titanic.groupby(titanic.index % 3).groups  # то же самое

NB: можно разбивать не только по строкам, но и по столбцам (`axis=1`)

## 2) Агрегация (Apply + Combine)

Обычные функции агрегации:

In [None]:
splits.count()

In [None]:
splits.nunique()

In [None]:
splits.mean()

Доступ к отдельному столбцу с тем же самым разбиением:

In [None]:
splits.Survived

In [None]:
splits.Survived.mean()  # быстрее, чем spilts.mean().Survived

In [None]:
splits.Cabin.nunique()

Несколько функций сразу:

In [None]:
splits.Survived.agg(['mean', 'std', 'count'])

Первая/последняя/n-ая запись внутри каждой группы:

In [None]:
splits.first()

In [None]:
splits.last()

In [None]:
splits.nth(0)

Произвольная функция:

In [None]:
def oldest(df):
    return df.loc[df.Age.argmax()]

In [None]:
splits.apply(oldest)

# Работа со строками

[Документация](https://pandas.pydata.org/pandas-docs/stable/text.html)

In [None]:
titanic.Name.str

In [None]:
titanic.Name.apply(lambda s: s.split(',')[0])

In [None]:
titanic.Name.str.split(',').str[0]

In [None]:
titanic.Name.str.split(', ', n=1, expand=True)

In [None]:
titanic.Name.str.len()

In [None]:
titanic.Name.str.upper()

In [None]:
titanic.Name.str.contains('Mr.')

In [None]:
titanic.Ticket.str.isdigit()

# Простая визуализация

[Официальная документация с примерами](https://pandas.pydata.org/pandas-docs/stable/visualization.html)

`pandas` рисует графики с помощью библиотеки `matplotlib`

In [None]:
# Заклинание, нужное для отрисовки графиков непосредственно в ноутбуке (подробнее в лекции 7)
%matplotlib inline
# Настройка стиля и размера графиков
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 6.0)
matplotlib.pyplot.style.use('ggplot')

In [None]:
titanic.plot()

In [None]:
titanic.Age.plot.hist(bins=20)

In [None]:
titanic.plot.scatter('Fare', 'Age')

In [None]:
titanic.Parch.value_counts(sort=False).plot.bar()

# Аналитика рынка акций

## Один файл, один лист

In [None]:
df = pd.read_excel('./stocks_data/2016-11-23.xls', sheetname='AAPL')

In [None]:
df

In [None]:
df.dtypes

Преобразуем поле `Time` к типу `datetime`:

In [None]:
df.Time = pd.to_datetime('2016-11-23 ' + df.Time)

In [None]:
df.set_index('Time', inplace=True)

In [None]:
df[['Open', 'High', 'Low', 'Close']].plot()

## Один файл, все листы

In [None]:
dfs = pd.read_excel('./stocks_data/2016-11-23.xls', sheetname=None)

In [None]:
type(dfs)

In [None]:
dfs.keys()

In [None]:
dfs['AAPL']

In [None]:
dfs['GOOG']

Объединение таблиц:

In [None]:
pd.concat([dfs['AAPL'], dfs['GOOG']])

In [None]:
pd.concat([dfs['AAPL'], dfs['GOOG']], ignore_index=True)

In [None]:
pd.concat([dfs['AAPL'], dfs['GOOG']], axis=1)

In [None]:
pd.concat([dfs['AAPL'].add_prefix('AAPL_'), dfs['GOOG'].add_prefix('GOOG_')], axis=1)

`pd.merge()` – продвинутый способ объединения таблиц. Важные параметры:
- `how='inner'` – тип джойна: `'inner'` (пересечение индексов),`'outer'` (объединение индексов), `'left'`/`'right'` (индексы левой/правой таблицы)
- `left_on='col_name'` или `left_index=True` – поле (или индекс) для джойна левой таблицы
- `right_on='col_name` или `right_index=True` – поле (или индекс) для джойна правой таблицы

In [None]:
pd.merge(dfs['AAPL'], dfs['GOOG'], how='outer', on='Time', suffixes=('_AAPL', '_GOOG'))

In [None]:
pd.concat([dfs['AAPL'], dfs['GOOG']])

In [None]:
for ticker, df in dfs.iteritems():
    df['Ticker'] = ticker

In [None]:
dfs['AAPL']

In [None]:
pd.concat([dfs['AAPL'], dfs['GOOG'], dfs['MSFT']], ignore_index=True)

In [None]:
pd.concat(dfs.values(), ignore_index=True)

Собираем все данные за день в один `DataFrame`:

In [None]:
def stocks_single_date(date_str):
    dfs = pd.read_excel('./stocks_data/{}.xls'.format(date_str), sheetname=None)
    for ticker, df in dfs.iteritems():
        df['Ticker'] = ticker
        df.Time = pd.to_datetime(date_str + ' ' + df.Time)
    all_tickers = pd.concat(dfs.values(), ignore_index=True)
    return all_tickers[['Time', 'Ticker', 'Open', 'High', 'Low', 'Close', 'Volume']]

In [None]:
df = stocks_single_date('2016-11-25')
df

Еще один пример джойна:

In [None]:
descriptions = pd.DataFrame.from_dict(
    {'AAPL' : {'Name' : 'Apple Inc.', 'Employees' : 116000},
     'GOOG' : {'Name' : 'Google Inc.', 'Employees' : 57100},
     'MSFT' : {'Name' : 'Microsoft Corporation', 'Employees' : 114000},
     'IBM' : {'Name' : 'IBM', 'Employees' : 380000}},
    orient='index')

In [None]:
descriptions

In [None]:
pd.merge(df, descriptions, how='left', left_on='Ticker', right_index=True)

Резюме:
- `pd.read_excel()` для чтения `xls`-файлов
- `pd.concat()` для объединения таблиц в простых случаях (по индексу или игнорируя индекс)
- `pd.merge()` для объединения таблиц в сложных случаях (по любым колонкам, left/right join и т.д.)
- `pd.to_datetime()` для извлечения даты и времени

## Все файлы

In [None]:
import os

In [None]:
os.listdir('./stocks_data/')

In [None]:
%%time
frames = []
for filename in os.listdir('./stocks_data/'):
    if filename.endswith('.xls'):
        date_str = filename[:-4]
        df = stocks_single_date(date_str)
        frames.append(df)

In [None]:
frames[1]

In [None]:
df = pd.concat(frames, ignore_index=True)
df

## Работа с датами

[Документация](https://pandas.pydata.org/pandas-docs/stable/timeseries.html)

In [None]:
aapl = df.loc[df.Ticker == 'AAPL']

In [None]:
aapl

In [None]:
aapl.Time.dt.date

In [None]:
aapl.Time.dt.day

In [None]:
aapl.Time.dt.hour

In [None]:
aapl.Time.dt.week

In [None]:
aapl.Time.dt.weekday

In [None]:
aapl.Time.dt.is_quarter_end

In [None]:
aapl.set_index('Time')

In [None]:
aapl.set_index('Time', inplace=True)
aapl.sort_index(inplace=True)

In [None]:
aapl[['High', 'Low']].plot()

In [None]:
aapl.loc['2017-04':'2017-05', 'Close'].plot()

In [None]:
aapl.loc['2017', 'Close'].plot()

In [None]:
aapl.loc['2017-05-01':'2017-05-07', 'Close'].plot()

In [None]:
aapl.Close.resample('1D').mean().plot()

In [None]:
aapl.Close.resample('1W').mean().plot()

In [None]:
aapl.Close.resample('1W').last().plot()

In [None]:
aapl.Close.plot()
aapl.Close.shift().plot()

In [None]:
aapl.Close.plot()
aapl.Close.shift(24).plot()

In [None]:
aapl.Close.plot()
aapl.Close.shift(3, freq='D').plot()

In [None]:
aapl.Close.plot()
aapl.Close.shift(5, freq=pd.offsets.BDay()).plot()

In [None]:
(aapl.Close / aapl.Close.shift(1, freq=pd.offsets.BDay()) - 1.0).plot()

In [None]:
aapl.Close.resample('1D').last().pct_change().plot()

In [None]:
aapl.Close.plot()
aapl.Close.resample('1D').last().rolling(10, min_periods=1, center=True).mean().plot()

In [None]:
import matplotlib.pyplot as plt

In [None]:
aapl.Close.plot(label='raw')

window = aapl.Close.resample('1D').last().rolling(20, min_periods=1, center=True)
window.mean().plot(label='average')

error = 3 * window.std() / np.sqrt(window.count())
plt.fill_between(error.index, window.mean() - error, window.mean() + error,
                 alpha=0.4, color='skyblue', label='error')

plt.legend(loc='best')