### Библиотеки / данные

импортируем numpy и pandas

In [1]:
import numpy as np
import pandas as pd

задаем некоторые настройки pandas, регулирующие формат вывода

In [2]:
pd.options.display.max_rows = 10

- считываем данные 
- используем столбец Symbol в качестве индекса 
- считываем только те столбцы ['Symbol', 'Sector', 'Price', 'Book Value']

| Column Name        | Description
| ------------- |:-------------:|
|Symbol|Сокращенное название организации|
|Name|Полное название организации|
|Sector|Сектор экономики|
|Price|Стоимость акции|
|Dividend Yield|Дивидендная доходность|
|Price/Earnings|Цена / прибыль|
|Earnings/Share|Прибыль на акцию|
|Book Value|Балансовая стоимость компании|
|52 week low|52-недельный минимум|
|52 week high|52-недельный максимум|
|Market Cap|Рыночная капитализация|
|EBITDA|**E**arnings **b**efore **i**nterest, **t**axes, **d**epreciation and **a**mortization|
|Price/Sales|Цена / объём продаж|
|Price/Book|Цена / балансовая стоимость|
|SEC Filings|Ссылка *sec.gov*|

In [3]:
sp500 = pd.read_csv("../data/sp500.csv",
                    index_col='Symbol',
                    usecols=['Symbol', 'Sector', 'Price', 'Book Value'])

In [4]:
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


считываем исторические данные о котировках акций

In [5]:
omh = pd.read_csv('../data/omh.csv', 
                  parse_dates=['Date'])

omh.set_index('Date', 
              inplace=True)

In [6]:
omh.head()

Unnamed: 0_level_0,MSFT,AAPL
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-12-01,48.62,115.07
2014-12-02,48.46,114.63
2014-12-03,48.08,115.93
2014-12-04,48.84,115.49
2014-12-05,48.42,115.0


### Сводка статистик

получаем сводку статистик для датафрейма, с которой работаем как с обычным датафреймом

In [7]:
sp500.describe()

Unnamed: 0,Price,Book Value
count,500.0,499.0
mean,77.3686,301.611301
std,87.59694,6195.727862
min,0.0,-51.275
25%,38.745,10.8365
50%,58.355,19.098
75%,86.68,31.3865
max,1197.12,138425.4531


вычисляем сводку статистик для отдельного столбца Price

In [8]:
sp500.Price.describe()

count     500.00000
mean       77.36860
std        87.59694
min         0.00000
25%        38.74500
50%        58.35500
75%        86.68000
max      1197.12000
Name: Price, dtype: float64

получаем сводку статистик для нечисловых данных

In [9]:
sp500.Sector.describe()

count                        500
unique                        13
top       Consumer Discretionary
freq                          85
Name: Sector, dtype: object

метод info:

In [10]:
sp500.info()

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, MMM to ZTS
Data columns (total 3 columns):
Sector        500 non-null object
Price         500 non-null float64
Book Value    499 non-null float64
dtypes: float64(2), object(1)
memory usage: 15.6+ KB


получаем сводную статистику для нечисловых данных

In [11]:
sp500.Sector.value_counts(normalize=True)

Consumer Discretionary         0.170
Financials                     0.164
Information Technology         0.128
Industrials                    0.128
Health Care                    0.108
                               ...  
Materials                      0.058
Telecommunications Services    0.012
Consumer Staples               0.002
Industries                     0.002
Consumer Discretionary         0.002
Name: Sector, Length: 13, dtype: float64

### Арифметические операции

- задаем стартовое значение генератора случайных чисел для получения воспроизводимых результатов
- создаем объект DataFrame

In [12]:
np.random.seed(123)
df = pd.DataFrame(np.random.randn(5, 4), 
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


умножаем все на 2, берём только абсолютные значения

In [13]:
abs(df * 2)

Unnamed: 0,A,B,C,D
0,2.171261,1.994691,0.565957,3.012589
1,1.157201,3.302873,4.853358,0.857825
2,2.531873,1.733481,1.357772,0.189418
3,2.982779,1.277804,0.887964,0.868703
4,4.41186,4.373572,2.008108,0.772373


вычитаем первую строку из каждой строки объекта DataFrame

In [14]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [15]:
df.iloc[0]

A   -1.085631
B    0.997345
C    0.282978
D   -1.506295
Name: 0, dtype: float64

In [16]:
df - df.iloc[0]

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,0.50703,0.654091,-2.709658,1.077382
2,2.351567,-1.864086,-0.961865,1.411586
3,2.57702,-1.636247,-0.72696,1.071943
4,3.291561,1.189441,0.721075,1.892481


вычитаем объект DataFrame из объекта Series

In [17]:
df.iloc[0] - df

Unnamed: 0,A,B,C,D
0,0.0,0.0,0.0,0.0
1,-0.50703,-0.654091,2.709658,-1.077382
2,-2.351567,1.864086,0.961865,-1.411586
3,-2.57702,1.636247,0.72696,-1.071943
4,-3.291561,-1.189441,-0.721075,-1.892481


- возьмём второе и третье поле 1-ой строки:
- добавляем столбец E
- смотрим, как применяется выравнивание в этой математической операции

In [18]:
df

Unnamed: 0,A,B,C,D
0,-1.085631,0.997345,0.282978,-1.506295
1,-0.5786,1.651437,-2.426679,-0.428913
2,1.265936,-0.86674,-0.678886,-0.094709
3,1.49139,-0.638902,-0.443982,-0.434351
4,2.20593,2.186786,1.004054,0.386186


In [19]:
s = df.iloc[0][1:3]
s['E'] = 0
s

B    0.997345
C    0.282978
E    0.000000
Name: 0, dtype: float64

In [20]:
df + s

Unnamed: 0,A,B,C,D,E
0,,1.994691,0.565957,,
1,,2.648782,-2.143701,,
2,,0.130605,-0.395908,,
3,,0.358443,-0.161003,,
4,,3.184132,1.287032,,


извлекаем строки в позициях с 1-й по 3-ю и только столбцы B и C <br>
по сути - извлекаем небольшой квадрат из середины df

In [21]:
subframe = df[1:4][['B', 'C']].copy()
subframe

Unnamed: 0,B,C
1,1.651437,-2.426679
2,-0.86674,-0.678886
3,-0.638902,-0.443982


демонстрируем, как происходит выравнивание при выполнении операции вычитания

In [22]:
df - subframe

Unnamed: 0,A,B,C,D
0,,,,
1,,0.0,0.0,
2,,0.0,0.0,
3,,0.0,0.0,
4,,,,


извлекаем столбец A и вычитаем его из нашего датафрейма

In [None]:
df.sub(df['A'], axis=0)

### Одномерные статистики

#### минимум / максимум

определяем максимальную цену для обеих акций

In [None]:
omh[['MSFT', 'AAPL']].min()

определяем индекс, которому соответствует максимальная цена для обеих акций

In [None]:
omh[['MSFT', 'AAPL']].idxmin()

#### cреднее значение / медиана / мода

<img src='..\images\moda-mediana.jpg'/>

вычисляем среднее значение для всех столбцов в датафрейме omh

In [None]:
omh.mean()

вычисляем значение, усредненное по всем столбцам, для каждой строки (выведем первые 5)

In [None]:
omh.mean(axis=1).head() 

вычисляем медиану значений для каждого столбца

In [None]:
omh.median()

вычисляем моду для столбца Sector

In [None]:
sp500.Sector.mode()

мод может быть несколько, поэтому результат операции - Series 

In [None]:
s = pd.Series([1, 2, 3, 3, 5, 1])
s.mode()

#### [дисперсия](https://ru.wikipedia.org/wiki/Дисперсия_случайной_величины) / среднеквадратичное отклонение

вычисляем дисперсию значений в каждом столбце

In [None]:
omh.var()

In [None]:
(omh.MSFT**2 - omh.MSFT.mean()**2).sum() / (omh.shape[0]-1)

вычисляем среднеквадратичное отклонение

In [None]:
omh.std()

In [None]:
omh.MSFT.var()**0.5

#### [ковариация](https://ru.wikipedia.org/wiki/Ковариация) / [корреляция](https://ru.wikipedia.org/wiki/Корреляция)

вычисляем ковариацию между MSFT и AAPL

In [None]:
omh.MSFT.cov(omh.AAPL)

вычисляем корреляцию между MSFT и AAPL

In [None]:
omh.MSFT.corr(omh.AAPL)

In [None]:
omh.MSFT.cov(omh.AAPL) / (omh.MSFT.std() * omh.AAPL.std())

либо можем получать матрицу ковариаций

In [None]:
omh.corr()

### Преобразование данных 

#### дискретизация и квантилизация

генерируем 10000 случайных чисел из стандартного нормального распределения

In [None]:
np.random.seed(123456)
dist = np.random.normal(size = 10000)
dist

выводим среднее и стандартное отклонение

In [None]:
(dist.mean(), dist.std())

разбиваем на пять одинаковых по размеру групп (по размеру интервалов - не количеству наблюдений в группе!)

In [None]:
bins = pd.cut(dist, 5)
bins

найдём длины соответствующих интервалов

In [None]:
bins.categories

In [None]:
[q.right - q.left for q in bins.categories]

генерируем 50 значений возраста в диапазоне от 6 до 70

In [None]:
np.random.seed(242)
ages = np.random.randint(6, 70, 50)
ages

добавляем имена для групп

In [None]:
ranges = [6, 12, 18, 35, 50, 70]
labels = ['Youth', 'Young Adult', 'Adult', 'Middle Aged', 'Retired persons']
agebins = pd.cut(ages, ranges, labels=labels)
agebins.describe()

разбиваем (используя квантили) на 5 групп с одинаковым количеством элементов

In [None]:
qbin = pd.qcut(dist, 5)

найдём статистику по полученным группам

In [None]:
qbin.describe()

пример использования qcut:

In [None]:
sp500_copy = sp500.copy()
sp500_copy['Price_Group'], bins = pd.qcut(sp500_copy.Price, 
                                          5,
                                          labels=['group_'+str(i) for i in range(1, 6)],
                                          retbins=True)
sp500_copy.Price_Group

In [None]:
bins

In [None]:
sp500_copy.Price_Group.value_counts()

#### кумулятивные суммы

вычисляем кумулятивную сумму

In [None]:
pd.Series([1, 2, 3, 4]).cumsum()

вычисляем кумулятивное произведение

In [None]:
pd.Series([1, 2, 3, 4]).cumprod()

#### ранжирование

для примера:

In [None]:
s = pd.Series([160, 165, 165, 170, 175], index=list('abcde'))
s

ранжируем значения

In [None]:
s.rank()

#### относительное изменение

In [None]:
omh[['MSFT']].head()

вычисляем относительнон изменение для MSFT (текущее значение с предыдущим)

In [None]:
omh[['MSFT']].pct_change().head()

In [None]:
(48.46 - 48.62)/48.62

### Оконные функции

Объект Rolling:

In [None]:
r = omh.MSFT.rolling(3)

возможные операции:

In [None]:
r.

скользящее среднее:

In [None]:
r.mean()

первое значение:

In [None]:
omh.MSFT.loc['2014-12-01':'2014-12-03'].mean()

второе:

In [None]:
omh.MSFT.loc['2014-12-02':'2014-12-04'].mean()