In [None]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt

Курсы валюты с 1 февраля по 1 апреля 2020 года:

In [None]:
usdcb = pd.read_csv("Data/USDCB_200201_200401.csv", 
                    index_col='DATE')
usdcb.sample(10)

Теперь необходимо сделать нормальный index для дат:

In [None]:
usdcb = pd.read_csv("Data/USDCB_200201_200401.csv", 
                    parse_dates=['DATE'],
                    index_col='DATE')
usdcb.head()

### Выполнение арифметических операций с объектами DataFrame или Series

In [None]:
df = pd.DataFrame(np.random.randn(5, 4), columns=['A', 'B', 'C', 'D'])
df

In [None]:
df * 2 # умножаем все на 2

In [None]:
s = df.iloc[0] # извлекаем первую строку 
s

In [None]:
diff = df - s # вычитаем первую строку из каждой строки объекта DataFrame
diff

In [None]:
diff2 = s - df # вычитаем объект DataFrame из объекта Series
diff2

In [None]:
s2 = s[1:3]
s2

In [None]:
s2['E'] = 0 # добавляем E
s2

In [None]:
df + s2

In [None]:
subframe = df[1:4][['B', 'C']] # извлекаем строки в позициях с 1-й по 3-ю и только столбцы B и C
subframe

In [None]:
df - subframe

In [None]:
a_col = df['A'] # извлекаем столбец A
df.sub(a_col, axis=0)

### Количество значений

In [None]:
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
s

In [None]:
s.count() # подсчитываем встречаемость каждого уникального значения

### Определение уникальных значений (и их встречаемости)

In [None]:
s.unique() # возвращает набор уникальных элементов

In [None]:
s.nunique()

In [None]:
s.nunique(dropna=False) # include NaN in the counts.

In [None]:
s.value_counts(dropna=False) # получаем сводную статистику для нечисловых данных

### Вычисление минимума и максимума

In [None]:
# определяем минимальную цену
usdcb[['OPEN']].min()

In [None]:
# определяем максимальную цену
usdcb[['OPEN']].max()

In [None]:
# определяем минимальную цену для обеих акций
usdcb[['OPEN']].idxmin()

In [None]:
# определяем максимальную цену для обеих акций
usdcb[['OPEN']].idxmax()

### Вычисление n наименьших значений и n наибольших значений

In [None]:
# вычисляем 4 наименьших значения
usdcb.nsmallest(4, ['OPEN'])['OPEN']

In [None]:
# вычисляем 4 наибольших значения
usdcb.nlargest(4, ['OPEN'])['OPEN']

In [None]:
# вычисляем 4 наименьших значения в серии
usdcb.OPEN.nsmallest(4)

### Вычисление накопленных значений

In [None]:
# вычисляем накопленное произведение
pd.Series([1, 2, 3, 4]).cumprod()

In [None]:
# вычисляем накопленную сумму
pd.Series([1, 2, 3, 4]).cumsum()

### Получение сводки статистик

In [None]:
# получаем сводку статистик для датафрейма
usdcb.describe()

In [None]:
usdcb.OPEN.describe()

In [None]:
# вычисляем только среднее значение
usdcb.OPEN.describe()['mean']

In [None]:
# получаем сводку статистик для нечисловых данных
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
s.describe()

### Среднее значение

In [None]:
# вычисляем среднее значение для всех столбцов в датафрейме
usdcb.mean()

In [None]:
# вычисляем значение, усредненное по всем столбцам для каждой строки
usdcb.mean(axis=1)[:5]

### Медиана

In [None]:
# вычисляем медиану значений для каждого столбца
usdcb.median()

### Мода

In [None]:
# вычисляем моду для этой серии
s = pd.Series([1, 2, 3, 3, 5])
s.mode()

In [None]:
# может быть несколько мод
s = pd.Series([1, 2, 3, 3, 5, 1])
s.mode()

### Дисперсия

In [None]:
# вычисляем дисперсию значений в каждом столбце
usdcb.var()

### Стандартное отклонение

In [None]:
# вычисляем стандартное отклонение
usdcb.std()

### Ковариация

In [None]:
# вычисляем ковариацию между
usdcb.OPEN.cov(usdcb.CLOSE)

### Корреляция

In [None]:
# вычисляем корреляцию между MSFT и AAPL
usdcb.OPEN.corr(usdcb.CLOSE)

### Дискретизация и квантилизация

In [None]:
# генерируем 10000 случайных чисел
dist = np.random.normal(size=10000)
dist

In [None]:
# выводим среднее и стандартное отклонение
(dist.mean(), dist.std())

In [None]:
# разбиваем на пять одинаковых по размеру групп
bins = pd.cut(dist, 5)
bins

In [None]:
# смотрим категории
bins.categories

In [None]:
# свойство .codes показывает, в какой группе находится каждый элемент
bins.codes

In [None]:
# закрываем интервалы слева
pd.cut(dist, 5, right=False).categories

In [None]:
# генерируем 50 значений возраста в диапазоне от 6 до 45
ages = np.random.randint(6, 45, 50)
ages

In [None]:
# разбиваем на диапазоны и выводим статистику по ним
ranges = [6, 12, 18, 35, 50]
agebins = pd.cut(ages, ranges)
agebins.describe()

In [None]:
# добавляем имена для групп
ranges = [6, 12, 18, 35, 50]
labels = ['Youth', 'Young Adult', 'Adult', 'Middle Aged']
agebins = pd.cut(ages, ranges, labels=labels)
agebins.describe()

In [None]:
# разбиваем на квантили 5 групп с одинаковым количеством элементов
qbin = pd.qcut(dist, 5)
# эта строка выводит диапазоны значений в каждом квантиле
qbin.describe()

In [None]:
# создаем квантили на основе +/- 3, 2 и 1 стандартных отклонений
quantiles = [0,
             0.001, 
             0.021,
             0.5-0.341,
             0.5,
             0.5+0.341,
             1.0-0.021,
             1.0-0.001,
             1.0]
qbin = pd.qcut(dist, quantiles)
# эти данные должны подчиняться идеальному нормальному распределению
qbin.describe()

### Ранжирование

In [None]:
s = pd.Series(np.random.randn(5), index=list('abcde'))
s

In [None]:
# ранжируем значения
s.rank()

### Изменение процента

In [None]:
# вычисляем %-ное изменение для MSFT
usdcb[['OPEN']].pct_change()[:5] 

### Операции со скользящим окном

In [None]:
# создаем случайное блуждание
s = pd.Series(np.random.randn(1000)).cumsum()
s[:5]

In [None]:
s[0:100].plot();

In [None]:
# вычисляем скользящее окно шириной три дня
r = s.rolling(window=3)
r

In [None]:
# скользящее среднее по трем дням
means = r.mean()
means[:7]

In [None]:
# проверяем, является ли значение средним
# первых трех чисел
s[0:3].mean()

In [None]:
# среднее для меток с 1 по 3
s[1:4].mean()

In [None]:
# строим график на основе 3-дневного скользящего среднего
means[0:100].plot();

### Случайная выборка

In [None]:
# создаем датафрейм, состоящий из 50 строк и 4 столбцов
df = pd.DataFrame(np.random.randn(50, 4))
df[:5]

In [None]:
# отбираем три случайные строки
df.sample(n=3)

In [None]:
# отбираем 10% строк
df.sample(frac=0.1)

In [None]:
# случайный отбор 10% наблюдений с возвращением
df.sample(frac=0.1, replace=True)