# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# считываем данные в DataFrame, используя в качестве
# индекса столбец Symbol и записывая только те 
# столбцы, которые имеют позиции 0, 2, 3, 7
sp500 = pd.read_csv("Data/sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

# считываем исторические данные о котировках акций
omh = pd.read_csv("Data/omh.csv")

FileNotFoundError: [Errno 2] No such file or directory: 'Data/sp500.csv'

# Выполнение арифметических операций с объектами DataFrame или Series

In [None]:
# задаем стартовое значение генератора случайных чисел
# для получения воспроизводимых результатов
np.random.seed(123456)
# создаем объект DataFrame
df = pd.DataFrame(np.random.randn(5, 4), 
                  columns=['A', 'B', 'C', 'D'])
df

In [None]:
# умножаем все на 2
df * 2

In [None]:
# извлекаем первую строку 
s = df.iloc[0] 
# вычитаем первую строку из каждой строки объекта DataFrame
diff = df - s 
diff

In [None]:
# вычитаем объект DataFrame из объекта Series
diff2 = s - df
diff2

In [None]:
# B, C
s2 = s[1:3]
# добавляем E
s2['E'] = 0
# смотрим, как применяется выравнивание
# в этой математической операции
df + s2

In [None]:
# извлекаем строки в позициях с 1-й по 3-ю и только столбцы B и C
subframe = df[1:4][['B', 'C']]
# мы извлекаем небольшой квадрат из середины df
subframe

In [None]:
# демонстрируем, как происходит выравнивание при
# выполнении операции вычитания
df - subframe

In [None]:
# извлекаем столбец A
a_col = df['A']
df.sub(a_col, axis=0)

# Количество значений

In [None]:
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
# подсчитываем встречаемость каждого уникального значения
s.count()

# Определение уникальных значений (и их встречаемости)

In [None]:
# возвращает список уникальных элементов
s.unique()

In [None]:
s.nunique()

In [None]:
s.nunique(dropna=False)

In [None]:
# получаем сводную статистику для нечисловых данных
s.value_counts(dropna=False)

# Вычисление минимума и максимума

In [None]:
# определяем минимальную цену для обеих акций
omh[['MSFT', 'AAPL']].min()

In [None]:
# определяем максимальную цену для обеих акций
omh[['MSFT', 'AAPL']].max()

In [None]:
# определяем минимальную цену для обеих акций
omh[['MSFT', 'AAPL']].idxmin()

In [None]:
# определяем максимальную цену для обеих акций
omh[['MSFT', 'AAPL']].idxmax()

# Вычисление n наименьших значений и n наибольших значений

In [None]:
# вычисляем 4 наименьших значения
omh.nsmallest(4, ['MSFT'])['MSFT']

In [None]:
# вычисляем 4 наибольших значения
omh.nlargest(4, ['MSFT'])['MSFT']

In [None]:
# вычисляем 4 наименьших значения в серии
omh.MSFT.nsmallest(4)

# Вычисление накопленных значений

In [None]:
# вычисляем накопленное произведение
pd.Series([1, 2, 3, 4]).cumprod()

In [None]:
# вычисляем накопленную сумму
pd.Series([1, 2, 3, 4]).cumsum()

# Получение сводки статистик

In [None]:
# получаем сводку статистик для датафрейма
omh.describe()

In [None]:
# вычисляем сводку статистик для MSFT
omh.MSFT.describe()

In [None]:
# вычисляем для MSFT только среднее значение
omh.MSFT.describe()['mean']

In [None]:
# получаем сводку статистик для нечисловых данных
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
s.describe()

# Среднее значение

In [None]:
# вычисляем среднее значение для всех столбцов в датафрейме omh
omh.mean()

In [None]:
# вычисляем значение, усредненное по всем столбцам,
# для каждой строки
omh.mean(axis=1)[:5]

# Медиана

In [None]:
# вычисляем медиану значений для каждого столбца
omh.median()

# Мода

In [None]:
# вычисляем моду для этой серии
s = pd.Series([1, 2, 3, 3, 5])
s.mode()

In [None]:
# может быть несколько мод
s = pd.Series([1, 2, 3, 3, 5, 1])
s.mode()

# Дисперсия

In [None]:
# вычисляем дисперсию значений в каждом столбце
omh.var()

# Стандартное отклонение

In [None]:
# вычисляем стандартное отклонение
omh.std()

# Ковариация

In [None]:
# вычисляем ковариацию между MSFT и AAPL
omh.MSFT.cov(omh.AAPL)

# Корреляция

In [None]:
# вычисляем корреляцию между MSFT и AAPL
omh.MSFT.corr(omh.AAPL)

# Дискретизация и квантилизация

In [None]:
# генерируем 10000 случайных чисел
np.random.seed(123456)
dist = np.random.normal(size = 10000)
dist

In [None]:
# выводим среднее и стандартное отклонение
(dist.mean(), dist.std())

In [None]:
# разбиваем на пять одинаковых по размеру групп
bins = pd.cut(dist, 5)
bins

In [None]:
# смотрим категории
bins.categories

In [None]:
# свойство .codes показывает, в какой группе находится
# каждый элемент
bins.codes

In [None]:
# закрываем интервалы слева
pd.cut(dist, 5, right=False).categories

In [None]:
# генерируем 50 значений возраста в диапазоне от 6 до 45
np.random.seed(123456)
ages = np.random.randint(6, 45, 50)
ages

In [None]:
# разбиваем на диапазоны и выводим статистику по ним
ranges = [6, 12, 18, 35, 50]
agebins = pd.cut(ages, ranges)
agebins.describe()

In [None]:
# добавляем имена для групп
ranges = [6, 12, 18, 35, 50]
labels = ['Youth', 'Young Adult', 'Adult', 'Middle Aged']
agebins = pd.cut(ages, ranges, labels=labels)
agebins.describe()

In [None]:
# разбиваем на квантили
# 5 групп с одинаковым количеством элементов
qbin = pd.qcut(dist, 5)
# эта строка выводит диапазоны значений в каждом квантиле
qbin.describe()

# Ранжирование

In [None]:
# генерируем случайные данные
np.random.seed(12345)
s = pd.Series(np.random.randn(5), index=list('abcde'))
s

In [None]:
# ранжируем значения
s.rank()

# Изменение процента

In [None]:
# вычисляем %-ное изменение для MSFT
omh[['MSFT']].pct_change()[:5]

# Операции со скользящим окном

In [None]:
# создаем случайное блуждание
np.random.seed(123456)
s = pd.Series(np.random.randn(1000)).cumsum()
s[:5]

In [None]:
s[0:100].plot().grid();

In [None]:
# вычисляем скользящее окно шириной три дня
r = s.rolling(window=3)
r

In [None]:
# скользящее среднее по трем дням
means = r.mean()
means[:7]

In [None]:
# проверяем, является ли значение средним
# первых трех чисел
s[0:3].mean()

In [None]:
# среднее для меток с 1 по 3
s[1:4].mean()

In [None]:
# строим график на основе 3-дневного скользящего среднего
means[0:100].plot();

# Случайная выборка

In [None]:
# создаем датафрейм, состоящий из 50 строк и 4 столбцов
# случайных чисел
np.random.seed(123456)
df = pd.DataFrame(np.random.randn(50, 4))
df[:5]

In [None]:
# отбираем три случайные строки
df.sample(n=3)

In [None]:
# отбираем 10% строк
df.sample(frac=0.1)

In [None]:
# случайный отбор 10% наблюдений с возвращением
df.sample(frac=0.1, replace=True)