# Редукция и вычисление описательных статистик

Объекты pandas оснащены набором стандартных математических и статистических
методов. Большая их часть попадает в категорию *редукций*, или
сводных *статистик*, – методов, которые вычисляют единственное значение
(например, сумму или среднее) для Series или объект Series – для строк либо
столбцов DataFrame. По сравнению с эквивалентными методами массивов
NumPy все они игнорируют отсутствующие значения. Рассмотрим небольшой
объект DataFrame:

In [None]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series

In [None]:
df = DataFrame([[1.4, np.nan],[7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index = list('abcd'), columns = ['one', 'two'])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


Метод `sum` объекта DataFrame возвращает Series, содержащий суммы по
столбцам:

In [None]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [None]:
df.sum(axis = 1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

Отсутствующие значения исключаются, если только не отсутствует весь
срез (в данном случае строка или столбец). Это можно подавить, задав па-
раметр `skipna`:

In [None]:
df.sum(axis = 1, skipna = False)

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

`axis` Ось, по которой производится редуцирование. В случае DataFrame 0 означает строки, 1 – столбцы

`skipna `Исключать отсутствующие значения. По умолчанию True

`level` Редуцировать с группировкой по уровням, если индекс по оси иерархический (MultiIndex)

Некоторые методы, например `idxmin` и `idxmax`, возвращают косвенные ста-
тистики, скажем, индекс, при котором достигается минимум или максимум:

In [None]:
df.idxmax()

one    b
two    d
dtype: object

In [None]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


Наконец, существуют методы, не относящиеся ни к редуцирующим, ни
к аккумулирующим. Примером может служить метод `describe`, который воз-
вращает несколько сводных статистик за одно обращение:

In [None]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


В случае нечисловых данных describe возвращает другие сводные статистики

In [None]:
obj = Series(list('aabc')*4)

In [None]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

Описательные и сводные статистики

`count` Количество значений, исключая отсутствующие

`describe` Вычисляет набор сводных статистик для Series или для каждого столбца DataFrame

`min, max` Вычисляет минимальное или максимальное значение

`argmin, argmax` Вычисляет позицию в индексе (целые числа), при котором достигается минимальное или максимальное значение соответственно

`idxmin, idxmax` Вычисляет значение индекса, при котором достигается минимальное или максимальное значение соответственно

`quantile` Вычисляет выборочный квантиль в диапазоне от 0 до 1

`sum` Сумма значений

`mean` Среднее значение

`median` Медиана (50%-ный квантиль)

`mad` Среднее абсолютное отклонение от среднего

`var` Выборочная дисперсия

`std` Выборочное стандартное отклонение

`skew` Асимметрия (третий момент)

`kurt` Куртозис (четвертый момент)

`cumsum` Нарастающая сумма

`cummin, cummax` Нарастающий минимум или максимум соответственно

`cumprod` Нарастающее произведение

`diff` Первая арифметическая разность (полезно для временных рядов)

`pct_change` Вычисляет процентное изменение

# Корреляция и  ковариация

Некоторые сводные статистики, например корреляция и  ковариация, вычисляются по парам аргументов. Рассмотрим объекты DataFrame, содержщие цены акций и  объемы биржевых сделок, взятые с  сайта `Yahoo! Finance`. 
Для анализа применим дополнительный пакет `pandas–datareader`. Если он еще не установлен, установите его с помощью программ `conda` или `pip`:

In [3]:
#pip install pandas–datareader

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import pandas_datareader.data as web

In [2]:
#all_data = {ticker: web.get_data_yahoo(ticker)
#            for ticker in [ 'AAPL', 'IBM', 'MSFT', 'GOOG']}
#price = DataFrame({ticker: data['Adj Close']
#                   for ticker, data in all_data.items()})
#volume = DataFrame({ticker: data['Volume']
#                   for ticker, data in all_data.items()})

Метод `corr` объекта Series вычисляет корреляцию перекрывающихся, от-
личных от NA, выровненных по индексу значений в двух объектах Series.
Соответственно, метод `cov `вычисляет ковариацию:

In [None]:
#returns['MSFT'].corr(returns['IBM'])
#returns['MSFT'].cov(returns['IBM'])

С другой стороны, методы corr и cov объекта DataFrame возвращают соот-
ветственно полную корреляционную или ковариационную матрицу в виде
DataFrame:

In [None]:
#returns.corr()
#returns.cov()

Процентное изменение ((нынешнее значение - новое значение)/нынешнее значение) определяется с помощью `pct_change()` и действует на столбцы DataFrame и обьекты Series

`DataFrame.pct_change(periods=1, fill_method='pad', limit=None, freq=None, **kwargs)`

In [4]:
s = pd.Series([90, 91, 85, 82, 81, 84, 87, 89])
s.pct_change()

0         NaN
1    0.011111
2   -0.065934
3   -0.035294
4   -0.012195
5    0.037037
6    0.035714
7    0.022989
dtype: float64

# Уникальные значения, счетчики значений и членство

Еще один класс методов служит для извлечения информации о значени-
ях, хранящихся в одномерном объекте Series. Для иллюстрации рассмотрим
пример:

In [7]:
 obj = Series(list('jbdkajfbkdbkdjjdjd'))

Метод `unique` возвращает массив уникальных значений в `Series`:

In [8]:
uniques = obj.unique()
uniques

array(['j', 'b', 'd', 'k', 'a', 'f'], dtype=object)

Уникальные значения необязательно возвращаются в отсортированном
порядке, но могут быть отсортированы впоследствии, если это необходимо
`(uniques.sort())`. Метод `value_counts` вычисляет объект Series, содержащий частоты встречаемости значений:

In [9]:
obj.value_counts()

j    5
d    5
b    3
k    3
a    1
f    1
dtype: int64

Для удобства этот объект отсортирован по значениям в порядке убывания.
Функция `value_counts` может быть также вызвана как метод pandas верхнего
уровня. В таком случае она применима к любому массиву или последова-
тельности:

In [11]:
pd.value_counts(obj.values, sort = False)

j    5
d    5
b    3
k    3
a    1
f    1
dtype: int64

Метод `isin `вычисляет булев вектор членства в множестве и может быть по-
лезен для фильтрации набора данных относительно подмножества значений
в объекте Series или столбце DataFrame:

In [13]:
mask = obj.isin(list('abcd'))
mask

0     False
1      True
2      True
3     False
4      True
5     False
6     False
7      True
8     False
9      True
10     True
11    False
12     True
13    False
14    False
15     True
16    False
17     True
dtype: bool

Применим булув массив как маску

In [14]:
obj[mask]

1     b
2     d
4     a
7     b
9     d
10    b
12    d
15    d
17    d
dtype: object

С `isin` тесно связан метод `Index.get_indexer`, который возвращает массив
индексов, описывающий сопоставление между массивом потенциально повторяющихся значений и массивом, содержащим только различные значения:

In [16]:
to_match = pd.Series(list('cabbca'))
unique_vals = pd.Series(list('cab'))
pd.Index(unique_vals).get_indexer(to_match)

array([0, 1, 2, 2, 0, 1])

Иногда требуется вычислить гистограмму нескольких взаимосвязанных
столбцов в DataFrame. Приведем пример:

In [18]:
data = DataFrame({'Qu1' : [1, 3, 4, 3, 4],
                  'Qu2' : [2, 3, 1, 2, 3],
                  'Qu3' : [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Передача `pandas.value_counts` методу `apply` этого объекта DataFrame дает:

In [19]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


Здесь в качестве индекса выступают значения которые содержатся в столбцах, а таблица заполнена их количеством в столбцах