# Анализ данных на Python

*Алла Тамбовцева, НИУ ВШЭ*

## Описание выборки, сохранённой внутри массива

Для работы нам снова понадобится библиотека `numpy` (от *Numeric Python*, библиотека для эффективной работы с числовыми массивами):

In [1]:
import numpy as np

Создадим массив NumPy со средними ценами на бензин марки А-92 в регионах Сибирского федерального округа по состоянию на январь 2023 года (Республика Алтай, Республика Тыва, Республика Хакасия, Алтайский край, Красноярский край, Иркутская область, Кемеровская область, Новосибирская область, Омская область, Томская область):

In [2]:
sample = np.array([46.76, 45.98, 45.82, 44.72, 46.13, 
                 47.99, 44.60, 45.81, 44.91, 44.95])

В библиотеке NumPy есть ряд методов и функций, которые позволяют описывать выборки.

In [3]:
# минимум и максимум

print("Минимум:", sample.min())
print("Максимум:", sample.max())

Минимум: 44.6
Максимум: 47.99


In [4]:
# среднее арифметическое

print("Среднее:", sample.mean())

Среднее: 45.76699999999999


Для выборочной дисперсии есть разные формулы подсчёта, смещённая оценка (с $n$ в знаменателе, менее хорошая) и несмещённая оценка (с $n-1$ в знаменателе, более хорошая), поэтому Python умеет считать сразу обе. По умолчанию он считает смещённую оценку:

In [5]:
# выборочная дисперсия (смещенная оценка)

print("Дисперсия (деление на n):", sample.var())

Дисперсия (деление на n): 0.9969610000000004


Для несмещённой оценки, которая используется чаще, нужно добавить аргумент `ddof = 1`, отвечающий за число, которое необходимо вычесть из объёма выборки $n$ при усреднении суммы квадратов отклонения от среднего:

In [6]:
# выборочная дисперсия (несмещенная оценка)
# ddof – от degrees of freedom, степени свободы
# здесь число степеней свободы n - 1,
# сколько наблюдений достаточно знать, чтобы,
# зная среднее, восстановить всю выборку

print("Дисперсия (деление на n-1):", sample.var(ddof = 1))

Дисперсия (деление на n-1): 1.107734444444445


Со стандартным отклонением та же история:

In [7]:
# выборочное стандартное отклонение

print("Стандартное отклонение:", sample.std(ddof = 1))

Стандартное отклонение: 1.0524896410152667


Медиану и квартили выборки Python считать тоже умеет, только в библиотеке NumPy эти статистики считаются не с помощью методов (указываются после названия массива через точку), а с помощью функций (вызываются из самой библиотеки `numpy`, указываются перед названием массива):

In [8]:
# выборочная медиана и выборочные квартили
# функция np.median()
# функция np.quantile()

print("Медиана:", np.median(sample))
print("Нижний квартиль:", np.quantile(sample, 0.25))
print("Верхний квартиль:", np.quantile(sample, 0.75))

Медиана: 45.815
Нижний квартиль: 44.92
Верхний квартиль: 46.0925


**Интерпретация.** Выборка, конечно, очень маленькая, но это все регионы Сибирского ФО, больше там не найдём, поэтому можем заключить, что:

* в 50% случаев цены на бензин в Сибирском ФО не превышают 45.82 рублей;
* в 25% цены на бензин в Сибирском ФО не превышают 44.92 рублей;
* в 75% цены на бензин в Сибирском ФО не превышают 46.09 рублей.

**NB.** В NumPy нет готовой функции для поиска нехарактерных значений, границы характерных значений можно вычислить самостоятельно на основе квартилей, а затем отфильтровать наблюдения, выходящие за эти границы.

Функция `quantile()` может принимать на вход сразу несколько уровней квантилей в виде переченя:

In [9]:
print(np.quantile(sample, [0.25, 0.75]))

[44.92   46.0925]


In [10]:
# функция arange() как range(), 
# только работает и с дробным шагом тоже

print(np.quantile(sample, np.arange(0, 1.25, 0.25)))

[44.6    44.92   45.815  46.0925 47.99  ]


В коде выше мы получили минимум, нижний квартиль, медиану, верхний квартиль и максимум.

**NB.** Алгоритмов нахождения квантилей (и квартилей, в частности) существует много, стоит иметь это в виду и не удивляться расхождениям результатов, полученных в Python и других средах. По любой функции/методу можно запросить справку:

In [11]:
help(np.quantile)

Help on function quantile in module numpy:

quantile(a, q, axis=None, out=None, overwrite_input=False, interpolation='linear', keepdims=False)
    Compute the q-th quantile of the data along the specified axis.
    
    .. versionadded:: 1.15.0
    
    Parameters
    ----------
    a : array_like
        Input array or object that can be converted to an array.
    q : array_like of float
        Quantile or sequence of quantiles to compute, which must be between
        0 and 1 inclusive.
    axis : {int, tuple of int, None}, optional
        Axis or axes along which the quantiles are computed. The
        default is to compute the quantile(s) along a flattened
        version of the array.
    out : ndarray, optional
        Alternative output array in which to place the result. It must
        have the same shape and buffer length as the expected output,
        but the type (of the output) will be cast if necessary.
    overwrite_input : bool, optional
        If True, then allow t