# Описательная статистика

Выделяют 3 типы данных:

- **Категориальные** описывают данные, которые могут принимать ограниченное количество уникальных значений (цвет глаз)

- **Порядковые**, как и категориальные, принимают ограниченное количество уникальных значений, однако их можно сравнивать (размер одежды)

- **Числовые** данные описывают то, что можно измерить числом (количество продаж товара в месяц). Данными этого типа можно сравнивать между собой, а также выполнять над ними арифметические операции.

## Mean

No comments...

In [2]:
def mean(X: list[float]) -> float:
    return sum(X)/len(X)

In [4]:
mean([-2, -1, 0, 1, 2]) # 0.0

0.0

## Median

Иногда среднее не отражает действительную картину.

Ниже приведен ряд распределения зарплат в области

|Зарплата|10 000|15 000|20 000|25 000|1 000 000|
|-|-|-|-|-|-|
|Должность|Junior|Middle|Senior|Lead|CEO|

Среднее значение:

In [6]:
mean([10_000, 15_000, 15_000, 20_000, 1_000_000])

212000.0

Очевидно, что для описания средней зарплаты данная функция не подходит. На замену приходит **медиана**.

In [8]:
def median(X: list[float]) -> float:
    X_len = len(X)
    X_sorted = sorted(X)
    if X_len % 2 == 0:
        return (X_sorted[X_len//2 - 1] + X_sorted[X_len//2]) / 2
    else:
        return X_sorted[X_len//2]

In [11]:
median([10_000, 15_000, 15_000, 20_000, 1_000_000])

15000

Данная характеристика дает более информативную интерпретацию среднего значения

## Quantile

Число x является **a-квантилем** набора данных, если оно делит этот набор данных таким образом, что a% наблюдений меньше или равны x и (100−a)% наблюдений больше или равны x

In [16]:
def quantile(X: list[float], alpha: float) -> float:
    if not (0 <= alpha <= 1):
        raise ValueError("Allowed values for alpha should be between [0, 1].")
    
    X_sorted = sorted(X)
    X_len = len(X)
    quantile_i = X_len * alpha

    if (int_qi := int(quantile_i)) == quantile_i:
        return X_sorted[int_qi - 1]
    else:
        return (X_sorted[int_qi - 1] + X_sorted[int_qi]) / 2


In [22]:
X = [35, 37, 36, 38, 26, 41, 33, 32, 39, 47, 38, 30, 34, 36, 37, 42, 29, 45, 44, 27]
quantile(X, 0.48)

36.0

#### Related

**Percentile** - отражает по смыслу то же, что и квантиль. Только квантиль — это доля от единицы, а перцентиль — это то же самое, но в процентах. 0.05-квантиль — это то же самое, что 5-й перцентиль.

**Quartile** - частный случай квантилей.

- **Q1** - первый квартиль - 0.25-квантиль

- **Q2** - второй квартиль - 0.5-квантиль - медиана
    
- **Q3** - третий квартиль - 0.75-квантиль

Квартили делят выборку на 4 части:
- Значения < Q1
- Значения лежат в промежутке [Q1, Q2]
- Значения лежат в промежутке [Q2, Q3]
- Значения > Q3

Разность `Q3 - Q1` называется **межквартильным размахом** (IQR).

Данная величина позволяет оценить разброс данных.

Выброс — это значение или набор значений в наборе данных, которое сильно отличается от остальных.

Один из методов поиска выбросов является использование квартилей и IQR. Допустим, что все значения, выходящие за 1.5 * IQR от Q1 и Q3, являются выбросами.

In [26]:
def clear_outliers(X: list[float]) -> list[float]:
    Q1 = quantile(X, 0.25)
    Q3 = quantile(X, 0.75)
    IQR = Q3 - Q1
    
    left_bound = Q1 - 1.5 * IQR
    right_bound = Q3 + 1.5 * IQR

    X_no_outliers = [x for x in X if left_bound <= x <= right_bound]
    return X_no_outliers

In [31]:
X = [42, 45, 47, 49, 52, 54, 55, 58, 60, 62, 65, 67, 68, 70, 71, 74, 77, 80, 92, 115]

X_no_outliers = clear_outliers(X)

print(f"Outliers: {[x for x in X if x not in X_no_outliers]}")
print(f"X without outliers: {X_no_outliers}")

Outliers: [115]
X without outliers: [42, 45, 47, 49, 52, 54, 55, 58, 60, 62, 65, 67, 68, 70, 71, 74, 77, 80, 92]


## Variance

Диспресия (variance) показывает меру разброса данных относительно среднего.

Тогда формулы дисперсии принимают два вида:

- Выборочная смещенная дисперсия:

$$ Var(X) = {1 \over N} * \sum_{i}(x_i-x_m)^2 $$

- Выборочная несмещенная дисперсия:

$$ Var(X) = {1 \over N - 1} * \sum_{i}(x_i-x_m)^2 $$

В чем разница и почему во втором случае происходит деление на N-1?

С точки зрения охвата объекта исследования, статистический анализ можно разделить на два вида:

- Сплошной - оценивает генеральную совокупность данных

- Выборочной - оценивает некоторую выборку

Суть выборочной заключается в том, что из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяют на всю генеральную совокупность. Это позволяет затрачивать меньше ресурсов, однако выводы **всегда ошибочны** (данную ошибку необходимо минимизировать).

В формуле используется выборочное среднее. Выборочное среднее – это несмещенная оценка математического ожидания, так как средняя из выборочных средних стремится к своему теоретическому значению по генеральной совокупности - к центру выборки.

Средняя всегда находится в центре значений, по которым рассчитана. А раз выборочная средняя находится в центре выборки, то из этого следует, что сумма квадратов расстояний от каждого значения выборки до выборочной средней всегда меньше, чем до любой другой точки, в том числе и до генеральной средней. А раз так, то дисперсия в каждой выборке будет занижена. Средняя из заниженных дисперсий  также даст заниженное значение. То есть при многократном повторении эксперимента выборочная дисперсия не будет стремиться к своему истинному значению (как выборочная средняя), а будет смещена относительно истинного значения по генеральной совокупности.

Поэтому показатели стараются оценивать таким образом, чтобы их оценки были несмещенными (как у средней арифметической). Чтобы решить проблему смещенности выборочной дисперсии, в ее расчет вносят корректировку - при расчете в знаменатель ставят не `N`, а `N-1`.

In [34]:
def var(X: list[float]) -> float:
    X_len = len(X)
    m = mean(X)
    sq_err = sum([(x-m)**2 for x in X])
    return 1 / (X_len - 1) * sq_err

In [57]:
var([-2,0,2])

4.0

## Standard Deviation

Дисперсия зачастую тяжело интерпретируема, так как при вычислениях используются квадраты.

Для упрощения используется среднеквадратичное отклонение - квадратный корень дисперсии.

$$ STD = \sqrt{Var(X)} $$

In [58]:
def std(X: list[float]) -> float:
    return var(X) ** (1/2)

In [60]:
std([-2, 0, 2])

2.0