# Преодоление проблемы смещённых оценок при анализе данных открытых рынков методом Jackknife resampling

Cyrill A. Murashev, 2023-02-05

## Аннотация

Оценщики часто сталкиваются с необходимостью анализа и описания данных, собранных на открытых рынках. Почти всегда они не могут получить данные обо всём рынке, а имеют дело с выборками, которые могут быть очень малы относительно всей генеральной совокупности. В этом случае возникает проблема смещённых оценок. Из вышесказанного следует, что любая статистическая оценка, сделанная на основе рассматриваемой выборки, является оценкой для самой выборки. В то же время она может иметь смещение по сравнению с оценкой, которая была бы получена в случае анализа всей генеральной совокупности. Оценщики часто говорят, что они рассчитали некоторую описательную статистику рынка. Это может быть среднее значение цены или медиана, максимум, минимум и т.д. Но надо понимать, что это всего лишь оценки для выборок, а не для всего рынка. Сегодня мы рассмотрим минимальную теоретическую базу метода. А затем реализуем его на реальных рыночных данных с помощью языка Python. Мы узнаем, как определить для любой оценки наличие смещения и как автоматически уменьшить его линейную составляющую. Данный материал имеет [английскую](https://github.com/Kirill-Murashev/AI_for_valuers_book/blob/main/Parts-Chapters/Jackknife/jackknife.ipynb), [испанскую](https://github.com/Kirill-Murashev/AI_for_valuers_book/blob/main/Parts-Chapters/Jackknife/jackknife-esp.ipynb) и [рускую](https://github.com/Kirill-Murashev/AI_for_valuers_book/blob/main/Parts-Chapters/Jackknife/jackknife-nov.ipynb) версии. Наиболее актуальной и быстро обновляемой версией является английская версия. При наличии расхождений между версиями следует полагаться на английскую версию.

## Основные сведения о методе Jackknife

### Введение

Во-первых, необходимо вспомнить, зачем оценщикам нужны статистические данные. Как правило, оценщики имеют некоторое распределение характеристик объектов из выборки аналогов, собранных на открытом рынке. И они пытаются получить некоторые оценки значений этих характеристик. Это может быть среднее значение, медиана, максимум, минимум, дисперсия и т.д. Иногда им также необходимо сравнить две или более подвыборки, чтобы решить, требуются ли некоторые корректировки на основе разницы значений признаков. Как мы можем догадаться, чаще всего оценщики имеют дело с выборками, а не со всем рынком. Таким образом, оценщики могут получить только выборочные оценки значений характеристик, но не их истинные значения. 
Метод Jackknife позволяет решить две задачи:
- уменьшить смещение выборочной оценки относительно истинного значения из генеральной совокупности;
- рассчитать дисперсию скорректированного значения признака.

Предположим, у нас есть некий признак X (это может быть, например, удельная цена), распределение которого в генеральной совокупности нам неизвестно. Вместо этого мы имеем выборку, взятую из данной генеральной совокупности и состоящую из *n* элементов $[x{1},\ldots, x_{n}]$. Предположим, что мы хотим оценить значение математического ожидания значения признака *X* в генеральной совокупности. В рассматриваемом примере с удельной ценой это означает, что мы хотим определить среднее значение стоимости единицы. Обозначим математическое ожидание *X* как $\mathbb{E}[X]$. В общем случае, определение математического ожидания выглядит следующим образом
$$\mathbb{E}[X] = \sum_{j=1}^{n >> 1} p(x_{j})x_{j}.$$

Но у нас есть только выборка, которая, конечно, состоит из очень ограниченного числа наблюдений, число которых далеко от бесконечности. Таким образом, мы не можем оценить матожидание, только выборочное среднее, которое обозначается как
$$\hat{\mu}=\dfrac{1}{n} \sum_{i=1}^{n<<\infty}x_{i}.$$

Поэтому мы используем не вероятности, а наблюдаемые частоты. Очевидно, что $\mathbb{E}[X] \neq \hat{\mu}$, но $\hat{\mu} = \mathbb{E}[X] + \mathcal{bias}$, где $\mu$ является оценкой матожидания, а *bias* - это некоторый систематический сдвиг между истинным и оценочным значениями матожидания.


### Общая концепция метода Jacknife

Мы рассмотрели особый случай. Теперь мы можем перейти к более общей концепции смещения оценщика (математической функции). Рассмотрим случайную величину *X*, имеющую неизвестное распределение *U*. Существует некоторый параметр его распределения, называемый $\theta$. И мы стремимся определить его значение. Использование абстрактного параметра $\theta$ вместо какого-либо конкретного подчеркивает универсальность метода Jackknife, который способен обнаружить смещение для любого параметра распределения и автоматически скорректировать его линейную составляющую. Также мы можем рассчитать параметр $\hat{\theta}$, представляющий собой выборочную оценку, полученную путём применения некоторой математической функции. Вследствие того, что $\hat{\theta}$ был получен на основе данных выборки, тогда как целью является оценка параметра $\theta$ для генеральной совокупности, представляющей собой весь рынок в контексте оценочной деятельности, $\hat{\theta}$ имеет смещение относительно $\theta$. С математической точки зрения это означает, что матожидание для $\hat{\theta}$ не равно матожиданию для $\theta$:
$$\mathbb{E}(\hat{\theta}) \neq \mathbb{E}(\theta).$$
В таком случае мы можем сказать, что
$$\mathbb{E}(\hat{\theta}_{n}) = \theta + \frac{\alpha}{n} + \frac{\beta}{n^{2}} + \frac{\gamma}{n^{3}} + \ldots \frac{\omega}{n^{(k\rightarrow \infty)}},$$
где $\theta$ — истинное значение параметра в генеральной совокупности, а  $\frac{\alpha}{n} + \frac{\beta}{n^{2}} + \frac{\gamma}{n^{3}} + \ldots \frac{\omega}{n^{(k\rightarrow \infty)}}$ — линейная, квадратическая, кубическая и иные составляющие смещения. Все компоненты уменьшаются с ростом выборки в соответствии с линейной, квадратичной, кубической и другими функциями. Линейный член вносит наибольшую ошибку, потому что он уменьшается медленнее всех остальных.

Метод Jackknife устраняет линейную составляющую смещения. Введём новые определения.

$\hat{\theta}_{i}$ — это значение $\hat{\theta}$ которое было бы получено при расчёте не для всей выборки, а для подвыборки, из которой было исключено наблюдение с номером *i*, последовательно принимающем значение от 1 до *n*. Тогда
$$\mathbb{E}(\hat{\theta}_{(i)}) = \theta + \frac{\alpha}{n-1} + \frac{\beta}{(n-1)^{2}} + \frac{\gamma}{(n-1)^{3}} + \ldots \frac{\omega}{(n-1)^{(k\rightarrow \infty)}}.$$
$\overline{\theta}$ — это среднее значение всех $\hat{\theta}_{i}$.
$$\overline{\theta} = \frac{1}{n} \sum_{i=1}^{n} \hat{\theta}_{i}$$


### Резюме

Таким образом, для применения метода Jackknife, т.е. обнаружения наличия смещения и автоматического устранения его линейной составляющей, необходим следующий набор шагов.
1. Пусть нам нужно оценить некоторый параметр $\theta$ случайной переменной *X*.
1. Давайте получим некоторую оценку $\hat{\theta}$ для выборки с помощью некоторой математической функции $\hat{\theta}=F(x_{1},\ldots,x_{n})$.
1. $\hat{\theta}$ может быть смещённой.
1. $\theta = \mathbb{E}(\hat{\theta}) + bias$.
1. Давайте создадим *n* новых выборок путём последовательного исключения одного из *x* из начальной выборки.
1. Рассчитаем $\hat{\theta}_{(i)}$ для всех новых выборок путём использования той же функции **F**.
1. Рассчитаем среднее по всем $\hat{\theta}_{(i)}$ и обозначим его как $\overline{\theta}$.
1. Рассчитаем смещение согласно формуле
$$\widehat{bias}_{jack} = (n-1)(\overline{\theta} - \hat{\theta}).$$
1. Устраним линейную составляющую смещения, используя формулу
$$\hat{\theta}_{jacked} = \hat{\theta} - \widehat{bias}_{jack}.$$

## Практическая реализация на Python

Сегодня мы будем использовать набор данных, содержащий 34821 наблюдение по рынку жилой недвижимости Санкт-Петербурга. Он был получен путём веб-скреппинга в сентябре 2021 года. Предположим, что этот набор данных содержит данные обо всём рынке, поэтому мы можем использовать его как генеральную совокупность. Далее мы создадим подвыборку, содержащую только 25 наблюдений, что отражает типичное количество наблюдений, с которыми имеет дело оценщик. Мы рассчитаем "матожидание" для нашей "генеральной совокупности", затем рассчитаем среднее значение для выборки. Наконец, мы применим метод Jackknife и сравним его результат вычисления среднего относительно с выборочным средним.

In [13]:
# import libraries
import numpy as np
import pandas as pd
from astropy.stats import jackknife_resampling
from astropy.stats import jackknife_stats
from random import sample

In [52]:
# import data
df = pd.read_csv("spba-flats-210928.csv", index_col=False)
print(df)

       Unnamed: 0                                     links   price_m  county
0               1  https://spb.cian.ru/sale/flat/262765174/  155460.0  sadadm
1               2  https://spb.cian.ru/sale/flat/263280601/  295455.0  sadadm
2               3  https://spb.cian.ru/sale/flat/261612519/  310559.0  sadadm
3               4  https://spb.cian.ru/sale/flat/263094016/  100000.0  sadadm
4               5  https://spb.cian.ru/sale/flat/262339898/  145929.0  sadadm
...           ...                                       ...       ...     ...
34816       34817  https://spb.cian.ru/sale/flat/256621764/   70093.0  llobol
34817       34818  https://spb.cian.ru/sale/flat/261430727/   67227.0  llobol
34818       34819  https://spb.cian.ru/sale/flat/246538655/   86207.0  llobol
34819       34820  https://spb.cian.ru/sale/flat/246587468/   65455.0  llobol
34820       34821  https://spb.cian.ru/sale/flat/239698989/   89041.0  llobol

[34821 rows x 4 columns]


In [53]:
# calculate mean and maximum for the "general population"
gp_mean = df['price_m'].mean()
gp_max = df['price_m'].max()
print("The mean of unit price for 'general population' is", gp_mean)
print("The maximum of unit price for 'general population' is", gp_max)

The mean of unit price for 'general population' is 176116.52505671864
The maximum of unit price for 'general population' is 1624829.0


In [68]:
# create sample
sam_size = 25
ran_sam = df.sample(n=sam_size)
print(ran_sam)

       Unnamed: 0                                     links   price_m  county
20606       20607  https://spb.cian.ru/sale/flat/264064476/  213889.0  sprkol
11160       11161  https://spb.cian.ru/sale/flat/261519367/  161667.0  skryuz
21112       21113  https://spb.cian.ru/sale/flat/263895261/  148830.0  sprlax
19612       19613  https://spb.cian.ru/sale/flat/250041085/  189706.0  sprn65
5076         5077  https://spb.cian.ru/sale/flat/263660571/  139382.0  skapis
13890       13891  https://spb.cian.ru/sale/flat/263013521/  231935.0  smonow
12315       12316  https://spb.cian.ru/sale/flat/262914352/  198765.0  smozwy
8250         8251  https://spb.cian.ru/sale/flat/263518941/  181985.0  skrpol
243           244  https://spb.cian.ru/sale/flat/251281327/  210697.0  sadeka
15608       15609  https://spb.cian.ru/sale/flat/260189091/  134454.0  snenew
7387         7388  https://spb.cian.ru/sale/flat/257597416/  108974.0  skomet
5179         5180  https://spb.cian.ru/sale/flat/261053782/  150

In [67]:
# calculate mean and maximum for the samle
rs_mean = ran_sam['price_m'].mean()
rs_max = ran_sam['price_m'].max()
print("The mean of unit price for random sample is", rs_mean)
print("The maximum of unit price for random sample is", rs_max)

The mean of unit price for random sample is 147030.5
The maximum of unit price for random sample is 181481.0


In [69]:
# obtain Jackknife resamples
new_df = ran_sam["price_m"]
array = new_df.to_numpy()
print(new_df)

20606    213889.0
11160    161667.0
21112    148830.0
19612    189706.0
5076     139382.0
13890    231935.0
12315    198765.0
8250     181985.0
243      210697.0
15608    134454.0
7387     108974.0
5179     150000.0
22767    121429.0
22444    223214.0
10338    177384.0
13155    195000.0
804      138900.0
18970    221212.0
21243    233333.0
28099    110754.0
31551     83459.0
4399     151282.0
12014    198780.0
22696    145516.0
23239    204433.0
Name: price_m, dtype: float64


In [70]:
# obtain Jackknife resamples
resamples = jackknife_resampling(array)
print(resamples)

[[161667. 148830. 189706. 139382. 231935. 198765. 181985. 210697. 134454.
  108974. 150000. 121429. 223214. 177384. 195000. 138900. 221212. 233333.
  110754.  83459. 151282. 198780. 145516. 204433.]
 [213889. 148830. 189706. 139382. 231935. 198765. 181985. 210697. 134454.
  108974. 150000. 121429. 223214. 177384. 195000. 138900. 221212. 233333.
  110754.  83459. 151282. 198780. 145516. 204433.]
 [213889. 161667. 189706. 139382. 231935. 198765. 181985. 210697. 134454.
  108974. 150000. 121429. 223214. 177384. 195000. 138900. 221212. 233333.
  110754.  83459. 151282. 198780. 145516. 204433.]
 [213889. 161667. 148830. 139382. 231935. 198765. 181985. 210697. 134454.
  108974. 150000. 121429. 223214. 177384. 195000. 138900. 221212. 233333.
  110754.  83459. 151282. 198780. 145516. 204433.]
 [213889. 161667. 148830. 189706. 231935. 198765. 181985. 210697. 134454.
  108974. 150000. 121429. 223214. 177384. 195000. 138900. 221212. 233333.
  110754.  83459. 151282. 198780. 145516. 204433.]
 [213

In [71]:
# obtain Jackknife resamples shape
resamples.shape

(25, 24)

In [87]:
# obtain Jackknife estimate for the mean, its bias,
# its standard error, and its 95% confidence interval
test_statistic = np.mean

estimate, bias, stderr, conf_interval = jackknife_stats(
    array, test_statistic, 0.95)

mean_jacked = estimate
print("the jacked mean is ", mean_jacked)
bias_jack = abs(mean_jacked - rs_mean)
print("the bias got from the Jackknife is ", bias_jack)
std_error = stderr
print("the standard error got from the Jackknife is ", std_error)
conf_int = conf_interval
print("the confidence interval (95%) of jacked mean is ", conf_int)

the jacked mean is  170999.2
the bias got from the Jackknife is  23968.70000000001
the standard error got from the Jackknife is  8468.584368318783
the confidence interval (95%) of jacked mean is  [154401.07963806 187597.32036194]


Как видно, матожидание равно 176116.525, выборочное среднее — 147030.500, а скорректированное среднее, полученное методом Jackknife, — 170999.200. Доверительный интервал для матожидания составляет [154401.080, 187597.320] с вероятностью 0.95. Таким образом, мы однозначно доказали, что применение метода Jackknife приводит к значительному повышению точности оценки параметра распределения. Более того, рассчитанный доверительный интервал включает в себя истинное значение матожидания.


## Заключение

Метод Jackknife — это простой и эффективный с вычислительной точки зрения инструмент для корректировки выборочных оценок. Надеюсь, что его применение поможет многим оценщикам в их повседневной практике. И, возможно, вдохновит кого-то на более широкое использование методов машинного обучения в оценочной деятельности.