Доверительные интервалы

1. Мишень — это истинное значение чего-то, что мы пытаемся измерить (например, средняя цена за квадратный метр всех квартир в городе). Мы не знаем, где точно находится "центр мишени", но хотим его оценить.
2. Вы делаете несколько выстрелов (собираете данные, например, цены за квадратный метр из выборки квартир). Ваши выстрелы не все точно в центре, они рассеяны вокруг него.
3. Среднее значение ваших выстрелов (выборочное среднее) — это наша оценка положения "центра мишени". Это наша лучшая попытка угадать, где находится истинное значение, но это всего лишь оценка, и она может быть неточной.

Теперь представьте, что мы хотим не только сказать, где примерно находится центр, но и показать, насколько мы уверены в этой оценке. Вот тут и приходит на помощь доверительный интервал.

Что такое доверительный интервал?

•  Доверительный интервал — это диапазон значений, вокруг нашего среднего, в котором с определенной вероятностью находится истинное значение. Это не конкретное значение, а целый интервал, показывающий насколько мы уверены в том, что истинное значение находится где-то в нем.
•  Это "ширина" нашей уверенности. Чем шире интервал, тем менее точная наша оценка, но тем более мы уверены, что истинное значение "где-то там". Узкий интервал говорит о более точной оценке, но наша уверенность может быть меньше.

Аналогия с мишенью:

1. Представьте, что вы стреляете много раз, не один раз, а множество, каждый раз делаете свою выборку и по ней оцениваете центр мишени.
2. Теперь для каждой выборки мы строим такой доверительный интервал.
3. 95%-ный доверительный интервал означает, что если бы мы стреляли (брали выборки и строили интервалы) 100 раз, то примерно в 95 из этих случаев построенный интервал поймал бы истинный центр мишени. Другими словами, есть 95% вероятность, что истинное значение находится где-то в границах интервала, который мы построили.
4. Оставшиеся 5 интервалов не поймают истинный центр. Мы не знаем, попался нам интервал, который "поймал" истину, или нет. Это важно понимать.
5. Это НЕ вероятность того, что истинное значение лежит в конкретном интервале, который мы построили — истинное значение всегда одно и то же, и наш конкретный интервал либо "поймал" его, либо нет.

Что показывает доверительный интервал?

•  Уверенность в оценке: Чем уже доверительный интервал, тем точнее наша оценка, и наоборот, широкий интервал говорит о том, что у нас большая неопределенность.
•  Диапазон возможных значений: Интервал показывает, в каком диапазоне значений, вероятно, находится истинное значение (с заданной вероятностью).
•  Понимание точности: Доверительный интервал позволяет нам понять, насколько точно мы измерили что-то.

Важные моменты:

•  Доверительный уровень (например, 95%): Это не вероятность того, что истинное значение лежит в нашем интервале. Это означает, что если бы мы повторили наше исследование много раз, 95% из построенных интервалов содержали бы истинное значение.
•  Доверительный интервал не предсказывает конкретное значение, а предсказывает диапазон значений, в котором, вероятно, находится истинное значение.
•  Ширина интервала зависит от размера выборки, вариабельности данных и выбранного уровня доверия.
•  Вы не знаете, поймал ли конкретно ваш интервал истинное значение — у вас есть только вероятность того, что он находится внутри интервала.

В заключение:

Доверительный интервал — это инструмент, который позволяет нам оценить не только среднее значение, но и уровень неопределенности этой оценки. Он дает нам "диапазон уверенности" вокруг нашей оценки, учитывая, что мы работаем с выборками и что наши измерения всегда имеют некоторую погрешность.

1. Доверительные интервалы для выборок с нормальным распределением

Для выборок, которые следуют (или предположительно следуют) нормальному распределению, существует несколько способов расчета ДИ:

•  Z-интервал (известно стандартное отклонение популяции): Этот метод используется, когда нам известно стандартное отклонение всей популяции (σ). На практике это бывает редко.
•  t-интервал (стандартное отклонение популяции неизвестно): Это наиболее распространенный метод, когда мы имеем только выборочное стандартное отклонение (s). t-распределение учитывает дополнительную неопределенность, связанную с оценкой стандартного отклонения.

2. Доверительные интервалы для скошенных выборок (не нормальное распределение)

Когда выборки не соответствуют нормальному распределению (и могут быть скошены влево или вправо), стандартные методы на основе t-распределения могут быть неточными. В этом случае применяют другие подходы:

•  Бутстрап (Bootstrap): Метод пересэмплирования, не зависящий от распределения данных. Позволяет получить ДИ, даже если исходное распределение ненормально.
•  Процентные квантили: Расчет ДИ на основе квантилей (процентилей) распределения, полученного бутстрапом или эмпирически.

In [None]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt


def z_confidence_interval(data, confidence=0.95, population_std=None):
    """Вычисляет Z-интервал для выборки с известным стандартным отклонением."""

    if population_std is None:
        raise ValueError("Стандартное отклонение популяции должно быть задано.")

    mean = np.mean(data)
    z_score = stats.norm.ppf((1 + confidence) / 2)
    margin_of_error = z_score * (population_std / np.sqrt(len(data)))
    return mean - margin_of_error, mean + margin_of_error


def t_confidence_interval(data, confidence=0.95):
    """Вычисляет t-интервал для выборки."""
    mean = np.mean(data)
    degrees_of_freedom = len(data) - 1
    t_score = stats.t.ppf((1 + confidence) / 2, degrees_of_freedom)
    sample_std = np.std(data, ddof=1) # Выборочное стандартное отклонение (ddof=1)
    margin_of_error = t_score * (sample_std / np.sqrt(len(data)))
    return mean - margin_of_error, mean + margin_of_error


def bootstrap_confidence_interval(data, confidence=0.95, n_iterations=1000):
    """Вычисляет доверительный интервал с помощью бутстрапа."""
    
    n = len(data)
    bootstrap_means = []

    for _ in range(n_iterations):
      bootstrap_sample = np.random.choice(data, size=n, replace=True)
      bootstrap_means.append(np.mean(bootstrap_sample))
      
    lower_percentile = (1 - confidence) / 2
    upper_percentile = 1 - lower_percentile
    
    lower_bound = np.percentile(bootstrap_means, lower_percentile * 100)
    upper_bound = np.percentile(bootstrap_means, upper_percentile * 100)

    return lower_bound, upper_bound


if __name__ == '__main__':
    # Пример использования
    # Нормально распределенные данные
    normal_data = np.random.normal(loc=50, scale=10, size=100)
    
    # Скошенные вправо данные
    skewed_right_data = np.random.exponential(scale=10, size=100)
    
    # Скошенные влево данные
    skewed_left_data = 100 - np.random.exponential(scale=10, size=100)
    
    confidence_level = 0.95
    
    # 1. Расчет доверительного интервала
    print("\nНормальное распределение:")
    print(f"Mean: {np.mean(normal_data):.2f}")
    print(f"Z-interval: {z_confidence_interval(normal_data, confidence_level, population_std=10)}")
    print(f"t-interval: {t_confidence_interval(normal_data, confidence_level)}")
    print(f"Bootstrap CI: {bootstrap_confidence_interval(normal_data, confidence_level)}")
    
    print("\nСкошенное вправо распределение:")
    print(f"Mean: {np.mean(skewed_right_data):.2f}")
    print(f"t-interval: {t_confidence_interval(skewed_right_data, confidence_level)}")
    print(f"Bootstrap CI: {bootstrap_confidence_interval(skewed_right_data, confidence_level)}")

    print("\nСкошенное влево распределение:")
    print(f"Mean: {np.mean(skewed_left_data):.2f}")
    print(f"t-interval: {t_confidence_interval(skewed_left_data, confidence_level)}")
    print(f"Bootstrap CI: {bootstrap_confidence_interval(skewed_left_data, confidence_level)}")

    # 2. Визуализация данных и доверительных интервалов
    fig, axes = plt.subplots(1, 3, figsize=(15, 5))
    
    axes[0].hist(normal_data, bins=20, alpha=0.6, label="Data")
    axes[0].axvline(np.mean(normal_data), color='r', linestyle='dashed', linewidth=1, label='Mean')
    lower_normal, upper_normal = t_confidence_interval(normal_data, confidence_level)
    axes[0].axvline(lower_normal, color='g', linestyle='dotted', linewidth=1, label='CI')
    axes[0].axvline(upper_normal, color='g', linestyle='dotted', linewidth=1)
    axes[0].set_title("Normal Distribution")
    axes[0].legend()
    
    axes[1].hist(skewed_right_data, bins=20, alpha=0.6, label="Data")
    axes[1].axvline(np.mean(skewed_right_data), color='r', linestyle='dashed', linewidth=1, label='Mean')
    lower_skewed_right, upper_skewed_right = bootstrap_confidence_interval(skewed_right_data, confidence_level)
    axes[1].axvline(lower_skewed_right, color='g', linestyle='dotted', linewidth=1, label='CI')
    axes[1].axvline(upper_skewed_right, color='g', linestyle='dotted', linewidth=1)
    axes[1].set_title("Skewed Right Distribution")
    axes[1].legend()

    axes[2].hist(skewed_left_data, bins=20, alpha=0.6, label="Data")
    axes[2].axvline(np.mean(skewed_left_data), color='r', linestyle='dashed', linewidth=1, label='Mean')
    lower_skewed_left, upper_skewed_left = bootstrap_confidence_interval(skewed_left_data, confidence_level)
    axes[2].axvline(lower_skewed_left, color='g', linestyle='dotted', linewidth=1, label='CI')
    axes[2].axvline(upper_skewed_left, color='g', linestyle='dotted', linewidth=1)
    axes[2].set_title("Skewed Left Distribution")
    axes[2].legend()

    plt.tight_layout()
    plt.show()

Ключевые моменты:

•  Z-интервал vs t-интервал: t-интервал используется чаще, так как обычно стандартное отклонение популяции неизвестно.

•  Бутстрап: Подходит для любых распределений, особенно когда распределение далеко от нормального.

•  Число итераций бутстрапа (n_iterations): Большее количество итераций даст более точный ДИ, но также потребует больше времени.

Когда какой метод использовать:

•  Нормальные выборки (или близкие к нормальным): t-интервал.

•  Скошенные выборки: Бутстрап (можно с вычислением квантилей).

•  Известное стандартное отклонение популяции (редко): Z-интервал.

Понял, вам нужно создать интервалы для цен за 1 кв.м., которые будут более широкими, чем обычные доверительные интервалы, и учитывать неучтенные факторы ценообразования. Вы хотите, чтобы эти интервалы были в пределах ±20% от среднего значения цены в каждой страте.

Это разумный подход, поскольку он позволяет учесть не только статистическую дисперсию данных, но и вариативность, возникающую из-за других факторов, которые вы не можете явно моделировать (таких как местоположение, класс жилья и т.д.).

Вот как можно правильно построить такие интервалы:

1. Расчет среднего значения:

•  Сначала нужно вычислить среднее значение цены за 1 кв.м. для каждой комбинации страт (например, "площадь от 40 до 60 кв.м.", "без отделки", "1950-1999").

2. Расчет интервала ±20%:

•  Для каждого среднего значения вычисляем верхнюю и нижнюю границы интервала:
  •  Нижняя граница = среднее значение × (1 - 0.20)
  •  Верхняя граница = среднее значение × (1 + 0.20)

3. Опционально: "Сглаживание" интервалов

•  В некоторых случаях вы можете захотеть сгладить эти интервалы, чтобы они не были слишком резкими или шумными. Это можно сделать, например, взяв скользящее среднее, но тут надо смотреть что подойдет лучше именно под ваши данные.

In [None]:
import pandas as pd
import numpy as np

def calculate_price_intervals(df, area_bins, finish_types, year_bins, lower_bound=0.8, upper_bound=1.2):
    """
    Вычисляет интервалы цен с учетом стратификации и погрешности в %

    Args:
        df: pandas DataFrame с колонками 'area', 'finish_type', 'year', 'price_per_sqm'
        area_bins: список с границами бинов для площади
        finish_types: список возможных типов отделки
        year_bins: список с границами бинов для годов постройки
        lower_bound: нижний предел от среднего (например, 0.8 для -20%)
        upper_bound: верхний предел от среднего (например, 1.2 для +20%)
    Returns:
        pandas DataFrame с колонками 'area_bin', 'finish_type', 'year_bin', 'avg_price', 'lower_bound', 'upper_bound'
    """

    df['area_bin'] = pd.cut(df['area'], bins=area_bins, labels=False, include_lowest=True)
    df['year_bin'] = pd.cut(df['year'], bins=year_bins, labels=False, include_lowest=True)

    grouped_data = df.groupby(['area_bin', 'finish_type', 'year_bin'])['price_per_sqm'].agg(['mean']).reset_index()
    grouped_data['lower_bound'] = grouped_data['mean'] * lower_bound
    grouped_data['upper_bound'] = grouped_data['mean'] * upper_bound

    return grouped_data.rename(columns={'mean': 'avg_price'})

if __name__ == '__main__':
    # Пример данных
    data = {
        'area': [45, 55, 70, 80, 40, 50, 65, 75, 42, 52, 72, 82, 48, 58, 68, 78],
        'finish_type': ['с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки',
                        'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки'],
        'year': [1940, 1960, 2010, 2020, 1930, 1970, 2005, 2015, 1945, 1975, 2008, 2018, 1948, 1980, 2003, 2019],
        'price_per_sqm': [150000, 120000, 280000, 300000, 130000, 110000, 250000, 290000, 140000, 100000, 260000, 270000,
                           160000, 115000, 270000, 280000]
    }
    df = pd.DataFrame(data)

    area_bins = [0, 50, 70, 100] # Разбивка по площади
    finish_types = ['с отделкой', 'без отделки']
    year_bins = [0, 1949, 1999, 2100] # Разбивка по годам

    result_df = calculate_price_intervals(df, area_bins, finish_types, year_bins)
    print(result_df)

Ключевые моменты:

•   Нижний и верхний предел: Вы можете изменять значения lower_bound и upper_bound для настройки ширины интервала.

•   Стратификация: Чем больше уровней стратификации, тем более детализированные будут интервалы.

•   "Сглаживание": Если необходимо, вы можете добавить этап "сглаживания" после расчета интервалов. Это может быть, например, скользящее среднее или другие методы, которые учитывают соседние страты.

Интерпретация:

Теперь у вас есть интервалы цен, которые учитывают как статистическую вариабельность, так и неопределенность, вызванную неучтенными факторами. Вы можете использовать эти интервалы для анализа и сравнения цен в разных стратах, имея более широкое представление о диапазоне цен, в котором может находиться стоимость 1 кв. м.

Проблема с простым ±20%:

•  Произвольность: Выбор 20% ничем не обоснован статистически и не опирается на распределение данных.
•  Симметричность: Интервал ±20% симметричен относительно среднего, что не подходит для скошенных распределений. Скошенные распределения не симметричны относительно среднего.
•  Игнорирование разброса данных: ±20% не учитывает, насколько сильно разбросаны цены внутри страты.
•  Надежность: Нет гарантии, что этот интервал будет покрывать "разумный" диапазон цен в большинстве случаев.

Более обоснованные подходы (с учетом скошенности):

1. Использование квантилей (процентилей):

  •  Идея: Вместо фиксированного процента, используем квантили (процентили) распределения. Например, можно взять 10-й и 90-й процентили, или 5-й и 95-й.
  •  Преимущества:
    *  Учитывает скошенность распределения (интервал будет не симметричен).
    *  Основан на фактическом распределении данных.
  •  Недостатки:
    *  Нужно определить, какие процентили использовать (например, 5-й и 95-й).

2. Бутстрап для квантильных интервалов:

  •  Идея: Используем бутстрап, чтобы получить распределение квантилей.
  •  Преимущества:
    *  Учитывает скошенность и форму распределения.
    *  Даёт оценку неопределенности квантилей.
    *  Не требует предположений о нормальности распределения.
  •  Недостатки:
    *  Требует вычислительных ресурсов.
    *  Нужно определить количество бутстрап-итераций.

3. Интервалы на основе логарифмированных данных (если скошенность очень сильная):

  •  Идея: Логарифмируем данные, делая их распределение более симметричным. Вычисляем интервал на логарифмированных данных, а затем экспоненцируем обратно, чтобы получить интервал для исходных данных.
  •  Преимущества:
    *  Может помочь при сильной скошенности.
  •  Недостатки:
    *  Интервал получится на основе логарифмированных данных, а не самих цен.
    *  Нужно аккуратно интерпретировать результаты.
    *  Логарифмирование не всегда подходит для всех данных.

4. Использование гамма-распределения (если есть основания):

  •  Идея: Если распределение цен за 1 кв.м. хорошо аппроксимируется гамма-распределением, можно использовать параметры гамма-распределения для расчета интервалов.
  •  Преимущества:
    *  Учитывает скошенность, свойственную гамма-распределению.
  •  Недостатки:
    *  Требует проверки соответствия данных гамма-распределению.

In [None]:
import pandas as pd
import numpy as np
from scipy.stats import gamma
import math

def calculate_quantile_intervals(df, area_bins, finish_types, year_bins, lower_quantile=0.05, upper_quantile=0.95):
    """
    Вычисляет интервалы цен на основе квантилей.

    Args:
      df: pandas DataFrame с колонками 'area', 'finish_type', 'year', 'price_per_sqm'
      area_bins: список с границами бинов для площади
      finish_types: список возможных типов отделки
      year_bins: список с границами бинов для годов постройки
      lower_quantile: нижний квантиль
      upper_quantile: верхний квантиль

    Returns:
        pandas DataFrame с колонками 'area_bin', 'finish_type', 'year_bin', 'avg_price', 'lower_bound', 'upper_bound'
    """
    df['area_bin'] = pd.cut(df['area'], bins=area_bins, labels=False, include_lowest=True)
    df['year_bin'] = pd.cut(df['year'], bins=year_bins, labels=False, include_lowest=True)

    def calculate_quantiles(group):
        avg_price = group['price_per_sqm'].mean()
        lower_bound = group['price_per_sqm'].quantile(lower_quantile)
        upper_bound = group['price_per_sqm'].quantile(upper_quantile)
        return pd.Series({'avg_price': avg_price, 'lower_bound': lower_bound, 'upper_bound': upper_bound})

    grouped_data = df.groupby(['area_bin', 'finish_type', 'year_bin']).apply(calculate_quantiles).reset_index()

    return grouped_data

def bootstrap_quantile_intervals(df, area_bins, finish_types, year_bins, lower_quantile=0.05, upper_quantile=0.95, n_iterations=1000):
    """
    Вычисляет интервалы цен с помощью бутстрапа для квантилей.
    Args:
      df: pandas DataFrame с колонками 'area', 'finish_type', 'year', 'price_per_sqm'
      area_bins: список с границами бинов для площади
      finish_types: список возможных типов отделки
      year_bins: список с границами бинов для годов постройки
      lower_quantile: нижний квантиль
      upper_quantile: верхний квантиль
       n_iterations: количество итераций
    Returns:
        pandas DataFrame с колонками 'area_bin', 'finish_type', 'year_bin', 'avg_price', 'lower_bound', 'upper_bound'
    """
    df['area_bin'] = pd.cut(df['area'], bins=area_bins, labels=False, include_lowest=True)
    df['year_bin'] = pd.cut(df['year'], bins=year_bins, labels=False, include_lowest=True)

    def calculate_bootstrap_quantiles(group):
        avg_price = group['price_per_sqm'].mean()
        bootstrap_quantiles = []

        for _ in range(n_iterations):
            bootstrap_sample = group['price_per_sqm'].sample(n=len(group), replace=True)
            bootstrap_quantiles.append(bootstrap_sample.quantile(lower_quantile))

        lower_bound = np.percentile(bootstrap_quantiles, 50)
        bootstrap_quantiles = []

        for _ in range(n_iterations):
            bootstrap_sample = group['price_per_sqm'].sample(n=len(group), replace=True)
            bootstrap_quantiles.append(bootstrap_sample.quantile(upper_quantile))

        upper_bound = np.percentile(bootstrap_quantiles, 50)
        return pd.Series({'avg_price': avg_price, 'lower_bound': lower_bound, 'upper_bound': upper_bound})

    grouped_data = df.groupby(['area_bin', 'finish_type', 'year_bin']).apply(calculate_bootstrap_quantiles).reset_index()
    
    return grouped_data

def log_transformed_intervals(df, area_bins, finish_types, year_bins, lower_percent=0.05, upper_percent=0.95):
      """
      Вычисляет интервалы цен на логарифмированных данных.
      Args:
        df: pandas DataFrame с колонками 'area', 'finish_type', 'year', 'price_per_sqm'
        area_bins: список с границами бинов для площади
        finish_types: список возможных типов отделки
        year_bins: список с границами бинов для годов постройки
         lower_percent: нижний квантиль
        upper_percent: верхний квантиль

      Returns:
          pandas DataFrame с колонками 'area_bin', 'finish_type', 'year_bin', 'avg_price', 'lower_bound', 'upper_bound'
      """
      df['area_bin'] = pd.cut(df['area'], bins=area_bins, labels=False, include_lowest=True)
      df['year_bin'] = pd.cut(df['year'], bins=year_bins, labels=False, include_lowest=True)

      def calculate_log_intervals(group):
        log_prices = np.log1p(group['price_per_sqm']) # используем log1p для избежания ошибки в случае 0
        avg_price = group['price_per_sqm'].mean() # Используем среднее исходных данных
        lower_bound = np.exp(log_prices.quantile(lower_percent))
        upper_bound = np.exp(log_prices.quantile(upper_percent))
        return pd.Series({'avg_price': avg_price, 'lower_bound': lower_bound, 'upper_bound': upper_bound})

      grouped_data = df.groupby(['area_bin', 'finish_type', 'year_bin']).apply(calculate_log_intervals).reset_index()
      return grouped_data

def gamma_fit_intervals(df, area_bins, finish_types, year_bins, lower_percent=0.05, upper_percent=0.95):
    """
    Вычисляет интервалы цен на основе гамма-распределения.
     Args:
        df: pandas DataFrame с колонками 'area', 'finish_type', 'year', 'price_per_sqm'
        area_bins: список с границами бинов для площади
        finish_types: список возможных типов отделки
        year_bins: список с границами бинов для годов постройки
         lower_percent: нижний квантиль
        upper_percent: верхний квантиль

      Returns:
          pandas DataFrame с колонками 'area_bin', 'finish_type', 'year_bin', 'avg_price', 'lower_bound', 'upper_bound'
    """
    df['area_bin'] = pd.cut(df['area'], bins=area_bins, labels=False, include_lowest=True)
    df['year_bin'] = pd.cut(df['year'], bins=year_bins, labels=False, include_lowest=True)

    def calculate_gamma_intervals(group):
          prices = group['price_per_sqm']
          avg_price = prices.mean()
          alpha, loc, beta = gamma.fit(prices, floc=0)

          if math.isnan(alpha):
            lower_bound = 0
            upper_bound = 0
          else:
            lower_bound = gamma.ppf(lower_percent, a=alpha, loc=loc, scale=beta)
            upper_bound = gamma.ppf(upper_percent, a=alpha, loc=loc, scale=beta)
          return pd.Series({'avg_price': avg_price, 'lower_bound': lower_bound, 'upper_bound': upper_bound})


    grouped_data = df.groupby(['area_bin', 'finish_type', 'year_bin']).apply(calculate_gamma_intervals).reset_index()
    return grouped_data


if __name__ == '__main__':
    # Пример данных
    data = {
        'area': [45, 55, 70, 80, 40, 50, 65, 75, 42, 52, 72, 82, 48, 58, 68, 78],
        'finish_type': ['с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки',
                        'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки', 'с отделкой', 'без отделки'],
        'year': [1940, 1960, 2010, 2020, 1930, 1970, 2005, 2015, 1945, 1975, 2008, 2018, 1948, 1980, 2003, 2019],
        'price_per_sqm': [150000, 120000, 280000, 300000, 130000, 110000, 250000, 290000, 140000, 100000, 260000, 270000,
                           160000, 115000, 270000, 280000]
    }
    df = pd.DataFrame(data)

    area_bins = [0, 50, 70, 100]
    finish_types = ['с отделкой', 'без отделки']
    year_bins = [0, 1949, 1999, 2100]
    lower_quantile = 0.05
    upper_quantile = 0.95

    # 1. Расчет квантильных интервалов
    result_quantiles = calculate_quantile_intervals(df, area_bins, finish_types, year_bins, lower_quantile, upper_quantile)
    print("\nИнтервалы, расчитанные по квантилям:\n", result_quantiles)

    # 2. Расчет бутстрап-интервалов
    result_bootstrap = bootstrap_quantile_intervals(df, area_bins, finish_types, year_bins, lower_quantile, upper_quantile, n_iterations = 1000)
    print("\nИнтервалы, расчитанные при помощи бутстрапа:\n", result_bootstrap)

    # 3. Интервалы на логарифмированных данных
    result_log = log_transformed_intervals(df, area_bins, finish_types, year_bins, lower_percent=lower_quantile, upper_percent=upper_quantile)
    print("\nИнтервалы на логарифмированных данных:\n", result_log)

    # 4. Расчет гамма-интервалов
    result_gamma = gamma_fit_intervals(df, area_bins, finish_types, year_bins, lower_percent=lower_quantile, upper_percent=upper_quantile)
    print("\nИнтервалы, расчитанные при помощи гамма-распределения:\n", result_gamma)


Выбор метода:
  
  •  Квантили (процентили): Хороший баланс между простотой и точностью, подходит для большинства случаев скошенного распределения.
  
  •  Бутстрап для квантильных интервалов: Если хотите более надежную оценку с учетом неопределенности, особенно при небольших выборках.
  
  •  Логарифмированные данные: Полезно при очень сильной скошенности, но нужно аккуратно интерпретировать результаты.
  
  •  Гамма-распределение: Применяйте этот метод, если есть основания полагать, что ваше распределение цен за 1 кв.м. можно хорошо аппроксимировать гамма-распределением.

•  Выбор квантилей: Подбирайте значения lower_quantile и upper_quantile так, чтобы они покрывали "разумный" диапазон цен, с учетом того, что обычно цены могут колебаться. 5% и 95% - это хороший отправной пункт, но в некоторых ситуациях они могут быть слишком широкими или узкими.

• Проверка соответствия: Если вы используете гамма распределение, проверьте данные на его соответствие, например, с помощью визуализаций.

•  Визуализация: Обязательно постройте гистограммы и добавьте на них полученные интервалы, чтобы визуально оценить их адекватность.