In [37]:
from scipy.stats import binom, norm, t, bootstrap
import numpy as np

Теперь представим, что мы обзвонили 1000 клиентов и хотим проверить, с какой вероятностью 100 и меньше пользователей согласятся продлить нашу подписку.

In [15]:
total_clients = 1000
p_success = 0.3
max_successes = 100
probability = binom.cdf(max_successes, total_clients, p_success)
print("Вероятность того, что 100 или меньше пользователей согласятся продлить подписку: {:.2%}".format(probability))

Вероятность того, что 100 или меньше пользователей согласятся продлить подписку: 0.00%


In [18]:
nnn = norm.ppf(max_successes, total_clients, p_success)

In [19]:
nnn

nan

Правило 2-х сигм возникло из-за того, что для 95%-го доверительного интервала (уровня значимости 0.05) выходит, что квантили стандартного нормального распределения близки к 2.

Давайте проверим, а какому доверительному интервалу соответствовало бы правило 3-х сигм?

Для вычисления квантилей для распределений из модуля scipy.stats можно использовать метод ppf, а для функций распределения (обратной к квантили) — cdf.

In [22]:
p_three_sigma = 1 - norm.cdf(3, loc=0, scale=1)

confidence_interval_three_sigma = 1 - 2 * p_three_sigma

print("Доверительный интервал для правила 3-х сигм:", confidence_interval_three_sigma)

Доверительный интервал для правила 3-х сигм: 0.9973002039367398


In [25]:
q = 1 - 0.05 / 2
df = 24
t.ppf(q, df)

2.0638985616280205

Предположим, что у нас есть 25 магазинов. Средняя выручка в день составляет 170 тысяч рублей, а оценённое по этой выборке среднеквадратичное отклонение составляет 12 тысяч рублей. Оцените 95%-й доверительный интервал средней выручки магазинов.

Для выполнения задания вам могут быть полезны функции для распределений из модуля scipy.stats.

Среди вариантов ответа выбирайте наиболее близкий вариант ответа.

In [26]:
n = 25 
mean = 170000  
std_dev = 12000  

df = n - 1


q = 1 - 0.05 / 2
t_value = t.ppf(q, df)

standard_error = std_dev / (n ** 0.5)

margin_of_error = t_value * standard_error
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("95%-й доверительный интервал для средней выручки магазинов: ({:.2f}, {:.2f}) рублей".format(lower_bound, upper_bound))

95%-й доверительный интервал для средней выручки магазинов: (165046.64, 174953.36) рублей


Давайте ещё попрактикуемся в построении доверительного интервала. В качестве выборки будем брать синтетические данные — сгенерируйте 1000 чисел из распределения Пуассона с параметром 50. Вам будет полезен модуль random в библиотеке numpy.

Посчитайте 95-й доверительный интервал среднего на основе центральной предельной теоремы. Какая ширина интервала у вас получилась? Среди вариантов ответа выбирайте ближайший к вашему.

In [32]:
lam = 50
size = 1000 
poisson_arr = np.random.poisson(lam, size)

In [35]:
mean = np.mean(poisson_arr) 
std_dev = np.std(poisson_arr)

df = size - 1

q = 1 - 0.05 / 2
t_value = t.ppf(q, df)

standard_error = std_dev / (size ** 0.5)

margin_of_error = t_value * standard_error
lower_bound = mean - margin_of_error
upper_bound = mean + margin_of_error

print("95%-й доверительный интервал для средней выручки магазинов: ({:.2f}, {:.2f}) рублей".format(lower_bound, upper_bound))

95%-й доверительный интервал для средней выручки магазинов: (49.71, 50.59) рублей


In [36]:
import numpy as np

np.random.seed(42)  
mu = 50  
n = 1000 

sample = np.random.poisson(mu, n)

sample_mean = np.mean(sample)
sample_std = np.std(sample, ddof=1) 

confidence_level = 0.95
z_score = 1.96 
margin_of_error = z_score * (sample_std / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

interval_width = confidence_interval[1] - confidence_interval[0]

print("Доверительный интервал среднего (95%):", confidence_interval)
print("Ширина интервала:", interval_width)

Доверительный интервал среднего (95%): (49.349712762678834, 50.25228723732117)
Ширина интервала: 0.9025744746423356


Воспользуемся тем же набором данных (синтетическим из распределения Пуассона).

Постройте 95-й доверительный интервал на среднеквадратичное отклонение с помощью бутстрэпа. Рекомендуется попробовать сделать это вручную (генерировать бутстрапированные выборки в цикле, сохранять нужную статистику, вычислять квантили вычисленного ряда статистик) и с помощью соответствующей функции из модуля stats библиотеки scipy. Внимание, у функции bootstrap есть параметр method, который определяет, как будут вычисляться границы доверительного интервала. В нашем случае это был percentile.

На какой интервал больше всего похож ваш?

In [43]:
conf_interval = bootstrap(poisson_arr, statistic=np.std, confidence_level=0.95, n_resamples=100, method="percentile")

print("95%-й доверительный интервал для среднеквадратичного отклонения (с использованием функции bootstrap):", conf_interval)

ValueError: each sample in `data` must contain two or more observations along `axis`.

In [47]:
import numpy as np

def bootstrap_std(data, n_resamples=1000):
    stds = []
    n = len(data)
    for _ in range(n_resamples):
        resample = np.random.choice(data, size=n, replace=True)
        stds.append(np.std(resample, ddof=1)) 
    return np.array(stds)

poisson_arr = np.random.poisson(50, size=1000)

bootstrap_stds = bootstrap_std(poisson_arr)

lower_bound = np.percentile(bootstrap_stds, 2.5)
upper_bound = np.percentile(bootstrap_stds, 97.5)

print("95%-й доверительный интервал для среднеквадратичного отклонения:", (lower_bound, upper_bound))


95%-й доверительный интервал для среднеквадратичного отклонения: (6.754745314721535, 7.388556339990258)


А теперь давайте воспользуемся доверительными интервалами, чтобы сделать более точные выводы о метриках модели.

Для начала давайте скачаем данные:

from sklearn.datasets import fetch_california_housing

X, y = fetch_california_housing(return_X_y=True, as_frame=True)


Это задача предсказания средней цены в области на дом. Давайте оценим 95-процентный доверительный интервал на MSE Ridge-регрессии для этой выборки. Будем использовать бутстрэп для этого.

Для этого в цикле будем генерировать бутстрэп-выборки для обучения модели (то есть брать объекты из выборки с возвращением). В качестве тестовых объектов будем брать оставшиеся объекты. Каждый раз будем обучать модель и оценивать качество.

Реализуйте такой код для 95-процентного доверительного интервала на MSE.

Используйте 1000 итераций генераций выборки и обучения модели. Данные не обрабатывайте. Полезными методами будут np.random.choice для генерации индексов бутстрэп-выборок (не забудьте про «генерацию с возвращением»), np.setdiff1d для получения остатка выборки.

На какой интервал больше всего похож ваш результат?

In [50]:
from sklearn.datasets import fetch_california_housing

X, y = fetch_california_housing(return_X_y=True, as_frame=True)

In [51]:
X

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [52]:
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

In [53]:
total_MSE = []
for i in range(1000):
    train_index = np.random.choice(X.index, size=int(len(X)), replace=True)
    test_index = np.setdiff1d(X.index,X.iloc[train_index].index)
    
    
    X_train = X.iloc[train_index]
    y_train = y.iloc[train_index]
    X_test = X.iloc[test_index]
    y_test = y.iloc[test_index]

    
    model = Ridge()
    model.fit(X_train,y_train)
    
    total_MSE.append(mean_squared_error(y_test, model.predict(X_test)))


np.quantile(total_MSE, [0.025, 0.975])

array([0.50520108, 1.06745406])

Давайте оценим, насколько хорошие интервалы у нас получается строить.

Напишите функцию, которая генерирует случайную выборку из нормального распределения (давайте возьмём среднее значение, равное 3, среднеквадратичное отклонение, равное 4, а в выборке будет 1000 объектов).

Возьмите из предыдущих заданий код для построения соответствующего 95-процентного доверительного интервала для среднего на основе центральной предельной теоремы.

Повторите процедуру генерации выборки, построения доверительного интервала 1000 раз. Каждый раз проверяйте, действительно ли доверительный интервал покрыл ваше истинное среднее значение. 

Посчитайте долю случаев, когда интервал покрыл истинное значение. Ближе к какому значению вы получили ответ?

In [63]:
import numpy as np
from scipy.stats import norm

def generate_sample(mean, std, size):
    return np.random.normal(mean, std, size)

def confidence_interval(sample, alpha=0.05):
    n = len(sample)
    sample_mean = np.mean(sample)
    sample_std = np.std(sample, ddof=1)
    z_score = norm.ppf(1 - alpha / 2)
    margin_of_error = z_score * (sample_std / np.sqrt(n))
    lower_bound = sample_mean - margin_of_error
    upper_bound = sample_mean + margin_of_error
    return lower_bound, upper_bound

true_mean = 3
std_dev = 4
sample_size = 1000
alpha = 0.05
num_trials = 1000

covered_count = 0
for _ in range(num_trials):
    sample = generate_sample(true_mean, std_dev, sample_size)
    lower_bound, upper_bound = confidence_interval(sample, alpha)
    
    if lower_bound <= true_mean <= upper_bound:
        covered_count += 1

coverage_probability = covered_count / num_trials
print("Доля случаев, когда доверительный интервал покрыл истинное среднее значение:", coverage_probability)


Доля случаев, когда доверительный интервал покрыл истинное среднее значение: 0.946
