Lista 3

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
import random

In [3]:
alphas = [0.01, 0.05]
sigmas = [0.01, 0.5, 1]
ns = [100, 1000, 5000]
b0, b1 = 1, 2

In [4]:
def pu_b1_known_var(sigma, alpha, x):
    return stats.norm.ppf(1-alpha/2) * sigma / np.sqrt(np.sum((x-np.mean(x))**2))

In [5]:
def pu_b0_known_var(sigma, alpha, x):
    return stats.norm.ppf(1 - alpha/2) * sigma * np.sqrt((1/ len(x) + np.mean(x)**2 / np.sum((x-np.mean(x))**2)))

In [6]:
def pu_b0_unknown_var(alpha, x, y, b1_hat, b0_hat):
    n = len(x)
    residuals = y - (b1_hat * x + b0_hat)
    s_squared = np.sum(residuals**2) / (n - 2)
    s = np.sqrt(s_squared)
    return stats.t.ppf(1 - alpha/2, n - 2) * s * np.sqrt(1/n + np.mean(x)**2 / np.sum((x - np.mean(x))**2))

In [7]:
def pu_b1_unknown_var(alpha, x, y, b1_hat):
    n = len(x)
    residuals = y - (b1_hat * x + np.mean(y) - b1_hat * np.mean(x))
    s_squared = np.sum(residuals**2) / (n - 2)  
    s = np.sqrt(s_squared)
    return stats.t.ppf(1 - alpha/2, n - 2) * s / np.sqrt(np.sum((x - np.mean(x))**2))

In [8]:
def b1_estim(x,y):
    return np.sum((x - np.mean(x)) * (y))/np.sum((x-np.mean(x))**2)

In [9]:
def b0_estim(x,y):
    return np.mean(y) - b1_estim(x,y) * np.mean(x)

In [10]:
def generate_sample(n, b0, b1, sigma):
    eps = np.random.normal(0, sigma, n)
    x = np.linspace(1, n+1, n)
    y = b1 * x + b0 + eps
    return x, y

In [11]:
def mc_test(n, sigma, b0, b1, mc, alpha, known_var):
    b1_in, b0_in = 0,0
    for _ in range(mc):
        x, y = generate_sample(n, b0, b1, sigma)
        b1_hat, b0_hat = b1_estim(x,y), b0_estim(x, y)
        if known_var:
            pu_b0_, pu_b1_ = pu_b0_known_var(sigma, alpha, x), pu_b1_known_var(sigma, alpha, x)
        else:
            pu_b0_, pu_b1_ = pu_b0_unknown_var(alpha, x, y, b1_hat, b0_hat), pu_b1_unknown_var(alpha, x, y, b1_hat)
        if b1_hat - pu_b1_ < b1 < b1_hat + pu_b1_:
            b1_in += 1
        if b0_hat - pu_b0_ < b0 < b0_hat + pu_b0_:
            b0_in += 1
    return b1_in / mc, b0_in / mc

In [65]:
mc = 1000

In [56]:
for alpha in alphas:
    for sigma in sigmas:
        for n in ns:
            b1_prob, b0_prob = mc_test(n, sigma, b0, b1, mc, alpha, True)
            print(f"Prawdopodobieństwo dla alpha = {alpha}, sigma = {sigma}, n = {n}\nb1 = {b0_prob}\nb2 = {b0_prob}")

Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 100
b1 = 0.991
b2 = 0.991
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 1000
b1 = 0.992
b2 = 0.992
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 5000
b1 = 0.992
b2 = 0.992
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 100
b1 = 0.988
b2 = 0.988
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 1000
b1 = 0.995
b2 = 0.995
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 5000
b1 = 0.992
b2 = 0.992
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 100
b1 = 0.981
b2 = 0.981
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 1000
b1 = 0.992
b2 = 0.992
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 5000
b1 = 0.99
b2 = 0.99
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 100
b1 = 0.954
b2 = 0.954
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 1000
b1 = 0.95
b2 = 0.95
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 5000
b1 = 0.954
b2 = 0.954
Prawdopodobieństwo dla alpha = 0.05,

Zadanie 2

In [68]:
for alpha in alphas:
    for sigma in sigmas:
        for n in ns:
            b1_prob, b0_prob = mc_test(n, sigma, b0, b1, mc, alpha, False)
            print(f"Prawdopodobieństwo dla alpha = {alpha}, sigma = {sigma}, n = {n}\nb1 = {b0_prob}\nb2 = {b0_prob}")

Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 100
b1 = 0.99
b2 = 0.99
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 1000
b1 = 0.988
b2 = 0.988
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.01, n = 5000
b1 = 0.99
b2 = 0.99
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 100
b1 = 0.995
b2 = 0.995
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 1000
b1 = 0.981
b2 = 0.981
Prawdopodobieństwo dla alpha = 0.01, sigma = 0.5, n = 5000
b1 = 0.988
b2 = 0.988
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 100
b1 = 0.994
b2 = 0.994
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 1000
b1 = 0.987
b2 = 0.987
Prawdopodobieństwo dla alpha = 0.01, sigma = 1, n = 5000
b1 = 0.988
b2 = 0.988
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 100
b1 = 0.957
b2 = 0.957
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 1000
b1 = 0.947
b2 = 0.947
Prawdopodobieństwo dla alpha = 0.05, sigma = 0.01, n = 5000
b1 = 0.952
b2 = 0.952
Prawdopodobieństwo dla alpha = 0.05,

In [12]:
def pu_length_dif(sigma, b0, b1, alpha):
    x, y = generate_sample(n, b0, b1, sigma)
    b1_hat, b0_hat = b1_estim(x,y), b0_estim(x, y)
    pu_b0_k, pu_b1_k = pu_b0_known_var(sigma, alpha, x), pu_b1_known_var(sigma, alpha, x)
    pu_b0_u, pu_b1_u = pu_b0_unknown_var(alpha, x, y, b1_hat, b0_hat), pu_b1_unknown_var(alpha, x, y, b1_hat)
    return pu_b0_u - pu_b0_k, pu_b1_u - pu_b1_k

In [70]:
for alpha in alphas:
    for sigma in sigmas:
        for n in ns:
            b0_r, b1_r = pu_length_dif(sigma, b0, b1, alpha)
            print(f"Różnica długości przedziałów dla alpha = {alpha}, sigma = {sigma}, n = {n}\nb1 = {b1_r}\nb2 = {b0_r}")

Różnica długości przedziałów dla alpha = 0.01, sigma = 0.01, n = 100
b1 = 9.133151463076695e-06
b2 = 0.0005365420107292249
Różnica długości przedziałów dla alpha = 0.01, sigma = 0.01, n = 1000
b1 = 7.255120564140032e-08
b2 = 4.1960770315974377e-05
Różnica długości przedziałów dla alpha = 0.01, sigma = 0.01, n = 5000
b1 = 5.726939253091909e-09
b2 = 1.6538036028487454e-05
Różnica długości przedziałów dla alpha = 0.01, sigma = 0.5, n = 100
b1 = -0.00030352213984233267
b2 = -0.0178309075317723
Różnica długości przedziałów dla alpha = 0.01, sigma = 0.5, n = 1000
b1 = 2.1651063075726527e-06
b2 = 0.001252212526019758
Różnica długości przedziałów dla alpha = 0.01, sigma = 0.5, n = 5000
b1 = 2.805019512219007e-07
b2 = 0.0008100228011009847
Różnica długości przedziałów dla alpha = 0.01, sigma = 1, n = 100
b1 = -0.0003099880563511917
b2 = -0.01821075843634723
Różnica długości przedziałów dla alpha = 0.01, sigma = 1, n = 1000
b1 = -2.6686102459136385e-06
b2 = -0.001543419445647759
Różnica długości

W wiekszości przedziały ufności dla nieznanej wariancji są dłuższe, a więc test jest mniej dokładny

Zadanie 3

In [17]:
def mi0_estim(x,y, gamma):
    b0_hat, b1_hat = b0_estim(x,y), b1_estim(x,y)
    x_0 = np.mean(x) + gamma
    return b0_hat + b1_hat * x_0

In [18]:
def pu_mi0(x,y,gamma,alpha,sigma, b0, b1, known_var):
    n = len(x)
    x_0 = np.mean(x) + gamma
    if known_var:
        return mi0_estim(x,y,gamma) - stats.norm.ppf(1-alpha/2) * sigma * np.sqrt(1/n + (x_0 - np.mean(x))**2/np.sum((x-np.mean(x))**2)), mi0_estim(x,y,gamma) + stats.norm.ppf(1-alpha/2) * sigma * np.sqrt(1/n + (x_0 - np.mean(x))**2/np.sum((x-np.mean(x))**2))
    else:
        s_squared = np.sum((y - (b0 + b1 * x))**2) / (n - 2)
        s = np.sqrt(s_squared)
        return mi0_estim(x,y,gamma) - stats.t.ppf(1-alpha/2,n-2) * s * np.sqrt(1/n + (x_0 - np.mean(x))**2/np.sum((x-np.mean(x))**2)), mi0_estim(x,y,gamma) + stats.t.ppf(1-alpha/2,n-2) * s * np.sqrt(1/n + (x_0 - np.mean(x))**2/np.sum((x-np.mean(x))**2))

In [19]:
ns = [1000, 2000, 5000]
sigmas = [0.5,1,3]
alpha = 0.05
gammas = [1,2,3]

In [23]:
for gamma in gammas:
    for sigma in sigmas:
        for n in ns:
            x, y = generate_sample(n,b0,b1,sigma)
            ci_known = pu_mi0(x, y, gamma, alpha, sigma, b0, b1, True)
            ci_unknown = pu_mi0(x, y, gamma, alpha, sigma, b0, b1, False)
            print(f"Dla alpha = {alpha}, sigma = {sigma}, gamma = {gamma},n = {n}")
            print(f"  Przedział ufności dla znanej wariancji: {ci_known}")
            print(f"  Przedział ufności dla nieznanej wariancji: {ci_unknown}")
            print("\n")

Dla alpha = 0.05, sigma = 0.5, gamma = 1,n = 1000
  Przedział ufności dla znanej wariancji: (np.float64(1004.9580708387142), np.float64(1005.0200507130775))
  Przedział ufności dla nieznanej wariancji: (np.float64(1004.9580137386313), np.float64(1005.0201078131604))


Dla alpha = 0.05, sigma = 0.5, gamma = 1,n = 2000
  Przedział ufności dla znanej wariancji: (np.float64(2004.977786477275), np.float64(2005.0216126699775))
  Przedział ufności dla nieznanej wariancji: (np.float64(2004.9781780852004), np.float64(2005.021221062052))


Dla alpha = 0.05, sigma = 0.5, gamma = 1,n = 5000
  Przedział ufności dla znanej wariancji: (np.float64(5004.997332718394), np.float64(5005.025050801531))
  Przedział ufności dla nieznanej wariancji: (np.float64(5004.997385846928), np.float64(5005.0249976729965))


Dla alpha = 0.05, sigma = 1, gamma = 1,n = 1000
  Przedział ufności dla znanej wariancji: (np.float64(1004.934288060036), np.float64(1005.0582478087628))
  Przedział ufności dla nieznanej wariancji:

Zadanie 4

In [27]:
def prosta_regresji(x,y):
    b_1 = np.sum(x*(y-np.mean(y)))/np.sum((x-np.mean(x))**2)
    b_0 = np.mean(y) - b_1 * np.mean(x)
    return b_0, b_1

In [None]:
def generate_sample2(n, b0, b1, sigma):
    eps = np.random.normal(0, sigma, n)
    x = np.linspace(1, n+1, n)
    y = b1 * x + b0 + eps
    return x, y

In [28]:
x,y = generate_sample(1000,1,2,1)

In [31]:
x_990_smallest, y_990_smallest = x[:990], y[:990]

In [32]:
b0_r, b1_r = prosta_regresji(x_990_smallest, y_990_smallest)