In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sts
%matplotlib inline

In [3]:
file_obj = open('Weibull.csv', 'r')
date = np.array([])
for line in file_obj:
    date = np.append(date, float(line))
file_obj.close()
print date.size

3652


### $p(x) = 1 - \exp^{-x^{\gamma}} I(x \geq 0)$, где $\gamma > 0$

Функция правдоподобия $f(x) = П (1 - \exp^{-(X_{i})^{\gamma}})$ достигает своего максимума на тех же значениях , на которых функция $g(x) = \Sigma ln(1 - \exp^{-(X_{i})^{\gamma}})$ достигает максимума

In [4]:
def g(X, t):
    result = 1    
    for i in X:
        result += np.log(1 - np.exp(-(i)**t))
        
    return result

In [None]:
t = np.arange(-2, 2, 0.001)
t = 10**t
N = 4*365+1
min_id = 0
min_value = g(date[:N], t[min_id])

for i in xrange(0, t.size):
    value = g(date[:N], t[i])
    if(value < min_value):
        min_value = value
        min_id = i

print t[min_id]

0.01


In [None]:
t = np.arange(-2, 2, 0.001)
t = 10**t
N = 3652
min_id = 0
min_value = g(date[:N], t[min_id])

for i in xrange(0, t.size):
    value = g(date[:N], t[i])
    if(value < min_value):
        min_value = value
        min_id = i

print t[min_id]

Оценки методом моментов:

1) $N(\mu, \sigma^2):\ \mu\sim\bar{X},\ \sigma^2\sim s^2$

2) $\Gamma(\alpha, \lambda):\ \alpha\sim\frac{\bar{x}}{s^2},\ \lambda\sim\frac{\bar{X^2}}{s^2}$

3) $R(a, b):\ a\sim\bar{X}-\sqrt{3s^2},\ b\sim\bar{X}+\sqrt{3s^2}$

4) $Pois(\lambda):\ \lambda\sim\bar{X}$

5) $Bin(n, p):\ n\sim\frac{\bar{X}^2}{\bar{X}-s^2},\ p\sim1+\bar{X}-\frac{\bar{X^2}}{\bar{X}}$

6) $Geom(p):\ p\sim\frac{1}{\bar{X}}$

7) $Beta(\alpha, \lambda):\ \alpha\sim\frac{(1-\bar{X})(\bar{X}-\bar{X^2})}{s^2},\ \lambda\sim\frac{\bar{X}-\bar{X^2}}{s^2}$


Оценки методом максимального правдоподобия:

1) $N(\mu, \sigma^2):\ \mu\sim\bar{X},\ \sigma^2\sim s^2$

2) $\Gamma(\alpha, \lambda):\ \alpha\sim\frac{\lambda}{\bar{X}}$

3) $R(a, b):\ a\sim\ X_{(1)},\ b\sim X_{(n)}$

4) $Pois(\lambda):\ \lambda\sim\bar{X}$

5) $Bin(n, p):\ p\sim\frac{\bar{X}}{n}$

6) $Geom(p):\ p\sim\frac{1}{\bar{X}}$

7) $Pareto(2, \theta),\ p(x)=\frac{2\theta^2}{x^3}I(x>\theta):\ \theta\sim X_{(1)}$

Функции принимают на вход выборку. Возвращают масив из элементов $\bar{X}, S^{2}, X_{(1)}, X_{(n)}$ для $n\leq sample.size$ соответсвенно.

In [2]:
def X(sample):
    avrg_1 = float(sample[0])

    first = np.array([avrg_1])
    for x in xrange(1,sample.size):
        avrg_1 = (avrg_1*x + sample[x])/(x+1)
            
        first = np.append(first, avrg_1)
        
    return first

def S_2(sample):
    avrg_1 = float(sample[0])
    avrg_2 = float(sample[0])**2

    first = np.array([avrg_1])
    second = np.array([avrg_2])
    for x in xrange(1,sample.size):
        avrg_1 = (avrg_1*x + sample[x])/(x+1)
        avrg_2 = (avrg_2*x + sample[x]**2)/(x+1)
            
        first = np.append(first, avrg_1)
        second = np.append(second, avrg_2)
        
    return second - first**2

def X_first(sample):
    min_el = float(sample[0])

    third = np.array([min_el])
    for x in xrange(1,sample.size):
        if(sample[x] < min_el):
            min_el = sample[x]
            
        third = np.append(third, min_el)
        
    return third

def X_last(sample):
    max_el = sample[0]

    fourth = np.array([max_el])
    for x in xrange(1,sample.size):
        if(sample[x] > max_el):
            max_el = sample[x]
            
        fourth = np.append(fourth, max_el)
        
    return fourth

## $N(\mu, \sigma^2):\ \mu\sim\bar{X},\ \sigma^2\sim s^2\ и\ \mu\sim\bar{X},\ \sigma^2\sim s^2$

In [5]:
N = 1000
K = 1000
mu = [0, 2.0, 7.0]
sigma = [1, 0.5, 3.0]
size = 3

for x in xrange(0, size):
    # задаем распределение
    norm_rv = sts.norm(loc = mu[x], scale = sigma[x])
    # генерируем выборку размера N
    sample = norm_rv.rvs(N)
    
    # массив оценок параметра
    rating_mu = X(sample)
    rating_sigma = S_2(sample)
    
    print rating_mu, rating_sigma
    
    # итоговые бутстрепные оценки параметра
    result_mu = np.array([])
    result_sigma = np.array([])
    '''
    for y in xrange(0, N):
        # для каждой оценки задаем распределение
        bytstrep_norm_rv = sts.norm(loc = rating_mu[y], scale = rating_sigma[y])
        
        for z in xrange(0, K):
            # генерируем выбороку размера N
            bytstrep_sample = bytstrep_norm_rv.rvs(K)
            # добавляем итоговые оценки параметра
            result_mu = np.append(result_mu, np.mean(bytstrep_sample) )
            result_sigma = np.append(result_sigma, np.var(bytstrep_sample) )
    
    #выборочная оценка дисперсии оценки параметра
    var_mu = np.var(result_mu)
    var_sigma = np.var(result_sigma)
    
    print var_mu, var_sigma
    '''

[  9.84008132e-02   5.11780720e-01   6.51937351e-01   4.55197265e-01
   3.52524781e-01   4.47204389e-01   4.05212297e-01   6.40297805e-01
   7.44304733e-01   6.72699098e-01   6.10824947e-01   5.97332679e-01
   5.20421707e-01   5.06720089e-01   6.18082996e-01   6.12129856e-01
   5.03666499e-01   4.97337546e-01   4.57728407e-01   4.48937737e-01
   4.15964579e-01   3.96040997e-01   3.56360596e-01   3.72491569e-01
   3.13626371e-01   2.17032871e-01   2.05120696e-01   2.59112769e-01
   2.37298105e-01   2.09906197e-01   2.10659776e-01   2.33345788e-01
   2.19202506e-01   2.04529583e-01   1.41158625e-01   1.39131106e-01
   1.46770165e-01   1.48066610e-01   2.06427287e-01   2.03009616e-01
   1.86038384e-01   1.94074513e-01   1.87502649e-01   1.72834052e-01
   1.45265971e-01   1.67647978e-01   1.62623291e-01   1.67386190e-01
   1.76907062e-01   1.77025627e-01   1.67903537e-01   1.40639840e-01
   1.32862746e-01   1.22639703e-01   1.19801625e-01   1.15516998e-01
   1.17055486e-01   1.25470787e-01

Оценки методом моментов:

1) $N(\mu, \sigma^2):\ \mu\sim\bar{X},\ \sigma^2\sim s^2$

2) $\Gamma(\alpha, \lambda):\ \alpha\sim\frac{\bar{x}}{s^2},\ \lambda\sim\frac{\bar{X^2}}{s^2}$

3) $R(a, b):\ a\sim\bar{X}-\sqrt{3s^2},\ b\sim\bar{X}+\sqrt{3s^2}$

4) $Pois(\lambda):\ \lambda\sim\bar{X}$

5) $Bin(n, p):\ n\sim\frac{\bar{X}^2}{\bar{X}-s^2},\ p\sim1+\bar{X}-\frac{\bar{X^2}}{\bar{X}}$

6) $Geom(p):\ p\sim\frac{1}{\bar{X}}$

7) $Beta(\alpha, \lambda):\ \alpha\sim\frac{(1-\bar{X})(\bar{X}-\bar{X^2})}{s^2},\ \lambda\sim\frac{\bar{X}-\bar{X^2}}{s^2}$


Оценки методом максимального правдоподобия:

1) $N(\mu, \sigma^2):\ \mu\sim\bar{X},\ \sigma^2\sim s^2$

2) $\Gamma(\alpha, \lambda):\ \alpha\sim\frac{\lambda}{\bar{X}}$

3) $R(a, b):\ a\sim\ X_{(1)},\ b\sim X_{(n)}$

4) $Pois(\lambda):\ \lambda\sim\bar{X}$

5) $Bin(n, p):\ p\sim\frac{\bar{X}}{n}$

6) $Geom(p):\ p\sim\frac{1}{\bar{X}}$

7) $Pareto(2, \theta),\ p(x)=\frac{2\theta^2}{x^3}I(x>\theta):\ \theta\sim X_{(1)}$

## Выборка размера $N = 10000$ из $Exp(\theta)$, где $\theta = 1$

In [None]:
N = 10000
t = 1
exp_rv = sts.expon(t)
sample = exp_rv.rvs(N)

В массиве хранятся элементы, соответсвующие выборочному k-му моменту и оценке, для каждого $n\leq N$

$first \sim \bar{X^{k}}$

$result \sim \sqrt[k]{\frac{k!}{\bar{X^{k}} } }$ 

In [None]:
def f(k, sample):
    avrg = float(sample[0])**k

    first = np.array([avrg])
    for x in xrange(1,10000):
        avrg = (avrg*x + sample[x]**k)/(x+1)   
        first = np.append(first, avrg)
        
    result = ((np.prod(k))/first)**(1.0/k)
    return result

#### Построение графиков модуля разности оценки и $\theta$

In [None]:
x = np.linspace(0, N, N)
plt.plot(x, np.abs(f(1, sample) - t), label = '$k = 1$')
plt.plot(x, np.abs(f(2, sample) - t), label = '$k = 2$')
plt.plot(x, np.abs(f(5, sample) - t), label = '$k = 5$')
plt.plot(x, np.abs(f(10, sample) - t), label = '$k = 10$')
plt.plot(x, np.abs(f(20, sample) - t), label = '$k = 20$')
plt.plot(x, np.abs(f(50, sample) - t), label = '$k = 50$')
plt.plot(x, np.abs(f(100, sample) - t), label = '$k = 100$')
plt.plot(x, np.abs(f(200, sample) - t), label = '$k = 200$')
plt.plot(x, np.abs(f(300, sample) - t), label = '$k = 300$')
plt.plot(x, np.abs(f(400, sample) - t), label = '$k = 400$')
plt.plot(x, np.abs(f(500, sample) - t), label = '$k = 500$')
plt.ylabel('$|\hat{\\theta} - \\theta|$')
plt.xlabel('$n$')
plt.legend()
plt.show()

In [None]:
x = np.linspace(0, N, N)
plt.plot(x, np.abs(f(1, sample) - t), label = '$k = 1$')
plt.plot(x, np.abs(f(2, sample) - t), label = '$k = 2$')
plt.plot(x, np.abs(f(3, sample) - t), label = '$k = 3$')
plt.plot(x, np.abs(f(4, sample) - t), label = '$k = 4$')
plt.plot(x, np.abs(f(5, sample) - t), label = '$k = 5$')
plt.plot(x, np.abs(f(10, sample) - t), label = '$k = 10$')
plt.plot(x, np.abs(f(20, sample) - t), label = '$k = 20$')
plt.ylabel('$|\hat{\\theta} - \\theta|$')
plt.xlabel('$n$')
plt.legend()
plt.show()

In [None]:
x = np.linspace(0, N, N)
plt.plot(x, np.abs(f(20, sample) - t), label = '$k = 20$')
plt.plot(x, np.abs(f(50, sample) - t), label = '$k = 50$')
plt.plot(x, np.abs(f(100, sample) - t), label = '$k = 100$')
plt.plot(x, np.abs(f(200, sample) - t), label = '$k = 200$')
plt.plot(x, np.abs(f(300, sample) - t), label = '$k = 300$')
plt.plot(x, np.abs(f(400, sample) - t), label = '$k = 400$')
plt.plot(x, np.abs(f(500, sample) - t), label = '$k = 500$')
plt.ylabel('$|\hat{\\theta} - \\theta|$')
plt.xlabel('$n$')
plt.legend()
plt.show()

# Вывод

Лучше всего приближает значение параметра $\theta$ оценка при $k = 2$. С ростом k оценка ухудшается, но отклонение не превышает 1.