## 区間推定に関して

推測統計  
→統計学において最も重要な  
→推定と検定がある。  
→二つの背後にある母集団の平均が同じか、母集団は正規分布なのか？といったこと  
→区間推定と点推定がある、基本的には区間推定を使用して母集団や平均などを推定する事が多い。  

### 比率の区間推定に関して
標本の比率の値から母集団の比率の値を推定する。  
→選挙速報・内閣支持率・視聴率などがある。  
→基本的に区間推定を行う場合は信頼区間を定める。例えば95％の信頼区間で母比率は0.5~0.7であるみたいな感じ  
→信頼区間の捉え方に注意が必要である。９５％の信頼区間ということは100回に５回はその信頼区間は間違っているよというニュアンス。  

・どのようにして区間推定を行っていくのか？？  
標本推定量の標本分布を使用する。（比率の推定の場合は標本比率）  
比率の標本分布は二項分布から考える事ができる。  
→二項分布の特徴としてn（試行回数）が十分大きい時、正規分布（平均np,分散npq）に近似する事ができる。  
このことから、比率の標本分布が従う分布は、平均p、分散pq/n（このp,qは母集団の確率のことを表している。nはサンプルの個数）の「正規分布」となる！（参考文献：https://www.mathema.jp/wp-content/uploads/2019/08/P170-184.pdf）  
  
以下比率の区間推定の手順  
1.標本を無作為抽出する。  
2.標本から推定量(標本比率)を計算する。  
3.信頼区間を設定する。(ビジネスだと基本的には95%を設定)  
4.推定量の標本分布を求める。  
例：標本比率x/nの標本分布はnが十分大きい時平均p、分散pq/nの正規分布に近似できる。（ここでいるp,qは母集団の比率を表す。nは標本数、xはある指標の数(支持数、視聴数など)）  
5.信頼区間の値を標本分布から算出  


区間推定のざっくりとした理解  
→例えば母比率を推定したい時を考える。まず標本から標本比率を計算した結果、０.6という値が得られたとする。この０.6という値がどれくらいの確率で得られるのかを考える。  
→その際に必要なのが、この標本比率の分布！　この標本比率の分布がわかっていた場合、いま得られた標本比率が０.６だったのでこの０.6がどのくらいの確率で得られるのかがまずはわかってくる。  
→これがわかることによって算出された標本比率がどこくらいの確率で発生するのかがわかり、それを元に母比率の区間推定を行う事ができる。  
→よってこのサンプルから算出された標本比率を確率変数として捉える事ができる。  
注意！    
このまま標本比率を使用してゴリゴリ計算していくのも可能であるが、それだと９５％の領域を求める事が難しくなってしまう。  
→そのため基本的には標本比率を標準化して、そこから推定を行っていく。（z=(x/n - p)/√pq/n）  
→標準正規分布の95%のエリアは-1.96<z<1.96の値になる。  


### 平均値の区間推定
不偏分散を使用した場合はt分布を使用する！！  
母分散を使用した場合は標準正規分布を使用する！  

標本の平均値から母集団の平均値を推定する。  
→平均の標本分布は平均μ、標準偏差は√σ^2/nになる（注意！！！これは必ずしも正規分布とは限らないので注意が必要）  

平均の標本はどのような分布に従っているのか？？  
結論：母集団が正規分布である場合は平均の標本分布も正規分布になる！  

では母集団が正規分布じゃなかったらどうするのか？？（年収の分布とか）  
→サンプルをたくさん持ってくる！！！！！（どのくらいのサンプル数が正しいとかはないが最低でも５つのサンプルは必要になってくる。）  
なぜなら標本のサイズが大きければ、平均の標本分布は正規分布に近似する事ができる。（中心極限定理）  
→つまり母集団がどのような分布であったとしても、標本のサイズが大きければ平均の標本分布は正規分布に近似する事ができる。  
平均の標本に関しても標準化を行なって分析を行なっていく。  

標準化するときに母集団の分散が必要だがわからない場合はどうするのか？？  
結論：不偏分散を使用する！  
→標準化するときに母分散が必要であったが、それがわからない。  
→それに対しては標本から不偏分散を算出する事ができるのでそれを使用して推定を行う。  
→注意！！ここで母分散の代わりに不偏分散をしているので標本の平均値の分布が標準正規分布とは少し異なった形になる！(t分布の形になる！)ただしサンプルが大きい場合は標準正規分布に近似する事が可能  

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
df = sns.load_dataset("tips")
df["tip_rate"] = df["tip"] / df["total_bill"]


## 比率の区間推定

stats.binom.interval(alpha,n,p)  
alpha：信頼区間(95%だったら0.95)  
n：標本の大きさ（サンプル数）  
p：標本比率  

計算結果の解釈  
今１０００人のサンプルから、標本比率は0.6が得られた。  
計算した値が(570.0, 630.0)と出てきたので  
95%の信頼区間において1000人中570~630が得られるだろうと解釈する事ができる。  
よって、母比率の95%の信頼区間は0.57~0.63となる。  

In [5]:
stats.binom.interval(.95,1000,0.6)

(570.0, 630.0)

練習  
50個の標本比率から母比率を区間推定する。  
何回正しく推定できているのかを確認する。  

今回は、男性の割合がどのくらいなのかを区間推定する。  

In [18]:
df["sex"].describe()
# 以下の情報から今回の母比率（男性の割合）は0.643となる

count      244
unique       2
top       Male
freq       157
Name: sex, dtype: object

In [19]:
# 母比率
157/244

0.6434426229508197

In [40]:
# 95%の信頼区間で行なった結果100回に5回ぐらいの確率で間違えるのか一応検証
column = "sex"
subject = "Male"
n = 50 #サンプル数
population_rate = df[df[column] == subject][column].count() / df[column].count() #母比率
success_count = 0 #区間推定成功数

for i in range(100):
    column_data = df[column].sample(n)
    subject_count = column_data[column_data == subject].count()
    sample_rate = subject_count / n
    # 区間推定
    population_astimate = stats.binom.interval(.95,n,sample_rate)
    if population_astimate[0] / n < population_rate and population_astimate[1] / n > population_rate:
        # print("区間推定が成功しています。")
        success_count += 1
    else:
        print(f'区間推定が失敗しています。:{population_astimate} , 母比率:{population_rate}')

print("区間推定最終結果")
print(success_count/100)
"""
以下の結果として0.96の確率で区間推定が成功している。
"""

区間推定が失敗しています。:(33.0, 44.0) , 母比率:0.6434426229508197
区間推定が失敗しています。:(18.0, 32.0) , 母比率:0.6434426229508197
区間推定が失敗しています。:(33.0, 44.0) , 母比率:0.6434426229508197
区間推定が失敗しています。:(18.0, 32.0) , 母比率:0.6434426229508197
区間推定最終結果
0.96


##  平均の区間推定  

### 標準正規分布の場合（本来は不偏分散を使用する場合はt分布に従うため、分析を行う際はt分布を使用して分析を行っていく必要がある。）  
stats.norm.interval(alpha,n,p)  
alpha：信頼区間(95%だったら0.95)  
loc：標本平均  
scale：標本分布の標準偏差（　注意：√不偏分散/nの値を入れるのでそこに注意）  

###  t分布に関して  
stats.norm.interval(alpha,n,p,df)  
alpha：信頼区間(95%だったら0.95)  
loc：標本平均  
scale：標本分布の標準偏差（　注意：√不偏分散/nの値を入れるのでそこに注意）  
df:自由度(n-1)  

In [63]:
# 95%の信頼区間で行なった結果100回に5回ぐらいの確率で間違えるのか一応検証
column = "tip"
n = 50 #サンプル数
population_rate = df[column].mean()#母平均
success_count = 0 #区間推定成功数

m = 100#試行回数

for _ in range(m):
    sample_data = df[column].sample(n)
    sample_mean = sample_data.mean()# 標本平均
    sample_var = stats.tvar(sample_data)# 不偏分散)
    # 区間推定
    population_estimate = stats.norm.interval(.95,sample_mean,np.sqrt(sample_var/n))
    if population_estimate[0] < population_rate  < population_estimate[1]:
        # print("区間推定が成功しています。")
        success_count += 1
    else:
        print(f'区間推定が失敗しています。:{population_astimate} , 母平均:{population_rate}')

print("区間推定最終結果")
print(success_count/m)

区間推定が失敗しています。:(30.0, 42.0) , 母平均:2.9982786885245902
区間推定が失敗しています。:(30.0, 42.0) , 母平均:2.9982786885245902
区間推定が失敗しています。:(30.0, 42.0) , 母平均:2.9982786885245902
区間推定が失敗しています。:(30.0, 42.0) , 母平均:2.9982786885245902
区間推定最終結果
0.96


In [71]:
# t分布での区間推定
column = "tip"
n = 50
population_mean = df[column].mean()

sample_df = df.sample(n)
sample_mean = sample_df[column].mean()
sample_var = stats.tvar(sample_df[column])
min_val_t , max_val_t = stats.t.interval(.95 , loc=sample_mean , scale=np.sqrt(sample_var/n) , df=n-1)

In [72]:
min_val_t

2.6565406033379246

In [73]:
max_val_t

3.4694593966620757