In [1]:
# 単純無作為抽出法

# 「母集団」からその一部である「標本」をとりだすことを「標本抽出」あるいは「サンプリング」、
# そのような調査を「標本調査」とよぶ。また母集団を構成する最小構成単位を調査単位、
# 標本として取り出される単位を抽出単位とよぶ
# 「無作為抽出」は母集団のすべての抽出単位に対して、それが標本に選ばれる確率を
# あらかじめ定めてから標本抽出する方法である
# どの抽出単位をとるかを決める場合には乱数を用いる場合が多い。特に調査単位そのものが抽出単位で、
# しかも抽出全体を通じて母集団の各抽出単位の選ばれる確率が等しい抽出法を「単純無作為抽出法」という
# なお、調査を行う側の主観や意図が入る方法を、無作為抽出法と対比させて「有意抽出法」または「有意選出法」とよぶ
# 大きさNの母集団から大きさnの標本を非復元単純無作為抽出する。「非復元抽出」は、同じ抽出単位を
# 2回以上抽出しない方法である。その変量の値をxi(i=1,..,n)として、母平均μの推定を例にして考える。
# 推定量として標本平均 x_bar = 1/n*Σxi を用いるとき、その期待値はE[x_bar]=μ、
# 分散は V[x_bar] = (N-n)/(N-1)*1/n*σ**2 である
# ここでσ**2は母分散であり、(N-n)/(N-1)は「有限修正」項とよばれる
# 母集団が無限母集団の場合や、有限母集団でも標本が「復元抽出」される場合には、
# 標本平均の分散は有限修正項を除いて V[X_bar] = σ**2/n となる

# 非復元抽出を実装
import random
import statistics

# 母集団データ
l = [0, 1, 2, 3, 4]

# ランダムに3標本を非復元抽出。抽出単位の重複なし
print(f"サンプル:{random.sample(l,3)}")

# この時の期待値と分散
E_x = statistics.mean(random.sample(l,3))
V_x = (len(l)-len(random.sample(l,3))) / (len(l)-1) * 1 / len(random.sample(l,3)) * statistics.pvariance(l)
print(f"期待値:{E_x:.3f}, 分散:{V_x:.3f}")

サンプル:[3, 0, 1]
期待値:3.000, 分散:0.333


In [2]:
# さまざまな標本抽出法

# 母集団が大きい場合には、単純無作為抽出よりも調査がしやすい抽出法を用いることがある。
# また推定の精度をより高めるためにも、さまざまな抽出法が用いられることがある。

# 母集団をあらかじめ「集落」または「クラスター」とよばれるグループに分けておき、
# その中からいくつかの集落を抽出単位として取り出し、集落に含まれるすべての調査単位を調査する方法を
# 「集落抽出法」とよぶ。調査は容易だが、どの集落を標本として選定するかにより結果が大きく変わってしまう欠点がある。

# 母集団をあらかじめ「第1次抽出単位」とよばれるグループに分けておき、そのなかからいくつかを抽出する。
# 抽出された第一次抽出単位それぞれから、より小さい単位の「第2次抽出単位」である調査単位を抽出する。
# このような方法は「二段抽出法」とよばれる。抽出された第2次抽出単位からさらに第3次抽出単位、第4次抽出単位、..と
# 抽出する方法もあり「多段抽出法」とよばれる

# 母集団をあらかじめ「層」とよばれるグループに分けておき、すべての層から決められた大きさの調査単位を
# 抽出する方法は「層化抽出法」とよばれる。集落抽出法、二段抽出法と比較すると、母集団全体から
# 偏りなく抽出することができる。母集団の平均や比率を推定する場合には、層内はできるだけ均質に、
# 異なる層はできるだけ異質にするのがよい層の作り方とされる。

# 母集団の調査単位がまとめられたリストがある場合、リスト上で等間隔に選んでいくような方法は
# 「系統的抽出法」あるいは「系統抽出法」とよばれる。無作為抽出法のように乱数を用いる必要がなく、
# 母集団全体からある程度偏りなく標本を抽出することが可能である

In [4]:
# 層化抽出法

# 大きさNの母集団があらかじめL個の層に分けられており、各層の大きさがNh(h=1,2,..,L)とする。
# 層hからほかの層とは独立に大きさnhの標本を非復元無作為抽出して、得られた変量の値をxhi(i=1,2,..,nh)とする。
# このような標本抽出法は「層化(非復元)無作為抽出法」とよばれる
# 各層から抽出する標本の大きさの決め方を「標本配分法」という。
# 代表的な3つの標本配分法について以下で実装する

# サンプルデータの作成
import pandas as pd
import numpy as np
import random

name_list=['A','B','C','D']
sample_df=pd.DataFrame({'name':random.choices(name_list,k=10000),
                'score':np.random.randint(55,86,10000)})
sample_df.head()

Unnamed: 0,name,score
0,D,68
1,C,65
2,D,71
3,C,61
4,A,55


In [6]:
# 各層の標本の大きさnkが母集団の各層の大きさNnに比例する標本配分法を「比例配分法」とよぶ
# 層hから抽出する標本の大きさはnk=(Nh/N)*nとなる。
all_count = len(sample_df)
a_count = len(sample_df.loc[sample_df["name"]=="A"])
b_count = len(sample_df.loc[sample_df["name"]=="B"])
c_count = len(sample_df.loc[sample_df["name"]=="C"])
d_count = len(sample_df.loc[sample_df["name"]=="D"])
print(f"all:{all_count}, A:{a_count}, B:{b_count}, C:{c_count}, D:{d_count}")

sample_all_count = 2000
a_sample_count = int(a_count / all_count * sample_all_count)
b_sample_count = int(b_count / all_count * sample_all_count)
c_sample_count = int(c_count / all_count * sample_all_count)
d_sample_count = int(d_count / all_count * sample_all_count)
print(f"Aの標本数:{a_sample_count}")
print(f"Bの標本数:{b_sample_count}")
print(f"Cの標本数:{c_sample_count}")
print(f"Dの標本数:{d_sample_count}")

all:10000, A:2501, B:2494, C:2529, D:2476
Aの標本数:500
Bの標本数:498
Cの標本数:505
Dの標本数:495


In [7]:
# 各層の標本の大きさがすべて等しい、すなわちn1=...=nL=n/Lとする標本配分法を「等配分法」とよぶ
# 母集団の各層の大きさが大きく異なる場合には、推定量の分散が単純無作為抽出の標本平均の分散よりも大きくなることもあるが、
# たとえば各層の母平均の推定においても精度を保ちたい場合などには有効な配分法である。

a_sample_count = 500
b_sample_count = 500
c_sample_count = 500
d_sample_count = 500
print(f"Aの標本数:{a_sample_count}")
print(f"Bの標本数:{b_sample_count}")
print(f"Cの標本数:{c_sample_count}")
print(f"Dの標本数:{d_sample_count}")

Aの標本数:500
Bの標本数:500
Cの標本数:500
Dの標本数:500


In [8]:
# 推定量の分散を最小にするような標本配分法を「ネイマン配分法」または「最適配分法」とよぶ
# 母集団において大きい層から大きい標本を抽出するのが比例配分法であるが、それに加えて、散らばりの
# 大きい層からも大きい標本を抽出するのがネイマン配分法である。

import math

a_std = sample_df.loc[sample_df["name"]=="A","score"].std()
b_std = sample_df.loc[sample_df["name"]=="B","score"].std()
c_std = sample_df.loc[sample_df["name"]=="C","score"].std()
d_std = sample_df.loc[sample_df["name"]=="D","score"].std()

sample_all_count = 2000
a_sample_count = int((a_count*a_std*math.sqrt(a_count/(a_count-1))) / (all_count*a_std*math.sqrt(a_count/(a_count-1))) * sample_all_count)
b_sample_count = int((b_count*a_std*math.sqrt(b_count/(b_count-1))) / (all_count*b_std*math.sqrt(b_count/(b_count-1))) * sample_all_count)
c_sample_count = int((c_count*a_std*math.sqrt(c_count/(c_count-1))) / (all_count*c_std*math.sqrt(c_count/(c_count-1))) * sample_all_count)
d_sample_count = int((d_count*a_std*math.sqrt(d_count/(d_count-1))) / (all_count*d_std*math.sqrt(d_count/(d_count-1))) * sample_all_count)
print(f"Aの標本数:{a_sample_count}")
print(f"Bの標本数:{b_sample_count}")
print(f"Cの標本数:{c_sample_count}")
print(f"Dの標本数:{d_sample_count}")

Aの標本数:500
Bの標本数:501
Cの標本数:519
Dの標本数:498
