In [1]:
# 標本調査とは
# 母集団からその一部である標本を取り出すことを標本抽出(サンプリング)という
# また、そのような調査を標本調査という

In [7]:
# 無作為抽出法とは
# 母集団の全ての抽出単位について、それが標本に選ばれる確率をあらかじめ定めてから標本抽出する方法

import random

# 母集団データ
l = [0, 1, 2, 3, 4]

# ランダムに3標本を抽出。抽出単位の重複あり
print(random.choice(l), random.choice(l), random.choice(l))


4 0 0


In [13]:
# 非復元抽出とは
# 同じ抽出単位を2回以上抽出しない方法

import random
import statistics

# 母集団データ
l = [0, 1, 2, 3, 4]

# ランダムに3標本を非復元抽出。抽出単位の重複なし
print(random.sample(l,3))

# この時の期待値と分散
E_x = statistics.mean(random.sample(l,3))
V_x = (len(l)-len(random.sample(l,3))) / (len(l)-1) * 1 / len(random.sample(l,3)) * statistics.pvariance(l)
print("期待値:{:.3f}, 分散:{:.3f}".format(E_x, V_x))

# 分散を求める際の (N-n)/(N-1)は「有限修正項」と呼ばれる
# 復元抽出の場合は不要

[4, 1, 0]
期待値:2.000, 分散:0.333


In [22]:
# 層化抽出法について
# 母集団をあらかじめ層と呼ばれるグループに分けておき、全ての層から決められた調査単位を抽出する方法
# 非復元無作為抽出する場合の層化抽出法のことを「層化無作為抽出法」という

# 標本配分法について
# 各層から抽出する標本の大きさの決め方を「標本配分法」という
# 代表的な3つの手法について以下で実装する

import pandas as pd
import numpy as np
import random

# サンプルデータの作成
name_list=['A','B','C','D']
sample_df=pd.DataFrame({'name':random.choices(name_list,k=10000),
                'score':np.random.randint(55,86,10000)})
sample_df.head()


Unnamed: 0,name,score
0,A,83
1,B,67
2,C,57
3,B,84
4,D,61


In [23]:
# 比例配分法：各層の標本の大きさが母集団の各層の大きさに比例する標本配分法
all_count = len(sample_df)
a_count = len(sample_df.loc[sample_df["name"]=="A"])
b_count = len(sample_df.loc[sample_df["name"]=="B"])
c_count = len(sample_df.loc[sample_df["name"]=="C"])
d_count = len(sample_df.loc[sample_df["name"]=="D"])
print("all:{}, A:{}, B:{}, C:{}, D:{}".format(all_count, a_count, b_count, c_count, d_count))

sample_all_count = 2000
a_sample_count = int(a_count / all_count * sample_all_count)
b_sample_count = int(b_count / all_count * sample_all_count)
c_sample_count = int(c_count / all_count * sample_all_count)
d_sample_count = int(d_count / all_count * sample_all_count)
print("Aの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="A"].sample(n=a_sample_count))))
print("Bの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="B"].sample(n=b_sample_count))))
print("Cの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="C"].sample(n=c_sample_count))))
print("Dの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="D"].sample(n=d_sample_count))))

all:10000, A:2580, B:2406, C:2484, D:2530
Aの標本数:516
Bの標本数:481
Cの標本数:496
Dの標本数:506


In [24]:
# 等配分法：各層の標本の大きさが全て等しい標本配分法

a_sample_count = 500
b_sample_count = 500
c_sample_count = 500
d_sample_count = 500
print("Aの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="A"].sample(n=a_sample_count))))
print("Bの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="B"].sample(n=b_sample_count))))
print("Cの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="C"].sample(n=c_sample_count))))
print("Dの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="D"].sample(n=d_sample_count))))

Aの標本数:500
Bの標本数:500
Cの標本数:500
Dの標本数:500


In [32]:
# ネイマン配分法(最適配分法)：層別の標準偏差に注目し比例配分する標本配分法
# サイズの大きい層 + 散らばりの大きい層から大きい標本を抽出し、推定量の分散を最小にする。

import math

a_std = sample_df.loc[sample_df["name"]=="A","score"].std()
b_std = sample_df.loc[sample_df["name"]=="B","score"].std()
c_std = sample_df.loc[sample_df["name"]=="C","score"].std()
d_std = sample_df.loc[sample_df["name"]=="D","score"].std()

sample_all_count = 2000
a_sample_count = int((a_count*a_std*math.sqrt(a_count/(a_count-1))) / (all_count*a_std*math.sqrt(a_count/(a_count-1))) * sample_all_count)
b_sample_count = int((b_count*a_std*math.sqrt(b_count/(b_count-1))) / (all_count*b_std*math.sqrt(b_count/(b_count-1))) * sample_all_count)
c_sample_count = int((c_count*a_std*math.sqrt(c_count/(c_count-1))) / (all_count*c_std*math.sqrt(c_count/(c_count-1))) * sample_all_count)
d_sample_count = int((d_count*a_std*math.sqrt(d_count/(d_count-1))) / (all_count*d_std*math.sqrt(d_count/(d_count-1))) * sample_all_count)
print("Aの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="A"].sample(n=a_sample_count))))
print("Bの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="B"].sample(n=b_sample_count))))
print("Cの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="C"].sample(n=c_sample_count))))
print("Dの標本数:{}".format(len(sample_df.loc[sample_df["name"]=="D"].sample(n=d_sample_count))))

Aの標本数:516
Bの標本数:487
Cの標本数:499
Dの標本数:507
