# Stratified Sampling

Stratified sampling is a sampling method that involves dividing a population into subgroups, or strata, based on a shared characteristic. After dividing the population, researchers randomly sample each subgroup using a probability sampling method.

In a proportional stratified sample, the size of each stratum in the sample is proportionate to the size of the stratum in the population. In a disproportional stratified sample, the size of each stratum is not proportional to its size in the population.

In [1]:
import pandas as pd

Data: 美容所一覧

Source:
https://catalog.data.metro.tokyo.lg.jp/dataset/t131032d0000000232/resource/ad9167d0-985a-4319-be3c-fbc7339636e1

In [2]:
df = pd.read_csv('./data/minato-biyou.csv')
print(df.shape)
df.head(10)

(1596, 6)


Unnamed: 0,施設名称,施設郵便番号,施設所在地,施設方書,確認日,確認番号
0,ＴＫビューティ　サロン,107-0052,東京都港区赤坂一丁目6番14号,赤坂協和ビル 2階,2003/8/8,15港み生環き第72号
1,にっぽん丸　スパ＆サロン（船舶）,107-0052,東京都港区赤坂一丁目9番13号,三会堂ビル 5階(本社所在地),2010/3/12,21港み生環き第155号
2,ＡＮＡインターコンチネンタルホテル東京　ヤマノビューティウエルネスサロン,107-0052,東京都港区赤坂一丁目12番33号,東京全日空ホテル 1階,2003/9/17,15港み生環き第82号
3,ＡＫａＳａＫａ　ｓａｌｏｎ,107-0052,東京都港区赤坂二丁目8番13号,赤坂こうゆうビル902,2020/9/16,2港み生環き第124号
4,Ｅ∞Ａｉｌｅｓ,107-0052,東京都港区赤坂二丁目8番13号,赤坂こうゆうビル702,2020/10/1,2港み生環き第131号
5,Ｋｕｕオーガニックヘナシロダーラ,107-0052,東京都港区赤坂二丁目8番13号,赤坂こうゆうビル603,2023/2/28,4港み生環き第211号
6,Ｈａｉｒ　＆　Ｍａｋｅｕｐ　Ｓａｌｏｎ　Ｅ∞Ａｉｌｅｓ,107-0052,東京都港区赤坂二丁目8番13号,赤坂こうゆうビル701,2023/3/30,4港み生環き第232号
7,Ｌｅｐｕｓ,107-0052,東京都港区赤坂二丁目8番16号,赤坂光和ビル地下1階,2021/3/1,2港み生環き第200号
8,ＰＡＺＺＯ　（パッゾォ）,107-0052,東京都港区赤坂二丁目10番16号,赤坂スクアエビル2A,2023/3/3,4港み生環き第191号
9,美容室カイザーリン,107-0052,東京都港区赤坂二丁目12番12号,赤坂フローラビル 5階,1996/12/2,8港赤総衛環き第18号


In [3]:
df['施設郵便番号'].value_counts()

施設郵便番号
107-0062     508
107-0061     205
106-0032     138
106-0045     135
107-0052     112
108-0071      66
106-0047      51
108-0074      50
106-0031      42
105-0004      36
108-0072      34
108-0014      29
108-0073      27
108-0023      23
106-0044      23
106-0046      18
105-0013      17
105-0001      13
105-0012      10
105-0021       9
108-0075       9
105-0003       8
105-0014       8
105-0022       8
106-0041       5
135-0091       4
105-0011       4
105-0023       2
107-0051       1
Ver202303      1
Name: count, dtype: int64

In [4]:
value_counts = df['施設郵便番号'].value_counts()

too_small = set()

for name, count in value_counts.items():
  if count < 15:
    too_small.add(name)

too_small

{'105-0001',
 '105-0003',
 '105-0011',
 '105-0012',
 '105-0014',
 '105-0021',
 '105-0022',
 '105-0023',
 '106-0041',
 '107-0051',
 '108-0075',
 '135-0091',
 'Ver202303'}

In [5]:
df_filtered = df[~df['施設郵便番号'].isin(too_small)]
print(df.shape)
print(df_filtered.shape)

(1596, 6)
(1514, 6)


In [12]:
sample = df_filtered.groupby('施設郵便番号', group_keys=False).apply(lambda x: x.sample(10))
sample['施設郵便番号'].value_counts()

施設郵便番号
105-0004    10
107-0061    10
108-0073    10
108-0072    10
108-0071    10
108-0023    10
108-0014    10
107-0062    10
107-0052    10
105-0013    10
106-0047    10
106-0046    10
106-0045    10
106-0044    10
106-0032    10
106-0031    10
108-0074    10
Name: count, dtype: int64

In [14]:
sample = df_filtered.groupby('施設郵便番号', group_keys=False).apply(lambda x: x.sample(frac=0.1))
sample['施設郵便番号'].value_counts()

施設郵便番号
107-0062    51
107-0061    20
106-0032    14
106-0045    14
107-0052    11
108-0071     7
106-0047     5
108-0074     5
106-0031     4
105-0004     4
108-0014     3
108-0072     3
108-0073     3
105-0013     2
106-0046     2
106-0044     2
108-0023     2
Name: count, dtype: int64