## Случайная выборка (simple random sample)  
Случайный набор объектов из генеральной совокупности.

In [1]:
sampling_frame = list(range(0, 30))

SIZE = 6

In [2]:
import random as rm

sample = rm.sample(sampling_frame, SIZE)
print(sample)

[9, 17, 16, 14, 1, 8]


In [3]:
import numpy as np

sample = np.random.choice(sampling_frame, size=SIZE)
print(sample)

[26  4  4 11 19  4]


In [4]:
import pandas as pd

sampling_data_frame = pd.read_csv('./data/weight-height.csv')
print(len(sampling_data_frame))

sample = sampling_data_frame.sample(SIZE)
print(sample)

10000
      Gender     Height      Weight
4791    Male  66.183575  180.112060
680     Male  68.608208  181.724837
2249    Male  67.672653  169.810675
4925    Male  69.388732  194.230428
7833  Female  67.714481  147.672830
8066  Female  65.518311  162.048231


## Стратифицированная выборка (stratified sample)  
Перед тем как случайным образом отобрать объекты из генеральной совокупности, разбиваем её на несколько страт (групп). Потом уже из этих групп случайно набираем по N объектов.

In [5]:
sample = sampling_data_frame.groupby('Gender', group_keys=False).apply(lambda x: x.sample(min(len(x), SIZE)))

print(sample)

      Gender     Height      Weight
9836  Female  64.895819  158.212861
7296  Female  67.434864  170.955041
8080  Female  69.156942  161.114171
6933  Female  62.311533  136.236833
9433  Female  69.300428  185.187970
6788  Female  65.240941  155.400046
4162    Male  69.701668  197.350489
3807    Male  67.745804  197.923248
436     Male  73.181044  213.847453
4359    Male  71.789780  207.493691
3025    Male  74.319890  210.041703
4095    Male  73.749537  197.605875


In [6]:
from sklearn.model_selection import train_test_split
y = sampling_data_frame.get('Gender')

train, test = train_test_split(sampling_data_frame, test_size=0.2, stratify=y, random_state=1)

print('Test len:', len(test))
print(test.groupby('Gender', group_keys=False).size())

Test len: 2000
Gender
Female    1000
Male      1000
dtype: int64


## Групповая выборка (cluster sample)  
Сначала делим генеральную совокупность на кластеры, только считаем, что они между собой схожи. Потом случайно набираем объекты только из одного кластера для исследования.

In [7]:
SIZE = 100

data = {'Product': np.random.choice(['ABC', 'BCA', 'CAB'], size=SIZE),
          'Price': np.random.randint(100, 130, size=SIZE),
       'Discount': np.random.choice(['True', 'False'], size=SIZE)}

sampling_data_frame = pd.DataFrame(data, columns = ['Product', 'Price', 'Discount'])

sample = sampling_data_frame.groupby('Product', group_keys=False).get_group('BCA').sample(6)

print(sample)

   Product  Price Discount
82     BCA    118    False
63     BCA    122    False
43     BCA    102     True
50     BCA    129    False
51     BCA    121     True
93     BCA    114    False
