# 抽樣(Sampling)

## 簡單抽樣

In [1]:
import random 
import numpy as np

# 1~10 的集合
list1 = list(np.arange(1, 10 + 1))
   
# 隨機抽出 5 個
print(random.sample(list1, 5))  

[5, 6, 4, 7, 3]


## 放回抽樣(Sampling With Replacement)

In [2]:
import random 
import numpy as np

# 1~10 的集合
list1 = list(np.arange(1, 10 + 1))
   
# 隨機抽出 5 個
print(random.choices(list1, k=5))  

[10, 3, 10, 8, 10]


## Pandas 抽樣

In [3]:
from sklearn import datasets
import pandas as pd

# 載入鳶尾花(iris)資料集
ds = datasets.load_iris()

# x, y 合成一個資料集
df = pd.DataFrame(data=ds.data, columns=ds.feature_names)
df['y'] = ds.target
   
# 隨機抽出 5 個
df.sample(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),y
78,6.0,2.9,4.5,1.5,1
76,6.8,2.8,4.8,1.4,1
2,4.7,3.2,1.3,0.2,0
86,6.7,3.1,4.7,1.5,1
115,6.4,3.2,5.3,2.3,2


## Pandas 分層抽樣

In [4]:
from sklearn import datasets
from sklearn.model_selection import StratifiedShuffleSplit
import pandas as pd

# 載入鳶尾花(iris)資料集
ds = datasets.load_iris()

# x, y 合成一個資料集
df = pd.DataFrame(data=ds.data, columns=ds.feature_names)
df['y'] = ds.target

# 隨機抽出 6 個
stratified = StratifiedShuffleSplit(n_splits=1, test_size=6)
x = list(stratified.split(df, df['y']))

print('重新洗牌的全部資料:')
print(x[0][0])

print('\n抽出的索引值:')
print(x[0][1])

重新洗牌的全部資料:
[104  86  81  80  49 148  89 133  72 118 142 117   8  22 107 100 101   4
   0  43  13 123  48  65   6  20  92  10 125 147 130 115  19  59  79 114
   5  90  67 132  54  26  63  68  78 136  75  55 129  15  41 102  24 113
  84  88  30 121 137   1  85  87  76 111  21  51  38  36 135 131   9  82
  83 146  71  64 149 128 134  66  56  16   3  94  73  97 124  32 106  47
  37  27  11  91  99  61  18 144 112 116  12  34  42  95  96  50  69 119
  28   2  44 110  39  45 109 103  60  14  52  98  29  25 138  35 140 127
 122  58 120  77 139  31  70 141 143  17  57 108  46  23  62  93  33 126]

抽出的索引值:
[105   7  74  40  53 145]


In [5]:
print('\n抽出的資料:')
df.iloc[x[0][1]]


抽出的資料:


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),y
105,7.6,3.0,6.6,2.1,2
7,5.0,3.4,1.5,0.2,0
74,6.4,2.9,4.3,1.3,1
40,5.0,3.5,1.3,0.3,0
53,5.5,2.3,4.0,1.3,1
145,6.7,3.0,5.2,2.3,2


In [6]:
df['y'].value_counts()

y
0    50
1    50
2    50
Name: count, dtype: int64

## Pandas 不分層抽樣

In [7]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
import pandas as pd

# 載入鳶尾花(iris)資料集
ds = datasets.load_iris()

# x, y 合成一個資料集
df = pd.DataFrame(data=ds.data, columns=ds.feature_names)
df['y'] = ds.target

# 隨機抽出 6 個
train, test = train_test_split(df, test_size=6)
x = list(stratified.split(df, df['y']))

print('\n抽出的資料:')
print(test)


抽出的資料:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
63                 6.1               2.9                4.7               1.4   
50                 7.0               3.2                4.7               1.4   
10                 5.4               3.7                1.5               0.2   
115                6.4               3.2                5.3               2.3   
92                 5.8               2.6                4.0               1.2   
91                 6.1               3.0                4.6               1.4   

     y  
63   1  
50   1  
10   0  
115  2  
92   1  
91   1  
