# 3-1
표본 추출 방법
- Random
- 계통 추출
- 집락 추출
- 층화 추출

| **추출법**                         | **정의**                                                                                  | **장점**                                                                 | **단점**                                                                      | **적용 상황**                                          |
|-----------------------------------|-------------------------------------------------------------------------------------------|--------------------------------------------------------------------------|-------------------------------------------------------------------------------|---------------------------------------------------------|
| **단순 무작위 추출법** (Simple Random Sampling) | 모집단의 모든 구성원이 동일한 확률로 표본에 포함되도록 무작위로 추출하는 방법                       | - 통계적 편향이 적고, 모집단을 잘 대표할 수 있음<br>- 계산이 간단하고 이해하기 쉬움 | - 큰 모집단에서는 비용이 많이 들고 시간이 오래 걸릴 수 있음<br>- 모집단의 명부가 필요함 | - 모집단이 작고, 모든 구성원이 쉽게 접근 가능한 경우                        |
| **계통 추출법** (Systematic Sampling) | 모집단을 순서대로 배열하고, 일정한 간격으로 표본을 추출하는 방법                                  | - 단순 무작위 추출보다 간편하고 빠름<br>- 인덱스가 주어졌을 때 쉽게 구현 가능        | - 주기성 패턴이 있는 경우 편향 발생 가능<br>- 모집단의 초기 순서에 의존함         | - 모집단이 순서대로 정렬되어 있고, 일정한 간격으로 접근할 수 있는 경우           |
| **층화 추출법** (Stratified Sampling) | 모집단을 여러 개의 층으로 나누고, 각 층에서 무작위로 표본을 추출하는 방법                          | - 모든 층이 표본에 포함되어 대표성이 높음<br>- 변동성을 줄여 추정의 정확성 증가      | - 층화 기준 설정이 어려울 수 있음<br>- 추출 과정이 복잡할 수 있음                | - 모집단이 이질적이고, 각 하위 집단이 동질적인 경우                            |
| **집락 추출법** (Cluster Sampling) | 모집단을 여러 개의 집락으로 나누고, 일부 집락을 무작위로 선택하여 표본을 추출하는 방법                 | - 넓은 지역에 걸친 데이터 수집 비용 절감<br>- 모집단 전체를 나누어 관리하기 쉬움     | - 집락이 모집단을 잘 대표하지 못할 경우 표본 오류 발생<br>- 집락 정의 및 선택이 복잡할 수 있음 | - 모집단이 지리적으로 넓게 퍼져 있고, 집락으로 나누기 쉬운 경우                 |


In [26]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

## Random sampling

In [7]:
data = load_iris()

In [34]:
iris = pd.DataFrame(np.c_[data.data, data['target']], 
             columns = list(map(lambda x: x.split('(')[0] , data.feature_names )) + ['target'])
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


In [35]:
iris.sample(n=3, replace=True)

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
141,6.9,3.1,5.1,2.3,2.0
31,5.4,3.4,1.5,0.4,0.0
23,5.1,3.3,1.7,0.5,0.0


In [36]:
iris.sample(frac=0.03)

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
127,6.1,3.0,4.9,1.8,2.0
71,6.1,2.8,4.0,1.3,1.0
51,6.4,3.2,4.5,1.5,1.0
147,6.5,3.0,5.2,2.0,2.0


In [42]:
iris.sample(3, axis=1).head(3)

Unnamed: 0,sepal width,petal width,sepal length
0,3.5,0.2,5.1
1,3.0,0.2,4.9
2,3.2,0.2,4.7


In [51]:
import random
data_list = [1,2,3,4,5, 'a','b','c']
random.sample(data_list, 4),  np.random.choice(data_list, 4, replace=True)

([5, 'b', 1, 'a'], array(['3', '4', '1', 'a'], dtype='<U21'))

In [53]:
np.random.randint(0,10,3)

array([6, 4, 0])

In [70]:
np.random.rand(2,2)

array([[0.54639985, 0.05830507],
       [0.89036717, 0.18678353]])

## 계통 추출법 (Systematic sampling)
1. 번호를 부여한 샘플을 나열.
2. N(30)개의 모집단에서 n(5)개의 샘플을 추출하기 위해 N/n으로 구간 나눔 -> K(6) : 각 구간에 들어있는 샘플의 수
3. K(6)개의 샘플이 들어있는 첫 구간에서 임의로 샘플 선택, K(6)개씩 띄어서 각 구간에서 하나씩 샘플 추출

In [83]:
data, n = iris, 8
N = len(data)
K = N//n

index = data[:K].sample(1).index # 처음 선택될 인덱스 선택하여, K씩 띄어서 뽑는다
sys_df = pd.DataFrame()

while len(sys_df) < n:
    sys_df = sys_df.append(data.loc[index, :])
    index += K
    

In [84]:
sys_df

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
3,4.6,3.1,1.5,0.2,0.0
21,5.1,3.7,1.5,0.4,0.0
39,5.1,3.4,1.5,0.2,0.0
57,4.9,2.4,3.3,1.0,1.0
75,6.6,3.0,4.4,1.4,1.0
93,5.0,2.3,3.3,1.0,1.0
111,6.4,2.7,5.3,1.9,2.0
129,7.2,3.0,5.8,1.6,2.0


## 집락 추출법 (Cluster random sampling)
군집별로 랜덤 추출법을 수행하여 표본을 얻는 방법.
- 지역 표본추출
- 다단계 표본추출
군집 내 요소는 상이하지만, 군집과 군집은 비교적 유사한 특성을 띈다(?)  

**ref by GPT-4o**  
집락 추출법(Cluster Sampling)은 모집단을 여러 개의 집락(cluster)으로 나누고, 이 중 일부 집락을 무작위로 선택하여 표본을 추출하는 방법입니다.  
각 집락은 모집단을 대표할 수 있도록 구성되어 있어야 합니다. 이 방법은 특히 모집단이 지리적으로 넓게 퍼져 있을 때 유용합니다.

# 층화 추출법 (Stratified random sampling)
계층별로 랜덤 추출법을 수행하여 표본을 얻는 방법
- 비례 층화추출
- 불비례 층화추출 


In [88]:
# target을 층 혹은 집락이라고 가정
# 원본데이터의 분포 확인
iris['target'].value_counts()

2.0    50
1.0    50
0.0    50
Name: target, dtype: int64

In [95]:
# data, 층/집락 정보를 가진 컬럼명, 추출표본 개수
data, stratum, sampling_no = iris, 'target', 9

# 비례 층화 추출법 : 원본 데이터의 비율대로 추출
levels = data[stratum].unique()
total = data[stratum].value_counts().sum()
prop_val = data[stratum].value_counts() / total

no = prop_val * sampling_no
result = pd.DataFrame()
for level in levels:
    temp_df = data[data[stratum] == level].sample(int(no[level]))
    result = pd.concat([result, temp_df])
result

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
15,5.7,4.4,1.5,0.4,0.0
5,5.4,3.9,1.7,0.4,0.0
43,5.0,3.5,1.6,0.6,0.0
82,5.8,2.7,3.9,1.2,1.0
63,6.1,2.9,4.7,1.4,1.0
50,7.0,3.2,4.7,1.4,1.0
120,6.9,3.2,5.7,2.3,2.0
149,5.9,3.0,5.1,1.8,2.0
108,6.7,2.5,5.8,1.8,2.0


In [99]:
# 불 비례 층화 추출법: 임의로 정한 특정 비율대로 샘플링
# 데이터, 층/집락정보를 가진 컬럼명, 추출표본개수, 각 층/집락의 비율
data, stratum, sampling_no, proportion = iris, 'target', 10, {0:0.2, 1:0.5, 2:0.3}

levels = list(proportion.keys())
prop_val = np.array(list(proportion.values()))
total = sum(prop_val)
no = prop_val * sampling_no
result = pd.DataFrame()
for level in levels:
    temp_df = data[data[stratum] == level ].sample(int(no[level]))
    result = pd.concat([result, temp_df])
    
result

Unnamed: 0,sepal length,sepal width,petal length,petal width,target
29,4.7,3.2,1.6,0.2,0.0
5,5.4,3.9,1.7,0.4,0.0
82,5.8,2.7,3.9,1.2,1.0
63,6.1,2.9,4.7,1.4,1.0
59,5.2,2.7,3.9,1.4,1.0
57,4.9,2.4,3.3,1.0,1.0
89,5.5,2.5,4.0,1.3,1.0
113,5.7,2.5,5.0,2.0,2.0
136,6.3,3.4,5.6,2.4,2.0
149,5.9,3.0,5.1,1.8,2.0


# 3-2 데이터 분할
데이터를 분할하여 학습하고 검증하는 이유는 overfitting을 피하기 위함  
일반화 성능을 확보  

- 일반적인 데이터 분할
- 홀드아웃방법
- Suffle split
- K-fold, 층화 K-fold
- Group K-fold
- Stratified Group K-fold 등


| **분할 방법**                            | **정의**                                                                                      | **장점**                                                                        | **단점**                                                                          | **적용 상황**                                    |
|------------------------------------------|-----------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------|-----------------------------------------------------------------------------------|--------------------------------------------------|
| **홀드아웃 방법** (Holdout Method)       | 데이터를 훈련 세트와 테스트 세트로 나누어 모델을 평가하는 방법                                            | - 간단하고 빠름<br>- 훈련 및 테스트 세트 분리가 명확                             | - 데이터가 충분히 크지 않으면 신뢰할 수 없는 평가 결과<br>- 데이터 낭비 가능성            | - 대규모 데이터셋이 있을 때 적합                  |
| **교차 검증** (Cross-Validation)         | 데이터를 여러 번 나누어 모델을 평가하는 방법                                                            | - 더 신뢰할 수 있는 평가 결과<br>- 데이터 낭비를 최소화                           | - 계산 비용이 큼<br>- 복잡한 설정 필요                                                | - 데이터가 적고, 신뢰할 수 있는 평가가 필요할 때  |
| **K-폴드 교차 검증** (K-Fold Cross-Validation) | 데이터를 K개의 폴드로 나누고, 각 폴드를 한 번씩 테스트 세트로 사용하여 모델을 평가하는 방법                          | - 모든 데이터가 훈련 및 테스트에 사용됨<br>- 일반화 성능 평가가 용이                   | - K값 선택이 필요<br>- 계산 비용이 큼                                                    | - 데이터가 적고, 신뢰할 수 있는 평가가 필요할 때  |
| **계층적 교차 검증** (Stratified Cross-Validation) | K-폴드 교차 검증의 변형으로, 각 폴드 내 클래스 비율이 원래 데이터와 동일하도록 유지                               | - 클래스 불균형 데이터에서 유리<br>- 모든 데이터가 훈련 및 테스트에 사용됨          | - 복잡한 설정 필요<br>- 계산 비용이 큼                                                    | - 클래스 불균형 데이터셋에서 적합                 |


## 일반적 데이터 분할 및 홀드아웃 방법
일반적으로 Train set / Test set 7:3비율으로 분할
- 홀드아웃 : Train/Test를 5:5비율

In [106]:
from sklearn.model_selection import train_test_split
X = iris.drop('target', axis=1)
y = iris.filter(['target'])

# 일반 데이터 분할
X_train, y_train, X_test, y_test =  train_test_split(X,y , test_size =0.3)

# 홀드아웃 방법
X_train, y_train, X_test, y_test =  train_test_split(X,y , test_size =0.5)


## Shuffle split
- 무작위 순위 교차 검증에 사용
- 데이터 크기가 작은 경우, 분할 샘플들이 유사할 수 있음

sklearn.model_selection ShuffleSplit 사용

In [115]:
from sklearn.model_selection import ShuffleSplit
from collections import Counter
ss = ShuffleSplit( test_size = 0.5, train_size = 0.5, n_splits=4)

for i, (train_index, test_index) in enumerate(ss.split(X)):
    print("Sample %d"%i)
    X_train, X_test, y_train, y_test = X.iloc[train_index, :], X.iloc[test_index], y.iloc[train_index], y.iloc[test_index]
    print("y_train target : ", Counter(y_train['target']))
    print("y_test target : ", Counter(y_test['target']))
    print()

Sample 0
y_train target :  Counter({0.0: 28, 1.0: 24, 2.0: 23})
y_test target :  Counter({2.0: 27, 1.0: 26, 0.0: 22})

Sample 1
y_train target :  Counter({1.0: 29, 2.0: 27, 0.0: 19})
y_test target :  Counter({0.0: 31, 2.0: 23, 1.0: 21})

Sample 2
y_train target :  Counter({0.0: 31, 1.0: 23, 2.0: 21})
y_test target :  Counter({2.0: 29, 1.0: 27, 0.0: 19})

Sample 3
y_train target :  Counter({0.0: 27, 2.0: 25, 1.0: 23})
y_test target :  Counter({1.0: 27, 2.0: 25, 0.0: 23})



## K-fold 분할
- data를 K개의 집단으로 분할 후, K-1개 집단의 데이터를 학습 나머지 1개를 검증

- 이 과정을 K번 반복하여 모든 데이터가 학습과 검증에 사용될 수 있도록 함
- 이 과정에서 얻은 여러 MSE의 평균을 해당 모델의 MSE 값으로 사용



In [123]:
from sklearn.model_selection import KFold

# n_splits = fold 개수 , shuffle= 데이터 분할 전 shuffle 여부
kf = KFold(n_splits=4, shuffle=False)
for i, (train_index, test_index) in enumerate(kf.split(X)):
    print(i)
    X_train,y_train, X_test, y_test = X.iloc[train_index,:], y.iloc[train_index, :], X.iloc[test_index,:], y.iloc[test_index,:]
    print("y_train target : ", Counter(y_train['target']))
    print("y_test target : ", Counter(y_test['target']))
    print()


0
y_train target :  Counter({1.0: 50, 2.0: 50, 0.0: 12})
y_test target :  Counter({0.0: 38})

1
y_train target :  Counter({2.0: 50, 0.0: 38, 1.0: 24})
y_test target :  Counter({1.0: 26, 0.0: 12})

2
y_train target :  Counter({0.0: 50, 2.0: 37, 1.0: 26})
y_test target :  Counter({1.0: 24, 2.0: 13})

3
y_train target :  Counter({0.0: 50, 1.0: 50, 2.0: 13})
y_test target :  Counter({2.0: 37})



## Stratified K-fold
K-fold 방법으로 분류용 데이터를 분할할 때, 클래스 불균형인 채로 분할되는 문제가 생길 수 있음

- K개의 집단으로 나눌 때, 타겟 변수의 클래스들이 각 fold별로 일정한 비율로 배치되도록 하는 것
- 앞의 K-fold는 클래스가 불균형이지만, Stratified K -fold 샘플의 타겟구성은 비교적 균형이 잡힘

In [126]:
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=4)

for i, (train_index, test_index) in enumerate(skf.split(X,y)):
    X_train,y_train, X_test, y_test = X.iloc[train_index,:], y.iloc[train_index,:], X.iloc[test_index,:],y.iloc[test_index,:]
    
    print(i)
    print(Counter(y_train['target']))
    print(Counter(y_test['target']))
    print()
    
    



0
Counter({1.0: 38, 0.0: 37, 2.0: 37})
Counter({0.0: 13, 2.0: 13, 1.0: 12})

1
Counter({1.0: 38, 0.0: 37, 2.0: 37})
Counter({0.0: 13, 2.0: 13, 1.0: 12})

2
Counter({0.0: 38, 2.0: 38, 1.0: 37})
Counter({1.0: 13, 0.0: 12, 2.0: 12})

3
Counter({0.0: 38, 2.0: 38, 1.0: 37})
Counter({1.0: 13, 0.0: 12, 2.0: 12})



## Group K-Fold
범주형 변수인 group의 수준 별 데이터들을 각 분할마다 검증용 데이터로 사용하도록 K-fold를 진행하는 방법  
따라서, group의 수준의 개수는 fold의 개수와 같거나 fold 개수보다 커야 함

- 각 검증용 데이터는 1종류의 그룹으로 구성됨
- 그룹번호를 부여

In [132]:
from sklearn.model_selection import GroupKFold

iris2 = iris.copy()
iris2['group'] = iris['target'].apply(lambda x: f"g{int(np.random.randint(0,4,1))}")
print(Counter(iris2['group']))

Counter({'g0': 40, 'g3': 39, 'g1': 37, 'g2': 34})


In [141]:
X = iris2.drop(['target','group'], axis= 1)
y = iris2[['target']]
group = iris2.filter(['group'])
gkf = GroupKFold(n_splits=4)

# 분할 시 group을 고려해야하기 때문에 split에 group 입력
for i, (train_index, test_index) in enumerate(gkf.split(X, y, group)):
    print(i)
    X_train,y_train, X_test, y_test = X.iloc[train_index,:], y.iloc[train_index,:], X.iloc[test_index,:],y.iloc[test_index,:]
    print(Counter(y_train['target']))
    print(Counter(y_test['target']))
    print("train group 구성: ", Counter(group.iloc[train_index]['group']) )
    print("test group 구성: ", Counter(group.iloc[test_index]['group']) )
    print()


0
Counter({0.0: 39, 1.0: 36, 2.0: 35})
Counter({2.0: 15, 1.0: 14, 0.0: 11})
train group 구성:  Counter({'g3': 39, 'g1': 37, 'g2': 34})
test group 구성:  Counter({'g0': 40})

1
Counter({0.0: 40, 1.0: 36, 2.0: 35})
Counter({2.0: 15, 1.0: 14, 0.0: 10})
train group 구성:  Counter({'g0': 40, 'g1': 37, 'g2': 34})
test group 구성:  Counter({'g3': 39})

2
Counter({1.0: 40, 2.0: 39, 0.0: 34})
Counter({0.0: 16, 2.0: 11, 1.0: 10})
train group 구성:  Counter({'g0': 40, 'g3': 39, 'g2': 34})
test group 구성:  Counter({'g1': 37})

3
Counter({2.0: 41, 1.0: 38, 0.0: 37})
Counter({0.0: 13, 1.0: 12, 2.0: 9})
train group 구성:  Counter({'g0': 40, 'g3': 39, 'g1': 37})
test group 구성:  Counter({'g2': 34})



# 3-3 교차 검증 (Cross validation)
특정한 학습용 데이터와 검증용 데이터에만 최적화 되도록 모델을 만들어가면 해당 데이터 세트에만 잘 동작하는 모델이 만들어 질 수 있음.  

따라서, 학습용 데이터와 검증용 데이터를 앞서 언급한 분할 방법들로 다양하게 분할하고, 여러 파라미터 조건하에 학습하여 교차검증함으로써 최적화된 일반화 모델을 완성할 수 있다.

## 분할 샘플들로 교차 검증
데이터 구성이 다른 샘플들을 통해 Cross Validation 가능  
sklearn의 cross_validate를 사용하면  
각 케이스의 적합 소요시간, 검증 소요시간, 테스트셋 스코어, 트레인 셋 스코어가 반환됨

In [142]:
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.linear_model import LogisticRegression

X = iris.drop('target', axis=1)
y = iris['target']
LOGREG = LogisticRegression(max_iter = 300, C = 0.1)
SKF = StratifiedKFold(n_splits = 4)
result = cross_validate(LOGREG, X, y, cv=SKF, return_train_score=True)
pd.DataFrame(result)

Unnamed: 0,fit_time,score_time,test_score,train_score
0,0.023099,0.002335,0.894737,0.955357
1,0.013317,0.001457,0.947368,0.964286
2,0.010297,0.001108,0.945946,0.955752
3,0.010083,0.000956,1.0,0.938053


## parameter candidates로 cross validation

### sklearn.model_selection.GridSearchCV
분할된 샘플뿐 아니라, 파라미터 후보를 포함하여 Cross validation 진행 가능  
파라미터 별 평균 적합시간 / 적합시간 편차/ 분할 별 테스트 스코어 / 평균 테스트 스코어 / 테스트 스코어 편차 / 테스트 스코어 랭킹 반환  
최적의 매개변수 조합은 **best_params_** 를 통해 확인 가능


In [151]:
from sklearn.model_selection import GridSearchCV
LOGREG = LogisticRegression(max_iter=300)
param_grid = {'C': [0.01, 0.1, 1], 'solver':['lbfgs', 'liblinear']} # 총 3*2 = 6개 -> param은 모델에 들어가는 param?
SKF = StratifiedKFold(n_splits=4)

grid = GridSearchCV(LOGREG, param_grid, cv= SKF)
grid.fit(X, y)
pd.DataFrame(grid.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_C,param_solver,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,mean_test_score,std_test_score,rank_test_score
0,0.010239,0.003121,0.001814,0.000557,0.01,lbfgs,"{'C': 0.01, 'solver': 'lbfgs'}",0.815789,0.894737,0.783784,0.945946,0.860064,0.063947,4
1,0.001758,0.000116,0.001054,4.3e-05,0.01,liblinear,"{'C': 0.01, 'solver': 'liblinear'}",0.684211,0.684211,0.648649,0.648649,0.66643,0.017781,6
2,0.007659,0.000968,0.00083,4.2e-05,0.1,lbfgs,"{'C': 0.1, 'solver': 'lbfgs'}",0.894737,0.947368,0.945946,1.0,0.947013,0.037221,3
3,0.001275,1.8e-05,0.000763,7e-06,0.1,liblinear,"{'C': 0.1, 'solver': 'liblinear'}",0.815789,0.842105,0.837838,0.783784,0.819879,0.023109,5
4,0.009725,0.000973,0.000786,1.3e-05,1.0,lbfgs,"{'C': 1, 'solver': 'lbfgs'}",0.973684,0.973684,0.945946,1.0,0.973329,0.019114,1
5,0.001339,2e-05,0.000752,4e-06,1.0,liblinear,"{'C': 1, 'solver': 'liblinear'}",1.0,0.947368,0.864865,1.0,0.953058,0.055266,2


In [150]:
LogisticRegression?

## 연습문제
랜덤 포레스트 알고리즘의 파라미터 max_depth의 후보 4개를 토대로 교차분석 진행

In [152]:
df = pd.read_csv('https://raw.githubusercontent.com/algoboni/pythoncodebook1-1/main/practice1_bank.csv')

In [153]:
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,month,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,oct,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,may,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,apr,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,jun,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,may,no


In [175]:
df2= df.copy()
for col in [i for i in df.columns if df[i].dtypes==object]:
    DICT = dict(zip(df[col].unique(), [i for i in range(df[col].nunique())]))
    df2[col] = df2[col].map(DICT)


In [158]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier()

from sklearn.model_selection import GridSearchCV, StratifiedKFold
skf = StratifiedKFold(n_splits=6) # data splits strategy
param_grid = {"max_depth":[5,6,7,8]}
grid = GridSearchCV(rf, param_grid, cv=skf )

X = df2.drop('y', axis=1)
y = df2['y']
grid.fit(X,y)

print(grid.best_score_)
print(G)


In [183]:
df.nunique # unique한 object갯수