<a href="https://colab.research.google.com/github/Yyssjj96/__practice___/blob/main/%ED%91%9C%EB%B3%B8%EC%B6%94%EC%B6%9C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. 무작위 샘플링 (Random Sampling)
무작위 샘플링은 모집단에서 각각의 데이터가 동일한 확률로 선택되도록 하는 샘플링 방법입니다. 즉, 모집단의 모든 개체가 샘플로 선택될 확률이 동일합니다. 이 방법의 장점은 간단하고 구현이 용이하다는 점입니다.

- 장점: 편향이 적고 데이터의 대표성이 높을 가능성이 큽니다.
- 단점: 표본이 모집단의 전체 특성을 대표하지 않을 수 있습니다. 특히 모집단이 크거나 특성이 다양할 경우에는 비효율적일 수 있습니다.
2. 층화 샘플링 (Stratified Sampling)
층화 샘플링은 모집단을 특정 특성에 따라 서로 다른 계층(층)으로 나누고, 각 계층에서 샘플을 추출하는 방법입니다. 각 계층은 서로 다르지만, 계층 내에서는 유사한 특성을 가진 데이터가 모여 있습니다.

- 장점: 각 계층의 특성이 잘 반영되므로, 전체 모집단의 특성을 더 잘 추정할 수 있습니다. 특히 계층 간 차이가 클 때 유용합니다.
- 단점: 계층화 과정이 복잡할 수 있으며, 각 계층의 크기를 정확히 알아야 합니다.
3. 군집 샘플링 (Cluster Sampling)
군집 샘플링은 모집단을 군집(클러스터)으로 나누고, 일부 군집을 무작위로 선택한 후, 선택된 군집에서 전체 샘플을 추출하는 방법입니다. 군집은 일반적으로 자연적인 그룹이나 집단을 기반으로 형성됩니다.

- 장점: 샘플링이 효율적이며, 비용이 낮을 수 있습니다. 군집이 비교적 균질하면 좋은 결과를 제공할 수 있습니다.
- 단점: 군집 내의 다양성이 낮으면 모집단의 대표성이 떨어질 수 있습니다. 군집 내의 개체가 서로 유사하면 비효율적일 수 있습니다.
4. 계층 샘플링 (Hierarchical Sampling)
계층 샘플링은 계층적으로 여러 수준의 샘플링을 진행하는 방법입니다. 예를 들어, 먼저 큰 집단에서 샘플을 추출하고, 그 후 각 추출된 집단 내에서 추가적인 샘플을 추출하는 방법입니다. 일반적으로 다단계 샘플링이라고도 합니다.

- 장점: 복잡한 모집단 구조를 효과적으로 다룰 수 있으며, 샘플링의 효율성을 높일 수 있습니다. 각 단계에서 샘플링 오류를 줄일 수 있습니다.
- 단점: 샘플링 절차가 복잡하며, 각 단계에서의 적절한 샘플링 계획이 필요합니다. 데이터 수집과 분석이 복잡할 수 있습니다.

In [1]:
import numpy as np
import pandas as pd

np.random.seed(0)

# 데이터 생성
num_samples = 1000
data = {
    'A': np.random.normal(loc=50, scale=10, size=num_samples),  # 평균 50, 표준편차 10
    'B': np.random.uniform(low=0, high=100, size=num_samples),  # 균등분포, 0과 100 사이
    'C': np.random.poisson(lam=5, size=num_samples)  # 포아송 분포
}

df = pd.DataFrame(data)

In [None]:
# 무작위 샘플링: 데이터프레임에서 10%를 무작위로 선택
random_sample_df = df.sample(frac=0.1, random_state=1)  # frac=0.1은 10% 샘플링
print("무작위 샘플링 결과:")
print(random_sample_df.head())

In [None]:
# 층화 샘플링: C 값이 5 이하인 그룹과 초과인 그룹 각각에서 10% 샘플링
grouped = df.groupby(df['C'] > 5)
stratified_sample_df = grouped.apply(lambda x: x.sample(frac=0.1, random_state=1))
stratified_sample_df = stratified_sample_df.reset_index(drop=True)
print("\n층화 샘플링 결과:")
print(stratified_sample_df.head())

In [None]:
from sklearn.utils import shuffle

# 군집 샘플링: 'C' 값이 서로 다른 군집으로 나누고, 일부 군집만 선택
clusters = df.groupby('C').apply(lambda x: x.sample(n=5, random_state=1)).reset_index(drop=True)
clustered_sample_df = shuffle(clusters, random_state=1).groupby('C').apply(lambda x: x.sample(frac=0.1, random_state=1)).reset_index(drop=True)
print("\n군집 샘플링 결과:")
print(clustered_sample_df.head())

In [None]:
# 계층 샘플링: 'C' 값의 계층을 형성하고 각 계층에서 10% 샘플링
hierarchical_sample_df = df.groupby('C').apply(lambda x: x.sample(frac=0.1, random_state=1)).reset_index(drop=True)
print("\n계층 샘플링 결과:")
print(hierarchical_sample_df.head())