# Bài tập về nhà: Lấy mẫu dữ liệu

In [6]:
import pandas as pd
import numpy as np

# Load the dataset
try:
    df = pd.read_csv('../../data/US Import.csv', delimiter=';', decimal=',')
    # Convert 'Value (US$)' to numeric, coercing errors to NaN
    df['Value (US$)'] = pd.to_numeric(df['Value (US$)'], errors='coerce')
    # Drop rows with NaN values in 'Value (US$)'
    df.dropna(subset=['Value (US$)'], inplace=True)
    df['Date'] = pd.to_datetime(df['Date'])
    print("Data loaded successfully")
    print(df.head())
except FileNotFoundError:
    print("File not found. Please check the file path.")
except Exception as e:
    print(f"An error occurred: {e}")

Data loaded successfully
        Date Import Country (Source)  \
0 2025-02-28                     USA   
1 2025-02-28                     USA   
2 2025-02-27                     USA   
3 2025-02-26                     USA   
4 2025-02-26                     USA   

                                            Exporter  \
0                    SUMEC MACHINERY ELECTRIC CO LTD   
1    GUANGZHOU HUIKANG ELECTRONIC TECHNO LOGY CO LTD   
2  XUZHOU HEALTHLAND SAUNA EQUIPMENT C WEST OF XUPEI   
3                      ZHEJIANG CAFTP SERVICE CO LTD   
4       ZHEJIANG TIANZHIXIN SPORTS EQUIPMEN T CO LTD   

                              Importer  HS Code Country of Origin  \
0  FIRMAN POWER EQUIPMENT INCORPORATED   851390             CHINA   
1               CHAI VISION IMPORT LLC   851390             CHINA   
2            CHAI VISION IMPORT NJ INC   851390             CHINA   
3                          AYESPRO LLC   851390             CHINA   
4               CHAI VISION IMPORT LLC   851390     

### a. Dùng hàm describe để thực hiện thống kê mô tả cho toàn bộ dữ liệu

In [2]:
# Thống kê mô tả
df.describe()

Unnamed: 0,HS Code,Quantity,Weight,Value (US$)
count,6185.0,6185.0,6185.0,6185.0
mean,138505300.0,635.528912,14102.567683,175571.6
std,10825760000.0,1204.656437,26173.165892,496032.0
min,851390.0,1.0,1.0,0.0
25%,851390.0,16.0,2771.0,0.0
50%,851390.0,44.0,8000.0,0.0
75%,851390.0,759.0,10824.0,108210.4
max,851390000000.0,9296.0,255559.0,4450822.0


### b. Lấy mẫu 30 giao dịch nhập khẩu bằng phương pháp Simple Random Sampling (Lấy mẫu ngẫu nhiên đơn giản)

In [3]:
# Lấy mẫu ngẫu nhiên đơn giản
simple_random_sample = df.sample(n=30, random_state=42)
print(simple_random_sample)

                     Date Import Country (Source)  \
5485  2023-02-28 00:00:00                     USA   
4094  2023-06-16 00:00:00                     USA   
5180  2023-04-10 00:00:00                     USA   
5684  2023-02-07 00:00:00                     USA   
4753  2023-05-10 00:00:00                     USA   
3326  2023-08-10 00:00:00                     USA   
4055  2023-06-20 00:00:00                     USA   
4421  2023-05-31 00:00:00                     USA   
4981  2023-04-20 00:00:00                     USA   
4523  2023-05-25 00:00:00                     USA   
712   2024-09-11 00:00:00                     USA   
3541  2023-07-25 00:00:00                     USA   
4848  2023-05-03 00:00:00                     USA   
1893  2024-02-20 00:00:00                     USA   
469   2024-10-15 00:00:00                     USA   
3617  2023-07-19 00:00:00                     USA   
80    2025-02-01 00:00:00                     USA   
3574  2023-07-19 00:00:00                     

### c. Lấy mẫu 30 giao dịch nhập khẩu bằng phương pháp Stratified Sampling (Lấy mẫu phân tầng)

In [None]:
# Lấy mẫu phân tầng theo cột 'Products'
# We will take 1 sample from 30 different products to ensure diversity.
# This is a form of stratified sampling.
# Get products with at least one sample
products = df['Products'].unique()
# Randomly select 30 products
sampled_products = np.random.choice(products, 30, replace=False)
# Group by the selected products and take 1 sample from each
stratified_sample = df[df['Products'].isin(sampled_products)].groupby('Products').sample(n=1, random_state=42)
print(stratified_sample)

### d. Lấy mẫu 30 giao dịch nhập khẩu bằng phương pháp Systematic Sampling (Lấy mẫu hệ thống)

In [None]:
# Lấy mẫu hệ thống
n = 30
N = len(df)
k = int(N / n)
start = np.random.randint(0, k)
systematic_sample = df.iloc[start::k].head(n)
print(systematic_sample)

### e. Lấy mẫu 30 giao dịch nhập khẩu bằng phương pháp Cluster Sampling (Lấy mẫu cụm)

In [None]:
# Lấy mẫu cụm
# Sử dụng cột 'Products' làm cụm
clusters = df['Products'].unique()
random_clusters = np.random.choice(clusters, size=3, replace=False)
cluster_sample = df[df['Products'].isin(random_clusters)]
# If the sample is larger than 30, take a random sample of 30 from it
if len(cluster_sample) > 30:
    cluster_sample = cluster_sample.sample(n=30, random_state=42)
print(cluster_sample)

### f. Phương pháp lấy mẫu nào cho kết quả trung bình chính xác nhất?

In [None]:
# Tính giá trị trung bình của 'Value (US$)' từ toàn bộ dữ liệu
population_mean = df['Value (US$)'].mean()

# Tính giá trị trung bình của các mẫu
simple_random_mean = simple_random_sample['Value (US$)'].mean()
stratified_mean = stratified_sample['Value (US$)'].mean()
systematic_mean = systematic_sample['Value (US$)'].mean()
cluster_mean = cluster_sample['Value (US$)'].mean()

# So sánh
print(f"Population Mean: {population_mean}")
print(f"Simple Random Sample Mean: {simple_random_mean}, Difference: {abs(population_mean - simple_random_mean)}")
print(f"Stratified Sample Mean: {stratified_mean}, Difference: {abs(population_mean - stratified_mean)}")
print(f"Systematic Sample Mean: {systematic_mean}, Difference: {abs(population_mean - systematic_mean)}")
print(f"Cluster Sample Mean: {cluster_mean}, Difference: {abs(population_mean - cluster_mean)}")

### g. Hãy rút ra kết luận khi nào nên sử dụng các phương pháp lấy mẫu khác nhau

**Simple Random Sampling (Lấy mẫu ngẫu nhiên đơn giản):**
- **Khi nào:** Sử dụng khi tổng thể (population) tương đối đồng nhất (homogeneous).
- **Ưu điểm:** Dễ thực hiện, mỗi phần tử có cơ hội được chọn như nhau.
- **Nhược điểm:** Có thể không đại diện tốt cho tổng thể nếu tổng thể không đồng nhất, có thể bỏ sót các nhóm nhỏ.

**Stratified Sampling (Lấy mẫu phân tầng):**
- **Khi nào:** Sử dụng khi tổng thể không đồng nhất và có thể chia thành các nhóm (tầng - strata) có ý nghĩa, trong đó mỗi tầng lại tương đối đồng nhất. Ví dụ: chia khách hàng theo độ tuổi, giới tính, địa lý.
- **Ưu điểm:** Đảm bảo các nhóm nhỏ trong tổng thể được đại diện trong mẫu, cho kết quả chính xác hơn so với lấy mẫu ngẫu nhiên đơn giản.
- **Nhược điểm:** Cần biết thông tin về các tầng trong tổng thể, phức tạp hơn trong việc triển khai.

**Systematic Sampling (Lấy mẫu hệ thống):**
- **Khi nào:** Sử dụng khi có một danh sách các phần tử trong tổng thể và các phần tử được sắp xếp một cách ngẫu nhiên hoặc không theo một chu kỳ nào có thể ảnh hưởng đến kết quả.
- **Ưu điểm:** Dễ thực hiện hơn lấy mẫu ngẫu nhiên đơn giản, có thể cho kết quả đại diện tốt nếu danh sách được sắp xếp ngẫu nhiên.
- **Nhược điểm:** Nếu có một chu kỳ trong danh sách và khoảng lấy mẫu (k) trùng với chu kỳ đó, mẫu sẽ bị sai lệch.

**Cluster Sampling (Lấy mẫu cụm):**
- **Khi nào:** Sử dụng khi tổng thể được chia thành các cụm (cluster) tự nhiên và việc lấy mẫu các phần tử riêng lẻ là khó khăn hoặc tốn kém. Các cụm thường không đồng nhất bên trong. Ví dụ: lấy mẫu các hộ gia đình trong một thành phố (mỗi khu phố là một cụm).
- **Ưu điểm:** Tiết kiệm chi phí và thời gian, đặc biệt khi tổng thể phân tán về mặt địa lý.
- **Nhược điểm:** Kém chính xác hơn các phương pháp khác nếu các cụm không đại diện tốt cho toàn bộ tổng thể (các cụm quá khác nhau).