# Chia file SMS Data để gán nhãn

Notebook này sẽ chia file `sms_data_for_labeling.csv` thành 5 file nhỏ hơn để thuận tiện cho việc gán nhãn.


In [1]:
import pandas as pd
import numpy as np
import os


In [2]:
# Đọc file dữ liệu
df = pd.read_csv('data/sms_data_for_labeling.csv')

# Kiểm tra kích thước dữ liệu
print(f"Tổng số tin nhắn: {len(df)}")
print(f"Cột dữ liệu: {df.columns.tolist()}")
print(f"\nMẫu dữ liệu đầu tiên:")
df.head()


Tổng số tin nhắn: 2353
Cột dữ liệu: ['content', 'label', 'has_url', 'has_phone_number', 'sender_type']

Mẫu dữ liệu đầu tiên:


Unnamed: 0,content,label,has_url,has_phone_number,sender_type
0,[TB] NẠP THẺ ĐỦ ĐẦY - DATA XÀI NGAY! Tặng 20% ...,,1,0,brandname
1,[TB] NÂNG CẤP ĐIỆN THOẠI - NHẬN ƯU ĐÃI 5G. Tặn...,,0,0,brandname
2,[TB] NẠP THẺ ONLINE - DATA XÀI NGAY! Tặng 20% ...,,1,0,brandname
3,[TB] NẠP THẺ ĐỦ ĐẦY - DATA XÀI NGAY! Tặng 20% ...,,1,0,brandname
4,"[TB] LÊN MẠNG, GỌI ĐIỆN THẢ GA! 1. Soạn V90B g...",,0,0,brandname


In [None]:
# Chia dữ liệu thành 5 phần đều nhau
n_splits = 5
total_rows = len(df)
rows_per_file = total_rows // n_splits

print(f"Tổng số dòng: {total_rows}")
print(f"Số dòng mỗi file: ~{rows_per_file}")

# Tạo thư mục để lưu các file nhỏ (nếu chưa có)
output_dir = 'data/labeling_splits'
os.makedirs(output_dir, exist_ok=True)

# Chia và lưu file
for i in range(n_splits):
    start_idx = i * rows_per_file
    
    # File cuối cùng sẽ chứa tất cả dòng còn lại
    if i == n_splits - 1:
        end_idx = total_rows
    else:
        end_idx = (i + 1) * rows_per_file   
    
    # Lấy phần dữ liệu
    df_split = df.iloc[start_idx:end_idx]
    
    # Đặt tên file
    output_file = os.path.join(output_dir, f'sms_data_part_{i+1}.csv')
    
    # Lưu file
    df_split.to_csv(output_file, index=False)
    
    print(f"Đã lưu Part {i+1}: {output_file} - {len(df_split)} dòng (từ dòng {start_idx+1} đến {end_idx})")


Tổng số dòng: 2353
Số dòng mỗi file: ~470
Đã lưu Part 1: data/labeling_splits\sms_data_part_1.csv - 470 dòng (từ dòng 1 đến 470)
Đã lưu Part 2: data/labeling_splits\sms_data_part_2.csv - 470 dòng (từ dòng 471 đến 940)
Đã lưu Part 3: data/labeling_splits\sms_data_part_3.csv - 470 dòng (từ dòng 941 đến 1410)
Đã lưu Part 4: data/labeling_splits\sms_data_part_4.csv - 470 dòng (từ dòng 1411 đến 1880)
Đã lưu Part 5: data/labeling_splits\sms_data_part_5.csv - 473 dòng (từ dòng 1881 đến 2353)


In [4]:
# Kiểm tra lại các file đã tạo
print("\n=== TỔNG KẾT ===")
print(f"Đã tạo {n_splits} file trong thư mục: {output_dir}")

total_check = 0
for i in range(1, n_splits + 1):
    file_path = os.path.join(output_dir, f'sms_data_part_{i}.csv')
    if os.path.exists(file_path):
        df_check = pd.read_csv(file_path)
        print(f"✓ Part {i}: {len(df_check)} dòng")
        total_check += len(df_check)
    else:
        print(f"✗ Part {i}: File không tồn tại")

print(f"\nTổng số dòng trong các file nhỏ: {total_check}")
print(f"Tổng số dòng ban đầu: {len(df)}")
print(f"Khớp: {'✓ Yes' if total_check == len(df) else '✗ No'}")



=== TỔNG KẾT ===
Đã tạo 5 file trong thư mục: data/labeling_splits
✓ Part 1: 470 dòng
✓ Part 2: 470 dòng
✓ Part 3: 470 dòng
✓ Part 4: 470 dòng
✓ Part 5: 473 dòng

Tổng số dòng trong các file nhỏ: 2353
Tổng số dòng ban đầu: 2353
Khớp: ✓ Yes


## Hướng dẫn sử dụng

Các file đã được chia thành 5 phần và lưu trong thư mục `data/labeling_splits/`:
- `sms_data_part_1.csv`
- `sms_data_part_2.csv`
- `sms_data_part_3.csv`
- `sms_data_part_4.csv`
- `sms_data_part_5.csv`

**Bước tiếp theo:**
1. Phân công từng file cho các thành viên trong nhóm
2. Mỗi người sẽ gán nhãn cho file được phân công
3. Sau khi gán nhãn xong, có thể ghép các file lại với nhau bằng pandas.concat()

**Lưu ý:**
- Mỗi file giữ nguyên cấu trúc cột: `content`, `label`, `has_url`, `has_phone_number`, `sender_type`
- Cần điền giá trị vào cột `label` (ham/spam) cho từng tin nhắn
