In [3]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

"""
split_csv.py
- 큰 CSV를 행 단위 청크로 분할 저장
- recipe_code 컬럼 기준으로도 별도 분할 저장
- 한글/Excel 호환 위해 UTF-8-SIG로 저장
"""

import os
import pandas as pd

# 설정값
input_path = "Recipe Reviews and User Feedback Dataset.csv"           # 원본 CSV 경로
out_dir_rows = "out_rows"          # 행 단위 분할 출력 폴더
out_dir_group = "out_by_recipe"    # recipe_code별 분할 출력 폴더
rows_per_file = 10000              # 파일당 행 수
encoding_in = "utf-8"              # 입력 인코딩 (필요시 변경)
encoding_out = "utf-8-sig"         # 출력 인코딩 (Excel 호환 우수)

def ensure_dir(path: str):
    if not os.path.exists(path):
        os.makedirs(path, exist_ok=True)

def split_by_rows():
    ensure_dir(out_dir_rows)
    print(f"[행 분할] {input_path} -> {out_dir_rows} (파일당 {rows_per_file}행)")
    i = 0
    for i, chunk in enumerate(pd.read_csv(input_path, chunksize=rows_per_file, encoding=encoding_in)):
        out_path = os.path.join(out_dir_rows, f"chunk_{i:03}.csv")
        chunk.to_csv(out_path, index=False, encoding=encoding_out)
        print(f"  - saved: {out_path} ({len(chunk)} rows)")
    if i == 0:
        print("  - 완료")

def split_by_recipe_code():
    ensure_dir(out_dir_group)
    print(f"[그룹 분할] recipe_code 기준 -> {out_dir_group}")
    # 메모리 여유가 있으면 전체 로드, 없으면 청크 기반으로 변경
    df = pd.read_csv(input_path, encoding=encoding_in)
    if "recipe_code" not in df.columns:
        raise KeyError("recipe_code 컬럼이 없습니다. 컬럼명을 확인하세요.")
    for key, g in df.groupby("recipe_code", dropna=False):
        safe_key = str(key).replace("/", "_").replace("\\", "_")
        out_path = os.path.join(out_dir_group, f"by_recipe_code_{safe_key}.csv")
        g.to_csv(out_path, index=False, encoding=encoding_out)
        print(f"  - saved: {out_path} ({len(g)} rows)")

if __name__ == "__main__":
    if not os.path.isfile(input_path):
        raise FileNotFoundError(f"입력 파일을 찾을 수 없습니다: {input_path}")
    split_by_rows()
    split_by_recipe_code()
    print("완료.")


[행 분할] Recipe Reviews and User Feedback Dataset.csv -> out_rows (파일당 10000행)
  - saved: out_rows\chunk_000.csv (10000 rows)
  - saved: out_rows\chunk_001.csv (8182 rows)
[그룹 분할] recipe_code 기준 -> out_by_recipe
  - saved: out_by_recipe\by_recipe_code_386.csv (224 rows)
  - saved: out_by_recipe\by_recipe_code_414.csv (167 rows)
  - saved: out_by_recipe\by_recipe_code_957.csv (211 rows)
  - saved: out_by_recipe\by_recipe_code_1063.csv (158 rows)
  - saved: out_by_recipe\by_recipe_code_1081.csv (148 rows)
  - saved: out_by_recipe\by_recipe_code_1152.csv (157 rows)
  - saved: out_by_recipe\by_recipe_code_1196.csv (172 rows)
  - saved: out_by_recipe\by_recipe_code_1324.csv (136 rows)
  - saved: out_by_recipe\by_recipe_code_1693.csv (232 rows)
  - saved: out_by_recipe\by_recipe_code_1821.csv (90 rows)
  - saved: out_by_recipe\by_recipe_code_2832.csv (725 rows)
  - saved: out_by_recipe\by_recipe_code_2872.csv (222 rows)
  - saved: out_by_recipe\by_recipe_code_2912.csv (332 rows)
  - saved: out