In [1]:
import os

def reduce_csv_to_size(input_path, output_path, max_size_mb=99):
    # 최대 허용 용량(바이트) 계산: 99MB = 99 * 1024 * 1024 Bytes
    max_bytes = max_size_mb * 1024 * 1024

    total_size = 0          # 현재까지 저장할 데이터의 총 바이트 수
    selected_lines = []     # 최종적으로 저장할 행들을 담을 리스트

    # 원본 CSV 파일을 읽기 모드로 열기
    with open(input_path, 'r', encoding='utf-8') as f:
        header = f.readline()                       # 첫 줄(헤더) 읽기
        total_size += len(header.encode('utf-8'))   # 헤더의 바이트 수 추가
        selected_lines.append(header)               # 헤더는 항상 포함

        # 각 데이터 행을 한 줄씩 읽으면서 용량 초과 여부 확인
        for line in f:
            encoded = line.encode('utf-8')          # 현재 줄을 바이트로 인코딩
            
            # 누적 크기가 초과되면 중단
            if total_size + len(encoded) > max_bytes:
                break         
            
            # 용량 제한을 초과하지 않으면 행 추가                      
            selected_lines.append(line)             # 행 추가
            total_size += len(encoded)              # 크기 누적

    # 용량 제한을 만족하는 행들만 새로운 CSV로 저장
    with open(output_path, 'w', encoding='utf-8') as out:
        out.writelines(selected_lines)

    # 완료 메시지 출력
    print(f"✅ 저장 완료: {output_path} ({round(total_size / (1024*1024), 2)}MB)")

# 함수 실행: 원본 train.csv → 99MB 이하로 줄여서 train_test.csv로_
reduce_csv_to_size('../data/raw/train.csv', '../data/processed/train_test.csv', max_size_mb=99)


✅ 저장 완료: ../data/processed/train_test.csv (99.0MB)
