### 임베딩 데이터셋에서 필요없는 컬럼 제거

In [1]:
import pandas as pd
import os

In [None]:
# 데이터셋 경로
input_file_path = "Dataset/3states/dataset_pa_with_embeddings.jsonl"
output_file_path = "Dataset/3states/dataset_pa_with_embeddings_vector.jsonl"

# 청크사이즈
chunk_size = 5000

#임베딩 벡터 들어있는 컬럼
embedding_column = "embedding"

# 드랍할 컬럼명
review_text = "text"
review_useful = "review_useful"
review_date = "date"

# 예상 임베딩 차원, 다르면 알림
expected_dimension = 3072

In [None]:
# 이전에 실행해서 파일이 남아있다면 삭제
if os.path.exists(output_file_path):
    os.remove(output_file_path)
    print(f"기존 '{output_file_path}' 파일을 삭제했습니다.")

try:
    # 임베딩 데이터셋 청크단위로 읽음
    json_reader = pd.read_json(input_file_path, lines=True, chunksize=chunk_size)

    print(f"'{input_file_path}' 파일 처리를 시작합니다...")
    total_lines = 0

    # 각 청크마다
    for i, chunk in enumerate(json_reader):

        # embedding 컬럼 차원 확인
        if embedding_column in chunk.columns:
            # 각 임베딩 벡터의 길이를 계산
            dimensions = chunk[embedding_column].apply(len)
            # 예상 차원과 다른 행이 있는지 확인
            mismatched_rows = chunk[dimensions != expected_dimension]
            # 문제가 있는 행이 하나라도 있다면 경고 메시지 출력
            if not mismatched_rows.empty:
                print(
                    f"{i+1}번째 청크에서 차원이 {expected_dimension}이(가) 아닌 데이터가 발견되었습니다."
                )
                print(
                    f"   -> 문제가 있는 행의 인덱스: {mismatched_rows.index.tolist()}"
                )
        else:
            print(f"{i+1}번째 청크에 '{embedding_column}' 컬럼이 없습니다.")

        # 필요없는 컬럼 드랍
        chunk_modified = chunk.drop(
            columns=[review_text, review_useful, review_date], errors="ignore"
        )

        # 수정된 청크 append
        chunk_modified.to_json(
            output_file_path,
            orient="records",
            lines=True,
            mode="a",
        )

        total_lines += len(chunk)
        print(f"{i+1}번째 청크 처리 완료. (누적 {total_lines} 라인)")
    print(f"최종 결과가 '{output_file_path}' 파일에 저장되었습니다.")

except FileNotFoundError:
    print(f"입력 파일 '{input_file_path}'를 찾을 수 없습니다.")
except Exception as e:
    print(f"오류 발생 : {e}")

'Dataset/3states/dataset_pa_with_embeddings.jsonl' 파일 처리를 시작합니다...
1번째 청크 처리 완료. (누적 5000 라인)
2번째 청크 처리 완료. (누적 10000 라인)
3번째 청크 처리 완료. (누적 15000 라인)
4번째 청크 처리 완료. (누적 20000 라인)
5번째 청크 처리 완료. (누적 25000 라인)
6번째 청크 처리 완료. (누적 30000 라인)
7번째 청크 처리 완료. (누적 35000 라인)
8번째 청크 처리 완료. (누적 40000 라인)
9번째 청크 처리 완료. (누적 45000 라인)
10번째 청크 처리 완료. (누적 50000 라인)
11번째 청크 처리 완료. (누적 55000 라인)
12번째 청크 처리 완료. (누적 60000 라인)
13번째 청크 처리 완료. (누적 65000 라인)
14번째 청크 처리 완료. (누적 70000 라인)
15번째 청크 처리 완료. (누적 75000 라인)
16번째 청크 처리 완료. (누적 80000 라인)
17번째 청크 처리 완료. (누적 85000 라인)
18번째 청크 처리 완료. (누적 90000 라인)
19번째 청크 처리 완료. (누적 95000 라인)
20번째 청크 처리 완료. (누적 100000 라인)
21번째 청크 처리 완료. (누적 105000 라인)
22번째 청크 처리 완료. (누적 110000 라인)
23번째 청크 처리 완료. (누적 115000 라인)
24번째 청크 처리 완료. (누적 120000 라인)
25번째 청크 처리 완료. (누적 125000 라인)
26번째 청크 처리 완료. (누적 130000 라인)
27번째 청크 처리 완료. (누적 135000 라인)
28번째 청크 처리 완료. (누적 140000 라인)
29번째 청크 처리 완료. (누적 145000 라인)
30번째 청크 처리 완료. (누적 150000 라인)
31번째 청크 처리 완료. (누적 155000 라인)
32번째 청크 처리 완료. (누적 160000 라인)
33