jsonl파일을 float32로 변환하고 parquet 파일로 변경 - fl

In [1]:
import json
import pandas as pd
import numpy as np
import os
import pyarrow.parquet as pq

def process_and_save_data(jsonl_file_path, parquet_file_path):

    print(f"parquet 파일 생성")

    other_data_list = []
    embeddings_list = []

    try:
        with open(jsonl_file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data = json.loads(line)
                embedding_vector = data.pop('embedding')
                embeddings_list.append(np.array(embedding_vector, dtype=np.float32))
                other_data_list.append(data)
    except FileNotFoundError:
        print(f"파일을 찾을 수 없음")
        return
    except (json.JSONDecodeError, KeyError) as e:
        print(f"JSON 처리 중 문제 발생 - {e} at line: {line[:50]}...")
        return

    # 데이터프레임 생성
    df = pd.DataFrame(other_data_list)
    
    # 임베딩 리스트를 한 열로 추가
    df['embedding'] = embeddings_list

    # 데이터 프레임을 parquet 파일로 저장
    print(f" {parquet_file_path} 로 저장")
    df.to_parquet(parquet_file_path, engine='pyarrow', compression='snappy')
    print(f"저장 완료")

jsonl_file = 'dataset_fl_with_embeddings_vector.jsonl'
parquet_file = 'review_data_optimized_fl.parquet'

# 데이터 처리 및 저장 함수 실행
process_and_save_data(jsonl_file, parquet_file)

# 데이터 로드 및 확인

try:
    df_loaded = pd.read_parquet(parquet_file)
    
    # 로드된 데이터 정보 확인
    print("\n 데이터 프레임 정보")
    print(df_loaded.info())

    print("\n 첫 5개 행 데이터")
    print(df_loaded.head())

except FileNotFoundError:
    print(f"오류 - 파일을 찾을 수 없음")

parquet 파일 생성
 review_data_optimized_fl.parquet 로 저장
저장 완료

 데이터 프레임 정보
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500892 entries, 0 to 500891
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   review_id     500892 non-null  object
 1   user_id       500892 non-null  object
 2   business_id   500892 non-null  object
 3   review_stars  500892 non-null  int64 
 4   embedding     500892 non-null  object
dtypes: int64(1), object(4)
memory usage: 19.1+ MB
None

 첫 5개 행 데이터
                review_id                 user_id             business_id  \
0  OAhBYw8IQ6wlfw1owXWRWw  1C2lxzUo1Hyye4RFIXly3g  BVndHaLihEYbr76Z0CMEGw   
1  mO398Ed5dpv1H5ZsKc8KXw  yobeeTUBfaTBcnk26mXNuA  hKameFsaXh9g8WQbv593UA   
2  PPgbLBvi34A6m7bKJfTwhw  3TL6HZ1JrKcNTvGDWKlrow  GyC36Pn0Q1-qHnqXys6yFg   
3  LnKr0hwejzl71QmoQyTRDQ  7RU_xK1tEGlUvXfe0GvtEg  hAmuto6UndVroyd_DaD-TA   
4  RMho6HMpdec1YgIypwWQrQ  SNngOVGTkD34B3FAFnMv5A  ab3pRv-b0o-B

jsonl파일을 float32로 변환하고 parquet 파일로 변경 - la

In [2]:
import json
import pandas as pd
import numpy as np
import os
import pyarrow.parquet as pq

def process_and_save_data(jsonl_file_path, parquet_file_path):

    print(f"parquet 파일 생성")

    other_data_list = []
    embeddings_list = []

    try:
        with open(jsonl_file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data = json.loads(line)
                embedding_vector = data.pop('embedding')
                embeddings_list.append(np.array(embedding_vector, dtype=np.float32))
                other_data_list.append(data)
    except FileNotFoundError:
        print(f"파일을 찾을 수 없음")
        return
    except (json.JSONDecodeError, KeyError) as e:
        print(f"JSON 처리 중 문제 발생 - {e} at line: {line[:50]}...")
        return

    # 데이터프레임 생성
    df = pd.DataFrame(other_data_list)
    
    # 임베딩 리스트를 한 열로 추가
    df['embedding'] = embeddings_list

    # 데이터 프레임을 parquet 파일로 저장
    print(f" {parquet_file_path} 로 저장")
    df.to_parquet(parquet_file_path, engine='pyarrow', compression='snappy')
    print(f"저장 완료")

jsonl_file = 'dataset_la_with_embeddings_vector.jsonl'
parquet_file = 'review_data_optimized_la.parquet'

# 데이터 처리 및 저장 함수 실행
process_and_save_data(jsonl_file, parquet_file)

# 데이터 로드 및 확인

try:
    df_loaded = pd.read_parquet(parquet_file)
    
    # 로드된 데이터 정보 확인
    print("\n 데이터 프레임 정보")
    print(df_loaded.info())

    print("\n 첫 5개 행 데이터")
    print(df_loaded.head())

except FileNotFoundError:
    print(f"오류 - 파일을 찾을 수 없음")

parquet 파일 생성
 review_data_optimized_la.parquet 로 저장
저장 완료

 데이터 프레임 정보
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 277766 entries, 0 to 277765
Data columns (total 5 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   review_id     277766 non-null  object
 1   user_id       277766 non-null  object
 2   business_id   277766 non-null  object
 3   review_stars  277766 non-null  int64 
 4   embedding     277766 non-null  object
dtypes: int64(1), object(4)
memory usage: 10.6+ MB
None

 첫 5개 행 데이터
                review_id                 user_id             business_id  \
0  Sx8TMOWLNuJBWer-0pcmoA  bcjbaE6dDog4jkNY91ncLQ  e4Vwtrqf-wpJfwesgvdgxQ   
1  jC-fGfx-YLqxVBcyTAd4Pw  EBa-0-6AKoy6jziNexDJtg  W4ZEKkva9HpAdZG88juwyQ   
2  A4n4YaE-owOVgTQcrVqHUw  S7bjj-L07JuRr-tpX1UZLw  I6L0Zxi5Ww0zEWSAVgngeQ   
3  fGYcFOHfQL4stYPdD3J47g  CgyCtH9CbLO7J_uO3cL7OA  PzhPMkaNYiKDTHoTG0r8rw   
4  zRIH5eDA2GbynjZPrk8dDg  07aVWNhBhpwqW3MdqoKDKQ  jLerIZFpe25j

jsonl파일을 float32로 변환하고 parquet 파일로 변경 - pa

In [2]:
import json
import pandas as pd
import numpy as np
import os
import pyarrow.parquet as pq

def process_and_save_data(jsonl_file_path, parquet_file_path):

    print(f"parquet 파일 생성")

    other_data_list = []
    embeddings_list = []

    try:
        with open(jsonl_file_path, 'r', encoding='utf-8') as f:
            for line in f:
                data = json.loads(line)
                embedding_vector = data.pop('embedding')
                embeddings_list.append(np.array(embedding_vector, dtype=np.float32))
                other_data_list.append(data)
    except FileNotFoundError:
        print(f"파일을 찾을 수 없음")
        return
    except (json.JSONDecodeError, KeyError) as e:
        print(f"JSON 처리 중 문제 발생 - {e} at line: {line[:50]}...")
        return

    # 데이터프레임 생성
    df = pd.DataFrame(other_data_list)
    
    # 임베딩 리스트를 한 열로 추가
    df['embedding'] = embeddings_list

    # 데이터 프레임을 parquet 파일로 저장
    print(f" {parquet_file_path} 로 저장")
    df.to_parquet(parquet_file_path, engine='pyarrow', compression='snappy')
    print(f"저장 완료")

jsonl_file = 'dataset_pa_with_embeddings_vector.jsonl'
parquet_file = 'review_data_optimized_pa.parquet'

# 데이터 처리 및 저장 함수 실행
process_and_save_data(jsonl_file, parquet_file)

# 데이터 로드 및 확인

try:
    df_loaded = pd.read_parquet(parquet_file)
    
    # 로드된 데이터 정보 확인
    print("\n 데이터 프레임 정보")
    print(df_loaded.info())

    print("\n 첫 5개 행 데이터")
    print(df_loaded.head())

except FileNotFoundError:
    print(f"오류 - 파일을 찾을 수 없음")

parquet 파일 생성
 review_data_optimized_pa.parquet 로 저장
저장 완료


OSError: List index overflow.