# **1. 데이터 변환**

- 메모리에 효율적인 데이터 유형을 사용하여 용량을 줄이고 빠른 작업이 가능하도록 원본 `csv` 파일을 `parquet` 파일로 변환 후 활용하였습니다.

- [Apache Parquet Document](https://parquet.apache.org/docs/)

In [None]:
import os
import pandas as pd
import gc
import glob

In [None]:
def csv_to_parquet(csv_path, save_name):
    df = pd.read_csv(csv_path, encoding = 'UTF-8')
    df.to_parquet(f'./{save_name}.parquet')
    del df
    gc.collect()
    print(save_name, 'Done.')

In [None]:
# 해당 작업은 RAM 용량 이슈로 local에서 진행

csv_to_parquet('./data/BTCUSDT-trades-2023-01.csv', 'BTCUSDT-trades-2023-01')
csv_to_parquet('./data/BTCUSDT-trades-2023-02.csv', 'BTCUSDT-trades-2023-02')
csv_to_parquet('./data/BTCUSDT-trades-2023-03.csv', 'BTCUSDT-trades-2023-03')
csv_to_parquet('./data/BTCUSDT-trades-2023-04.csv', 'BTCUSDT-trades-2023-04')
csv_to_parquet('./data/BTCUSDT-trades-2023-05.csv', 'BTCUSDT-trades-2023-05')
csv_to_parquet('./data/BTCUSDT-trades-2023-06.csv', 'BTCUSDT-trades-2023-06')
csv_to_parquet('./data/BTCUSDT-trades-2023-07.csv', 'BTCUSDT-trades-2023-07')
csv_to_parquet('./data/BTCUSDT-trades-2023-08.csv', 'BTCUSDT-trades-2023-08')
csv_to_parquet('./data/BTCUSDT-trades-2023-09.csv', 'BTCUSDT-trades-2023-09')
csv_to_parquet('./data/BTCUSDT-trades-2023-10.csv', 'BTCUSDT-trades-2023-10')
csv_to_parquet('./data/BTCUSDT-trades-2023-11.csv', 'BTCUSDT-trades-2023-11')
csv_to_parquet('./data/BTCUSDT-trades-2023-12.csv', 'BTCUSDT-trades-2023-12')

BTCUSDT-trades-2023-01 Done.
BTCUSDT-trades-2023-02 Done.
BTCUSDT-trades-2023-03 Done.
BTCUSDT-trades-2023-04 Done.
BTCUSDT-trades-2023-05 Done.
BTCUSDT-trades-2023-06 Done.
BTCUSDT-trades-2023-07 Done.
BTCUSDT-trades-2023-08 Done.
BTCUSDT-trades-2023-09 Done.
BTCUSDT-trades-2023-10 Done.
BTCUSDT-trades-2023-11 Done.
BTCUSDT-trades-2023-12 Done.


In [None]:
### 2024-01 데이터

folder_path = './data/202401'

# 주어진 폴더 내의 모든 CSV 파일을 리스트로 가져오기
all_files = glob.glob(folder_path + "/*.csv")

# 모든 CSV 파일을 하나의 DataFrame으로 합치기
df = pd.concat((pd.read_csv(f) for f in all_files))

# 합친 DataFrame을 저장할 parquet 파일 이름
save_name = 'BTCUSDT-trades-2024-01'

# DataFrame을 parquet 파일로 저장
df.to_parquet(f'./{save_name}.parquet')

print(save_name, 'Done.')

BTCUSDT-trades-2024-01 Done.
