In [3]:
import os
import pandas as pd

def convert_and_save_data_v3(original_df, output_path):
    """
    original_df: 원본 데이터프레임
    output_path: 변환된 데이터를 저장할 경로
    
    주어진 데이터프레임을 AAPL 데이터 형식에 맞게 변환하고 저장합니다.
    """
    # 칼럼 이름 변경
    converted_df = original_df.rename(columns={
        '날짜': 'Date',
        '종가': 'Close',
        '시가': 'Open',
        '고가': 'High',
        '저가': 'Low',
        '거래량': 'Volume'
    })
    
    # '변동 %' 칼럼 삭제
    converted_df = converted_df.drop(columns=['변동 %'])
    
    # 날짜 형식 변경 (공백 제거)
    converted_df['Date'] = converted_df['Date'].str.replace(' ', '')
    
    # 거래량 문자열에서 'M'과 'K' 제거 후 숫자로 변환
    converted_df['Volume'] = converted_df['Volume'].replace({'M': '*1e6', 'K': '*1e3'}, regex=True).map(pd.eval).astype(int)
    
 # 콤마 제거 및 실수형으로 변환
    price_columns = ['Close', 'Open', 'High', 'Low']
    converted_df[price_columns] = converted_df[price_columns].apply(lambda x: x.astype(str).str.replace(',', '').astype(float))


    # 결과 저장
    converted_df.to_csv(output_path, index=False)
    return converted_df

# 적용할 파일 경로들
file_paths = [
    'real_dataset/con_tech.csv',
    'real_dataset/dis_tech.csv',
    'real_dataset/energy_tech.csv',  # 콤마 추가
    'real_dataset/finance_tech.csv',  # 콤마 추가
    'real_dataset/heavy_tech.csv',    # 콤마 추가
    'real_dataset/IT_tech.csv',
    'real_dataset/staples_tech.csv',
    'real_dataset/steels_tech.csv'
]


# 변환된 데이터를 저장할 디렉토리 생성
os.makedirs('converted', exist_ok=True)

# 각 파일에 대해 변환 작업 수행
converted_dfs_v3 = []

for file_path in file_paths:
    original_df = pd.read_csv(file_path)
    output_path = os.path.join('converted', os.path.basename(file_path))
    
    converted_df = convert_and_save_data_v3(original_df, output_path)
    converted_dfs_v3.append((os.path.basename(file_path), converted_df.head()))

# 변환된 데이터의 첫 부분 확인
converted_dfs_v3


[('con_tech.csv',
           Date   Close    Open    High     Low    Volume
  0  2023-06-30  307.74  305.98  308.52  302.15   5030000
  1  2023-06-29  305.58  312.20  313.00  305.58   9760000
  2  2023-06-28  311.61  319.01  319.38  311.59   4320000
  3  2023-06-27  317.02  320.56  321.86  315.36   6410000
  4  2023-06-26  321.37  316.95  329.11  316.90  12450000),
 ('dis_tech.csv',
           Date    Close     Open     High      Low    Volume
  0  2023-06-30  1559.71  1544.03  1564.81  1544.03  10320000
  1  2023-06-29  1530.52  1541.91  1547.68  1530.52   8000000
  2  2023-06-28  1549.88  1545.56  1553.58  1537.65   8890000
  3  2023-06-27  1544.96  1517.41  1545.24  1514.82   9230000
  4  2023-06-26  1515.64  1501.58  1519.78  1496.15   8289999),
 ('energy_tech.csv',
           Date    Close     Open     High      Low    Volume
  0  2023-06-30  1490.35  1480.08  1494.67  1469.48   7990000
  1  2023-06-29  1472.14  1495.18  1504.46  1472.14   9950000
  2  2023-06-28  1495.19  1548.44