In [4]:
import pandas as pd
import numpy as np

# 1. 원본 파일 읽기 (44버전)
df_raw = pd.read_csv("../output_data/투자지표_44.csv")

# 2. 0행 = 지표 이름이 들어 있는 행 (기업별 컬럼 머리글)
metric_row = df_raw.iloc[0]

# 3. 2행부터가 실제 데이터 → 이 부분만 따로 사용
#    1행(날짜 행)은 버리고, 인덱스 리셋
df = df_raw.iloc[2:].copy().reset_index(drop=True)

# 4. '기업' 컬럼에 날짜가 들어 있으므로, 이걸 Date로 사용
df = df.rename(columns={"기업": "Date"})

# 필요하면 날짜형으로 변환
# df["Date"] = pd.to_datetime(df["Date"])

# 5. 우리가 평균 내고 싶은 지표 이름 (결과 컬럼 이름)
metrics = [
    "부채비율(%)", "유동비율(%)", "이자보상\n배수(배)", "ROE(%)", "PSR(배)", "PER(배)",
    "PBR(배)", "PCR(배)", "SPS(달러)", "DPS(달러)", "EPS(달러)", "BPS(달러)",
    "CPS(달러)", "ROA(%)", "ROIC(%)"
]

# 결과 dict에 우선 Date 넣기
avg_results = {"Date": df["Date"]}

# 6. 각 지표별로, 0행(metric_row)을 보고 해당 지표에 해당하는 컬럼들을 찾아서
#    행 기준 평균을 계산
for metric in metrics:
    # 0행에서 문자열에 metric이 포함된 컬럼들 선택
    #  예: "자기자본이익률\nROE(%)" 안에 "ROE(%)" 포함
    cols = metric_row[metric_row.astype(str).str.contains(metric, regex=False)].index

    if len(cols) == 0:
        # 혹시 못 찾으면 NaN으로 채움
        avg_results[metric] = pd.Series([np.nan] * len(df))
        continue

    # 해당 지표 컬럼들만 추출
    sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)

    # 숫자로 변환
    sub_df = sub_df.apply(pd.to_numeric, errors="coerce")

    # 행 단위 평균
    avg_results[metric] = sub_df.mean(axis=1, skipna=True)

# 7. 최종 DataFrame 만들기
avg_df = pd.DataFrame(avg_results)




  df_raw = pd.read_csv("../output_data/투자지표_44.csv")
  sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)
  sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)
  sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)
  sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)
  sub_df = df[cols].replace(['-', 'N/A', 'na', 'nan', 'None', ' '], np.nan)


In [5]:
avg_df

Unnamed: 0,Date,부채비율(%),유동비율(%),이자보상\n배수(배),ROE(%),PSR(배),PER(배),PBR(배),PCR(배),SPS(달러),DPS(달러),EPS(달러),BPS(달러),CPS(달러),ROA(%),ROIC(%)
0,2022-11-07,403.258929,159.370588,25.434783,26.109091,4.288814,29.475254,11.644286,29.772373,55.195254,2.177966,6.406780,38.125593,12.635254,8.800000,17.843103
1,2022-11-08,403.258929,159.370588,25.434783,26.109091,4.288814,29.475254,11.644286,29.772373,55.195254,2.177966,6.406780,38.125593,12.635254,8.800000,17.843103
2,2022-11-09,403.258929,159.370588,25.434783,26.109091,4.288814,29.475254,11.644286,29.772373,55.195254,2.177966,6.406780,38.125593,12.635254,8.800000,17.843103
3,2022-11-10,403.258929,159.370588,25.434783,26.109091,4.288814,29.475254,11.644286,29.772373,55.195254,2.177966,6.406780,38.125593,12.635254,8.800000,17.843103
4,2022-11-11,403.258929,159.370588,25.434783,26.109091,4.288814,29.475254,11.644286,29.772373,55.195254,2.177966,6.406780,38.125593,12.635254,8.800000,17.843103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1092,2025-11-03,302.910714,156.676471,32.022727,48.900000,9.110508,57.209831,14.815893,26.317288,69.308136,2.895254,10.008814,49.845593,11.579831,12.547458,26.120339
1093,2025-11-04,302.910714,156.676471,32.022727,48.900000,9.110508,57.209831,14.815893,26.317288,69.308136,2.895254,10.008814,49.845593,11.579831,12.547458,26.120339
1094,2025-11-05,302.910714,156.676471,32.022727,48.900000,9.110508,57.209831,14.815893,26.317288,69.308136,2.895254,10.008814,49.845593,11.579831,12.547458,26.120339
1095,2025-11-06,302.910714,156.676471,32.022727,48.900000,9.110508,57.209831,14.815893,26.317288,69.308136,2.895254,10.008814,49.845593,11.579831,12.547458,26.120339


In [6]:
# 8. 저장
output_path = "../output_data/투자지표_555_평균.csv"
avg_df.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"평균 계산 완료.\n저장 경로: {output_path}")

평균 계산 완료.
저장 경로: ../output_data/투자지표_555_평균.csv
