# 양정고등학교 HRD 메이커 퀀트 실습 4
## 주요 재무지표 수집 및 가공하기
[인증키 신청](https://opendart.fss.or.kr/uss/umt/EgovMberInsertView.do)


### 1. 초기 세팅

In [1]:
! mkdir data

In [2]:
! wget https://raw.githubusercontent.com/stockjeong/hrdquant/refs/heads/main/2025stock.csv # 샘플 데이터 받아오기

--2025-05-07 10:16:37--  https://raw.githubusercontent.com/stockjeong/hrdquant/refs/heads/main/2025stock.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 343911 (336K) [text/plain]
Saving to: ‘2025stock.csv’


2025-05-07 10:16:37 (5.27 MB/s) - ‘2025stock.csv’ saved [343911/343911]



In [3]:
! pip install OpenDartReader -q

### 2. 데이터 파싱 전략 수립

In [4]:
import OpenDartReader
my_api = "49526a379265e67332f8abb3ddc10ab9f6af07db"
dart = OpenDartReader(my_api)

In [5]:
import pandas as pd

stock_list = pd.read_csv(
    "./2025stock.csv",
    encoding="utf-8",
    sep="\t",
    usecols=["Name", "Code"],
    dtype=str)

In [6]:
report = dart.finstate("005380", 2024)
display(report[["fs_nm", "account_nm", "thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]])

Unnamed: 0,fs_nm,account_nm,thstrm_amount,frmtrm_amount,bfefrmtrm_amount
0,연결재무제표,유동자산,115764287000000,101724717000000,96389273000000
1,연결재무제표,비유동자산,224034142000000,180738638000000,159353189000000
2,연결재무제표,자산총계,339798429000000,282463355000000,255742462000000
3,연결재무제표,유동부채,79509643000000,73362103000000,74236472000000
4,연결재무제표,비유동부채,140012853000000,107291812000000,90609445000000
5,연결재무제표,부채총계,219522496000000,180653915000000,164845917000000
6,연결재무제표,자본금,1488993000000,1488993000000,1488993000000
7,연결재무제표,이익잉여금,96595668000000,88665805000000,79953601000000
8,연결재무제표,자본총계,120275933000000,101809440000000,90896545000000
9,연결재무제표,매출액,175231153000000,162663579000000,142151469000000


### 3. 데이터 파싱

#### 데이터 파싱 함수 작성

In [7]:
import numpy as np
import pandas as pd

def find_fins_ind_list(stock_code, stock_name, year, ind_list):
    try: # 데이터 가져오기
        report = None
        report = dart.finstate(stock_code, year)
    except:
        pass

    if report is None:  # 리포트가 없다면 (참고: 리포트가 없으면 None을 반환함)
        # 리포트가 없으면 당기, 전기, 전전기 값 모두 제거
        data = [[stock_name, year] + [np.nan] * len(ind_list)]
        data.append([stock_name, year - 1] + [np.nan] * len(ind_list))
        data.append([stock_name, year - 2] + [np.nan] * len(ind_list))

    else:
        report = report[report["account_nm"].isin(ind_list)]  # 관련 지표로 필터링
        if sum(report["fs_nm"] == "연결재무제표") > 0:
            # 연결재무제표 데이터가 있으면 연결재무제표를 사용
            report = report.loc[report["fs_nm"] == "연결재무제표"]
        else:
            # 연결재무제표 데이터가 없으면 일반재무제표를 사용
            report = report.loc[report["fs_nm"] == "재무제표"]
        data = []
        for y, c in zip([year, year - 1, year - 2],
                        ["thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]):
            record = [stock_name, y]
            for ind in ind_list:
                # account_nm이 indic인 행의 c 컬럼 값을 가져옴
                if sum(report["account_nm"] == ind) > 0:
                    value = report.loc[report["account_nm"] == ind, c].iloc[0]
                else:
                    value = np.nan
                record.append(value)
            data.append(record)

    return pd.DataFrame(data, columns=["기업", "연도"] + ind_list)

In [8]:
ind_list = ['자산총계', '부채총계', '자본총계', '매출액', '영업이익', '당기순이익']
display(find_fins_ind_list("005930", "삼성전자", 2024, ind_list))

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
0,삼성전자,2024,514531948000000,112339878000000,402192070000000,300870903000000,32725961000000,34451351000000
1,삼성전자,2023,455905980000000,92228115000000,363677865000000,258935494000000,6566976000000,15487100000000
2,삼성전자,2022,448424507000000,93674903000000,354749604000000,302231360000000,43376630000000,55654077000000


#### 데이터 수집

In [9]:
import time
data = pd.DataFrame() # 이 데이터프레임에 각각의 데이터를 추가할 예정
for code, name in stock_list[['Code', 'Name']].values:
    print(name)
    for year in [2023, 2024]:
        try:
            result = find_fins_ind_list(code, name, year, ind_list) # 재무지표 데이터
        except:
            pass

        data = pd.concat([data, result], axis = 0, ignore_index = True) # data에 부착
        time.sleep(0.5)

삼성전자
SK하이닉스
LG에너지솔루션
삼성바이오로직스
현대차
한화에어로스페이스
삼성전자우
셀트리온
기아
KB금융
HD현대중공업
NAVER
신한지주
한화오션
현대모비스
메리츠금융지주
POSCO홀딩스
삼성물산
크래프톤
카카오
하나금융지주
삼성화재
HMM
삼성생명
두산에너빌리티
HD한국조선해양
한국전력
LG화학
고려아연
SK이노베이션
KT&G
우리금융지주
현대로템
SK텔레콤
삼성중공업
KT
삼성SDI
HD현대일렉트릭
기업은행
LG전자
SK스퀘어
카카오뱅크
LG
포스코퓨처엠
하이브
SK
유한양행
삼성에스디에스
포스코인터내셔널
삼성전기
현대글로비스
한국항공우주
SK바이오팜
대한항공
한화시스템
HD현대마린솔루션
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

삼양식품
한미반도체
HLB
LIG넥스원
아모레퍼시픽
에코프로
DB손해보험
S-Oil
코웨이
미래에셋증권
HD현대
레인보우로보틱스
맥쿼리인프라
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

{'status': '013', 'message': '조회된 데이타가 없습니다.'}

LS ELECTRIC
한진칼
HD현대미포
현대차2우B
LG유플러스
LG씨엔에스
LG생활건강
한국타이어앤테크놀로지
두산
오리온
삼성카드
NH투자증권
효성중공업
현대건설
두산밥캣
삼성증권
한국금융지주
LG디스플레이
카카오페이
한화솔루션
펩트론
LS
삼성E&A
넷마블
CJ제일제당
에코프로머티
코오롱티슈진
SKC
포스코DX
GS
한국가스공사
JB금융지주
현대차우
강원랜드
한화
CJ
LG이노텍
에이비엘바이오
BNK금융지주
삼천당제약
현대오토에버
두산로보틱스
키움증권
시프트업
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

현대제철
금호석유화학
한미약품
SK바이오사이언스
엔씨소프트
한화비전
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

현대엘리베이터
에이피알
롯데케미칼
에스엠
F&F
이마트
동서
농심
한전기

### 4. 데이터 정제

In [10]:
data.drop_duplicates(inplace = True)
data.sort_values(by = ['기업', '연도'], inplace = True)

In [11]:
display(data.head())

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
7250,3S,2021,54614752349,18068427911,36546324438,23477908383,-1408265950,695334883
7249,3S,2022,65127864527,26788875680,38338988847,27110628415,1452134065,1171369995
7248,3S,2023,67635499845,21680745544,45954754301,41857755025,2180508808,1431602721
7251,3S,2024,63790941612,15350773617,48440167995,43595351592,1164030344,2605084717
5684,AJ네트웍스,2021,1356987456278,992584894057,364402562221,981947656833,48071717838,76737133075


In [12]:
# 숫자로 모두 변환
def convert_str_to_float(value):
    if type(value) == float: # nan의 자료형은 float임
        return value
    elif value == '-': # -로 되어 있으면 0으로 변환
        return 0
    else:
        return float(value.replace(',', ''))

for ind in ind_list:
    data[ind] = data[ind].apply(convert_str_to_float)

In [13]:
display(data.head())

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
7250,3S,2021,54614750000.0,18068430000.0,36546320000.0,23477910000.0,-1408266000.0,695334900.0
7249,3S,2022,65127860000.0,26788880000.0,38338990000.0,27110630000.0,1452134000.0,1171370000.0
7248,3S,2023,67635500000.0,21680750000.0,45954750000.0,41857760000.0,2180509000.0,1431603000.0
7251,3S,2024,63790940000.0,15350770000.0,48440170000.0,43595350000.0,1164030000.0,2605085000.0
5684,AJ네트웍스,2021,1356987000000.0,992584900000.0,364402600000.0,981947700000.0,48071720000.0,76737130000.0


### 5. 주요 지표 계산

#### 부채비율

In [14]:
data['부채비율'] = data['부채총계'] / data['자본총계'] * 100
display(data['부채비율'].head())

Unnamed: 0,부채비율
7250,49.439795
7249,69.873715
7248,47.17846
7251,31.690174
5684,272.386914


#### 매출액 증가율, 영업이익 증가율, 당기순이익 증가율

In [15]:
data['매출액증가율'] = (data['매출액'].diff() / data['매출액'].shift(1)) * 100
data.loc[data['연도'] == 2013, '매출액증가율'] = np.nan

In [16]:
data['영업이익증가율'] = (data['영업이익'].diff() / data['영업이익'].shift(1)) * 100
data.loc[data['연도'] == 2013, '영업이익증가율'] = np.nan

data['당기순이익증가율'] = (data['당기순이익'].diff() / data['당기순이익'].shift(1)) * 100
data.loc[data['연도'] == 2013, '당기순이익증가율'] = np.nan

In [17]:
data = data.replace({np.inf:np.nan, -np.inf: np.nan})

#### 매출액 상태, 영업이익 상태, 당기순이익 상태

In [18]:
# 상태를 나타내는 함수 정의
def add_state(data, col):
    data[col + "_상태"] = np.nan # 상태를 결측으로 초기화
    value = data[col].values
    cur_value = value[1:]
    pre_value = value[:-1]
    # 흑자지속
    cond1 = (cur_value > 0) & (pre_value > 0)
    cond1 = np.insert(cond1, 0, np.nan)
    # 적자지속
    cond2 = (cur_value <= 0) & (pre_value <= 0)
    cond2 = np.insert(cond2, 0, np.nan)
    # 흑자전환
    cond3 = (cur_value > 0) & (pre_value <= 0)
    cond3 = np.insert(cond3, 0, np.nan)
    # 적자전환
    cond4 = (cur_value <= 0) & (pre_value > 0)
    cond4 = np.insert(cond4, 0, np.nan)

    # 조건에 따른 변환
    data.loc[cond1, col + "_상태"] = "흑자지속"
    data.loc[cond2, col + "_상태"] = "적자지속"
    data.loc[cond3, col + "_상태"] = "흑자전환"
    data.loc[cond4, col + "_상태"] = "적자전환"

In [19]:
add_state(data, "매출액")
add_state(data, "영업이익")
add_state(data, "당기순이익")

  data.loc[cond1, col + "_상태"] = "흑자지속"
  data.loc[cond1, col + "_상태"] = "흑자지속"
  data.loc[cond1, col + "_상태"] = "흑자지속"


#### ROA

In [20]:
data['ROA'] = (data['당기순이익'] / data['자산총계']) * 100

#### ROE

In [21]:
average_equity = data['자본총계'].rolling(2).mean() # 평균 자기 자본
data['ROE'] = (data['당기순이익'] / average_equity) * 100
data.loc[data['연도'] == 2013, 'ROE'] = np.nan

#### 데이터 저장

In [22]:
data.to_csv("./data/주요재무지표_수정.csv", index = False, encoding = "utf-8")
display(data)

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익,부채비율,매출액증가율,영업이익증가율,당기순이익증가율,매출액_상태,영업이익_상태,당기순이익_상태,ROA,ROE
7250,3S,2021,5.461475e+10,1.806843e+10,3.654632e+10,2.347791e+10,-1.408266e+09,6.953349e+08,49.439795,,,,적자전환,적자전환,적자전환,1.273163,
7249,3S,2022,6.512786e+10,2.678888e+10,3.833899e+10,2.711063e+10,1.452134e+09,1.171370e+09,69.873715,15.472929,-203.115045,68.461273,흑자지속,흑자전환,흑자지속,1.798570,3.128437
7248,3S,2023,6.763550e+10,2.168075e+10,4.595475e+10,4.185776e+10,2.180509e+09,1.431603e+09,47.178460,54.396108,50.158919,22.216100,흑자지속,흑자지속,흑자지속,2.116644,3.396700
7251,3S,2024,6.379094e+10,1.535077e+10,4.844017e+10,4.359535e+10,1.164030e+09,2.605085e+09,31.690174,4.151194,-46.616572,81.969808,흑자지속,흑자지속,흑자지속,4.083785,5.519544
5684,AJ네트웍스,2021,1.356987e+12,9.925849e+11,3.644026e+11,9.819477e+11,4.807172e+10,7.673713e+10,272.386914,2152.413666,4029.765009,2845.667470,흑자지속,흑자지속,흑자지속,5.654963,37.174995
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9759,희림,2024,2.082984e+11,1.261688e+11,8.212957e+10,2.409611e+11,1.527903e+10,1.342837e+10,153.621647,5.383212,107.135232,110.558954,흑자지속,흑자지속,흑자지속,6.446699,17.280208
13046,힘스,2021,8.430302e+10,1.038679e+10,7.391623e+10,,-4.371187e+09,-4.413924e+08,14.052104,,-128.609063,-103.287015,,적자전환,적자전환,-0.523578,-0.565722
13045,힘스,2022,7.952340e+10,1.758886e+10,6.193453e+10,,-1.327548e+10,-8.645207e+09,28.399120,,203.704340,1858.621469,,적자지속,적자지속,-10.871275,-12.727505
13044,힘스,2023,9.559763e+10,2.706650e+10,6.853113e+10,,5.685407e+09,5.599495e+09,39.495187,,-142.826362,-164.769937,,흑자전환,흑자전환,5.857358,8.583860
