사업보고서로부터 전체 기업의 주요 재무지표를 수집하여 가공해보자<br>
부채비율, 영업이익증가율, 매출액증가율, 매출액 상태, ROA, ROE 계산해보기.

In [4]:
import OpenDartReader
import os
from dotenv import load_dotenv

load_dotenv()
api = os.getenv("API_KEY")
dart = OpenDartReader(api)

In [5]:
import pandas as pd

base_dir = os.path.dirname(os.getcwd())
file_path = os.path.join(base_dir, "data", "종목정보.txt")

stock_list = pd.read_csv(file_path, encoding = "euc-kr", sep = "\t",
                         usecols=["Name", "Symbol", "Market"], dtype=str)

report = dart.finstate("삼성전자", 2020)
display(report[["fs_nm", "account_nm", "thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]])
# this term(당기), former term(전기), before former term(전전기)

Unnamed: 0,fs_nm,account_nm,thstrm_amount,frmtrm_amount,bfefrmtrm_amount
0,연결재무제표,유동자산,198215579000000,181385260000000,174697424000000
1,연결재무제표,비유동자산,180020139000000,171179237000000,164659820000000
2,연결재무제표,자산총계,378235718000000,352564497000000,339357244000000
3,연결재무제표,유동부채,75604351000000,63782764000000,69081510000000
4,연결재무제표,비유동부채,26683351000000,25901312000000,22522557000000
5,연결재무제표,부채총계,102287702000000,89684076000000,91604067000000
6,연결재무제표,자본금,897514000000,897514000000,897514000000
7,연결재무제표,이익잉여금,271068211000000,254582894000000,242698956000000
8,연결재무제표,자본총계,275948016000000,262880421000000,247753177000000
9,연결재무제표,매출액,236806988000000,230400881000000,243771415000000


In [6]:
import numpy as np
import pandas as pd

def find_fins_ind_list(stock_code, stock_name, year, ind_list, verbose=False):
    try: # 데이터 가져오기
        report = None
        report = dart.finstate(stock_code, year)
        if isinstance(report, pd.DataFrame) and report.empty:
            if verbose:
                print("빈 DataFrame — 데이터 없음")
        elif isinstance(report, dict) and report.get("status") == "013":
            if verbose:
                print("API 응답 status 013 — 데이터 없음")
        elif not isinstance(report, pd.DataFrame):
            raise ValueError(f"report 타입 문제 - type: {type(report)}")
        elif "account_nm" not in report.columns:
            raise ValueError(f"account_nm 없음 - columns: {list(report.columns)}")
            
    except Exception as e:
        if verbose:
            print(f"예외 발생: {e}")
        report = None

    if report is None: 
        # 리포트가 없으면 당기, 전기, 전전기 값을 모두 제거
        data = [[stock_name, year] + [np.nan] * len(ind_list)]
        data.append([stock_name, year - 1] + [np.nan] * len(ind_list))
        data.append([stock_name, year - 2] + [np.nan] * len(ind_list))

    else: 
        report = report[report["account_nm"].isin(ind_list)] # 관련 지표로 필터링
        if sum(report["fs_nm"] == "연결재무제표") > 0:
            # 연결재무제표 데이터가 있으면 연결재무제표 사용
            report = report.loc[report["fs_nm"] == "연결재무제표"]
        else:
            # 연결재무제표 데이터가 없으면 일반재무제표 사용
            report = report.loc[report["fs_nm"] == "재무제표"]
        data = []
        for y, c in zip([year, year - 1, year - 2],
                        ["thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]):
            record = [stock_name, y]
            for ind in ind_list:
                # acccount_nm이 indic인 행의 c 칼럼 값을 가져옴
                if sum(report["account_nm"] == ind) > 0:
                    value = report.loc[report["account_nm"] == ind, c].iloc[0]
                else:
                    value = np.nan
                record.append(value)
            data.append(record)

    return pd.DataFrame(data, columns=["기업", "연도"] + ind_list)

In [7]:
# 미리 계정명 출력해보기
report = dart.finstate("096760", 2020)
print(report["account_nm"].unique())

['유동자산' '비유동자산' '자산총계' '유동부채' '비유동부채' '부채총계' '자본금' '이익잉여금' '자본총계' '매출액'
 '영업이익' '법인세차감전 순이익' '당기순이익' '당기순이익(손실)']


In [8]:
ind_list = ["자산총계", "부채총계", "자본총계", "매출액", "영업이익", "당기순이익"]
display(find_fins_ind_list("005930", "삼성전자", 2020, ind_list))

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
0,삼성전자,2020,378235718000000,102287702000000,275948016000000,236806988000000,35993876000000,26407832000000
1,삼성전자,2019,352564497000000,89684076000000,262880421000000,230400881000000,27768509000000,21738865000000
2,삼성전자,2018,339357244000000,91604067000000,247753177000000,243771415000000,58886669000000,44344857000000


In [9]:
print(stock_list.columns.tolist())

['Symbol', 'Market', 'Name']


In [10]:
import time
from tqdm.notebook import tqdm
import numpy as np
import pandas as pd

data = pd.DataFrame()
errors = []

kospi_df = stock_list[stock_list['Market'] == 'KOSPI']
iter_data = kospi_df[['Symbol', 'Name']].values

pbar = tqdm(range(len(iter_data)), desc="코스피 대상 작업 진행중", leave=True)

for i in pbar:
    code, name = iter_data[i]
    for year in [2015, 2018, 2020]:
        pbar.set_postfix_str(f"{name}, {year}")
        try:
            result = find_fins_ind_list(code, name, year, ind_list, verbose=False)
            data = pd.concat([data, result], axis=0, ignore_index=True)
            time.sleep(0.1)
        except Exception as e:
            # print 대신 tqdm.write() 사용하되 notebook에서는 깔끔하게 출력되게끔 처리
            tqdm.write(f"예외 발생 - {name} ({code}), {year}: {e}")
            errors.append((code, name, year, str(e)))
        time.sleep(0.05)



# 작업 끝나고 에러 요약
error_df = pd.DataFrame(errors, columns=["종목코드", "종목명", "연도", "에러내용"])
pd.set_option('display.max_colwidth', None)
display(error_df)


코스피 대상 작업 진행중:   0%|          | 0/823 [00:00<?, ?it/s]

{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - BGF리테일 (282330), 2015: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - BNK금융지주 (138930), 2015: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - BNK금융지주 (138930), 2018: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - BNK금융지주 (138930), 2020: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB금융투자 (016610), 2015: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB금융투자 (016610), 2018: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB금융투자 (016610), 2020: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB손해보험 (005830), 2015: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB손해보험 (005830), 2018: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DB손해보험 (005830), 2020: 'account_nm'
{'status': '013', 'message': '조회된 데이타가 없습니다.'}

예외 발생 - DGB금융지주 (139130), 201

Unnamed: 0,종목코드,종목명,연도,에러내용
0,282330,BGF리테일,2015,'account_nm'
1,138930,BNK금융지주,2015,'account_nm'
2,138930,BNK금융지주,2018,'account_nm'
3,138930,BNK금융지주,2020,'account_nm'
4,016610,DB금융투자,2015,'account_nm'
...,...,...,...,...
316,298020,효성티앤씨,2015,'account_nm'
317,298000,효성화학,2015,'account_nm'
318,000540,흥국화재,2015,'account_nm'
319,000540,흥국화재,2018,'account_nm'


In [11]:
data.drop_duplicates(inplace = True) # 2018년 행 중복되므로 삭제
data.sort_values(by = ['기업', '연도'], inplace = True) # 먼저 기업 이름, 이후 연도 기준으로 오름차순 정렬. 원본 data에 바로 반영.
display(data.head(10))

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
2,AJ네트웍스,2013,1250258682892,1035947421718,214311261174,757134207083,70537595517,18131663759
1,AJ네트웍스,2014,1437917070538,1154639967755,283277102783,1011150088928,76977721440,28058455257
0,AJ네트웍스,2015,1725200197495,1327188368579,398011828916,1055580857057,74258957322,28991066418
5,AJ네트웍스,2016,2081316853429,1653831151606,427485701823,1253876534610,61859364996,17079187443
4,AJ네트웍스,2017,2354233734500,1907060853223,447172881277,843940516906,22438377217,20647179903
3,AJ네트웍스,2018,2575139461359,2083331488612,491807972747,1056691254095,-21281686850,37268842438
8,AJ네트웍스,2018,2575139461359,2083331488612,491807972747,1045526121935,-21236052082,37268842438
7,AJ네트웍스,2019,1803255225986,1455914070366,347341155620,1000259401598,15649322684,42128594358
6,AJ네트웍스,2020,1588170350000,1300162539894,288007810106,1017050375182,22952778020,-3316812122
11,AK홀딩스,2013,2374994471896,1739973013119,635021458777,2240972020725,108947071649,108312125916


In [12]:
# 칼럼 값을 숫자로 변환하는 함수
def convert_str_to_float(value):
    if type(value) == float: # nan의 자료형도 float임
        return value
    elif value == "-": # 음수에도 하이픈이 있기에, value가 하이픈일 때에만 변환한다.
        return 0
    else: 
        return float(value.replace(",", ""))

for ind in ind_list:
    data[ind] = data[ind].apply(convert_str_to_float) # 기업과 연도를 제외한 칼럼인 ind_list를 순회하며 함수 적용하기.

In [13]:
display(data.head(10))

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익
2,AJ네트웍스,2013,1250259000000.0,1035947000000.0,214311300000.0,757134200000.0,70537600000.0,18131660000.0
1,AJ네트웍스,2014,1437917000000.0,1154640000000.0,283277100000.0,1011150000000.0,76977720000.0,28058460000.0
0,AJ네트웍스,2015,1725200000000.0,1327188000000.0,398011800000.0,1055581000000.0,74258960000.0,28991070000.0
5,AJ네트웍스,2016,2081317000000.0,1653831000000.0,427485700000.0,1253877000000.0,61859360000.0,17079190000.0
4,AJ네트웍스,2017,2354234000000.0,1907061000000.0,447172900000.0,843940500000.0,22438380000.0,20647180000.0
3,AJ네트웍스,2018,2575139000000.0,2083331000000.0,491808000000.0,1056691000000.0,-21281690000.0,37268840000.0
8,AJ네트웍스,2018,2575139000000.0,2083331000000.0,491808000000.0,1045526000000.0,-21236050000.0,37268840000.0
7,AJ네트웍스,2019,1803255000000.0,1455914000000.0,347341200000.0,1000259000000.0,15649320000.0,42128590000.0
6,AJ네트웍스,2020,1588170000000.0,1300163000000.0,288007800000.0,1017050000000.0,22952780000.0,-3316812000.0
11,AK홀딩스,2013,2374994000000.0,1739973000000.0,635021500000.0,2240972000000.0,108947100000.0,108312100000.0


# 주요 지표 계산
부채비율 = 자본총계 / 자산총계<br>
매출액 증가율 = (당기-전기)매출액 / 전기 매출액<br>
영업이익 증가율 = (당기-전기)영업이익 / 전기 영업이익<br>
당기순이익 증가율 = (당기-전기)당기순이익 / 전기 영업이익<br>
(단순 재무지표로는 전기 순이익, 본업의 경영 효율성이나 투자 성과 평가를 보기 위해서는 전기 영업이익을 분모로 사용.)<br>
ROA = 당기순이익 / 자산총계 <br>
ROE = 당기순이익 / 평균 자기자본

In [14]:
# 부채비율 = 자본총계 / 자산총계 * 100%
data["부채비율"] = data["자본총계"] / data["자산총계"] * 100
display(data["부채비율"].head())  # DataFrame에 새로운 컬럼(또는 기존 컬럼을 덮어쓰기)을 생성하는 문법임.
# pandas.Series는 인덱스를 가진 1차열 배열.

display(data.head(10))

2    17.141354
1    19.700517
0    23.070472
5    20.539194
4    18.994413
Name: 부채비율, dtype: float64

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익,부채비율
2,AJ네트웍스,2013,1250259000000.0,1035947000000.0,214311300000.0,757134200000.0,70537600000.0,18131660000.0,17.141354
1,AJ네트웍스,2014,1437917000000.0,1154640000000.0,283277100000.0,1011150000000.0,76977720000.0,28058460000.0,19.700517
0,AJ네트웍스,2015,1725200000000.0,1327188000000.0,398011800000.0,1055581000000.0,74258960000.0,28991070000.0,23.070472
5,AJ네트웍스,2016,2081317000000.0,1653831000000.0,427485700000.0,1253877000000.0,61859360000.0,17079190000.0,20.539194
4,AJ네트웍스,2017,2354234000000.0,1907061000000.0,447172900000.0,843940500000.0,22438380000.0,20647180000.0,18.994413
3,AJ네트웍스,2018,2575139000000.0,2083331000000.0,491808000000.0,1056691000000.0,-21281690000.0,37268840000.0,19.098304
8,AJ네트웍스,2018,2575139000000.0,2083331000000.0,491808000000.0,1045526000000.0,-21236050000.0,37268840000.0,19.098304
7,AJ네트웍스,2019,1803255000000.0,1455914000000.0,347341200000.0,1000259000000.0,15649320000.0,42128590000.0,19.261897
6,AJ네트웍스,2020,1588170000000.0,1300163000000.0,288007800000.0,1017050000000.0,22952780000.0,-3316812000.0,18.134567
11,AK홀딩스,2013,2374994000000.0,1739973000000.0,635021500000.0,2240972000000.0,108947100000.0,108312100000.0,26.737808


In [15]:
data["매출액증가율"] = data["매출액"].diff() / data["매출액"].shift(1) * 100
# diff(n) 메서드는 시리즈의 각 요소와 n번째 전 값의 차이를 계산하며, n의 기본값은 1임. shift(1)은 전기로 한 칸 이동.
data.loc[data["연도"] == 2013, "매출액증가율"] = np.nan
# data에서 가장 이른 연도가 2013년임. 전기 대비 증가율을 알 수 없으므로 모두 nan으로 처리함.
data["영업이익증가율"] = data["영업이익"].diff() / data["영업이익"].shift(1) * 100
data.loc[data["연도"] == 2013, "영업이익증가율"] = np.nan
data["당기순이익증가율"] = data["당기순이익"].diff() / data["영업이익"].shift(1) * 100
data.loc[data["연도"] == 2013, "당기순이익증가율"] = np.nan

In [20]:
# 증가율은 전기와 당기 값이 모두 양수일 때에만 사용하는 것이 바람직하다.
# 흑자, 적자 상태를 나타내는 함수 정의
def add_state(data, col):
    data[col + "_상태"] = pd.Series(dtype="object")

    value = data[col].to_numpy()
    cur_value = value[1:]
    pre_value = value[:-1]
    # 흑자지속
    cond1 = (cur_value > 0) & (pre_value > 0)
    cond1 = np.insert(cond1, 0, np.nan)  # np.insert(기존 배열, 삽입할 위치, 삽입할 값)
    # 적자지속
    cond2 = (cur_value < 0) & (pre_value < 0)
    cond2 = np.insert(cond2, 0, np.nan)
    # 흑자전환
    cond3 = (cur_value > 0) & (pre_value < 0)
    cond3 = np.insert(cond3, 0, np.nan)
    # 적자전환
    cond4 = (cur_value < 0) & (pre_value > 0)
    cond4 = np.insert(cond4, 0, np.nan)

    # 조건에 따른 변환
    data.loc[cond1, col + "_상태"] = "흑자지속"
    data.loc[cond2, col + "_상태"] = "적자지속"
    data.loc[cond3, col + "_상태"] = "흑자전환"
    data.loc[cond4, col + "_상태"] = "적자전환"

In [21]:
add_state(data, "매출액")
add_state(data, "영업이익")
add_state(data, "당기순이익")

In [22]:
# ROA와 ROE
data["ROA"] = data["당기순이익"] / data["자산총계"] * 100
average_equity = data["자본총계"].rolling(2).mean()
data["ROE"] = data["당기순이익"] / average_equity * 100
data.loc[data["연도"] == 2013, "ROE"] = np.nan

In [26]:
import os

base_dir = os.path.dirname(os.getcwd())
file_path = os.path.join(base_dir, "주요재무지표.csv")

display(data)
data.to_csv(file_path, index=False, encoding="euc-kr")

Unnamed: 0,기업,연도,자산총계,부채총계,자본총계,매출액,영업이익,당기순이익,부채비율,매출액증가율,영업이익증가율,당기순이익증가율,매출액_상태,영업이익_상태,당기순이익_상태,ROA,ROE
2,AJ네트웍스,2013,1.250259e+12,1.035947e+12,2.143113e+11,7.571342e+11,7.053760e+10,1.813166e+10,17.141354,,,,적자전환,적자전환,적자전환,1.450233,
1,AJ네트웍스,2014,1.437917e+12,1.154640e+12,2.832771e+11,1.011150e+12,7.697772e+10,2.805846e+10,19.700517,33.549651,9.130062,14.073051,흑자지속,흑자지속,흑자지속,1.951326,11.277778
0,AJ네트웍스,2015,1.725200e+12,1.327188e+12,3.980118e+11,1.055581e+12,7.425896e+10,2.899107e+10,23.070472,4.394082,-3.531884,1.211534,흑자지속,흑자지속,흑자지속,1.680447,8.510652
5,AJ네트웍스,2016,2.081317e+12,1.653831e+12,4.274857e+11,1.253877e+12,6.185936e+10,1.707919e+10,20.539194,18.785456,-16.697773,-16.041000,흑자지속,흑자지속,흑자지속,0.820595,4.137914
4,AJ네트웍스,2017,2.354234e+12,1.907061e+12,4.471729e+11,8.439405e+11,2.243838e+10,2.064718e+10,18.994413,-32.693491,-63.726790,5.767910,흑자지속,흑자지속,흑자지속,0.877023,4.721198
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6439,흥아해운,2017,8.734091e+11,7.374264e+11,1.359827e+11,8.364275e+11,-1.299947e+10,-6.199193e+10,15.569191,0.562842,-320.484182,-760.170328,흑자지속,적자전환,적자지속,-7.097697,-37.745872
6438,흥아해운,2018,8.036985e+11,7.305503e+11,7.314817e+10,7.538656e+11,-3.759597e+10,-8.654016e+10,9.101445,-9.870781,189.211595,188.840240,흑자지속,적자지속,적자지속,-10.767739,-82.761706
6443,흥아해운,2018,8.036985e+11,7.305503e+11,7.314817e+10,1.008209e+11,-1.120275e+10,-8.654016e+10,9.101445,-86.626147,-70.202256,-0.000000,흑자지속,적자지속,적자지속,-10.767739,-118.308018
6442,흥아해운,2019,4.309627e+11,4.000433e+11,3.091938e+10,1.021668e+11,-1.236429e+10,-5.135655e+10,7.174491,1.335003,10.368371,-314.062219,흑자지속,적자지속,적자지속,-11.916704,-98.698483


In [109]:
# 재잘대는, verbose
# 디버깅, 로그, 출력 메시지를 자세히 보여줄 것인지의 여부를 결정할 때 쓴다. True나 False를 넣는다.

data = [1,2,3,4,5]
def my_function(data, verbose=True):
    if verbose:
        print(f"데이터 길이: {len(data)}")
        print("처리 시작합니다...")
    
    # 실제 로직
    result= print(data)
    
    if verbose:
        print("처리 완료!")
    
    return result

my_function(data)

데이터 길이: 5
처리 시작합니다...
[1, 2, 3, 4, 5]
처리 완료!
