### 데이터 파싱 전략 수립

#### OpenDartReader 객체 생성

In [1]:
import OpenDartReader
my_api = "c63219e7d4e8fd758c00021fb6bf6ec64d23d312"
dart = OpenDartReader(my_api)

#### 배당 보고서 탐색

In [2]:
# SK하이닉스
SK_report = dart.report("SK하이닉스", "배당", 2023, "11011")
display(SK_report)

Unnamed: 0,rcept_no,corp_cls,corp_code,corp_name,se,thstrm,frmtrm,lwfr,stock_knd
0,20240319000684,Y,164779,SK하이닉스,주당액면가액(원),5000,5000,5000,
1,20240319000684,Y,164779,SK하이닉스,(연결)당기순이익(백만원),-9112428,2229560,9602316,
2,20240319000684,Y,164779,SK하이닉스,(별도)당기순이익(백만원),-4836170,2790457,9567226,
3,20240319000684,Y,164779,SK하이닉스,(연결)주당순이익(원),-13244,3242,13989,
4,20240319000684,Y,164779,SK하이닉스,현금배당금총액(백만원),825721,825181,1058936,
5,20240319000684,Y,164779,SK하이닉스,주식배당금총액(백만원),-,-,-,
6,20240319000684,Y,164779,SK하이닉스,(연결)현금배당성향(%),-,37.00,11.00,
7,20240319000684,Y,164779,SK하이닉스,현금배당수익률(%),0.90,1.50,1.20,보통주
8,20240319000684,Y,164779,SK하이닉스,현금배당수익률(%),-,-,-,우선주
9,20240319000684,Y,164779,SK하이닉스,주식배당수익률(%),-,-,-,보통주


In [3]:
# 삼성전자
SAMSUNG_report = dart.report("삼성전자", "배당", 2023, "11011")
display(SAMSUNG_report)

Unnamed: 0,rcept_no,corp_cls,corp_code,corp_name,se,thstrm,frmtrm,lwfr,stock_knd
0,20240312000736,Y,126380,삼성전자,주당액면가액(원),100,100,100,
1,20240312000736,Y,126380,삼성전자,(연결)당기순이익(백만원),14473401,54730018,39243791,
2,20240312000736,Y,126380,삼성전자,(별도)당기순이익(백만원),25397099,25418778,30970954,
3,20240312000736,Y,126380,삼성전자,(연결)주당순이익(원),2131,8057,5777,
4,20240312000736,Y,126380,삼성전자,현금배당금총액(백만원),9809438,9809438,9809438,
5,20240312000736,Y,126380,삼성전자,주식배당금총액(백만원),-,-,-,
6,20240312000736,Y,126380,삼성전자,(연결)현금배당성향(%),67.80,17.90,25.00,
7,20240312000736,Y,126380,삼성전자,현금배당수익률(%),1.90,2.50,1.80,보통주
8,20240312000736,Y,126380,삼성전자,현금배당수익률(%),2.40,2.70,2.00,우선주
9,20240312000736,Y,126380,삼성전자,주식배당수익률(%),-,-,-,보통주


In [4]:
# 3S
threeS_report = dart.report("3S", "배당", 2023, "11011")
display(threeS_report)

Unnamed: 0,rcept_no,corp_cls,corp_code,corp_name,se,thstrm,frmtrm,lwfr
0,20230811000733,K,378363,3S,주당액면가액(원),500,500,500
1,20230811000733,K,378363,3S,(연결)당기순이익(백만원),1431,1171,695
2,20230811000733,K,378363,3S,(별도)당기순이익(백만원),2097,482,754
3,20230811000733,K,378363,3S,(연결)주당순이익(원),30,33,16
4,20230811000733,K,378363,3S,현금배당금총액(백만원),-,-,-
5,20230811000733,K,378363,3S,주식배당금총액(백만원),-,-,-
6,20230811000733,K,378363,3S,(연결)현금배당성향(%),-,-,-
7,20230811000733,K,378363,3S,현금배당수익률(%),-,-,-
8,20230811000733,K,378363,3S,현금배당수익률(%),-,-,-
9,20230811000733,K,378363,3S,주식배당수익률(%),-,-,-


### 데이터 파싱

#### 데이터 파싱 함수 작성

In [5]:
import numpy as np
def find_div_and_EPS(stock, year):
    report = dart.report(stock, "배당", year, "11011") # 데이터 가져오기
    output = dict() # 출력 초기화
    if report is None: # 리포트가 없다면 (참고: 리포트가 없으면 None을 반환함)
        output['주당배당금'] = np.nan, np.nan, np.nan
        output['주당순이익'] = np.nan, np.nan, np.nan
    
    else:
        # 주당배당금 (div) 관련 행 필터링
        div_row = report.loc[(report['se'] == '주당 현금배당금(원)')].iloc[0]
        
        # 전전기(second previous: spre), 전기(previous: pre), 당기(current: cur)
        # 하이픈 0으로 변환 및 콤마 제거
        cur_div = int(div_row['thstrm'].replace('-', '0').replace(',', '')) 
        pre_div = int(div_row['frmtrm'].replace('-', '0').replace(',', ''))
        spre_div = int(div_row['lwfr'].replace('-', '0').replace(',', '')) 
        output['주당배당금'] = spre_div, pre_div, cur_div
        
        # 주당순이익 (EPS) 관련 행 필터링
        EPS_row = report.loc[(report['se'].str.contains('주당순이익'))].iloc[0]
        
        # 하이픈 0으로 변환 및 콤마 제거
        cur_EPS = int(EPS_row['thstrm'].replace('-', '0').replace(',', '')) 
        pre_EPS = int(EPS_row['frmtrm'].replace('-', '0').replace(',', ''))
        spre_EPS = int(EPS_row['lwfr'].replace('-', '0').replace(',', '')) 
        output['주당순이익'] = spre_EPS, pre_EPS, cur_EPS

    return output

In [6]:
print(find_div_and_EPS("삼성전자", 2023))
print(find_div_and_EPS("SK하이닉스", 2023))

{'주당배당금': (1444, 1444, 1444), '주당순이익': (5777, 8057, 2131)}
{'주당배당금': (1540, 1200, 1200), '주당순이익': (13989, 3242, 13244)}


#### 데이터 파싱

In [None]:
import time
import pandas as pd

stock_list = pd.read_csv("../../데이터/종목정보.txt", sep="\t", encoding="euc-kr")
stock_name_list = stock_list["Name"].values
div_data = []
EPS_data = []

for idx, stock_name in enumerate(stock_name_list):
    print(idx + 1, "/", len(stock_name_list))  # 현재까지 진행된 상황 출력
    # 레코드 초기화
    div_record = [stock_name]
    EPS_record = [stock_name]
    for year in [2015, 2018, 2020]:
        while True:
            try:
                output = find_div_and_EPS(stock_name, year)  # 배당 정보 가져오기
                time.sleep(0.5)  # 0.5초씩 재움
                break
            except:
                time.sleep(10 * 60)
        # 주당 배당금 정리
        spre_divs, pre_divs, cur_divs = output["주당배당금"]
        if year != 2020:
            div_record += [spre_divs, pre_divs, cur_divs]
        else:
            div_record += [pre_divs, cur_divs]  # 2018년이 중복되므로 제외
        # 주당 순이익 정리
        spre_EPS, pre_EPS, cur_EPS = output["주당순이익"]
        if year != 2020:
            EPS_record += [spre_EPS, pre_EPS, cur_EPS]
        else:
            EPS_record += [pre_EPS, cur_EPS]  # 2018년이 중복되므로 제외
    div_data.append(div_record)
    EPS_data.append(EPS_record)

#### 데이터프레임으로 변환 및 저장

In [None]:
columns = ["stock_name", "2013", "2014", "2015", "2016", "2017", "2018", "2019", "2020"]
div_data = pd.DataFrame(div_data, columns = columns)
EPS_data = pd.DataFrame(EPS_data, columns = columns)

div_data.to_csv("../../데이터/주당배당금.csv", encoding = "euc-kr", index = False)
EPS_data.to_csv("../../데이터/주당순이익.csv", encoding = "euc-kr", index = False)

### PER 계산

#### 제출 마감일 계산

In [None]:
sub_due_data = [] # 제출 마감일을 담을 데이터
for settle_month in range(1, 13): # 결산월 
    for year in range(2013, 2021): # 사업연도
        # 사업연도경과후 기준일 계산
        if settle_month < 12:
            after_bs_year_day = pd.to_datetime("{}-{}-1".format(year, settle_month+1))
        else:
            after_bs_year_day = pd.to_datetime("{}-1-1".format(year+1))
        due_date = after_bs_year_day + pd.to_timedelta(90, "D")
        sub_due_data.append([settle_month, year, due_date])
sub_due_data = pd.DataFrame(sub_due_data, columns = ["결산월", "사업연도", "제출마감일"])
#sub_due_data.to_csv("../../데이터/사업보고서_제출마감일.csv", index = False, encoding = "euc-kr")

#### 장이 열리는 가장 가까운 날짜의 주가 찾기

In [None]:
def find_closest_stock_price(sp_data, date):
    date = pd.to_datetime(date) # 날짜 자료형으로 변환
    # 주가 데이터를 벗어나는 범위의 날짜가 입력되면 결측을 반환
    if sp_data['Date'].max() < date: 
        return np.nan
    else:
        while True:
            # date와 같은 날짜가 Date에 있으면
            if sum(sp_data['Date'] == date) > 0: 
                # 해당 날짜의 종가를 저장
                value = sp_data.loc[sp_data['Date'] == date, 'Close'].iloc[0]  
                break
            else: # date와 같은 날짜의 Date가 없으면, 하루 증가
                date += pd.to_timedelta(1, 'D')
        return value

In [None]:
sp_data = pd.read_csv("../../데이터/주가데이터/삼성전자.csv") 
sp_data['Date'] = pd.to_datetime(sp_data['Date']) 
date = "2020-04-06" # 날짜 정의 
print(find_closest_stock_price(sp_data, date))

#### 주가 데이터 구조 변환

In [None]:
display(EPS_data)

In [None]:
print(stock_list.loc[stock_list['Name'] == "삼성전자", "SettleMonth"].iloc[0])
display(sub_due_data[(sub_due_data['결산월'] == 12) & (sub_due_data['사업연도'] == 2017)].iloc[0])

In [None]:
settle_month_dict = stock_list.set_index('Name')['SettleMonth']
settle_month_dict = settle_month_dict.apply(lambda x:int(x[:-1])).to_dict()
sub_due_dict = sub_due_data.set_index(['결산월', '사업연도'])['제출마감일'].to_dict()

In [None]:
print(settle_month_dict['삼성전자'])
print(sub_due_dict[12, 2017])

In [None]:
import os
sp_data = []
for sn in EPS_data["stock_name"].values: # EPS_data의 종목명을 순회하면서
    record = [sn]
    if sn + ".csv" not in os.listdir("../../데이터/주가데이터"):
        # 주가 데이터 폴더 내에 해당 파일이 없으면 전부 결측으로 채움
        record += [np.nan] * (len(EPS_data.columns) - 1)
    else:
        # 주가 데이터 불러오기
        sn_sp_data = pd.read_csv("../../데이터/주가데이터/{}.csv".format(sn),
                                 parse_dates=["Date"])
        settle_month = settle_month_dict[sn]
        for year in range(2013, 2021):
            # 제출 마감일의 주가 찾기
            sub_date = sub_due_dict[settle_month, year]
            sp = find_closest_stock_price(sn_sp_data, sub_date)  
            record.append(sp)
    sp_data.append(record)
sp_data = pd.DataFrame(sp_data, columns=EPS_data.columns)

In [None]:
PER_data = sp_data.values[:, 1:] / EPS_data.replace(0, np.nan).values[:, 1:]
PER_data = pd.DataFrame(PER_data, columns = EPS_data.columns[1:])
PER_data['stock_name'] = EPS_data['stock_name']

In [None]:
PER_data.to_csv("../../데이터/PER.csv", encoding = "euc-kr", index = False)