###  주가 데이터 병합

#### 데이터 불러오기

In [None]:
import pandas as pd
data = pd.read_csv("../../데이터/주요재무지표.csv", encoding = "euc-kr")
data.drop(['자산총계', '부채총계', '자본총계', '매출액', '영업이익', '당기순이익'],
          axis = 1, inplace = True)

In [None]:
stock_info_data = pd.read_csv("../../데이터/종목정보.txt", sep = "\t", encoding = "euc-kr")
settle_month_dict = stock_info_data.set_index('Name')['SettleMonth']
settle_month_dict = settle_month_dict.apply(lambda x:int(x[:-1])).to_dict()

In [None]:
sub_due_data = pd.read_csv("../../데이터/사업보고서_제출마감일.csv", encoding ="euc-kr")
sub_due_dict = sub_due_data.set_index(['결산월', '사업연도'])['제출마감일'].to_dict()

In [None]:
import os
sp_data_dict = dict()
for stock in data['기업'].unique():
    if stock + ".csv" in os.listdir("../../데이터/주가데이터"):
        sp_data = pd.read_csv("../../데이터/주가데이터/" + stock + ".csv",
                              usecols = ["Date", "Close"],
                              parse_dates = ["Date"])
        sp_data_dict[stock] = sp_data    

#### 데이터 병합

In [None]:
def find_closest_stock_price(sp_data, date):
    date = pd.to_datetime(date) # 날짜 자료형으로 변환
    # 주가 데이터를 벗어나는 범위의 날짜가 입력되면 결측을 반환
    if sp_data['Date'].max() < date: 
        return np.nan
    else:
        while True:
            # date와 같은 날짜가 Date에 있으면
            if sum(sp_data['Date'] == date) > 0: 
                # 해당 날짜의 종가를 저장
                value = sp_data.loc[sp_data['Date'] == date, 'Close'].iloc[0]  
                break
            else: # date와 같은 날짜의 Date가 없으면, 하루 증가
                date += pd.to_timedelta(1, 'D')
        return value

In [None]:
import numpy as np

cur_sp_list = [] # 현재 주가
next_sp_list = [] # 미래 주가

for corp, year in data[['기업', '연도']].values:
    print(corp, year)
    if corp not in sp_data_dict.keys(): # 데이터가 없으면
        cur_sp_list.append(np.nan)
        next_sp_list.append(np.nan)
    else:
        # 주가 데이터 및 결산월 가져오기
        sp_data = sp_data_dict[corp]
        settle_month = settle_month_dict[corp]
        # 현재 주가 탐색 및 추가
        try:
            cur_date = sub_due_dict[settle_month, year] 
            cur_sp = find_closest_stock_price(sp_data, cur_date)
            cur_sp_list.append(cur_sp)
        except:
            cur_sp_list.append(np.nan)
        # 미래 주가 탐색 및 추가 
        try:
            next_date = sub_due_dict[settle_month, year+1]
            next_sp = find_closest_stock_price(sp_data, next_date)
            next_sp_list.append(next_sp)
        except:
            next_sp_list.append(np.nan)
        
data['현재_주가'] = cur_sp_list
data['미래_주가'] = next_sp_list

### 배당금 및 PER 데이터 병합

#### 데이터 불러오기 및 확인

In [None]:
div_data = pd.read_csv("../../데이터/배당금.csv", encoding = "euc-kr")
PER_data = pd.read_csv("../../데이터/PER.csv", encoding = "euc-kr")

In [None]:
display(div_data.head())
display(PER_data.head())

#### 데이터 구조 변환

In [None]:
year_col_list = ['2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020']
div_data = div_data.melt(id_vars = ['stock_name'], value_vars = year_col_list)
display(div_data.head())

In [None]:
div_data.rename({"stock_name":"기업", "variable":"연도", "value":"배당금"},
                 axis = 1, inplace = True)
div_data['연도'] = div_data['연도'].astype(int)

In [None]:
PER_data = PER_data.melt(id_vars = ['stock_name'], value_vars = year_col_list)
PER_data.rename({"stock_name":"기업", "variable":"연도", "value":"PER"},
                            axis = 1, inplace = True)
PER_data['연도'] = PER_data['연도'].astype(int)

#### 데이터 병합

In [None]:
data = pd.merge(data, div_data, on = ['기업', '연도'], how = "left")
data = pd.merge(data, PER_data, on = ['기업', '연도'], how = "left")

#### 데이터 내보내기

In [None]:
display(data.head())

In [None]:
data.to_csv("../../데이터/재무제표_분석용데이터.csv", index = False, encoding = "euc-kr")