### 재무제표(포괄손익계산서, 재무상태표, 현금흐름표)와 가치 지표는 투자에 핵심이 되는 데이터 


#### SQLAlchemy는 ORM(Object Relational Mapping)을 사용할 수 있게 도와주는 데이터베이스 관련 툴킷. ORM은 객체와 데이터베이스의 관계를 매핑해준다. 

In [5]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
query = """
select * from kor_ticker                                 #ticker 리스트를 불러와 첫 번째 티커를 선택한다. 
where 기준일 = (select max(기준일) from kor_ticker) 
	and 종목구분 = '보통주';
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

i = 0
ticker = ticker_list['종목코드'][i]

url = f'http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'    #재무제표에 해당하는 URL 
data = pd.read_html(url, displayed_only=False)    #read_html() 함수를 통해 표 데이터만을 가져온다. 페이지를 살펴보면 [+] 버튼을 눌러야만 표시가 되는 항목도 있으므로, displyayed_only=False를 통해 해당 항목들도 모두 가져온다.   

[item for item in data]

[                 IFRS(연결)  2019/12  2020/12  2021/12  2022/12    전년동기 전년동기(%)
 0                     매출액   3072.0   2721.0   2930.0   3404.0  2930.0    16.2
 1                    매출원가   1856.0   1334.0   1437.0   1594.0  1437.0    11.0
 2                   매출총이익   1216.0   1387.0   1493.0   1810.0  1493.0    21.2
 3   판매비와관리비계산에 참여한 계정 펼치기   1120.0   1155.0   1269.0   1511.0  1269.0    19.1
 4                     인건비    400.0    415.0    468.0    489.0   468.0     4.5
 ..                    ...      ...      ...      ...      ...     ...     ...
 74                 계속영업이익     91.0    287.0    196.0    216.0   196.0    10.3
 75                 중단영업이익      NaN      NaN      NaN      NaN     NaN     NaN
 76                  당기순이익     91.0    287.0    196.0    216.0   196.0    10.3
 77                지배주주순이익     91.0    285.0    179.0    204.0   179.0    14.1
 78               비지배주주순이익     -0.0      2.0     17.0     12.0    17.0   -29.5
 
 [79 rows x 7 columns],
                  IFRS(연결)

### 재무제표 표 내역 
##### 0. 포괄손익계산서(연간) / 1. 포괄손익계산서(분기) / 2. 재무상태표(연간) / 3. 재무상태표(분기) / 4. 현금흐름표(연간) / 5. 현금흐름표(분기) 

###### 손익계산서 : 과거 일정 기간 동안의 경영성과 , 매출액/비용/당기순이익 
###### 재무상태표: 특정 시점의 재무상태, 자산/부채/자본
###### 현금흐름표: 과거 일정 기간 동안의 현금흐름변동내역 , 영업활동으로인한현금흐름/투자활동으로인한현금흐름/재무활동으로인한현금흐름


In [6]:
print(data[0].columns.tolist(), '\n',      #연간 기준 포괄손익계산서, 재무상태표, 현금흐름표 
      data[2].columns.tolist(), '\n',
      data[4].columns.tolist()
     )            

['IFRS(연결)', '2019/12', '2020/12', '2021/12', '2022/12', '전년동기', '전년동기(%)'] 
 ['IFRS(연결)', '2019/12', '2020/12', '2021/12', '2022/12'] 
 ['IFRS(연결)', '2019/12', '2020/12', '2021/12', '2022/12']


In [8]:
data_fs_y = pd.concat(                                                              #concat 함수를 이용해 포괄손익계산서, 재무상태표, 현금흐름표 3개 표를 하나로 묶는다. 
    [data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]]) #포괄손익계산서 중 '전년동기'라는 글자가 들어간 열을 제외한 데이터를 선택한다. 
data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"})                #rename() 메서드를 통해 첫 번째 열 이름(IFRS 또는 IFRS(연결)을 '계정'으로 변경한다.)

data_fs_y

Unnamed: 0,계정,2019/12,2020/12,2021/12,2022/12
0,매출액,3072.0,2721.0,2930.0,3404.0
1,매출원가,1856.0,1334.0,1437.0,1594.0
2,매출총이익,1216.0,1387.0,1493.0,1810.0
3,판매비와관리비계산에 참여한 계정 펼치기,1120.0,1155.0,1269.0,1511.0
4,인건비,400.0,415.0,468.0,489.0
...,...,...,...,...,...
153,연결범위변동으로인한현금의증가,,,,
154,환율변동효과,-0.0,-1.0,0.0,-1.0
155,현금및현금성자산의증가,-28.0,208.0,19.0,-261.0
156,기초현금및현금성자산,406.0,378.0,586.0,605.0


##### 결산 마감 이전에 해당 페이지를 크롤링할 경우 연간 재무제표 데이터에 분기 재무제표 데이터가 들어오기도 하므로, 연간 재무제표에해당하는 열만을 선택해야 한다.


In [9]:
import requests as rq
from bs4 import BeautifulSoup
import re

page_data = rq.get(url)    #get() 함수를 통해 페이지의 데이터를 불러온 후, content 부분을 BeautifulSoup 객체로 만든다. 
page_data_html = BeautifulSoup(page_data.content, 'html.parser')    #결산월 항목은 [corp_group]클래스의 div 태그 하부의 h2 태그]에 존재하므로, select() 함수를 이용해 추출한다. 

fiscal_data = page_data_html.select('div.corp_group1 > h2')  #fiscal_data 중 첫 번째는 종목코드에 해당하고, 두 번째까 결산 데이터에 해당하므로 해당 부분을 선택해 텍스트만 추출한다. 
fiscal_data_text = fiscal_data[1].text   #fiscal 데이터 중 첫 번째는 종목코드에 해당하고, 두 번째가 결산 데이터에 해당하므로 해당 부분을 선택에 텍스트만 추출한다.
fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)

print(fiscal_data_text) #'n월 결산' 형태로 텍스트가 구성되어 있으므로, 정규 표현식을 이용해 숫자에 해당하는 부분만 추출한다. 


['12']


##### 결산월에 해당하는 부분만이 선택된다. 이를 이용해 연간 재무제표에 해당하는 열만 선택해보자 
##### 열 이름이 '계정', 그리고 재무제표의 월이 결산월과 같은 부분만 선택한다. 


In [11]:
data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == '계정') |   
                          (data_fs_y.columns.str[-2:].isin(fiscal_data_text))]
data_fs_y.head()

Unnamed: 0,계정,2019/12,2020/12,2021/12,2022/12
0,매출액,3072.0,2721.0,2930.0,3404.0
1,매출원가,1856.0,1334.0,1437.0,1594.0
2,매출총이익,1216.0,1387.0,1493.0,1810.0
3,판매비와관리비계산에 참여한 계정 펼치기,1120.0,1155.0,1269.0,1511.0
4,인건비,400.0,415.0,468.0,489.0


In [12]:
data_fs_y[data_fs_y.loc[:, ~data_fs_y.columns.isin(['계정'])].isna().all(
    axis=1)].head()

 

Unnamed: 0,계정,2019/12,2020/12,2021/12,2022/12
10,기타원가성비용,,,,
18,대손충당금환입액,,,,
19,매출채권처분이익,,,,
20,당기손익-공정가치측정 금융자산관련이익,,,,
23,금융자산손상차손환입,,,,


In [14]:
##### 재무제표 값 중에서 모든 연도의 데이터가 NaN인 항목이 있다. 이는 재무제표 계정은 있으나 해당 종목들은 데이터가 없는 것들이므로 삭제

data_fs_y['계정'].value_counts(ascending=False).head()

기타          4
배당금수익       3
파생상품이익      3
이자수익        3
법인세납부(-)    3
Name: 계정, dtype: int64

###### 동일한 계정명이 여러 번 반복된다. 이러한 계정은 대부분 중요하지 않은 것들이므로, 하나만 남겨 둔다. 이 외에도 함수들을 통해 아래와 같이 클렌징한다. 

In [16]:
def clean_fs(df, ticker, frequency):   #입력값으로 데이터프레임, 티커, 공시구분(연간/분기)이 필요하다. 

    df = df[~df.loc[:, ~df.columns.isin(['계정'])].isna().all(axis=1)]    #모든 연도의 데이터가 NaN인 항목은 제외한다. 
    df = df.drop_duplicates(['계정'], keep='first')                       #계정명이 중복되는 경우 drop_duplicate() 함수를 이용해 첫 번째에 위치한 데이터만 남긴다. 
    df = pd.melt(df, id_vars='계정', var_name='기준일', value_name='값')  #melt() 함수를 이용해 열로 긴 데이터를 행으로 긴 데이터로 변경한다.   
    df = df[~pd.isnull(df['값'])]                                         #계정 값이 없는 항목은 제외한다.   
    df['계정'] = df['계정'].replace({'계산에 참여한 계정 펼치기': ''}, regex=True)  #[계산에 참여한 계정 펼치기]라는 글자는 페이지의 [+]에 해당하는 부분이므로 replace() 메서드를 통해 제거한다.     
    df['기준일'] = pd.to_datetime(df['기준일'],                                  #to_datetime() 메서드를 통해 기준일을 'yyyy-mm'형태로 바꾼 후, MonthEnd()를 통해 월말에 해당하는 일을 붙인다. 
                               format='%Y-%m') + pd.tseries.offsets.MonthEnd()
    df['종목코드'] = ticker                                       # '종목코드' 열에는 티커를 입력한다. 
    df['공시구분'] = frequency                                    # '공시구분' 열에는 연간 혹은 분기에 해당하는 값을 입력한다. 

    return df



In [17]:
# 연간 재무제표 항목에 위 함수를 적용하면 아래와 같은 결과가 나온다.

data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')

data_fs_y_clean.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2019-12-31,3072.0,20,y
1,매출원가,2019-12-31,1856.0,20,y
2,매출총이익,2019-12-31,1216.0,20,y
3,판매비와관리비,2019-12-31,1120.0,20,y
4,인건비,2019-12-31,400.0,20,y


In [18]:
# 분기 재무제표도 클렌징 처리

data_fs_q = pd.concat(
    [data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]])
data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

data_fs_q_clean.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2022-03-31,853.0,20,q
1,매출원가,2022-03-31,406.0,20,q
2,매출총이익,2022-03-31,447.0,20,q
3,판매비와관리비,2022-03-31,356.0,20,q
4,인건비,2022-03-31,134.0,20,q


In [19]:
# 분기 데이터는 결산월에 해당하는 부분을 선택할 필요가 없으며, 이를 제외하고는 모든 과정이 연간 재무제표 항목과 동일 
data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])

### 전 종목 재무제표 크롤링


###### for문을 통해 전 종목 재무제표가 DataBase에 저장한다.

In [1]:
# 패키지 불러오기
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from datetime import date
from dateutil.relativedelta import relativedelta
import requests as rq
import time
from tqdm import tqdm
from io import BytesIO

# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 티커리스트 불러오기
ticker_list = pd.read_sql("""
select * from kor_ticker
where 기준일 = (select max(기준일) from kor_ticker) 
	and 종목구분 = '보통주';
""", con=engine)

# DB 저장 쿼리
query = """
    insert into kor_price (날짜, 시가, 고가, 저가, 종가, 거래량, 종목코드)
    values (%s,%s,%s,%s,%s,%s,%s) as new
    on duplicate key update
    시가 = new.시가, 고가 = new.고가, 저가 = new.저가,
    종가 = new.종가, 거래량 = new.거래량;
"""

# 오류 발생시 저장할 리스트 생성
error_list = []

# 전종목 주가 다운로드 및 저장
for i in tqdm(range(0, len(ticker_list))):

    # 티커 선택
    ticker = ticker_list['종목코드'][i]

    # 시작일과 종료일
    fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")
    to = (date.today()).strftime("%Y%m%d")

    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:

        # url 생성
        url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1
        &startTime={fr}&endTime={to}&timeframe=day'''

        # 데이터 다운로드
        data = rq.get(url).content
        data_price = pd.read_csv(BytesIO(data))

        # 데이터 클렌징
        price = data_price.iloc[:, 0:6]
        price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
        price = price.dropna()
        price['날짜'] = price['날짜'].str.extract('(\d+)')
        price['날짜'] = pd.to_datetime(price['날짜'])
        price['종목코드'] = ticker

        # 주가 데이터를 DB에 저장
        args = price.values.tolist()
        mycursor.executemany(query, args)
        con.commit()

    except:

        # 오류 발생시 error_list에 티커 저장하고 넘어가기
        print(ticker)
        error_list.append(ticker)

    # 타임슬립 적용
    time.sleep(2)

# DB 연결 종료
engine.dispose()
con.close()

100%|████████████████████████████████████████████████████████████████████████████| 2322/2322 [1:30:01<00:00,  2.33s/it]
