## 재무제표 크롤링
국내 데이터 제공업체인 FinGuide에서 운영하는 [Company Guide 웹사이트](https://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A005930)에서 해당 데이터를 구할 수 있다.

#### 삼성전자 재무제표 크롤링

-  삼성전자 종목의 페이지 내용을 불러온다.

In [1]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
query = """
select * from kor_ticker                              # 1
where 기준일 = (select max(기준일) from kor_ticker)
    and 종목구분 = '보통주';
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

i = 0
ticker = ticker_list['종목코드'][i]

url = f'''http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'''  # 2
data = pd.read_html(url, displayed_only=False)  # 3

[item.head(3) for item in data]

[  IFRS(연결)  2021/12  2022/12  2023/12  2024/12    전년동기 전년동기(%)
 0      매출액   2930.0   3404.0   3611.0   4649.0  3611.0    28.7
 1     매출원가   1437.0   1594.0   1707.0   2506.0  1707.0    46.8
 2    매출총이익   1493.0   1810.0   1904.0   2143.0  1904.0    12.5,
   IFRS(연결)  2024/03  2024/06  2024/09  2024/12   전년동기 전년동기(%)
 0      매출액   1189.0   1152.0   1102.0   1206.0  842.0    43.2
 1     매출원가    639.0    612.0    597.0    658.0  377.0    74.7
 2    매출총이익    549.0    540.0    505.0    549.0  466.0    17.8,
              IFRS(연결)  2021/12  2022/12  2023/12  2024/12
 0                  자산   4478.0   4611.0   5585.0   6196.0
 1  유동자산계산에 참여한 계정 펼치기   2202.0   2275.0   2377.0   2378.0
 2                재고자산    362.0    468.0    707.0    893.0,
              IFRS(연결)  2024/03  2024/06  2024/09  2024/12
 0                  자산   5581.0   5587.0   5871.0   6196.0
 1  유동자산계산에 참여한 계정 펼치기   2337.0   2266.0   2182.0   2378.0
 2                재고자산    704.0    732.0    775.0    893.0,
          IFRS(연

1. 티커 리스트를 불러와 첫 번째 티커를 선택한다.
2. 재무제표 페이지에 해당하는 URL을 생성한다.
3. read_html() 함수를 통해 표 데이터만을 가져온다. 페이지를 살펴보면 [+] 버튼을 눌러야만 표시가 되는 항목도 있으므로, displayed_only = False를 통해 해당 항목들도 모두 가져온다.

- 포괄손익계산서, 재무상태표, 현금흐름표의 열 이름을 살펴본다.

In [2]:
print(data[0].columns.tolist(), '\n',
     data[2].columns.tolist(), '\n',
     data[4].columns.tolist()
     )

['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/12', '전년동기', '전년동기(%)'] 
 ['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/12'] 
 ['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/12']


- 포괄손익계산서 표에는 '전년동기', '전년동기(%)' 열이 있으며, 이는 필요하지 않은 내용이므로 삭제해 준다.

In [3]:
data_fs_y = pd.concat(   # 2
    [data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]]   # 1
)
data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"})   # 3

data_fs_y.head()

Unnamed: 0,계정,2021/12,2022/12,2023/12,2024/12
0,매출액,2930.0,3404.0,3611.0,4649.0
1,매출원가,1437.0,1594.0,1707.0,2506.0
2,매출총이익,1493.0,1810.0,1904.0,2143.0
3,판매비와관리비계산에 참여한 계정 펼치기,1269.0,1511.0,1716.0,2008.0
4,인건비,468.0,489.0,521.0,606.0


1. 포괄손익계산서 중 '전년동기'라는 글자가 들어간 열을 제외한 데이터를 선택한다.
2. concat() 함수를 이용해 포괄손익계산서, 재무상태표, 현금흐름표 3개 표를 하나로 묶는다.
3. rename() 메서드를 통해 첫 번째 열 이름(IFRS 또는 IRFS(연결))을 "계정"으로 변경한다.

- 결산마감 이전에 해당 페이지를 크롤링할 경우 연간 재무제표 데이터에 분기 재무제표 데이터가 들어오기도 하므로, 연간 재무제표에 해당하는 열만을 선택해야 한다.

In [4]:
import requests as rq
from bs4 import BeautifulSoup
import re

page_data = rq.get(url)   # 1
page_data_html = BeautifulSoup(page_data.content, 'html.parser')

fiscal_data = page_data_html.select('div.corp_group1 > h2')   # 2
fiscal_data_text = fiscal_data[1].text   # 3
fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)   # 3

print(fiscal_data_text)   # 4

['12']


1. get() 함수를 통해 해당 페이지의 데이터를 불러온 후, content 부분을 BeautifulSoup 객체로 만든다.
2. 결산월 항목은 [cor_group1 클래스의 div 태그 하부의 h2 태그]에 존재하므로, select() 함수를 이용해 추출한다.
3. fiscal_data 중 첫 번째는 종목코드에 해당하고, 두 번째가 결산 데이터에 해당하므로 해당 부분을 선택해 텍스트만 추출한다.
4. 'n월 결산' 형태로 텍스트가 구성되어 있으므로, 정규 표현식을 이용해 숫자에 해당하는 부분만 추출한다.

- 연간 재무제표에 해당하는 열만 선택한다.

In [5]:
data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == "계정") | (data_fs_y.columns.str[-2:].isin(fiscal_data_text))]
data_fs_y.head()

Unnamed: 0,계정,2021/12,2022/12,2023/12,2024/12
0,매출액,2930.0,3404.0,3611.0,4649.0
1,매출원가,1437.0,1594.0,1707.0,2506.0
2,매출총이익,1493.0,1810.0,1904.0,2143.0
3,판매비와관리비계산에 참여한 계정 펼치기,1269.0,1511.0,1716.0,2008.0
4,인건비,468.0,489.0,521.0,606.0


- 추가적으로 클렌징한다.

- 재무제표 값 중에서 모든 연도의 데이터가 NaN인 항목이 있다. 이는 재무제표 계정은 있으나 해당 종목들은 데이터가 없는 것들이므로 삭제해도 된다.

In [6]:
data_fs_y[data_fs_y.loc[:, ~data_fs_y.columns.isin(['계정'])].isna().all(axis=1)].head()

Unnamed: 0,계정,2021/12,2022/12,2023/12,2024/12
10,기타원가성비용,,,,
18,대손충당금환입액,,,,
19,매출채권처분이익,,,,
20,당기손익-공정가치측정 금융자산관련이익,,,,
23,금융자산손상차손환입,,,,


- 동일한 계정명이 여러 번 반복된다. 이러한 계정은 대부분 중요하지 않은 것들이므로, 하나만 남겨 두도록 한다. 

In [7]:
data_fs_y['계정'].value_counts(ascending=False).head()

계정
기타          4
배당금수익       3
파생상품이익      3
이자수익        3
법인세납부(-)    3
Name: count, dtype: int64

In [8]:
def clean_fs(df, ticker, frequency):   # 1

    df = df[~df.loc[:, ~df.columns.isin(["계정"])].isna().all(axis=1)]   # 2
    df = df.drop_duplicates(["계정"], keep="first")   # 3
    df = pd.melt(df, id_vars="계정", var_name="기준일", value_name="값")   # 4
    df = df[~pd.isnull(df["값"])]   # 5
    df["계정"] = df["계정"].replace({"계산에 참여한 계정 펼치기" : ""}, regex=True)   # 6
    df["기준일"] = pd.to_datetime(df["기준일"], format="%Y/%m") + pd.tseries.offsets.MonthEnd()   # 7
    df["종목코드"] = ticker   # 8
    df["공시구분"] = frequency   # 9

    return df

1. 입력값으로는 데이터프레임, 티커, 공시구분(연간/분기)이 필요하다.
2. 먼저, 모든 연도의 데이터가 NaN인 항목은 제외한다.
3. 계정명이 중복되는 경우 drop_duplicates() 함수를 이용해 첫 번째에 위치하는 데이터만 남긴다.
4. melt() 함수를 이용해 열로 긴 데이터를 행으로 긴 데이터로 변경한다.
5. 계정값이 없는 항목은 제외한다.
6. [계산에 참여한 계정 펼치기]라는 글자는 페이지의 [+]에 해당하는 부분이므로 replace() 메서드를 통해 제거한다.
7. to_datetime() 메서드를 통해 기준일은 'yyyy-mm' 형태로 바꾼 후, MonthEnd()를 통해 월말에 해당하는 일을 붙인다.
8. '종목코드' 열에는 티커를 입력한다.
9. '공시구분' 열에는 연간 또는 분기에 해당하는 값을 입력한다.

In [9]:
data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')

data_fs_y_clean.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2021-12-31,2930.0,20,y
1,매출원가,2021-12-31,1437.0,20,y
2,매출총이익,2021-12-31,1493.0,20,y
3,판매비와관리비,2021-12-31,1269.0,20,y
4,인건비,2021-12-31,468.0,20,y


- 분기 재무제표도 클렌칭 처리를 한다.

In [10]:
# 분기 데이터

data_fs_q = pd.concat(
    [data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]]
)
data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

data_fs_q_clean.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2024-03-31,1189.0,20,q
1,매출원가,2024-03-31,639.0,20,q
2,매출총이익,2024-03-31,549.0,20,q
3,판매비와관리비,2024-03-31,484.0,20,q
4,인건비,2024-03-31,153.0,20,q


- concat() 함수를 통해 두 테이블을 하나로 묶어 준다.

In [11]:
data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])

#### 전 종목 재무제표 크롤링

SQL에서 재무제표가 저장될 테이블(kor_fs)을 만들어 준다.

```sql
create table kor_fs (
    계정 varchar(30),
    기준일 date,
    값 float,
    종목코드 varchar(6),
    공시구분 varchar(1),
    primary key(계정, 기준일, 종목코드, 공시구분)
)
```

In [12]:
# 패키지 불러오기
import pymysql
from sqlalchemy import create_engine
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup
import re
from tqdm import tqdm
import time

# DB 연결   # 1
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                     passwd='1234',
                     host='127.0.0.1',
                     db='stock_db',
                     charset='utf8')
mycursor = con.cursor()

# 티커 리스트 불러오기   # 2
ticker_list = pd.read_sql("""
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주';
""", con=engine)

# DB 저장 쿼리   # 3
query = """
    insert into kor_fs (계정, 기준일, 값, 종목코드, 공시구분)
    values (%s, %s, %s, %s, %s) as new
    on duplicate key update
    값=new.값
"""

# 오류 발생 시 저장할 리스트 생성
error_list = []   # 4

# 재무제표 클렌징 함수
def clean_fs(df, ticker, frequency):   

    df = df[~df.loc[:, ~df.columns.isin(["계정"])].isna().all(axis=1)]  
    df = df.drop_duplicates(["계정"], keep="first")  
    df = pd.melt(df, id_vars="계정", var_name="기준일", value_name="값")  
    df = df[~pd.isnull(df["값"])]   
    df["계정"] = df["계정"].replace({"계산에 참여한 계정 펼치기" : ""}, regex=True)  
    df["기준일"] = pd.to_datetime(df["기준일"], format="%Y/%m") + pd.tseries.offsets.MonthEnd()   
    df["종목코드"] = ticker  
    df["공시구분"] = frequency  
    
    return df

# for loop
for i in tqdm(range(0, len(ticker_list))):   # 5

    # 티커 선택
    ticker = ticker_list['종목코드'][i]

    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:   # 6

        # url 생성
        url = f'''http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'''

        # 데이터 받아 오기
        data = pd.read_html(url, displayed_only=False)

        # 연간 데이터
        data_fs_y = pd.concat([
            data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]
        ])
        data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"})

        # 결산년 찾기
        page_data = rq.get(url)
        page_data_html = BeautifulSoup(page_data.content, 'html.parser')

        fiscal_data = page_data_html.select('div.corp_group1 > h2')
        fiscal_data_text = fiscal_data[1].text
        fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)

        # 결산년에 해당하는 계정만 남기기
        data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == '계정') | data_fs_y.columns.str[-2:].isin(fiscal_data_text)]

        # 클렌징
        data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')

        # 분기 데이터
        data_fs_q = pd.concat(
            [data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]]
        )
        data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
        data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

        # 2개 합치기
        data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])

        # 재무제표 테이블를 DB에 저장
        args = data_fs_bind.values.tolist()
        mycursor.executemany(query, args)
        con.commit()

    except:   # 6

        # 오류 발생 시 해당 종목명을 저장하고 다음 루프로 이동
        print(ticker)
        error_list.append(ticker)

    # 타임슬립 적용   # 7
    time.sleep(2)

# DB 연결 종료   # 8
engine.dispose()
con.close()

100%|████████████████████████████████████████████████████████████████████████████| 2491/2491 [2:22:26<00:00,  3.43s/it]


1. DB에 연결한다.
2. 기준일이 최대, 즉 최근일 기분 보통주에 해당하는 티커 리스트(ticker_list)만 불러온다.
3. DB에 저장할 쿼리(query)를 입력한다.
4. 오류 발생 시 저장할 리스트(error_list)를 만든다.
5. for문을 통해 전 종목 재무제표를 다운로드받으며, 진행 상황을 알리기 위해 tqdm() 함수를 이용한다.
6. URL 생성, 데이터 다운로드 및 데이터 클렌징 및 DB에 저장은 위와 동일하며, try except문을 통해 오류 발생 시 티커를 출력 후 error_list에 저장한다.
7. 무한 크롤링을 방지하기 위해 한 번의 루프가 끝날 때마다 타임슬립을 적용한다.
8. 모든 작업이 끝나면 DB와의 연결을 종료한다.

#### 전 종목 가치지표 계산

- SQL에서 가치지표가 저장될 테이블(kor_value)을 만들어 준다.

```sql
use stock_db;

create table kor_value (
    종목코드 varchar(6),
    기준일 date,
    지표 varchar(3),
    값 double,
    primary key (종목코드, 기준일, 지표)
)
```

- 재무 데이터를 이용해 가치지표를 계산한다.

In [5]:
# 패키지 불러오기
import pymysql
from sqlalchemy import create_engine
import pandas as pd
import numpy as np

# DB 연결   
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect (user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 분기 재무제표 불러오기   
kor_fs = pd.read_sql("""
    select * from kor_fs
    where 공시구분 = 'q'
    and 계정 in ('당기순이익', '자본', '영업활동으로인한현금흐름', '매출액')
""", con=engine)

# 티커 리스트 불러오기
ticker_list = pd.read_sql("""
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
    and 종목구분 = '보통주';
""", con=engine)

engine.dispose()

In [6]:
# TTM 구하기
kor_fs = kor_fs.sort_values(['종목코드', '계정', '기준일'])   # 1
kor_fs['ttm'] = kor_fs.groupby(['종목코드', '계정'], as_index=False)['값'].rolling(window=4, min_periods=4).sum()['값']   # 2

# 자본은 평균 구하기   # 3
kor_fs['ttm'] = np.where(kor_fs['계정'] == '자본', kor_fs['ttm'] / 4, kor_fs['ttm'])  
kor_fs = kor_fs.groupby(['계정', '종목코드']).tail(1)   # 4

1. sort_values() 함수를 통해 종목코드, 계정, 기준일순으로 정렬을 한다.
2. 종목코드와 계정별 그룹을 묶은 후, 롤링 합을 통해 TTM 값을 구한다.
3. '자본' 항목은 재무상태표에 해당하는 항목이므로 합이 아닌 평균을 구하며, 타 항목은 4분기 기준 합을 그대로 사용한다.
4. tail(1)을 통해 최근 데이터를 선택한다.

In [7]:
kor_fs_merge = kor_fs[['계정', '종목코드',
                       'ttm']].merge(ticker_list[['종목코드', '시가총액', '기준일']],
                                     on='종목코드')   # 1
kor_fs_merge['시가총액'] = kor_fs_merge['시가총액'] / 100000000   # 2

kor_fs_merge['value'] = kor_fs_merge['시가총액'] / kor_fs_merge['ttm']   # 3
kor_fs_merge['value'] = kor_fs_merge['value'].round(4)
kor_fs_merge['지표'] = np.where(
    kor_fs_merge['계정'] == '매출액', 'PSR',   # 4
    np.where(
        kor_fs_merge['계정'] == '영업활동으로인한현금흐름', 'PCR',   # 4
        np.where(kor_fs_merge['계정'] == '자본', 'PBR',
                 np.where(kor_fs_merge['계정'] == '당기순이익', 'PER', None))))   # 4

kor_fs_merge.rename(columns={'value': '값'}, inplace=True)
kor_fs_merge = kor_fs_merge[['종목코드', '기준일', '지표', '값']]
kor_fs_merge = kor_fs_merge.replace([np.inf, -np.inf, np.nan], None)

kor_fs_merge.head(4)

Unnamed: 0,종목코드,기준일,지표,값
0,20,2025-03-12,PER,82.7305
1,20,2025-03-12,PSR,0.3737
2,20,2025-03-12,PCR,-43.4335
3,20,2025-03-12,PBR,0.4288


1. TTM 기준으로 계산된 재무제표 테이블과 티커 리스트 테이블을 합친다.
2. 시가총액을 억 원으로 나눈다.
3. 시가총액을 재무데이터 값으로 나누어 가치지표를 계산한 후, 반올림을 한다.
4. 각 계정에 맞게 계정명(PSR, PCR, PER, PBR)을 적는다.
5. rename() 메서드를 통해 'value'라는 열 이름을 '값'으로 변경한다.
6. 필요한 열만 선택한 후, replace() 메서드를 통해 inf와 nan를 None으로 변경한다. 변경한다.

- 계산된 가치지표를 데이터베이스에 저장한다.

In [8]:
query = """
    insert into kor_value (종목코드, 기준일, 지표, 값)
    values (%s,%s,%s,%s) as new
    on duplicate key update
    값=new.값
"""

args_fs = kor_fs_merge.values.tolist()
mycursor.executemany(query, args_fs)
con.commit()

In [9]:
ticker_list['값'] = ticker_list['주당배당금'] / ticker_list['종가']   # 1
ticker_list['값'] = ticker_list['값'].round(4)
ticker_list['지표'] = 'DY'   # 2  
dy_list = ticker_list[['종목코드', '기준일', '지표', '값']]   # 3
dy_list = dy_list.replace([np.inf, -np.inf, np.nan], None)   # 4
dy_list = dy_list[dy_list['값'] != 0]   # 5

dy_list.head()

Unnamed: 0,종목코드,기준일,지표,값
0,20,2025-03-12,DY,0.0289
2,50,2025-03-12,DY,0.0191
3,70,2025-03-12,DY,0.0582
4,80,2025-03-12,DY,0.0499
5,100,2025-03-12,DY,0.0038


1. 주당배당금을 종가로 나누어 배당수익률을 계산한 후, 반올림을 한다.
2. '지표'열에 'DY'라는 글자를 입력한다.
3. 원하는 열만 선택한다.
4. inf와 nan은 None으로 변경한다.
5. 주당배당금이 0원인 종목은 값이 0으로 계산되므로, 이를 제외한 종목만 선택한다.

In [10]:
args_dy = dy_list.values.tolist()
mycursor.executemany(query, args_dy)
con.commit()

engine.dispose()
con.close()