# 10.1

In [None]:
# 최근 영업일 데이터 뽑기

import requests as rq
from bs4 import BeautifulSoup

url = 'https://finance.naver.com/sise/sise_deposit.nhn'
data = rq.get(url)
data_html = BeautifulSoup(data.content)
parse_day = data_html.select_one(
    'div.subtop_sise_graph2 > ul.subtop_chart_note > li > span.tah').text   # select_one - 해당 데이터 태그 추출

print(parse_day)

In [None]:
import re

biz_day = re.findall('[0-9]+', parse_day)   # 숫자에 해당하는 부분 추출
biz_day = ''.join(biz_day)  # 숫자 합쳐주기

print(biz_day)

## 10.2 한국거래소 업종분류 현황 및 개별지표 크롤링

## 10.2.1

In [None]:
# 1. http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201에서 CSV 데이터를 받아오기 위한 OTP 받아오기

import requests as rq
import cloudscraper     # 보안서비스 우회 요청 처리 라이브러리
from io import BytesIO
import pandas as pd

gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
gen_otp_stk = {
    'locale':'ko-KR',
    'mktId': 'STK', # 코스피 종목
    'trdDd': biz_day,
    'money':'1',
    'csvxls_isNo':'false',
    'name':'fileDown',
    'url':'dbms/MDC/STAT/standard/MDCSTAT03901'
}
# headers = {'Referer':'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201'}   # Referer: 링크를 통해 각각의 웹사이트로 방문할 때 남는 흔적, 이 흔적이 없으면 서버가 로봇으로 인식해 정보를 주지 않음

scraper = cloudscraper.create_scraper()

response = scraper.post(gen_otp_url, params=gen_otp_stk)    # 포스트 요청 - cloudscraper 사용하여 요청 우회

otp_stk = response.text

print(otp_stk)

In [None]:
# 위의 과정을 거처 생성된 OTP를 제출 시, 원하는 데이터 다운 가능

down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
down_sector_stk = scraper.post(down_url, params={'code': otp_stk})              # cloudscraper 사용
sector_stk = pd.read_csv(BytesIO(down_sector_stk.content), encoding='EUC-KR')   # BytesIO : 받은 데이터의 content 부분을 바이너리 스트림으로 만든 후 read_csv 함수를 통해 데이터 읽어오기

sector_stk.head()

In [None]:
# 코스닥 시작 데이터도 동일 과정을 통해 다운

gen_otp_ksq = {
    'locale':'ko-KR',
    'mktId': 'KSQ', # 코스피 종목
    'trdDd': biz_day,
    'money':'1',
    'csvxls_isNo':'false',
    'name':'fileDown',
    'url':'dbms/MDC/STAT/standard/MDCSTAT03901'
}

otp_ksq = scraper.post(gen_otp_url, params=gen_otp_ksq).text

down_sector_ksq = scraper.post(down_url, params={'code': otp_ksq})
sector_ksq = pd.read_csv(BytesIO(down_sector_ksq.content), encoding='EUC-KR')

sector_ksq.head()

In [None]:
# 코스피, 코스닥 데이터 합치기

krx_sector = pd.concat([sector_stk, sector_ksq]).reset_index(drop=True)     # 두 데이터 합쳐주고 reset_index()로 인덱스 리셋, drop=True로 인덱스로 세팅한 열을 삭제
krx_sector['종목명'] = krx_sector['종목명'].str.strip()     # 종목명에 공백이 있는 경우 삭제
krx_sector['기준일'] = biz_day

krx_sector.head()

## 10.2.2 개별종목 지표 크롤링

In [None]:
# 개별지표 OTP 생성 후 데이터 불러오기

import cloudscraper     # 보안서비스 우회 요청 처리 라이브러리
from io import BytesIO
import pandas as pd

gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
gen_otp_data = {
    'searchType':'1',
    'mktId':'ALL',
    'trdDd':biz_day,
    'csvxls_isNo':'false',
    'name':'fileDown',
    'url':'dbms/MDC/STAT/standard/MDCSTAT03501'
}
# headers={'Referer':'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader'}
scraper = cloudscraper.create_scraper()
otp = scraper.post(gen_otp_url, params=gen_otp_data).text

down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
krx_ind = scraper.post(down_url, params={'code': otp})

krx_ind = pd.read_csv(BytesIO(krx_ind.content), encoding='EUC-KR')
krx_ind['종목명'] = krx_ind['종목명'].str.strip()   # 종목명 없는 항목은 삭제
krx_ind['기준일'] = biz_day

krx_ind.head()

## 10.2.3 데이터 정리하기

In [None]:
diff = list(set(krx_sector['종목명']).symmetric_difference(set(krx_ind['종목명']))) # 대칭 차집합을 구하는 함수 / 대칭 차집합 : 두 집합의 합집합에서 공통 부분만 제외한 집합 - 한 집합에만 존재하는 요소들의 집합
print(diff)

In [None]:
# pd.merge(): 두 개의 데이터프레임을 병합할 때 사용하는 함수, SQL의 JOIN 연산과 유사한 방식으로 데이터 결합
kor_ticker = pd.merge(krx_sector,   # 왼쪽 데이터프레임
                      krx_ind,      # 오른쪽 데이터프레임
                      on=krx_sector.columns.intersection(   # on="두 데이터프레임에서 공통으로 사용할 열 이름. 열 이름이 같을 경우에만 사용."
                          krx_ind.columns).tolist(),
                      how='outer')   # 병합 방식(outer:합집합)

kor_ticker.head()

일반적인 종목과 스팩, 우선주, 리츠, 기타 주식을 구분한다.

스팩(Special Purpose Acquisition Company, SPAC): 기업인수를 목적으로 하는 페이퍼컴퍼니
    - 대부분 증권사 주관으로 설립되며, 스팩이 먼저 투자자들의 자금을 모아 주식 시장에 상장이 되고 나면, 그 이후에 괜찮은 비상장기업을 찾아 합병하는 방식으로 최종 기업 인수가 이루어짐

In [None]:
# pandas의 []: [] 내부의 조건이 True인 항목들을 뽑아낸다.

print(kor_ticker[kor_ticker['종목명'].str.contains('스팩|제[0-9]+호')]['종목명'].values)

In [None]:
# 종목코드 끝이 0이 아닌 종목은 우선주에 해당, 우선주를 뽑는 코드

print(kor_ticker[kor_ticker['종목코드'].str[-1:] != '0']['종목명'].values)

In [None]:
# 리츠 종목은 종목명이 리츠로 끝남

print(kor_ticker[kor_ticker['종목명'].str.endswith('리츠')]['종목명'].values)

In [None]:
import numpy as np

# np.where(condition, val_if_true, val_if_false): 조건이 참이면 val_if_true를, 거짓이면 val_if_false를 반환
# 거짓에 np.where를 중첩으로 넣는 경우 - 거짓일 경우에 중첩된 np.where()을 실행

kor_ticker['종목구분'] = np.where(kor_ticker['종목명'].str.contains('스팩|재[0-9]+호'), '스팩',
                            np.where(kor_ticker['종목코드'].str[-1:] != '0', '우선주',
                                     np.where(kor_ticker['종목명'].str.endswith('리츠'), '리츠',
                                              np.where(kor_ticker['종목명'].isin(diff), '기타',
                                                  '보통주'))))

# df.reset_index(): 데이터프레임의 인덱스를 초기화하거나 재설정하는 데 사용됨
# 기존 인덱스를 기본 정수형 인덱스로 변환하고, 변환되기 전 인덱스를 데이터프레임의 열로 변환하거나 제거할 수 있음
kor_ticker = kor_ticker.reset_index(drop=True)
# 열 이름의 공백 삭제
kor_ticker.columns = kor_ticker.columns.str.replace(' ', '')
kor_ticker = kor_ticker[['종목코드', '종목명', '시장구분', '종가',
                         '시가총액', '기준일', 'EPS', '선행EPS', 'BPS', '주당배당금', '종목구분']]
# SQL에는 NaN이 입력되지 않으므로 None으로 재표기
kor_ticker = kor_ticker.replace({np.nan: None})
# 기준일을 datetime 형태로 변경한다
kor_ticker['기준일'] = pd.to_datetime(kor_ticker['기준일'])

kor_ticker.head()

In [29]:
# 다운로드받은 정보를 kor_ticker 테이블에 upsert 형태로 저장

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()

query = f"""
    insert into kor_ticker (종목코드, 종목명, 시장구분, 종가, 시가총액, 기준일, EPS, 선행EPS, BPS, 주당배당금, 종목구분)
    values (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s) as new
    on duplicate key update
    종목명=new.종목명, 시장구분=new.시장구분, 종가=new.종가, 시가총액=new.시가총액, EPS=new.EPS, 선행EPS=new.선행EPS,
    BPS=new.BPS, 주당배당금=new.주당배당금, 종목구분=new.종목구분;
"""

args = kor_ticker.values.tolist()

mycursor.executemany(query, args)   # cursor.executemany(query, args): 같은 SQL문을 여러번 반복적으로 실행할 때 사용 / args는 삽입할 다수의 데이터셋의 모임


con.commit()    # 데이터베이스 변경사항을 실제 db에 저장
con.close()     # 데이터베이스와의 연결을 종료

# 10.3 WICS 기준 섹터 정보 크롤링 

In [None]:
import json
import cloudscraper
import pandas as pd

url = f"https://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd=G10"        # json 파일으로 표현된 데이터

scraper = cloudscraper.create_scraper()

data = scraper.get(url=url).json()

type(data)
print(data.keys())

In [None]:
# list: 해당 섹터의 구성종목 정보가 포함되어 있음
data['list'][0]

In [None]:
# sector: 각종 섹터의 코드 정보가 포함
data['sector']

In [None]:
# list 부분 데이터를 데이터프레임 형태로 변경

data_pd = pd.json_normalize(data['list'])
data_pd.head()

In [None]:
# 모든 섹터의 구성종목을 뽑기 - sec_cd에 해당하는 부분을 for문으로 변경 후 추출

import time
import json
import cloudscraper
import pandas as pd
from tqdm import tqdm

sector_code = [
    'G25', 'G35', 'G50', 'G40', 'G10', 'G20', 'G55', 'G30', 'G15', 'G45'
]

data_sector = []

scraper = cloudscraper.create_scraper()

for i in tqdm(sector_code):
    url = f"https://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd={i}"
    data = scraper.get(url=url).json()
    data_pd = pd.json_normalize(data['list'])
    
    data_sector.append(data_pd)
    time.sleep(2)
    
kor_sector = pd.concat(data_sector, axis=0) # axis=0: 행 방향으로 합치기
kor_sector = kor_sector[['IDX_CD', 'CMP_CD', 'CMP_KOR', 'SEC_NM_KOR']]
kor_sector['기준일'] = biz_day
kor_sector['기준일'] = pd.to_datetime(kor_sector['기준일'])

In [None]:
kor_sector.head()

In [36]:
# db에 위 정보를 저장

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()

# upsert 형식 : update(기존 값 존재 시) + insert(기존 값 없을 때)
query = """
    insert into kor_sector(IDX_CD, CMP_CD, CMP_KOR, SEC_NM_KOR, 기준일)
    values (%s, %s, %s, %s, %s) as new
    on duplicate key update
    IDX_CD=new.IDX_CD, CMP_CD=new.CMP_CD, CMP_KOR=new.CMP_KOR, SEC_NM_KOR=new.SEC_NM_KOR
"""
args = kor_sector.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

---

# 10.4 수정주가 크롤링

## 10.4.1 개별종목 주가 크롤링

In [None]:
# DB에서 티커 데이터를 불러오기

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
# 가장 최근 일자 & 보통주에 해당하는 종목 선택
query = """
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주';
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

ticker_list.head()

In [None]:
# 주가 데이터 페이지 크롤링

from dateutil.relativedelta import relativedelta
import cloudscraper
from io import BytesIO
from datetime import date

scraper = cloudscraper.create_scraper()

i = 0       # 향후 for문을 통해 모든 종목의 주가를 크롤링하기 위한 변수 설정
ticker = ticker_list['종목코드'][i] # 원하는 종목의 티커를 설정
fr = (date.today() + relativedelta(years=-5)).strftime('%Y%m%d')    # 현재 날짜에서 원하는 기간만큼을 뺀 후 yyyymmdd형식으로 만들기 - relativedelta(): 원하는 기간만큼 빼거나 더해주는 함수, strftime(): 시간 형식으로 바꿔주는 함수
to = (date.today()).strftime('%Y%m%d')

url = f"https://m.stock.naver.com/front-api/external/chart/domestic/info?symbol={ticker}&requestType=1&startTime={fr}&endTime={to}&timeframe=day"

data = scraper.get(url=url).content
data_price = pd.read_csv(BytesIO(data))

data_price.head()

In [None]:
# 클렌징 작업 수행

import re

price = data_price.iloc[:, 0:6] # 모든 행, 0번째에서 5번째까지의 열에 해당하는 dataframe 추출
price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
price = price.dropna()
price['날짜'] = price['날짜'].str.extract('(\d+)')  # 날짜 열에서 숫자만을 추출
price['날짜'] = pd.to_datetime(price['날짜']) 
price['종목코드'] = ticker

price.head()



## 10.4.2 전 종목 주가 크롤링

In [None]:
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from datetime import date
from dateutil.relativedelta import relativedelta
import cloudscraper
import time
from tqdm import tqdm
from io import BytesIO

import traceback    # 예외처리 상세 내역 출력 라이브러리
# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()

# 티커 리스트 불러오기
ticker_list = pd.read_sql(
    """
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주';
    """, con=engine
)

# DB 저장 쿼리
query = """
    insert into kor_price(날짜, 시가, 고가, 저가, 종가, 거래량, 종목코드)
    values (%s, %s, %s, %s, %s, %s, %s) as new
    on duplicate key update
    시가=new.시가, 고가=new.고가, 저가=new.저가, 종가=new.종가, 거래량=new.거래량;
"""

# 오류 발생 시 저장할 리스트 생성
error_list = []

# 전 종목 주가 다운로드 및 저장
for i in tqdm(range(0, len(ticker_list))):
    
    # 티커 선택
    ticker = ticker_list['종목코드'][i]
    
    # 시작일과 종료일
    fr = (date.today() + relativedelta(years=-5)).strftime('%Y%m%d')    # 현재 날짜에서 원하는 기간만큼을 뺀 후 yyyymmdd형식으로 만들기 - relativedelta(): 원하는 기간만큼 빼거나 더해주는 함수, strftime(): 시간 형식으로 바꿔주는 함수
    to = (date.today()).strftime('%Y%m%d')
    
    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:
        
        # url 생성
        url = f'https://m.stock.naver.com/front-api/external/chart/domestic/info?symbol={ticker}&requestType=1&startTime={fr}&endTime={to}&timeframe=day'
        
        # 데이터 다운로드
        scraper = cloudscraper.create_scraper()
        data = scraper.get(url).content
        data_price = pd.read_csv(BytesIO(data))
        
        # 데이터 클렌징
        price = data_price.iloc[:, 0:6] # 모든 행, 0번째에서 5번째까지의 열에 해당하는 dataframe 추출
        price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
        price = price.dropna()
        price['날짜'] = price['날짜'].str.extract('(\d+)')  # 날짜 열에서 숫자만을 추출
        price['날짜'] = pd.to_datetime(price['날짜']) 
        price['종목코드'] = ticker
        
        # 주가 데이터를 DB에 저장
        args = price.values.tolist()
        # print(args)
        mycursor.executemany(query, args)
        con.commit()
    except Exception as e:
        print(f"예외 발생: {e}")
        # traceback.print_exc()
        # break
        # 오류 발생 시 error_list에 티커 저장하고 넘어가기
        print(ticker)
        error_list.append(ticker)
        
    # 타임슬립 적용
    time.sleep(2)

# DB 연결 종료
engine.dispose()
con.close()

---

# 10.5 재무제표 크롤링

## 10.5.1 재무제표 다운로드

In [None]:
# 표 형태로 제공되는 재무제표 항목들을 read_html() 함수로 추출

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
query = """
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주'
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

i = 0
ticker = ticker_list['종목코드'][i]

url = f'https://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'
data = pd.read_html(url, displayed_only=False)

[item.head(3) for item in data]

In [None]:
"""
위에서 가져온 재무제표 표 내역
0: 포괄손익계산서(연간)
1: 포괄손익계산서(분기)
2: 재무상태표(연간)
3: 재무상태표(분기)
4: 현금흐름표(연간)
5: 현금흐름표(분기)
"""

# 연간 기준 포괄손익계산서, 재무상태표, 현금흐름표의 열 이름 살펴보기
print(
    data[0].columns.to_list(), '\n',
    data[2].columns.to_list(), '\n',
    data[3].columns.to_list()
)

In [None]:
# 필요하지 않은 전연동기, 전년동기(%) 열 삭제
data_fs_y = pd.concat(
    [data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]])
data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"}) # 첫 번째 열 이름을 "계정" 으로 바꾸기

data_fs_y.head()

In [None]:
# 연간 재무제표에 해당하는 열만을 선택해야 함. 먼저, 결산월에 해당하는 데이터를 크롤링

import cloudscraper
from bs4 import BeautifulSoup
import re

scraper = cloudscraper.create_scraper()

page_data = scraper.get(url)
page_data_html = BeautifulSoup(page_data.content, 'html.parser')

fiscal_data = page_data_html.select('div.corp_group1 > h2')
fiscal_data_text = fiscal_data[1].text  # 결산 데이터는 2번째에 있음
fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)

print(fiscal_data_text)

In [None]:
# 연간 재무제표에 해당하는 열만 선택

print(data_fs_y.columns.str[-2:])
data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == "계정") |
                          (data_fs_y.columns.str[-2:].isin(fiscal_data_text))]  # [-2:]: 열의 글자 인덱스 -2, -1을 불러옴

data_fs_y.head()

In [None]:
# 모든 연도의 데이터가 NaN인 항목을 찾아 삭제

data_fs_y[data_fs_y.loc[:, ~data_fs_y.columns.isin(['계정'])].isna().all(axis=1)].head()        # .all(axis=1): 열 방향(가로)로 체크했을 때 모든 값이 True 인지 확인

In [None]:
# 동일 계정명이 여러 번 반복됨을 확인 함, 하나만 남겨놓는 작업 필요
data_fs_y['계정'].value_counts(ascending=False).head()

In [20]:
# 위의 두 내용을 포함하여 클렌징이 필요한 내용들을 함수로 구성

def clean_fs(df, ticker, frequency):
    df = df[~df.loc[:, ~df.columns.isin(['계정'])].isna().all(axis=1)]  # 모든 연도 데이터가 NaN인 항목 제외
    df = df.drop_duplicates(['계정'], keep='first')     # 계정명 중복 시, 첫 번째 위치하는 데이터만 남김
    df = pd.melt(df, id_vars='계정', var_name='기준일', value_name='값')    # 열로 긴 데이터를 행으로 긴 데이터로 변경
    df = df[~pd.isnull(df['값'])]   # 계정값이 없는 부분 삭제
    df['계정'] = df['계정'].replace({'계산에 참여한 계정 펼치기': ''}, regex=True)  # 계산에 참여한 계정 펼치기라는 글자는 페이지의 +에 해당하는 부분 -> replace로 제거
    df['기준일'] = pd.to_datetime(df['기준일'], format='%Y/%m') + pd.tseries.offsets.MonthEnd() # to_datetime() 메서드로 %Y/%m 형식인 데이터를 YYYY-mm 형태로 바꾼 후 MonthEnd()로 월말에 해당하는 일자 붙이기
    
    df['종목코드'] = ticker
    df['공시구분'] = frequency
    
    return df
    

In [None]:
data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')

data_fs_y_clean.head()

In [None]:
# 분기 재무제표도 클랜징

data_fs_q = pd.concat(
    [data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]])
data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: '계정'})
data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

data_fs_q_clean.head()

In [None]:
# 두 테이블 하나로 묶기
data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])

data_fs_bind.head()

## 10.5.2 전 종목 재무제표 크롤링

In [None]:
# 전 종목 재무제표를 DB에 저장

import pymysql
from sqlalchemy import create_engine
import pandas as pd
import cloudscraper
from bs4 import BeautifulSoup
import re
from tqdm import tqdm
import time

# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 티커 리스트 불러오기
ticker_list = pd.read_sql(
    """
    select * from kor_ticker
    where 기준일 = (select max(기준일) from kor_ticker)
        and 종목구분 = '보통주';
    """, con=engine)

# DB 저장 쿼리
query = """
    insert into kor_fs (계정, 기준일, 값, 종목코드, 공시구분)
    values (%s, %s, %s, %s, %s) as new
    on duplicate key update
    값 = new.값
"""

# 오류 발생 시 저장할 리스트 생성
error_list = []

scraper = cloudscraper.create_scraper()

# 재무제표 클렌징 함수
def clean_fs(df, ticker, frequency):
    
    df = df[~df.loc[:, ~df.columns.isin(['계정'])].isna().all(axis=1)]  # 모든 연도 데이터가 NaN인 항목 제외
    df = df.drop_duplicates(['계정'], keep='first')     # 계정명 중복 시, 첫 번째 위치하는 데이터만 남김
    df = pd.melt(df, id_vars='계정', var_name='기준일', value_name='값')    # 열로 긴 데이터를 행으로 긴 데이터로 변경
    df = df[~pd.isnull(df['값'])]   # 계정값이 없는 부분 삭제
    df['계정'] = df['계정'].replace({'계산에 참여한 계정 펼치기': ''}, regex=True)  # 계산에 참여한 계정 펼치기라는 글자는 페이지의 +에 해당하는 부분 -> replace로 제거
    df['기준일'] = pd.to_datetime(df['기준일'], format='%Y/%m') + pd.tseries.offsets.MonthEnd() # to_datetime() 메서드로 %Y/%m 형식인 데이터를 YYYY-mm 형태로 바꾼 후 MonthEnd()로 월말에 해당하는 일자 붙이기
    
    df['종목코드'] = ticker
    df['공시구분'] = frequency
    
    return df

# 전 종목에 대한 재무제표 크롤링
for i in tqdm(range(0, len(ticker_list))):
    
    # 티커 선택
    ticker = ticker_list['종목코드'][i]
    
    # 오류 발생 시 무시 후 다음 루프 진행
    try:
        # url 생성
        url = f'https://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'
        
        # 데이터 받아오기
        data = pd.read_html(url, displayed_only=False)
        
        # 연간 데이터
        data_fs_y = pd.concat(
            [data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]])
        data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"}) # 첫 번째 열 이름을 "계정" 으로 바꾸기

        # 결산년 찾기
        page_data = scraper.get(url)
        page_data_html = BeautifulSoup(page_data.content, 'html.parser')
        
        fiscal_data = page_data_html.select('div.corp_group1 > h2')
        fiscal_data_text = fiscal_data[1].text  # 결산 데이터는 2번째에 있음
        fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)
        
        # 결산년에 해당하는 계정만 남기기
        data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == '계정') | 
                                  (data_fs_y.columns.str[-2:].isin(fiscal_data_text))]
        
        # 클렌징
        data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')
        
        # 분기 데이터
        data_fs_q = pd.concat(
            [data[1].iloc[:, ~data[0].columns.str.contains('전년동기')], data[3], data[5]])
        data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
        
        data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')
        
        # 2개 합치기
        data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])
        
        # 재무제표 데이터를 DB에 저장
        args = data_fs_bind.values.tolist()
        mycursor.executemany(query, args)
        con.commit()
        
    except:
        
        # 오류 발생 시 해당 종목명을 저장하고 다음 루프로 이동
        print(ticker)
        error_list.append(ticker)
        
    # 타임슬립 적용
    time.sleep(2)
    
# DB 연결 종료
engine.dispose()
con.close()

---