In [11]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
from selenium import webdriver

## 1-1. 재무제표 페이지 요청하기

In [15]:
code = '005930' # 종목 코드
fin_type = '4' # 재무제표 타입 -> 0: 주재무제표, 1: GAAP개별, 2: GAAP연결, 3: IFRS별도, 4:IFRS연결
freq_typ = 'Y' # 기간 -> Y : 년, Q : 분기
url = """http://companyinfo.stock.naver.com/v1/company/ajax/cF1001.aspx?
            cmp_cd={}&fin_typ={}&freq_typ={}""".format(code, fin_type, freq_typ)

req = requests.get(url).content

In [21]:
soup = BeautifulSoup(req, 'lxml')
thead = soup.select('thead tr')[1] # 재무제표 컬럼 명 : 첫번째 값은 필요없는 정보이기 때문에 2번째 요소만 가져오기
tbody = soup.select('tbody tr') # 재무제표 값

## 2. 불필요한 데이터 전처리하기 (thead)

In [22]:
# date의 표기법을 year/month에서 year-month로 변경하기
p = re.compile('\d{4}/\d{2}') # year/month 값 추출해내기
date_list = [ date.replace('/', '-') for date in p.findall(str(thead))] # date 값으로 변환가능하도록 부분 수정

In [23]:
# date(2012~2019)와 종목코드로 기본 데이터 프레임 생성
df = pd.DataFrame({'date' : date_list, 'code': code}) # date 값과, code값을 컬럼으로 df 생성
df['date'] = pd.to_datetime(df['date']) # date를 datetime 형식으로 변경

## 3. 불필요한 데이터 전처리하기 (tbody) 

In [24]:
# 컬럼 값 중 숫자 데이터에 천단위 표기 ',' 제거하기
def clean_value(value): 
    if ',' in value:
        value = value.replace(',','')
    
    return value

In [25]:
for tr in tbody:
    th = tr.find('th').text # th -> 재무제표 정보 이름을 담고 있는 태그
    td_list = [ clean_value(td.text) for td in tr.find_all('td') ] # td -> 값을 담고 있는 태그로 천단위 표시 기호인 ','를 제거함 
    df[th] = td_list # 재무제표 정보와 값을 df 컬럼으로 추가

In [26]:
df # 결과 값

Unnamed: 0,code,date,매출액,영업이익,영업이익(발표기준),세전계속사업이익,당기순이익,당기순이익(지배),당기순이익(비지배),자산총계,...,부채비율,자본유보율,EPS(원),PER(배),BPS(원),PBR(배),현금DPS(원),현금배당수익률,현금배당성향(%),발행주식수(보통주)
0,5930,2012-12-01,2011036,290493,290493.0,299150,238453,231854,6599.0,1810716,...,49.05,13859.35,136278,11.17,776993,1.96,8000,0.53,5.2,147299337.0
1,5930,2013-12-01,2286927,367850,367850.0,383643,304748,298212,6535.0,2140750,...,42.7,17047.55,175282,7.83,958040,1.43,14300,1.04,7.23,147299337.0
2,5930,2014-12-01,2062060,250251,250251.0,278750,233944,230825,3119.0,2304230,...,37.09,19379.47,135673,9.78,1083205,1.23,20000,1.51,13.0,147299337.0
3,5930,2015-12-01,2006535,264134,264134.0,259610,190601,186946,3655.0,2421795,...,35.25,21117.88,109883,11.47,1185738,1.06,21000,1.67,16.42,147299337.0
4,5930,2016-12-01,2018667,292407,292407.0,307137,227261,224157,3104.0,2621743,...,35.87,22004.14,136760,13.18,1331779,1.35,28500,1.58,17.81,140679337.0
5,5930,2017-12-01,2404376,543946,,556823,420223,412331,,3027703,...,35.48,,270330,9.64,1589651,1.64,34628,1.33,0.11,
6,5930,2018-12-01,2675671,652931,,665669,500106,491873,,3477569,...,31.23,,333815,7.39,1886568,1.31,66961,2.72,0.18,
7,5930,2019-12-01,2816896,669140,,686369,515535,507170,,3911464,...,28.23,,344196,7.16,2169548,1.14,70450,2.86,0.18,
