In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
from collections import OrderedDict
import json
import pandas as pd
from pandas.io.json import json_normalize

함수의 입력 값(파라미터) 설정

In [None]:
rcp_info = ['', '', '']  # 기업 명, 년도, 기업 고유 번호
index = 0  # 기업 데이터 인덱스

고유번호를 통해 기업 재무제표 창을 열어, 각 재무제표의 url을 획득

In [None]:
# 에러 메세지 관련 변수 선언
error_mesg = str(index)
error_status = 0
# 재무제표 재무 데이터를 저장하는 JSON(파이썬 딕셔너리) 변수 생성
report_json = OrderedDict()
# 재무제표 메타 데이터를 저장
report_json['회사명'] = rcp_info[0]
report_json['년도'] = int(rcp_info_list[4][:4]) - 1
# 레포트 html문서로 부터, 필요한 세부 레포트 url을 저장할 딕셔너리 생성
report_dict = {'재무상태표': None, '대차대조표': None, '손익계산서': None, '현금흐름표': None}
# 보고서 접수번호
rcpNo = rcp_info[3]  # '20120404001355'
# 보고서 url
report_url = 'http://dart.fss.or.kr/dsaf001/main.do?rcpNo=' + rcpNo
'''
# geckodriver(파이어폭스 버전) 설치경로를 할당하여, 웹드라이버 실행
executable_path = "C:\itStudy\Web\geckodriver-v0.21.0-win64\geckodriver.exe"
driver = webdriver.Firefox(executable_path = executable_path)
'''
# PhantomJS 설치경로를 할당하여, 웹 드라이버 실행
executable_path = "C:\itStudy\Web\phantomjs-2.1.1-windows\\bin\phantomjs.exe"
driver = webdriver.PhantomJS(executable_path)

# 웹 드라이버를 통해, 보고서 url로 html 요청
driver.get(report_url)
try:
    # 서버 응답 대기(타임아웃 10초)
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located( (By.ID, 'ifrm') )
    )
    # 웹 드라이버의 현재 페이지 html 문서로 BeatifulSoup 객체 생성
    main_bsObj = BeautifulSoup(driver.page_source)
    # 첫 페이지에서 필요한 보고서로 이동하는 <a href="#"> 태그 리스트 저장
    # *주의: geckodriver(파이어폭스 버전)을 사용하는 경우, <a> 태그 의 href 속성값을 ""로 설정
    anchorList = main_bsObj.find_all( 'a', {'href': '#'} )
    # checkpoint 1
    #print( 'checkpoint 1 >>', anchorList )
    # 필요한 <a> 태그 index, text 저장 리스트(타겟 리스트) 생성
    targetAList = []
    # 목적에 적합한 <a> 태그 탐색
    for anchor in anchorList:
        # a 태그의 text를 공백 제거 후 저장
        anchorText = anchor.get_text().replace(' ', '')
        # a 태그의 text가 재무제표 유형 리스트에 포함되면 해당 <a> 태그의 index 저장
        if anchorText in report_dict.keys():
            # checkpoint 2
            #print( 'checkpoint 2 >> %d번째 <a href="#">: %s' % (anchorList.index(anchor), anchorText) )
            # 적합한 <a> 태그 메타 데이터(보고서 유형)를 타겟 리스트에 저장
            targetAList.append([anchorList.index(anchor), anchorText])
    # 타겟 리스트를 순회하여, 각 보고서 url 저장
    for index, reportName in targetAList:
        # 보고서에서 각 항목 데이터에 접근하는 <a> 태그에서 필요한 항목이 저장된  index만 접근 
        driver.find_elements_by_xpath('//a[@href="#"]')[index].click()
        # 로딩 대기(2초)
        driver.implicitly_wait(2)
        # 각 보고서 화면으로 부터 재무 데이터 url을 포함한 <iframe> 태그에서 scr 속성값 획득
        target_url = BeautifulSoup(driver.page_source).find('iframe')['src']
        # 속성값에서 불필요한 부분 문자열 제거
        report_dict[reportName] = target_url.replace('amp;', '')
finally:
    # 웹 드라이버 종료
    driver.close()

획득한 url을 통해 제무 데이터를 포함한 html 문서를 획득

In [None]:
# 세부 제무 보고서 BeautifulSoup 객체를 저장하는 변수 선언
finance_position_bsObj = None  # 재무상태표(구 대차대조표)
income_statement_bsObj = None  # 손익계산서
cash_flow_bsObj = None  # 현금흐름표
# 각 세부 보고서 url에서 재무 데이터 추출
for reportName, reportURL in report_dict.items():
    # 세부 보고서 url을 수집하지 못했다면 데이터 추출 skip
    if reportURL == None:
        continue
    # checkpoint 3
    #print('checkpoint 3 >>', reportName, reportURL)
    # DART domain url
    domain = 'https://dart.fss.or.kr/'
    # 재무상태표(대차대조표)에서 재무 데이터 추출
    if reportName in ('재무상태표', '대차대조표'):
        reportHTML = urlopen(domain + reportURL)
        finance_position_bsObj = BeautifulSoup(reportHTML, 'html.parser')
    elif reportName == '손익계산서':
        reportHTML = urlopen(domain + reportURL)
        income_statement_bsObj = BeautifulSoup(reportHTML, 'html.parser')
    elif reportName == '현금흐름표':
        reportHTML = urlopen(domain + reportURL)
        cash_flow_bsObj = BeautifulSoup(reportHTML, 'html.parser')