# DART 02 - 개별 보고서 하위 문서

<img src="http://i.imgur.com/W3QMRaX.png" >

* 정규식을 활용하여 HTML 문서에서 데이터 추출
* 개별 보고서와 하위 보고서 URL

### 2018 FinanceData.KR

# 개별 보고서의 하위문서
해당 보고서 페이지 http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20170515003806 의 페이지 소스


```javascript
    // 1
    treeNode1 = new Tree.TreeNode({
      text: "분 기 보 고 서",
      id: "1",
      cls: "text",
      listeners: {
        click: function() {viewDoc('20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd');}
      }
    });
    cnt++;
    
    treeRoot.appendChild(treeNode1);
  
    // 2
    treeNode1 = new Tree.TreeNode({
      text: "【 대표이사 등의 확인 】",
      id: "2",
      cls: "text",
      listeners: {
        click: function() {viewDoc('20170515003806', '5653406', '2', '12691', '409', 'dart3.xsd');}
      }
    });
    cnt++;
    
    treeRoot.appendChild(treeNode1);
    
    // 3
    treeNode1 = new Tree.TreeNode({
      text: "I. 회사의 개요",
      id: "3",
      cls: "text",
      listeners: {
        click: function() {viewDoc('20170515003806', '5653406', '3', '13104', '333222', 'dart3.xsd');}
      }
    });
    cnt++;
```

# 정규식으로 데이터 추출
* 페이지가 여러개의 하위 페이지로 구성, JavaScript 가 실행된 결과로 링크가 생성
* viewDoc(rcpNo, dcmNo, eleId, offset, length, dtd) 로 구성
* 예를 들어, viewDoc('20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd');}
* viewDoc()를 구성하는 파라미터 (rcpNo, dcmNo, eleId, offset, length, dtd)를 얻는다.


예를 들어 "분 기 보 고 서"의 경우,

```javascript
viewDoc('20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd');}
```
로 부터 정규식 re.compile('viewDoc\((.*)\);') 을 사용하여 다음을 추출

```javascript
    '20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd'
```    

다음 링크가 만들어 진다. <br> http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=1&offset=564&length=4104&dtd=dart3.xsd


In [13]:
import re

source_text = '''
  ...  임의 문자열 ...
  click: function() {viewDoc('20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd');}
 
 ...  임의 문자열 ...
  click: function() {viewDoc('20170515003806', '5653406', '2', '12691', '409', 'dart3.xsd');}

 ...  임의 문자열 ...
'''

matches = re.findall('viewDoc\((.*)\);', source_text)
matches

["'20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd'",
 "'20170515003806', '5653406', '2', '12691', '409', 'dart3.xsd'"]

In [16]:
matches[0]

"'20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd'"

In [19]:
matches[0].replace("'", "").split(",")

['20170515003806', ' 5653406', ' 1', ' 564', ' 4104', ' dart3.xsd']

# 함수로 정리

In [20]:
import requests
import re

def get_report_doc_urls(rcp_no):
    '''접수번호(rcp_no)에 해당하는 모든 하위 문서 URL을 추출
    '''
    doc_urls = []
    url = "http://dart.fss.or.kr/dsaf001/main.do?rcpNo=%s" % (rcp_no)
    r = requests.get(url)
    reg = re.compile('viewDoc\((.*)\);')
    params = []
    matches = reg.findall(r.text)
    for m in matches: 
        params.append(m.replace("'", "").replace(" ", "").split(","))
   
    doc_url_tmpl = "http://dart.fss.or.kr/report/viewer.do?rcpNo=%s&dcmNo=%s&eleId=%s&offset=%s&length=%s&dtd=%s" 

    for p in params:
        if rcp_no == p[0]:
            doc_urls.append( doc_url_tmpl % tuple(p) )
        
    return doc_urls

In [23]:
# 사업 보고서 하위 문서 전체

print('하위보고서 갯수:', len(doc_urls))

doc_urls = get_report_doc_urls('20170515003806')
for url in doc_urls:
    print (url)
    


하위보고서 갯수: 34
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=1&offset=564&length=4104&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=2&offset=12691&length=409&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=3&offset=13104&length=333222&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=4&offset=13194&length=234991&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=5&offset=248189&length=19537&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=6&offset=267730&length=4064&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=7&offset=271798&length=58143&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20170515003806&dcmNo=5653406&eleId=8&offset=329945&length=7183&dtd=dart3.xsd
http://dart.

# Summary

* 정규식으로 데이터 추출, 'viewDoc\((.*)\);' 사이 문자열
* 개별 보고서와 하위 보고서 URL

----
### 2018 FinanceData.KR http://fb.com/financedata