# DART 02 - 개별 보고서 하위 문서

<img src="http://i.imgur.com/W3QMRaX.png" >

* 정규식을 활용하여 HTML 문서에서 데이터 추출
* 개별 보고서와 하위 보고서 URL

### 2018-2019 FinanceData.KR

# 개별 보고서의 하위문서
하위 문서의 형태의 차이
* 보고서가 여러 페이지로 구성된 경우
* 단일 페이지로 구성된 경우

## 보고서가 여러 페이지로 구성된 경우

http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190401004781

페이지의 HTML 소스코드


```javascript
		// 1
		treeNode1 = new Tree.TreeNode({
			text: "사 업 보 고 서",
			id: "1",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20190401004781', '6616741', '1', '793', '4059', 'dart3.xsd');}
			}
		});
		cnt++;
		
		treeRoot.appendChild(treeNode1);
		
			
			
		
	
		// 2
		treeNode1 = new Tree.TreeNode({
			text: "【 대표이사 등의 확인 】",
			id: "2",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20190401004781', '6616741', '2', '12878', '418', 'dart3.xsd');}
			}
		});
		cnt++;
		
		treeRoot.appendChild(treeNode1);	
```

다음 패턴을 찾습니다.

```javascript
{viewDoc('20190401004781', '6616741', '1', '793', '4059', 'dart3.xsd');}
```

# 개별 보고서의 하위문서
해당 보고서 페이지 http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20170515003806 의 페이지 소스


```javascript
		// 1
		treeNode1 = new Tree.TreeNode({
			text: "분 기 보 고 서",
			id: "1",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20170515003806', '5653406', '1', '564', '4104', 'dart3.xsd');}
			}
		});
		cnt++;
		
		treeRoot.appendChild(treeNode1);
		

		// 2
		treeNode1 = new Tree.TreeNode({
			text: "【 대표이사 등의 확인 】",
			id: "2",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20170515003806', '5653406', '2', '12691', '409', 'dart3.xsd');}
			}
		});
		cnt++;
		
		treeRoot.appendChild(treeNode1);
		
	
		// 3
		treeNode1 = new Tree.TreeNode({
			text: "I. 회사의 개요",
			id: "3",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20170515003806', '5653406', '3', '13104', '333222', 'dart3.xsd');}
			}
		});
		cnt++;
		
		treeNode2 = new Tree.TreeNode({
			text: "1. 회사의 개요",
			id: "4",
			cls: "text",
			listeners: {
				click: function() {viewDoc('20170515003806', '5653406', '4', '13194', '234991', 'dart3.xsd');}
			}
		});
		cnt++;
```

# 정규식으로 데이터 추출
* 페이지가 여러개의 하위 페이지로 구성, JavaScript 가 실행된 결과로 링크가 생성
* viewDoc(rcpNo, dcmNo, eleId, offset, length, dtd) 로 구성
* viewDoc()를 구성하는 파라미터 (rcpNo, dcmNo, eleId, offset, length, dtd)를 얻습니다


1) 페이지 소스에서 다음 패턴을 찾습니다.

```python
"{viewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;"
```

2) 패턴들에서 데이터를 추출하여 링크로 구성합니다.
```javascript
[('20190401004781', '6616741', '1', '793', '4059', 'dart3.xsd'),
 ('20190401004781', '6616741', '2', '12878', '418', 'dart3.xsd'),
 ...
```

```javascript
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=1&offset=793&length=4059&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=2&offset=12878&length=418&dtd=dart3.xsd
```


In [17]:
import requests
import re

r = requests.get('http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190401004781')

matches = re.findall("{viewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;", r.text)
m = matches[0]
m

('20190401004781', '6616741', '1', '793', '4059', 'dart3.xsd')

In [18]:
doc_url_tmpl = "http://dart.fss.or.kr/report/viewer.do?rcpNo=%s&dcmNo=%s&eleId=%s&offset=%s&length=%s&dtd=%s" 
doc_url_tmpl % m

'http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=1&offset=793&length=4059&dtd=dart3.xsd'

## 보고서가 1개 페이지로만 구성된 경우

보고서가 1개 페이지로만 구성되어 있는 경우 위와 동일한 정규식으로 매칭이 일어나지 않습니다.

예를 들어, 다음 URL은 1개 페이지로 구성된 간단한 공시 입니다.

http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190329803953


In [19]:
r = requests.get('http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190329803953')

matches = re.findall("{viewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;", r.text)
matches 

[]

이유는 페이지의 구성에 차이가 있기 때문입니다.

http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190329803953


```javascript
	 $j("#center-panel > div > div").resize(resizeFrame);
	 resizeFrame();


	
		viewDoc('20190329803953', '6595634', '0', '0', '0', 'HTML');
	
```
1개 페이지로만 구성되어 있는 경우는 다음 패턴을 찾습니다.

```javascript
\t\tviewDoc('20190329803953', '6595634', '0', '0', '0', 'HTML');
```

In [20]:
r = requests.get('http://dart.fss.or.kr/dsaf001/main.do?rcpNo=20190329803953')

matches = re.findall("\t\tviewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;", r.text)
matches

[('20190329803953', '6595634', '0', '0', '0', 'HTML')]

## 여러 페이지 보고서와 단일 페이지 보고서에 대응
여러 페이지 보고서의 경우는 다음 정규식을 사용하고,

```python
matches = re.findall("{viewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;", r.text)
```

단일 페이지 페이지 보고서의 경우는 다음 정규식을 사용합니다.

```python
matches = re.findall("\t\tviewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;", r.text)
```


# 함수로 정리

In [0]:
import json
import re
import urllib
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd
from pandas.io.json import json_normalize

def sub_report_urls(rcp_no):
  '''
  접수번호(rcp_no)에 해당하는 모든 하위 보고서 URL을 추출하여 리스트로 반환
  '''
  doc_urls = []
  url = "http://dart.fss.or.kr/dsaf001/main.do?rcpNo=%s" % (rcp_no)
  r = requests.get(url)

  multi_page_re = "{viewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;"
  single_page_re = "\t\tviewDoc\('(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\d+)', '(\S+)'\)\;"
  
  matches = re.findall(multi_page_re, r.text)
  if len(matches) == 0: 
    matches = re.findall(single_page_re, r.text)

  doc_url_tmpl = "http://dart.fss.or.kr/report/viewer.do?rcpNo=%s&dcmNo=%s&eleId=%s&offset=%s&length=%s&dtd=%s" 
  for m in matches:
    url = doc_url_tmpl % m
    doc_urls.append(url)
  return doc_urls


def sub_report_titles(rcp_no):
    '''
    접수번호(rcp_no)에 해당하는 모든 하위 보고서의 제목 리스트 반환
    '''
    url = "http://dart.fss.or.kr/dsaf001/main.do?rcpNo=%s" % (rcp_no)
    r = requests.get(url)
    matches = re.findall('text: \"(.*)\",', r.text)
    
    doc_titles = matches[1:] # '전체' 제외
    if len(doc_titles) == 0: # 1페이지 경우 (본문의 첫 라인)
      title = BeautifulSoup(r.text).title.text.strip()
      doc_titles = [title]
   
    return doc_titles

In [22]:
# 단일 페이지
rpt_urls = sub_report_urls('20190329803953')
rpt_urls

['http://dart.fss.or.kr/report/viewer.do?rcpNo=20190329803953&dcmNo=6595634&eleId=0&offset=0&length=0&dtd=HTML']

In [23]:
# 여러 페이지
rpt_urls = sub_report_urls('20190401004781')
rpt_urls[:5]

['http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=1&offset=793&length=4059&dtd=dart3.xsd',
 'http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=2&offset=12878&length=418&dtd=dart3.xsd',
 'http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=3&offset=13300&length=314299&dtd=dart3.xsd',
 'http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=4&offset=13390&length=212568&dtd=dart3.xsd',
 'http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=5&offset=225962&length=17460&dtd=dart3.xsd']

In [25]:
# 사업 보고서 하위 문서 전체

doc_urls = sub_report_urls('20190401004781')

print('하위보고서 갯수:', len(doc_urls))

for url in doc_urls:
    print (url)

하위보고서 갯수: 33
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=1&offset=793&length=4059&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=2&offset=12878&length=418&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=3&offset=13300&length=314299&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=4&offset=13390&length=212568&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=5&offset=225962&length=17460&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=6&offset=243426&length=3817&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=7&offset=247247&length=63793&dtd=dart3.xsd
http://dart.fss.or.kr/report/viewer.do?rcpNo=20190401004781&dcmNo=6616741&eleId=8&offset=311044&length=7390&dtd=dart3.xsd
http://dart.

# Summary

* 정규식으로 데이터 추출
* 개별 보고서와 하위 보고서 URL

----
### 2018-2019 FinanceData.KR http://fb.com/financedata