## Caption Detector Usage

### 개요

#### Input
- 공시문서 원본 pdf 파일
- 추출한 image/table/text pickle 파일

#### Output
- 이미지 파일: result 폴더에 페이지별로 png 파일로 저장
- 텍스트: result 폴더에 result.json으로 저장

#### png 파일의 bounding box
- image: 노란색
- table: 빨간색
- caption: 보라색

#### result.json 구성
- result[p]['image']: 페이지 p에 있는 각 이미지의 캡션을 원소로 갖는 리스트 (하나의 이미지 = 리스트로 된 하나의 원소)
- result[p]['table']: 페이지 p에 있는 각 표의 캡션을 원소로 갖는 리스트 (하나의 표 = 리스트로 된 하나의 원소)

### 소요 시간
#### resolution 200 기준
- [삼성전자]사업보고서(2022.03.08) : 569 페이지 / 10분 2초
- [KB금융][정정]사업보고서(2022.03.25) : 917페이지 / 20분 52초
- [LG생활건강][정정]사업보고서(2022.05.16) : 309페이지 / 6분 4초
- [SK하이닉스]사업보고서(2022.03.22) : 336 페이지 / 6분 35초
- [삼성바이오로직스]사업보고서(2022.03.21) : 264 페이지 / 5분 31초
- [엔씨소프트]사업보고서(2022.03.22) : 308 페이지 / 4분 39초
- [현대중공업]사업보고서(2022.03.14) : 378 페이지 / 6분 54초

#### resolution 400 기준
- [삼성바이오로직스]사업보고서(2022.03.21) : 264 페이지 / 13분 2초
- [엔씨소프트]사업보고서(2022.03.22) : 308 페이지 / 11분 10초

#### resolution 800 기준
- [엔씨소프트]사업보고서(2022.03.22) : 308 페이지 / 36분 38초

In [1]:
import pandas as pd
from util import *
from caption_extraction import *

In [2]:
# 예시
# [KB금융][정정]사업보고서(2022.03.25)
# [LG생활건강][정정]사업보고서(2022.05.16)
# [SK하이닉스]사업보고서(2022.03.22)
# [삼성바이오로직스]사업보고서(2022.03.21)
# [삼성전자]사업보고서(2022.03.08)
# [엔씨소프트]사업보고서(2022.03.22)
# [현대중공업]사업보고서(2022.03.14)

# 공시문서 이름 (.pdf는 제외)
filename = '[삼성전자]사업보고서(2022.03.08)'

# 공시문서 pdf 원본의 경로
path = f'data/{filename}/{filename}.pdf'
pages = get_pages(get_pdf(path))

# pdfplumber로 추출한 image, table, text 정보
corp_image = pd.read_pickle(f'data/{filename}/{filename}_image.pickle')
corp_table = pd.read_pickle(f'data/{filename}/{filename}_table.pickle')
corp_text = pd.read_pickle(f'data/{filename}/{filename}_text.pickle')

In [3]:
caption_detector(pages, corp_image, corp_table, corp_text, corp=filename, resolution=400)

  0%|          | 0/264 [00:00<?, ?it/s]

(p.4) caption for image: ['【 대표이사 등의 확인 】']
(p.5) caption for table: ['(단위 : 사)', "※상세 현황은 '상세표-1. 연결대상 종속회사 현황(상세)' 참조"]
(p.5) caption for table: []
(p.6) caption for table: []
(p.6) caption for table: ['※ 제6-1, 6-2회 무보증 사모사채의 경우 신용등급은 평가계약상 미공시조건에 따라 기재 하지 않았습니다.']
(p.7) caption for table: ['※ 상기 등급 중 AA부터 B등급까지는 +, - 부호를 부가하여 동일 등급내에서의 우열을 나타냅니다.']
(p.7) caption for table: ['※ AA부터 B까지는 동일 등급내에서 세분하여 구분할 필요가 있는 경우에는 "＋" 또는 "－"의 기호를 부여할 수 있다. ※ 예비평정의 경우 당해 등급기호의 앞에 "P"를 부기한다.']
(p.8) caption for table: []
(p.8) caption for table: []
(p.8) caption for table: ['※ 2020년 12월 16일 제10차 이사회에서 김태한 사내이사는 대표이사 직위를 사임하였으 며, 존림 사내이사가 대표이사로 신규 선임되었습니다.']
(p.9) caption for table: []
(p.9) caption for table: []
(p.9) caption for table: []
(p.10) caption for table: []
(p.11) caption for table: []
(p.11) caption for table: ['(단위 : 원, 주)']
(p.12) caption for table: []
(p.12) caption for table: ['(기준일 : 2021년 12월 31일 )', '(단위 : 주)']
(p.12) caption for table: []
(p.13) caption for table: ["※ 사업보고서에 첨부된 

(p.87) caption for table: []
(p.87) caption for table: []
(p.87) caption for table: []
(p.88) caption for table: []
(p.88) caption for table: []
(p.88) caption for table: []
(p.89) caption for table: []
(p.89) caption for table: []
(p.90) caption for table: []
(p.91) caption for table: ['(*) 당기와 전기 중 주식수 변동은 없습니다.']
(p.91) caption for table: []
(p.92) caption for table: []
(p.92) caption for table: []
(p.92) caption for table: []
(p.94) caption for table: ["(*) 기업회계기준서 제1024호 '특수관계자 공시'에 따른 특수관계자 범위에 포함되지 않으나 독점규제 및 공정거래법에 따른 동일한 대규모기업집단에 소속된 회사입니다."]
(p.94) caption for table: []
(p.95) caption for table: ['(*) ㈜멀티캠퍼스, ㈜호텔신라와의 거래가 포함되어 있습니다.']
(p.95) caption for table: ['(*) ㈜멀티캠퍼스, ㈜호텔신라와의 거래가 포함되어 있습니다.']
(p.95) caption for table: []
(p.96) caption for table: ['(*1) 기타수익은 사외적립자산에서 발생한 운용수익으로, 퇴직급여의 차감항목으로 인식하 였습니다. 당기말 현재 사외적립자산으로 삼성화재해상보험㈜에 44,266백만원(전기말 42,670백만원), 삼성생명보험㈜에 27,654백만원(전기말 23,851백만원) 및 삼성증권㈜에 29,721백만원(전기말 25,772백만원)이 적립되어 있습니다. (*2) 멀티캠퍼스, 호텔신라㈜, ㈜시큐아이와의 거래가 포함되어 있습

(p.183) caption for table: []
(p.184) caption for table: ['(단위 : 백만원,%)']
(p.185) caption for table: ['(단위 : 백만원)', '※ 한국채택국제회계기준에 따라 작성되었습니다.(연결 기준)']
(p.185) caption for table: ['(기준일 : 2021년 12월 31일 )', '(단위 : 백만원)', '※ 한국채택국제회계기준에 따라 작성되었습니다.(연결 기준) ※ 매출채권 잔액은 대손충당금 차감 후 금액입니다.']
(p.185) caption for table: ['(단위: 천원)']
(p.186) caption for table: ['※ 한국채택국제회계기준에 따라 작성되었습니다.(연결 기준)']
(p.186) caption for table: []
(p.186) caption for table: ['(기준일 : 2021년 12월 31일 )', '(단위 : 천원)', '※ 한국채택국제회계기준에 따라 작성되었습니다.(연결 기준)']
(p.188) caption for table: ['(단위 : 백만원)']
(p.189) caption for table: ['※ 제11기(당기)는 주주총회 승인전 연결재무제표입니다. 향후 제11기 정기주주총회에서 재무제표 승인 관련 안건이 부결되거나 수정이 발생한 경우 정정보고서를 통해 그 내용 및 사유 등을 반영할 예정입니다.']
(p.190) caption for table: ['(단위 : 백만원)', '※ 제11기(당기)는 주주총회 승인전 연결재무제표입니다. 향후 제11기 정기주주총회에서 재무제표 승인 관련 안건이 부결되거나 수정이 발생한 경우 정정보고서를 통해 그 내용 및 사유 등을 반영할 예정입니다. ※ 삼성바이오로직스는 단일 사업부문으로 구성되어 있습니다.']
(p.191) caption for table: ['(*) 통화스왑이 체결된 외화차입금은 환위험에 노출되지 않은것으로 보아 제외하였습니다.']
(p.191) caption f

(p.242) caption for table: []
(p.243) caption for table: []
(p.244) caption for table: []
(p.245) caption for table: []
(p.246) caption for table: []
(p.247) caption for table: []
(p.248) caption for table: ['(기준일 : 2021년 12월 31일 )', '(단위 : 백만원)', "※상세 현황은 '상세표-3. 타법인출자 현황(상세)' 참조"]
(p.248) caption for table: ['※ 2022.02.09 존림 사장의 겸직회사 임기가 만료되었으며, 노균 부사장이 삼성바이오에피스(주)의 기타비상무이사로 선임되었습니다.']
(p.249) caption for table: ['(단위: 억원)', '※ 최근 사업연도의 매출액의 5/100 이상의 거래입니다.']
(p.250) caption for table: []
(p.251) caption for table: []
(p.252) caption for table: []
(p.253) caption for table: []
(p.254) caption for table: []
(p.254) caption for table: []
(p.255) caption for table: []
(p.255) caption for table: []
(p.256) caption for table: []
(p.256) caption for table: []
(p.256) caption for table: []
(p.258) caption for table: []
(p.259) caption for table: ['[온실가스 및 에너지]']
(p.260) caption for table: ['[수자원 관리]']
(p.260) caption for table: ['[수자원 관리]', '주1) 용수 재이용시설 2017년 12월 신규설치']
(p.260) caption fo