# Naver 채권분석리포트 Crawling

## 1. 날짜, 증권사, 제목, pdf 다운받기

In [None]:
# PyPDF2나 pdfminer를 찾을 수 없다고 한다면, 아래 주석을 풀고 install을 시도하세요.
# pip install PyPDF2 
# pip install pdfminer.six

# moduel import
import requests
from bs4 import BeautifulSoup
import os
import urllib.request
from PyPDF2 import PdfFileReader
import sys
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter
from pdfminer.layout import LAParams
import io

# 함수 정의
def BondReportsCrawl():
    pdf_list = [] # pdf의 날짜, 증권사, 제목을 담을 빈 리스트 생성
    BASE_DIR = os.getcwd() # 현재 작업하고 있는 곳을 BASE_DIR로 정의
    REPORTS_DIR = BASE_DIR # REPORTS_DIR = BASE_DIR
    
    # Naver의 채권분석리포트의 마지막 페이지는 116이므로 117까지 for문 돌릴 준비
    for i in range(1, 117):
        print(i,'번 페이지에 있는 문서를 가져오는 중입니다.') # 작업 상황 확인을 위함 
        url = 'https://finance.naver.com/research/debenture_list.nhn?&page={}'.format(i) # page={}에 i 대입
        response = requests.get(url) # url로 requests를 보냄 
        soup = BeautifulSoup(response.content, 'html.parser') # soup 생성
        reports = soup.find('table', class_='type_1').find_all('tr')[1:] # 찾아야할 content 범위 설정

        # 날짜, 증권사, 제목, pdf 다운
        for td in reports:
            filename = "" # filename 을 만들 빈 문자열 생성, for문이 돌 때마다 초기화

            # date 코드
            date = td.find('td', class_='date')
            if date is not None: # None 값들이 검사되므로 if문 추가
                date = date.text # text만 추출
                filename += date # filename 에 추가
                filename += '_' # 다음에 들어올 author와의 구분을 위한 _ 추가 

            # author 코드
            author = td.find_all('td') 
            if len(author) == 5: # 길이를 확인해보니, len이 5인 것만 정상적으로 증권사 이름들이 추출됨 
                author = author[1].text
                filename += author
                filename += '_'  # 다음에 들어올 title와의 구분을 위한 _ 추가 

            # title 코드 
            title = td.find('td').find('a')
            if title is not None: # None 값들이 검사되므로 if문 추가
                title = title.text
                filename += title # filename 에 추가 
                # computer가 읽을 수 없는 특수문자들을 대체 (후에 정규표현식으로 고칠 것)
                # 공백제거 코드도 추가해 줄 것 
                filename = filename.replace('?','').replace('.','').replace('!','').replace('/','')
                filename = filename.replace(':','').replace(';','').replace('=','').replace('+','')
                filename = filename.replace('-','').replace('*','').replace('"','').replace('<','')
                filename = filename.replace('>','').replace('[','').replace(']','')
                filename = filename + '.pdf'
                pdf_list.append(filename) # pdf_list 에 filename을 추가함 

            # pdf 다운받기 코드
            pdf_href = td.find('td', class_='file')
            if pdf_href is not None: # None값이 있기 때문에 if문 추가
                pdf_href = str(pdf_href.find('a')['href'])
                pdf_url = pdf_href
                print(pdf_url) # pdf_url 출력해서 제대로 된 url인지 확인

                # 가장 중요한 부분. requests.get을 활용해도 pdf 파일을 다운 받을 수 있다!!! 
                r = requests.get(pdf_url) # url로 requests 보냄
                naver_reports_path = os.path.join(REPORTS_DIR, filename) # 작업하고 있는 폴더에 파일 추가

                with open(naver_reports_path, 'wb') as f: # 파일 쓰기
                    f.write(r.content)

    print(pdf_list)
    print("총 가져온 pdf파일 개수: ", len(pdf_list))
    
BondReportsCrawl()

## 2. pdf -> txt 파일로 변환

In [None]:
# pdf -> txt 로 변환하는 함수                
def pdfparser(data):
    ccount = 0
    BASE_DIR = os.getcwd()
    REPORTS_DIR = BASE_DIR
    
    try: # 오류가 발생하는 pdf 들이 존재하기 때문에, try문 사용
        fp = open(data, 'rb')
        rsrcmgr = PDFResourceManager()
        retstr = io.StringIO()
        codec = 'utf-8'
        laparams = LAParams()
        device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        for page in PDFPage.get_pages(fp):
            interpreter.process_page(page)
            data =  retstr.getvalue()
            text_path = os.path.join(REPORTS_DIR, pdf_list[i]+'.txt')
            with open(text_path, 'w', encoding='utf-8') as f:
                f.write(data)

    except AttributeError:
        ccount += 1
        print(pdf_list[i],'는 Error로 인해 pass합니다.')
        print("현재까지의 누적 Errors: ", ccount)
        pass
    
# 이 작업을 통해, pdf_list에서 날짜, 증권사, 제목을 확인할 수 있고,
# pdf 파일을 얻을 수 있다.
# 또한, pdf 파일을 txt로 변환하는 함수까지 정의해 놓은 상태
# 아래에 있는 코드를 실행하면, pdf를 txt로 변환하기 시작합니다.

In [None]:
## 시간이 꽤 오래 걸립니다...!!
# pdf -> txt 로 변환하는 code
# 오류가 나면, range()를 수정하면서 변환
for i in range(1, (len(pdf_list)+1)):
    print(i)
    print(pdf_list[i], '를 txt로 변환 중입니다...') 
    pdfparser(pdf_list[i])

## txt 파일 통합, csv로 변환

In [None]:
# 총 파일 개수 확인 코드 (불필요)
# from os import listdir
# from os.path import isfile, join

# source_folder=r"C:\Users\student\Documents\python_basic\paper_implementation\text_data"
# output_file=r"C:\Users\student\Documents\python_basic\paper_implementation\bondreports.csv"

# txt_files = [f for f in listdir(source_folder) if isfile(join(source_folder, f))]
# print(len(txt_files), "개의 파일이 존재합니다.")

## 채권분석보고서 파일 개수는 3370개 

In [None]:
# import module
import csv
import pandas as pd
from os import listdir
from os.path import isfile, join

# 파일 경로 확인할 것
def txt2csv(source_folder=r"C:\Users\student\Documents\python_basic\paper_implementation\text_data",
            output_file=r"C:\Users\student\Documents\python_basic\paper_implementation\bondreports.csv") :
    
    # 지정 폴더 내 파일 목록 조회 (파일만)
    txt_files = [f for f in listdir(source_folder) if isfile(join(source_folder, f))]
    df = pd.DataFrame(columns=['date', 'firm', 'title', 'report'])
    print(len(txt_files), "개의 파일이 존재합니다.")
    
    for txt_file in txt_files :
        print(txt_file)
        if txt_file[-3:] != 'txt' :
            continue
        with open(source_folder + "\\" + txt_file, 'r', encoding='utf-8') as f:
            txt = f.read().strip()
            date = txt_file.split('_')[0]
            firm = txt_file.split('_')[1]
            title = txt_file.split('_')[2].split('.')[0]
            df.loc[len(df)] = [date, firm, title, txt]

    df.to_csv(output_file, index=False)
        
txt2csv()

In [None]:
pd.read_csv("bondreports.csv")

## token, n-gram 추출

In [None]:
import pandas as pd
from ekonlpy.sentiment import MPCK

def text2ngram(text) :
    mpck = MPCK()
    bef_tokens = mpck.tokenize(text)
    ngrams = mpck.ngramize(bef_tokens)
    tokens = []
    print(ngrams)

    stoppos = [
        'SC','SY','SF','SE','SS','SP','SO','SW',
        'SSC','JKS','JKC','JKG','JKO','JKB','JKV',
        'JKQ','JX','JC','EF','EC','ETN','ETM','JKS',
        'JKC','JKG','JKO','JKB','JKV','JKQ','JC','JX',
        'EP','EF','EC','ETN','ETM','XPN','XSN','XSV','XSA',
        'XR','SF','SE','SSO','SSC','SC','SY','SH','SL','SN'
    ]
    stopword = ['']

    for tag in bef_tokens:
        if tag[1] not in stoppos:
            if tag[0] not in stopword:
                tokens.append(tag)
                
    return tokens, ngrams

In [None]:
# 예제
# text2ngram('글로벌 신용경색 완화 조짐과 주식의 반등, 인플레이션 및 금통위 부담 등에도 불구하고 금리가 잘 버티고 있다. 이는 물론, 대내외 펀더멘틀 및 궁극적인 통화정책 방향에대한 믿음이 강하기 때문일 것이다.')

## 전처리

In [None]:
# 주의, 오랜 시간이 소요됩니다!! 
import pandas as pd
from ekonlpy.sentiment import MPCK

def Preprocessing(input_file=r"C:\Users\student\Documents\python_basic\paper_implementation\bondreports.csv",
                  output_file=r"C:\Users\student\Documents\python_basic\paper_implementation\bondreports_preprocessed.csv") :
    df = pd.read_csv(input_file)
    df['tokens'] = ''
    df['ngram'] = ''

    #return 
    for row_idx in df.index: 
        text = df['report'][row_idx]
        
        try : 
            tokens,ngrams = text2ngram(text)
            df['tokens'][row_idx] = ",".join(tokens)
            df['ngram'][row_idx] = ",".join(ngrams)
            print(str(row_idx+1) +'/'+ str(df.shape[0]) +'번째 파일 전처리 완료')
        except Exception as e:
            print("============ {} ===========".format(str(e)))
            print("Error :" + text)
        
    df.to_csv(output_file, index=False)
        
Preprocessing()

## 날짜형식 통합, 콜금리와 병합

In [None]:
import pandas as pd
import numpy as np

Bondreports_preprocessed = pd.read_csv('bondreports_preprocessed.csv')
Bondreports_preprocessed['date'] = Bondreports_preprocessed['date'] + 20000000
Bondreports_preprocessed['date'] = Bondreports_preprocessed['date'].apply(lambda x: pd.to_datetime(str(x), format='%Y%m%d'))

Callrate_df = pd.read_csv('(최종)_callrate_fulldays.csv', index_col=0)
Callrate_df['date'] = pd.to_datetime(Callrate_df['date'])
Merged_df = pd.merge(Bondreports_preprocessed, Callrate_df)
Merged_df.to_csv('(최종)_채권분석보고서_전처리.csv')

In [None]:
# 필요없는 열 삭제
Bondreports_df = pd.read_csv('(최종)_채권분석보고서_전처리.csv', index_col=0)
Bondreports_df['ngrams'] = ""
Bondreports_df['ngrams'] = Bondreports_df['tokens'] + Bondreports_df['ngram']
Bondreports_df.drop(['title','firm', 'report','tokens','ngram','old_date','callrate','old_callrate'],axis='columns', inplace=True)
Bondreports_df = Bondreports_df.rename(columns={'ngrams':'ngram'})
Bondreports_df.to_csv("(병합용)_채권분석보고서_전처리.csv")

In [None]:
df = pd.read_csv("(병합용)_채권분석보고서_전처리.csv", index_col=0)
df.head()