## 주의사항(한글파일명 관련)
- hwp파일 크롤링 하게 되면
- '국회회의록_21대_379회_1차_국회본회의.hwp'  와 같은 파일명으로 저장될 것이다.
- 다운로드가 완료된 후 아래와 같이 파일명을 다시 지정해줘야 한다.
- '000. 국회회의록_21대_379회_1차_국회본회의.hwp' -> 첫번째 파일이므로 '000'으로 시작
- 끝파일은 맨 마지막 번호(예를들어 176번째 파일이면 “175. {*file_name}.hwp” 로)*
- 파일명 앞부분에 숫자를 지정하였는데, '000'으로 준 것은 파일개수가 176개로
- 백의 자리수의 개수를 가지게 되고,
- 주피터 노트북에서 숫자 정렬을 1->2->3->4->5->6->7->8->9->10->11... 가 아니라
- 1->10->100->... 이런 식으로 정렬을 하게 되어 인간의 정렬방법과 다르다.
- 따라서 파일명 변경은 코드로 구현할 수 없으므로
- 회의명과 순서에 맞춰 파일명 바꾸기 작업을 해줘야 한다.
- 또한, '국회회의록_21대_379회_개회식_국회본회의.hwp' 와 같이 파일명 중간에 ‘개회식’이라는
- 파일명을 가지게 되면, '{숫자, 순서에 맞춰}. 국회회의록_21대_379회_0차_국회본회의.hwp'
- 와 같이 파일명을 변경하는 사전 작업을 해줘야 한다.
- 일일이 수작업 거칠 수 밖에 없다.

In [1]:
# 필요 라이브러리
import olefile
import zlib
import struct
import glob
import warnings
warnings.filterwarnings(action = 'ignore')

In [2]:
# 01번 산출물(데이터프레임)우선 불러오기
import pandas as pd
df = pd.read_csv('../First_project/dataes/01_API_meeting_list.csv', index_col = 0)
df.head()

Unnamed: 0,confer_num,confer_name,date,hwpLink,summary
0,50024,국회본회의_제379회_제1차,2020-06-05,http://likms.assembly.go.kr/record/mhs-10-040-...,http://likms.assembly.go.kr/record/mhs-10-030....
1,50025,국회본회의_제379회_제2차,2020-06-08,http://likms.assembly.go.kr/record/mhs-10-040-...,http://likms.assembly.go.kr/record/mhs-10-030....
2,50026,국회본회의_제379회_제4차,2020-06-12,http://likms.assembly.go.kr/record/mhs-10-040-...,http://likms.assembly.go.kr/record/mhs-10-030....
3,50027,국회본회의_제379회_제3차,2020-06-10,http://likms.assembly.go.kr/record/mhs-10-040-...,http://likms.assembly.go.kr/record/mhs-10-030....
4,50028,국회본회의_제379회_제5차,2020-06-15,http://likms.assembly.go.kr/record/mhs-10-040-...,http://likms.assembly.go.kr/record/mhs-10-030....


In [3]:
# 이 클래스는 hwp 파일 텍스트 추출
class HWPExtractor(object):
    FILE_HEADER_SECTION = "FileHeader"
    HWP_SUMMARY_SECTION = "\x05HwpSummaryInformation"
    SECTION_NAME_LENGTH = len("Section")
    BODYTEXT_SECTION = "BodyText"
    HWP_TEXT_TAGS = [67]

    def __init__(self, filename):
        self._ole = self.load(filename)
        self._dirs = self._ole.listdir()

        self._valid = self.is_valid(self._dirs)
        if (self._valid == False):
            raise Exception("Not Valid HwpFile")
        
        self._compressed = self.is_compressed(self._ole)
        self.text = self._get_text()
	
    # 파일 불러오기 
    def load(self, filename):
        return olefile.OleFileIO(filename)
	
    # hwp 파일인지 확인 header가 없으면 hwp가 아닌 것으로 판단하여 진행 안함
    def is_valid(self, dirs):
        if [self.FILE_HEADER_SECTION] not in dirs:
            return False

        return [self.HWP_SUMMARY_SECTION] in dirs

	# 문서 포맷 압축 여부를 확인
    def is_compressed(self, ole):
        header = self._ole.openstream("FileHeader")
        header_data = header.read()
        return (header_data[36] & 1) == 1

	# bodytext의 section들 목록을 저장
    def get_body_sections(self, dirs):
        m = []
        for d in dirs:
            if d[0] == self.BODYTEXT_SECTION:
                m.append(int(d[1][self.SECTION_NAME_LENGTH:]))

        return ["BodyText/Section"+str(x) for x in sorted(m)]
	
    # text를 뽑아내는 함수
    def get_text(self):
        return self.text

	# 전체 text 추출
    def _get_text(self):
        sections = self.get_body_sections(self._dirs)
        text = ""
        for section in sections:
            text += self.get_text_from_section(section)
            text += "\n"

        self.text = text
        return self.text

	# section 내 text 추출
    def get_text_from_section(self, section):
        bodytext = self._ole.openstream(section)
        data = bodytext.read()

        unpacked_data = zlib.decompress(data, -15) if self.is_compressed else data
        size = len(unpacked_data)

        i = 0

        text = ""
        while i < size:
            header = struct.unpack_from("<I", unpacked_data, i)[0]
            rec_type = header & 0x3ff
            level = (header >> 10) & 0x3ff
            rec_len = (header >> 20) & 0xfff

            if rec_type in self.HWP_TEXT_TAGS:
                rec_data = unpacked_data[i+4:i+4+rec_len]
                text += rec_data.decode('UTF-16LE')
                text += "\n"

            i += 4 + rec_len

        return text
    
# text 추출 함수 -> 이 함수를 사용하면 됨
def get_text(filename):
    hwp = HWPExtractor(filename) 
    return hwp.get_text()

In [4]:
# 한글파일 불러와 리스트로 반환
# 파일명은 일일이 지정해줘야 한다.
# 밑에 코드들을 위해서
files = glob.glob('../First_project/dataes/hwp_files/*.hwp')
files_sort = sorted(files)
print(files_sort)

['../First_project/dataes/hwp_files\\000. 국회회의록_21대_379회_1차_국회본회의.hwp', '../First_project/dataes/hwp_files\\001. 국회회의록_21대_379회_2차_국회본회의.hwp', '../First_project/dataes/hwp_files\\002. 국회회의록_21대_379회_3차_국회본회의.hwp', '../First_project/dataes/hwp_files\\003. 국회회의록_21대_379회_4차_국회본회의.hwp', '../First_project/dataes/hwp_files\\004. 국회회의록_21대_379회_5차_국회본회의.hwp', '../First_project/dataes/hwp_files\\005. 국회회의록_21대_379회_6차_국회본회의.hwp', '../First_project/dataes/hwp_files\\006. 국회회의록_21대_379회_7차_국회본회의.hwp', '../First_project/dataes/hwp_files\\007. 국회회의록_21대_380회_1차_국회본회의.hwp', '../First_project/dataes/hwp_files\\008. 국회회의록_21대_380회_0차_국회본회의.hwp', '../First_project/dataes/hwp_files\\009. 국회회의록_21대_380회_2차_국회본회의.hwp', '../First_project/dataes/hwp_files\\010. 국회회의록_21대_380회_3차_국회본회의.hwp', '../First_project/dataes/hwp_files\\011. 국회회의록_21대_380회_4차_국회본회의.hwp', '../First_project/dataes/hwp_files\\012. 국회회의록_21대_380회_5차_국회본회의.hwp', '../First_project/dataes/hwp_files\\013. 국회회의록_21대_380회_6차_국회본회의.hwp', '../F

In [5]:
print(files_sort[0][34:-4])

000. 국회회의록_21대_379회_1차_국회본회의


In [6]:
print(files_sort[0][34:39])

000. 


In [17]:
# 전체 회의록을 반복문으로 데이터프레임 생성하여 각각 csv 파일로 저장
f_name = files_sort[i][34:-4]
for i in range(len(files_sort)):
    date = df['date'][i]
    confer_num = df['confer_num'][i]
    confer_name = df['confer_name'][i]
    data = get_text(files_sort[i])
    tmp_data = data.split(sep = '◯')

    name = []
    speaking = []

    for j in range(len(tmp_data[:])):
        name.append(tmp_data[j][0:16]) # 직책 성명 범위
        speaking.append(tmp_data[j][16:])

        meeting_rec = pd.DataFrame({"date":date,
                                        "confer_num":confer_num,
                                        "confer_name":confer_name,
                                        "con_name_kr":name,
                                        "speaking":speaking})
        
        # 데이터 refining - 불필요 텍스트 제거
        meeting_rec['con_name_kr'] = meeting_rec['con_name_kr'].str.replace('[^가-힣]', ' ',regex = True)
        meeting_rec['speaking'] = meeting_rec['speaking'].str.replace('[^가-힣] && [^0-9]', ' ',regex = True)
        
        # 데이터 refining - 'name'컬럼을 원하는 데이터에 맞게 정제 작업
        split_name = meeting_rec['con_name_kr'].str.split(' ', expand = True)
        meeting_rec['con_name_kr'], meeting_rec['position'] = split_name[0], split_name[1]
        
        # 데이터 refining - '국회의원의 발언만 남기기'
        meeting_rec1 = meeting_rec[meeting_rec['position'] == '의원']
        
        # 데이터 refining - 'name'컬럼에 불필요한 행 제거
        meeting_rec2 = meeting_rec1[meeting_rec1['con_name_kr'] != '출석']
        meeting_rec3 = meeting_rec2[meeting_rec2['con_name_kr'] != '청가']
        meeting_rec4 = meeting_rec3[meeting_rec3['con_name_kr'] != '출장']
        meeting_rec5 = meeting_rec4[meeting_rec4['con_name_kr'] != '참석']
        meeting_rec6 = meeting_rec5.reset_index(drop = True)
        
        # 데이터 refining - position 컬럼 삭제
        meeting_rec6.drop(['position'], axis = 1, inplace = True)
        
        # 데이터 refining - speaking 컬럼 데이터형변환 및 추가 불필요 문자열 삭제
        meeting_rec6['speaking'] = meeting_rec6['speaking'].astype(str)
        meeting_rec6['speaking'] = meeting_rec6['speaking'].str.replace('\r\n', ' ',regex = True)
        meeting_rec6['speaking'] = meeting_rec6['speaking'].str.replace('汫╣', ' ',regex = True)
        
        
    meeting_rec6.to_csv(f"../First_project/dataes/main_congress_meeting_records/{f_name[i][34:-4]}.csv", sep = ',')