## PSAT data

In [None]:
!pip install PyPDF2 pprint

### PDF2Text

In [2]:
import os
from PyPDF2 import PdfReader
import re
import pprint

file_path = os.path.join(os.getcwd(), 'Data')
file_name = os.listdir(file_path)
file_name

['LEET_2021_L.hwp', 'LEET_2021_L(E).hwp', 'PSAT_2023_L.hwp', 'PSAT_2023.pdf']

In [3]:
def clean_psat_text(file_name):
    psat_text = []
    for file in file_name:
        if file.endswith('.pdf'):
            pdf = PdfReader(os.path.join(file_path, file))
            text = ''
            
            for i, page in enumerate(pdf.pages):
                text += page.extract_text()
            
            text = text.replace(' .', '.')
            text = text.replace(' , ', ', ')
            text = text.replace(' ? ', '? ')
            text = re.sub(r"(\d+)\.", r"\1. ", text)
            text = re.sub(r"(①)|(②)|(③)|(④)|(⑤)", r"\1\2\3\4\5 ", text)

            psat_text.append(text)

    return psat_text

In [4]:
psat_text = clean_psat_text(file_name)

In [11]:
pprint.pprint(psat_text[0][18000:20000])

('C를 파견한다.\n'
 '③ C를 파견하 지 않으면 D를 파견하 지 않는다.\n'
 '④ C를 파견하 지 않으면 E를 파견하 지 않는다.\n'
 '⑤ D나 E를 파견하 면 C를 파견한다.16. 다음 글의 내용이 참일 때 반드시 참인 것은?\n'
 '  영어 회화가 가능한 갑순과 을돌, 중국어 회화가 가능한 병수와 \n'
 '정희를 다음 <배치 원칙>에 따라 총무부, 인사부, 영업부, \n'
 '자재부에 각 한 명씩 모두 배치하기로 하였다. 네 명 중 병수를 \n'
 '제외한 나머지는 신입사원이고, 갑순만 공인노무사 자격증을 \n'
 '갖고 있다.\n'
 '<배치 원칙>\n'
 '○총무부와 인사부 중 한 곳에는 공인노무사 자격증을 갖고 \n'
 '있는 사원을 배치한다.\n'
 '○영업부와 자재부 중 한 곳에만 중국어 회화 가능자를 배치\n'
 '한다.\n'
 '○정희를 인사부에도 자재부에도 배치하지 않는다면, 영업부에 \n'
 '배치한다.\n'
 '○영업부와 자재부 중 한 곳에만 신입사원을 배치한다.\n'
 '  이 원칙에 따라 부서를 배치한 결과 일부 사원의 부서만 \n'
 '결정되었다. 이에 다음의 원칙을 추가하였다.\n'
 '<추가 원칙>\n'
 '○인사부와 영업부에 같은 외국어 회화를 할 수 있는 사원들을 \n'
 '배치한다.\n'
 '  그 결과 <배치 원칙>을 어기지 않으면서 위 네 명의 배치를 \n'
 '다 결정할 수 있었다.\n'
 '① <배치 원칙>만으로 배치된 갑순의 부서는 영업부이다.\n'
 '② <배치 원칙>만으로 배치된 을돌의 부서는 자재부이다.\n'
 '③ <배치 원칙>과 <추가 원칙>에 따라 최종적으로 배치된 병수의 \n'
 '부서는 자재부이다.\n'
 '④ <배치 원칙>과 <추가 원칙>에 따라 최종적으로 배치된 정희의 \n'
 '부서는 인사부이다.\n'
 '⑤ <배치 원칙>과 <추가 원칙>에 따라 최종적으로 배치된 갑순의 \n'
 '부서도 을돌의 부서도 총무부가 아니다.2023년도 국가공무원 5급 공채 등 필기시험 언어논리영역 가

- '2023년도 국가공무원 5급 공채 등 필기시험 언어논리영역 가책형 n쪽' 삭제
- `text = re.sub(r"(\d+)\.", r"\1. ", text)`: 1~9만 가능, 여기 조건에 숫자 더 늘려야함

- 7번: \ue0ac -> π

## LEET data(Unsettled)

### Hwp2Text

In [None]:
import olefile
import zlib
import struct

class HWPExtractor(object):
    FILE_HEADER_SECTION = "FileHeader"
    HWP_SUMMARY_SECTION = "\x05HwpSummaryInformation"
    SECTION_NAME_LENGTH = len("Section")
    BODYTEXT_SECTION = "BodyText"
    HWP_TEXT_TAGS = [67]

    def __init__(self, filename):
        self._ole = self.load(filename)
        self._dirs = self._ole.listdir()

        self._valid = self.is_valid(self._dirs)
        if (self._valid == False):
            raise Exception("Not Valid HwpFile")
        
        self._compressed = self.is_compressed(self._ole)
        self.text = self._get_text()
	
    # 파일 불러오기 
    def load(self, filename):
        return olefile.OleFileIO(filename)
	
    # hwp 파일인지 확인 header가 없으면 hwp가 아닌 것으로 판단하여 진행 안함
    def is_valid(self, dirs):
        if [self.FILE_HEADER_SECTION] not in dirs:
            return False

        return [self.HWP_SUMMARY_SECTION] in dirs

	# 문서 포맷 압축 여부를 확인
    def is_compressed(self, ole):
        header = self._ole.openstream("FileHeader")
        header_data = header.read()
        return (header_data[36] & 1) == 1

	# bodytext의 section들 목록을 저장
    def get_body_sections(self, dirs):
        m = []
        for d in dirs:
            if d[0] == self.BODYTEXT_SECTION:
                m.append(int(d[1][self.SECTION_NAME_LENGTH:]))

        return ["BodyText/Section"+str(x) for x in sorted(m)]
	
    # text를 뽑아내는 함수
    def get_text(self):
        return self.text

	# 전체 text 추출
    def _get_text(self):
        sections = self.get_body_sections(self._dirs)
        text = ""
        for section in sections:
            text += self.get_text_from_section(section)
            text += "\n"

        self.text = text
        return self.text

	# section 내 text 추출
    def get_text_from_section(self, section):
        bodytext = self._ole.openstream(section)
        data = bodytext.read()

        unpacked_data = zlib.decompress(data, -15) if self.is_compressed else data
        size = len(unpacked_data)

        i = 0

        text = ""
        while i < size:
            header = struct.unpack_from("<I", unpacked_data, i)[0]
            rec_type = header & 0x3ff
            level = (header >> 10) & 0x3ff
            rec_len = (header >> 20) & 0xfff

            if rec_type in self.HWP_TEXT_TAGS:
                rec_data = unpacked_data[i+4:i+4+rec_len]
                text += rec_data.decode('utf-16')
                text += "\n"

            i += 4 + rec_len

        return text
        
# text 추출 함수 -> 이 함수를 사용하면 됨
def get_text(filename):
    hwp = HWPExtractor(filename) 
    return hwp.get_text()

In [None]:
import pprint
import re

def clean_text(text):
    # Replace the old Chinese word with Korean word
    text = text.replace("氠瑢", "빈칸")
    text = text.replace("敤敱", "π")
    
    # Remove specific sequences
    sequences_to_remove = ["\t", "\x00", "\x02", "\x10", "\x15", "\x0b", "\x0c", "Ȁ", "Ȱ", "צ", "ȶ", "ɞ", "ض", "ᧀ", "ˇ", "ᣣ", "ᣜ", "ฒ", "ᛩ", "빈칸\r\n"]
    for seq in sequences_to_remove:
        text = text.replace(seq, "")
    text = text.replace("Ā", " ")
    
    # Remove Chinese characters
    text = re.sub(r'[\u4e00-\u9fff]+', '', text)
    
    # Define a regex pattern:
    pattern = re.compile("[^가-힣0-9a-zA-Z!?#:<>()[]{};π∞'\".,\-~ \n①-⑮㉠-㉮△○~]")
    cleaned_text = pattern.sub("", text)
    
    cleand_text = cleaned_text.replace("\x1f", "") # 물결 앞뒤고 \x1f가 붙어있는 경우가 있음(미해결)
    
    return cleaned_text

### Hwp2PDF

In [None]:
import win32com.client as win32
import win32gui

os.chdir(file_path)

hwp = win32.gencache.EnsureDispatch("HWPFrame.HwpObject")
hwnd = win32gui.FindWindow(None, "빈 문서 1 - 한글")

win32gui.ShowWindow(hwnd, 0)
hwp.RegisterModule("FilePathCheckDLL", "FilePathCheckerModule")

for i in file_name:
    hwp.Open(os.path.join(file_path, i))  # 한/글로 열어서
    hwp.HAction.GetDefault('FileSaveAsPdf', hwp.HParameterSet.HFileOpenSave.HSet)  # PDF로 저장할 건데, 설정값은 아래와 같이.
    hwp.HParameterSet.HFileOpenSave.filename = os.path.join(file_path, i.replace('.hwp', 'pdf'))  # 확장자는 .pdf로,
    hwp.HParameterSet.HFileOpenSave.Format = 'PDF'  # 포맷은 PDF로,
    hwp.HAction.Execute('FileSaveAsPdf', hwp.HParameterSet.HFileOpenSave.HSet) 
    
win32gui.ShowWindow(hwnd, 5)
hwp.XHwpDocuments.Close(isDirty=False)
hwp.Quit()

del hwp
del win32

### PDF2Text