In [None]:
import os
import pymupdf
from glob import glob
import json
import requests
from PIL import Image

In [None]:
SAMPLE = "/content/일일 착용 콘택트렌즈의 연속 착용에 따른 세균 오염.pdf"

In [None]:
def split_pdf(filepath, batch_size=2):
    """
    입력 PDF를 여러 개의 작은 PDF 파일로 분할
    """
    # PDF 파일 열기
    input_pdf = pymupdf.open(filepath)
    num_pages = len(input_pdf)
    print(f"총 페이지 수: {num_pages}")

    ret = []
    # PDF 분할
    for start_page in range(0, num_pages, batch_size):
        end_page = min(start_page + batch_size, num_pages) - 1

        # 분할된 PDF 저장
        input_file_basename = os.path.splitext(filepath)[0]
        output_file = f"{input_file_basename}_{start_page:04d}_{end_page:04d}.pdf"
        print(f"분할 PDF 생성: {output_file}")
        with pymupdf.open() as output_pdf:
            output_pdf.insert_pdf(input_pdf, from_page=start_page, to_page=end_page)
            output_pdf.save(output_file)
            ret.append(output_file)

    # 입력 PDF 파일 닫기
    input_pdf.close()
    return ret

In [None]:
split_files = split_pdf(SAMPLE)

In [None]:
class LayoutAnalyzer:
  def __init__(self, api_key):
    self.api_key = api_key

  def _upstage_layout_analysis(self, input_file):
    """
    레이아웃 분석 api 호출
    param input_file: 분석할 pdf 파일 경로
    param output_file: 분석 결과 저장할 json 파일 경로
    """
    # API 요청 보내기
    response = requests.post(
        "https://api.upstage.ai/v1/document-ai/layout-analysis",
        headers = {"Authorization": f"Bearer {self.api_key}"},
        data = {"ocr": False},
        files = {"document": open(input_file, "rb")},
    )

    # 응답 저장
    if response.status_code == 200:
      output_file = os.path.splitext(input_file)[0] + ".json"
      with open(output_file, "w") as f:
        json.dump(response.json(), f, ensure_ascii=False)
      return output_file
    else:
      raise ValueError(f"예상치 못한 상태 코드: {response.status_code}")

  def execute(self, input_file):
    return self._upstage_layout_analysis(input_file)

In [None]:
analyzer = LayoutAnalyzer("up_gs1RLv6GzCaHcCF7eCDgwLD3xDtil")

analyzed_files = []

for file in split_files:
  analyzed_files.append(analyzer.execute(file))

In [None]:
analyzed_files

In [None]:
!pip install markdownify

In [None]:
import json
import os
from glob import glob
from PIL import Image
import pymupdf
import re
from bs4 import BeautifulSoup
from markdownify import markdownify as markdown


class PDFImageProcessor:
    """
    PDF 이미지 처리를 위한 클래스

    PDF 파일에서 이미지를 추출하고, HTML 및 Markdown 형식으로 변환하는 기능을 제공합니다.
    """

    def __init__(self, pdf_file):
        """
        PDFImageProcessor 클래스의 생성자

        :param pdf_file: 처리할 PDF 파일의 경로
        """
        self.pdf_file = pdf_file
        self.json_files = sorted(glob(os.path.splitext(pdf_file)[0] + "*.json"))
        self.output_folder = os.path.splitext(pdf_file)[0]
        self.filename = os.path.splitext(os.path.basename(SAMPLE))[0]

    @staticmethod
    def _load_json(json_file):
        """
        JSON 파일을 로드하는 정적 메서드

        :param json_file: 로드할 JSON 파일의 경로
        :return: JSON 데이터를 파이썬 객체로 변환한 결과
        """
        with open(json_file, "r") as f:
            return json.load(f)

    @staticmethod
    def _get_page_sizes(json_data):
        """
        각 페이지의 크기 정보를 추출하는 정적 메서드

        :param json_data: JSON 데이터
        :return: 페이지 번호를 키로, [너비, 높이]를 값으로 하는 딕셔너리
        """
        page_sizes = {}
        for page_element in json_data["metadata"]["pages"]:
            width = page_element["width"]
            height = page_element["height"]
            page_num = page_element["page"]
            page_sizes[page_num] = [width, height]
        return page_sizes

    def pdf_to_image(self, page_num, dpi=300):
        """
        PDF 파일의 특정 페이지를 이미지로 변환하는 메서드

        :param page_num: 변환할 페이지 번호 (1부터 시작)
        :param dpi: 이미지 해상도 (기본값: 300)
        :return: 변환된 이미지 객체
        """
        with pymupdf.open(self.pdf_file) as doc:
            page = doc[page_num - 1].get_pixmap(dpi=dpi)
            target_page_size = [page.width, page.height]
            page_img = Image.frombytes("RGB", target_page_size, page.samples)
        return page_img

    @staticmethod
    def normalize_coordinates(coordinates, output_page_size):
        """
        좌표를 정규화하는 정적 메서드

        :param coordinates: 원본 좌표 리스트
        :param output_page_size: 출력 페이지 크기 [너비, 높이]
        :return: 정규화된 좌표 (x1, y1, x2, y2)
        """
        x_values = [coord["x"] for coord in coordinates]
        y_values = [coord["y"] for coord in coordinates]
        x1, y1, x2, y2 = min(x_values), min(y_values), max(x_values), max(y_values)

        return (
            x1 / output_page_size[0],
            y1 / output_page_size[1],
            x2 / output_page_size[0],
            y2 / output_page_size[1],
        )

    @staticmethod
    def crop_image(img, coordinates, output_file):
        """
        이미지를 주어진 좌표에 따라 자르고 저장하는 정적 메서드

        :param img: 원본 이미지 객체
        :param coordinates: 정규화된 좌표 (x1, y1, x2, y2)
        :param output_file: 저장할 파일 경로
        """
        img_width, img_height = img.size
        x1, y1, x2, y2 = [
            int(coord * dim)
            for coord, dim in zip(coordinates, [img_width, img_height] * 2)
        ]
        cropped_img = img.crop((x1, y1, x2, y2))
        cropped_img.save(output_file)

    def extract_images(self):
        """
        전체 이미지 처리 과정을 실행하는 메서드

        PDF에서 이미지를 추출하고, HTML 및 Markdown 파일을 생성합니다.
        """
        figure_count = {}  # 페이지별 figure 카운트를 저장하는 딕셔너리

        output_folder = self.output_folder
        os.makedirs(output_folder, exist_ok=True)

        print(f"폴더가 생성되었습니다: {output_folder}")

        html_content = []  # HTML 내용을 저장할 리스트

        for json_file in self.json_files:
            json_data = self._load_json(json_file)
            page_sizes = self._get_page_sizes(json_data)

            # 파일 이름에서 페이지 범위 추출
            page_range = os.path.basename(json_file).split("_")[1:]
            start_page = int(page_range[0])

            for element in json_data["elements"]:
                if element["category"] == "figure":
                    # 파일 내에서의 상대적인 페이지 번호 계산
                    relative_page = element["page"]
                    page_num = start_page + relative_page
                    coordinates = element["bounding_box"]
                    output_page_size = page_sizes[relative_page]
                    pdf_image = self.pdf_to_image(page_num)
                    normalized_coordinates = self.normalize_coordinates(
                        coordinates, output_page_size
                    )

                    # 페이지별 figure 카운트 관리
                    if page_num not in figure_count:
                        figure_count[page_num] = 1
                    else:
                        figure_count[page_num] += 1

                    # 출력 파일명 생성
                    output_file = os.path.join(
                        output_folder,
                        f"page_{page_num}_figure_{figure_count[page_num]}.png",
                    )

                    self.crop_image(pdf_image, normalized_coordinates, output_file)

                    # HTML에서 이미지 경로 업데이트
                    soup = BeautifulSoup(element["html"], "html.parser")
                    img_tag = soup.find("img")
                    if img_tag:
                        # 상대 경로로 변경
                        relative_path = os.path.relpath(output_file, output_folder)
                        img_tag["src"] = relative_path.replace("\\", "/")
                    element["html"] = str(soup)

                    print(f"이미지 저장됨: {output_file}")

                html_content.append(element["html"])

        # HTML 파일 저장
        html_output_file = os.path.join(output_folder, f"{self.filename}.html")

        combined_html_content = "\n".join(html_content)
        soup = BeautifulSoup(combined_html_content, "html.parser")
        all_tags = set([tag.name for tag in soup.find_all()])
        html_tag_list = [tag for tag in list(all_tags) if tag not in ["br"]]

        with open(html_output_file, "w", encoding="utf-8") as f:
            f.write(combined_html_content)

        print(f"HTML 파일이 {html_output_file}에 저장되었습니다.")

        # Markdown 파일 저장
        md_output_file = os.path.join(output_folder, f"{self.filename}.md")

        md_output = markdown(
            combined_html_content,
            convert=html_tag_list,
        )

        with open(md_output_file, "w", encoding="utf-8") as f:
            f.write(md_output)

        print(f"Markdown 파일이 {md_output_file}에 저장되었습니다.")

In [None]:
image_processor = PDFImageProcessor(SAMPLE)
image_processor.extract_images()

In [None]:
# .md 파일을 .txt 파일로 변환하는 코드
input_md_path = "/content/일일 착용 콘택트렌즈의 연속 착용에 따른 세균 오염/일일 착용 콘택트렌즈의 연속 착용에 따른 세균 오염.md"  # .md 파일 경로
output_txt_path = "/content/일일 착용 콘택트렌즈의 연속 착용에 따른 세균 오염/일일 착용 콘택트렌즈의 연속 착용에 따른 세균 오염.txt"  # 변환될 .txt 파일 경로

# .md 파일을 읽고, .txt 파일로 저장
with open(input_md_path, "r", encoding="utf-8") as md_file:
    content = md_file.read()

with open(output_txt_path, "w", encoding="utf-8") as txt_file:
    txt_file.write(content)

print("변환이 완료되었습니다. 텍스트 파일로 저장되었습니다.")

In [None]:
file_path = output_txt_path

with open(file_path, 'r', encoding='utf-8') as file:
  raw_text = file.read()

import re

# 1. Markdown의 헤더, 리스트, 불필요한 기호 제거
cleaned_text = re.sub(r'\[.*?\]\(.*?\)', '', raw_text)    # 링크 제거
cleaned_text = re.sub(r'#+\s?', '', cleaned_text)          # 헤더 제거
cleaned_text = re.sub(r'\*+', '', cleaned_text)            # 리스트 마커 제거
cleaned_text = re.sub(r'[!#$]+', '', cleaned_text)         # 불필요한 특수문자 제거
cleaned_text = re.sub(r'\n{2,}', '\n', cleaned_text)       # 연속 개행 제거

# 2. 텍스트가 비어 있지 않은지 확인하고 일부만 출력하여 확인
if cleaned_text.strip():  # 텍스트가 비어있지 않은 경우
    print("전처리된 텍스트 일부:\n", cleaned_text[:1000])  # 일부만 출력하여 확인
else:
    print("전처리 결과에 유효한 텍스트가 없습니다.")

In [None]:
import textwrap


processed_text = re.sub(r'(?<![가-힣])\b[A-Za-z]+\b(?![가-힣])', '', cleaned_text)
# 1. 숫자와 특수문자 뒤에 오는 이스케이프 문자 제거
processed_text = re.sub(r'\\[A-Za-z0-9]+', '', cleaned_text)

# 2. 논문 레퍼런스 번호 패턴 제거 (e.g., (1), (12))
processed_text = re.sub(r'\(\d+\)', '', processed_text)

# 3. 기타 특수 문자 제거 (이스케이프 문자와 하이픈 위치 수정)
processed_text = re.sub(r'[\\=:;@+*]', '', processed_text)  # <- 여기서 처리 완료했으므로 아래 중복 제거 필요 없음

# 4. 다중 공백을 하나의 공백으로 치환
processed_text = re.sub(r'\s+', ' ', processed_text)

# 5. 중복되는 "===" 형태의 구분 기호 제거
processed_text = re.sub(r'=+', '', processed_text)

processed_text = re.sub(r"(Fig\.|Table)\s?\d.*", '', processed_text)

# 8. 문장을 리스트로 분리 (마침표, 물음표, 느낌표를 기준으로)
def split_sentences(text):
    sentences = re.split(r'(?<=[.?!])\s+', text)
    return sentences

# 9. 한국어와 한국어 사이의 불필요한 영어 단어 제거
def remove_english_between_korean(sentences):
    cleaned_sentences = []
    for sentence in sentences:
        cleaned_sentence = re.sub(r'(?<=[가-힣])\s*[A-Za-z]+\s*(?=[가-힣])', '', sentence)
        cleaned_sentences.append(cleaned_sentence)
    return cleaned_sentences

sentences = split_sentences(processed_text)
processed_sentences = remove_english_between_korean(sentences)

final_text = ' '.join(processed_sentences)

wrapped_text = textwrap.fill(final_text, width=80)

print(wrapped_text)