In [32]:
import fitz
import re

def find_text_by_red_strikethrough_status(pdf_path):
    document = fitz.open(pdf_path)
    strikethrough_texts = []
    non_strikethrough_texts = []
    full_texts = []

    for page_number in range(len(document)):
        page = document[page_number]
        words = page.get_text("words")  # 단어와 그 위치를 반환
        paths = page.get_drawings()  # 페이지의 그래픽 요소를 추출

        strikethrough_lines = []

        # 그림 요소 중에서 선과 사각형을 검사하여 빨간색 취소선으로 판단
        for path in paths:
            color = path["color"]
            # 선의 색상이 빨간색인 경우에만 처리
            if color == (1, 0, 0):  # RGB 색상으로 빨간색 확인
                for item in path["items"]:
                    if item[0] == "l":  # 선인 경우
                        p1, p2 = item[1:]
                        if p1.y == p2.y:  # 수평선이면
                            rect = fitz.Rect(p1.x, p1.y - 1, p2.x, p2.y + 1)
                            strikethrough_lines.append(rect)
                    elif item[0] == "re":  # 사각형인 경우
                        rect = item[1]
                        if rect.width > rect.height and rect.height < 3:  # 넓이가 높이보다 많이 크고 높이가 3pt 이하이면
                            strikethrough_lines.append(rect)

        # 각 단어와 취소선이 겹치는지 검사
        same_line = words[0][5]
        previous_strike = False
        strike_line = ''
        line = ''
        for word in words:
            word_rect = fitz.Rect(word[:4])  # 단어의 위치
            strikethrough_found = False
            for line_rect in strikethrough_lines:
                if word_rect.intersects(line_rect):  # 겹치면
                    strikethrough_found = True
                    break
            if not strikethrough_found:  # 취소선이 없으면
                non_strikethrough_texts.append(word[4:6])  # 취소선이 적용되지 않은 단어 추가
                if same_line != word[5]:
                    same_line = word[5]
                    line += '\n'

                line = line + ' ' + word[4]
                
                if strikethrough_found != previous_strike:
                    full_texts.append('<del>' + strike_line + '<>')
                    strike_line = ''
                previous_strike = False
            else:
                strikethrough_texts.append(word[4:6])  # 취소선이 적용된 단어 추가
                strike_line = strike_line  + ' ' + word[4]
                if strikethrough_found != previous_strike:
                    full_texts.append(line + '\n')
                    line=''
                previous_strike = True
        full_texts.append(line)
    document.close()
    return strikethrough_texts, non_strikethrough_texts, full_texts

def re_text(full_texts):
    full = ''
    for text in full_texts:
        cleaned_text = re.sub(r'\.\s*\.', '', text)
        full += cleaned_text
    return full

pdf_path = ['real_data_ex.pdf', 'real_data_ex2.pdf']
docs = []
for pdf in pdf_path:
    strikethrough_texts, non_strikethrough_texts, full_texts = find_text_by_red_strikethrough_status(pdf)
    texts = re_text(full_texts)
    docs.append((pdf, texts))
docs

 열 람 용
 등기사항전부증명서(말소사항 포함)
 등기번호 721976
 등록번호 110111-7219763
 상 호 주식회사 루나써클 (Lunar Circle Co., Ltd.)  
 본 점
말소( 서울특별시 강남구 테헤란로 302, 11층 100호(역삼동, 위워크타워))  
말소( 서울특별시 강남구 강남대로 342, 409호(역삼동))
 2020.07.03 변경 2020.07.16 등기
말소( 서울특별시 강남구 강남대로 342, 501호(역삼동))
 2021.01.07 변경 2021.01.15 등기
 서울특별시 강남구 선릉로93길 40, 나라키움 역삼에이빌딩 402호(역삼 2021.04.01 변경
 동) 2021.04.01 등기
 공고방법 회사의 인터넷 홈페이지(http://www.microbeautylabs.com)에 게재한 
 다. 다만, 전산장애 또는 그 밖의 부득이한 사유로 회사의 인터넷 홈 
 페이지에 공고를 할 수 없는 때에 서울특별시내에서 발행하는 일간 아주경제신문에 게재한다.
 1주의 금액 금 500 원  
 발행할 주식의 총수 100,000,000 주  
 발행주식의 총수와
 그 종류 및 각각의 수 자본금의 액 변 경 연 월 일 등 기 연 월 일
 발행주식의 총수
말소( 100,000 주) 
말소( 보통주식 100,000 주 금 50,000,000 원)
 
 발행주식의 총수
말소( 160,000 주) 2020.11.05 변경
말소( 보통주식 160,000 주 금 80,000,000 원)
 2020.11.13 등기
 발행주식의 총수 176,890 주 2021.03.30 변경
 보통주식 168,001 주 2021.04.01 등기
 제1종상환전환우선주식 8,889 주 금 88,445,000 원
 목 적
 1. 화장품 제조업 1. 화장품 판매 및 도소매업 1. 화장품 제조 및 판매 관련 컨설팅업 1. 화장품 판매채널지원 및 마케팅 1. 건강기능식품 및 건강보조식품 상품기획업
 1/5 열람일시 : 2021년04월28일 10시42분20초
말소( 열) 