## full_data에서 pdf 경로 추출 후 json 파일로 저장

In [3]:
# 최종코드
import json
import os

def extract_pdf_register(file_path, output_file_path):
    print("Starting the extraction process...")

    # JSON 파일 읽기
    with open(file_path, 'r', encoding='utf-8') as json_file:
        print(f"Reading data from {file_path}...")
        done_data = json.load(json_file)

    data = done_data.get('items', [])
    total_items = len(data)
    print(f"Total items found: {total_items}")

    # 'pdf_rewrite_register', 'pdf_register', 'pdf_open' 중 하나라도 있는 'applicationNumber' 추출
    pdf_register_dict = {}

    for index, item in enumerate(data):
        pdf_path = None

        # 중요도 순서에 따라 값 선택
        if 'pdf_rewrite_register' in item and item['pdf_rewrite_register'] != 'null':
            pdf_path = item['pdf_rewrite_register']
        elif 'pdf_register' in item and item['pdf_register'] != 'null':
            pdf_path = item['pdf_register']
        elif 'pdf_open' in item and item['pdf_open'] != 'null':
            pdf_path = item['pdf_open']

        if pdf_path:
            application_number = item['applicationNumber']
            pdf_register_dict[application_number] = pdf_path
            if (index + 1) % 1000 == 0 or index == total_items - 1:
                print(f"Processed {index + 1}/{total_items} items. Current valid PDFs: {len(pdf_register_dict)}")
        else:
            if (index + 1) % 1000 == 0 or index == total_items - 1:
                print(f"Processed {index + 1}/{total_items} items. No valid PDF path found for this item.")

    # 딕셔너리를 JSON 파일로 저장
    with open(output_file_path, 'w', encoding='utf-8') as json_file:
        print(f"Saving extracted data to {output_file_path}...")
        json.dump(pdf_register_dict, json_file, ensure_ascii=False, indent=4)

    print(f"PDF 경로가 포함된 특허번호가 {len(pdf_register_dict)}개 저장되었습니다.")

if __name__ == "__main__":
    # 파일 경로 설정
    input_file_path = '/media/user/datadisk/Patent_data/full_data.json'
    output_file_path = 'pdf_register_data.json'
    
    extract_pdf_register(input_file_path, output_file_path)

Starting the extraction process...
Reading data from /media/user/datadisk/Patent_data/full_data.json...
Total items found: 147861
Processed 1000/147861 items. Current valid PDFs: 1000
Processed 2000/147861 items. Current valid PDFs: 2000
Processed 3000/147861 items. Current valid PDFs: 3000
Processed 4000/147861 items. Current valid PDFs: 4000
Processed 5000/147861 items. Current valid PDFs: 5000
Processed 6000/147861 items. Current valid PDFs: 6000
Processed 7000/147861 items. Current valid PDFs: 7000
Processed 8000/147861 items. Current valid PDFs: 8000
Processed 9000/147861 items. Current valid PDFs: 9000
Processed 10000/147861 items. Current valid PDFs: 10000
Processed 11000/147861 items. Current valid PDFs: 11000
Processed 12000/147861 items. Current valid PDFs: 12000
Processed 13000/147861 items. Current valid PDFs: 13000
Processed 14000/147861 items. Current valid PDFs: 14000
Processed 15000/147861 items. Current valid PDFs: 15000
Processed 16000/147861 items. Current valid PDFs

In [2]:
# null, null, null 찾기
import json

def find_and_print_application(file_path, target_application_number):
    print(f"Searching for application number: {target_application_number}")

    try:
        with open(file_path, 'r', encoding='utf-8') as json_file:
            data = json.load(json_file)
            
        items = data.get('items', [])
        
        found = False
        for item in items:
            if item.get('applicationNumber') == target_application_number:
                print("Found matching application. Details:")
                print(json.dumps(item, ensure_ascii=False, indent=2))
                found = True
                break
        
        if not found:
            print(f"No item found with application number: {target_application_number}")

    except FileNotFoundError:
        print(f"Error: File not found at {file_path}")
    except json.JSONDecodeError:
        print(f"Error: Unable to parse JSON from the file at {file_path}")
    except Exception as e:
        print(f"An unexpected error occurred: {str(e)}")

if __name__ == "__main__":
    file_path = '/media/user/datadisk/Patent_data/full_data.json'
    target_application_number = '1020170103960'
    
    find_and_print_application(file_path, target_application_number)

Searching for application number: 1020170103960
Found matching application. Details:
{
  "applicantName": "박배균",
  "applicationDate": "20170817",
  "applicationNumber": "1020170103960",
  "astrtCont": "상술한 기술적 과제를 해결하기 위해 본 발명에 따른 장례식장 운영시스템은 다수의 장례식장을 인수하여 홍보하되 장례의전행사를 주관하며, 장례의전행사에 필요한 장례용품을 관리하는 사업운영모듈과, 인수된 장례식장을 운영함과 동시에 장례의전행사가 필요한 고객을 유치하는 사원을 모집하며, 모집된 사원과 고객의 정보를 상기 사업운영모듈(100)에 전송하여 관리하고, 장례의전행사를 진행한 고객에 의해 입력된 사원의 기여도정보를 고객의 이동단말기를 통하여 전송받는 고객관리모듈(200) 및 상기 고객관리모듈(200)의 기여도정보를 전송받아 사원에게 지급할 수당을 결정하고, 결정된 수당정보를 상기 사업운영모듈(100)에 전송하는 지급관리모듈(300)을 포함하되, 상기 사업운영모듈은 상기 고객관리모듈에 의해 모집된 각각의 사원에게 서로 다른 영업코드를 부여하여 상기 고객관리모듈을 통해 관리될 수 있도록 하며, 상기 지급관리모듈을 통한 사원의 수당은 유치한 고객이 상기 사업운영모듈에 장례의전행사를 요청하여 접수번호를 할당한 경우에만 지급될 수 있도록 하는 것을 특징으로 한다.",
  "bigDrawing": "http://plus.kipris.or.kr/kiprisplusws/fileToss.jsp?arg=2ba38663aa11ff0f6ca91af6061a2e00058c93a496ea3709d29d52ffbe6a5a794e1b32abe19785e66f5cd5667501b348bf4f348288e035692501371e1bc66e4ea55c937cf32db9bf",
  "drawing": "http://plus.kipris.or

## 청구항1, 나머지 청구항, 요약 json 파일 만들기

In [5]:
import fitz
import json
import re
import requests
import os

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    content = {}
    current_section = None
    section_content = ""

    for page in doc:
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if block['type'] == 0:  # 텍스트 블록
                for line in block["lines"]:
                    for span in line["spans"]:
                        is_italic = span['flags'] & 2**3 > 0  # 이탤릭 플래그 확인
                        text = span['text'].strip()
                        
                        if is_italic and text:  # 기울어진 텍스트를 새로운 섹션의 시작으로 간주
                            if current_section:
                                content[current_section] = section_content.strip()
                            current_section = text
                            section_content = ""
                        elif current_section:
                            section_content += text + " "

    # 마지막 섹션 처리
    if current_section:
        content[current_section] = section_content.strip()

    # 청구항과 요약 추출
    claims = {k: v for k, v in content.items() if '청구항' in k}
    summary = content.get('요약', '')

    return {
        "청구항": claims,
        "요약": summary
    }

def process_patents(input_file, output_file):
    with open(input_file, 'r') as f:
        patent_data = json.load(f)

    new_patent_data = {}

    for patent_number, pdf_url in patent_data.items():
        print(f"Processing patent number: {patent_number}")
        pdf_filename = f"{patent_number}.pdf"
        
        try:
            download_pdf(pdf_url, pdf_filename)
            content = extract_content(pdf_filename)
            new_patent_data[patent_number] = content
        except Exception as e:
            print(f"Error processing {patent_number}: {str(e)}")
        finally:
            if os.path.exists(pdf_filename):
                os.remove(pdf_filename)

    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(new_patent_data, f, ensure_ascii=False, indent=4)

    print(f"Processed data saved to {output_file}")

if __name__ == "__main__":
    input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
    output_file = '/home/user/hjkim/contextual/processed_patent_data(1-20,000).json'
    process_patents(input_file, output_file)

Processing patent number: 1020170035102
Processing patent number: 1020170035108
Processing patent number: 1020170035116
Processing patent number: 1020170035118
Processing patent number: 1020170035122
Processing patent number: 1020170035125
Processing patent number: 1020170035126
Processing patent number: 1020170035127
Processing patent number: 1020170035129
Processing patent number: 1020170035130
Processing patent number: 1020170035133
Processing patent number: 1020170035136
Processing patent number: 1020170035137
Processing patent number: 1020170035140
Processing patent number: 1020170035142
Processing patent number: 1020170035144
Processing patent number: 1020170035145
Processing patent number: 1020170035146
Processing patent number: 1020170035156
Processing patent number: 1020170035164
Processing patent number: 1020170035169
Processing patent number: 1020170035171
Processing patent number: 1020170035175
Processing patent number: 1020170035186
Processing patent number: 1020170035187


KeyboardInterrupt: 

### 실험

In [6]:
#  Test(PDF 두개만 먼저 출력)
import fitz
import json
import re
import requests
import os

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    content = {}
    current_section = None
    section_content = ""

    for page in doc:
        blocks = page.get_text("dict")["blocks"]
        for block in blocks:
            if block['type'] == 0:  # 텍스트 블록
                for line in block["lines"]:
                    for span in line["spans"]:
                        is_italic = span['flags'] & 2**3 > 0  # 이탤릭 플래그 확인
                        text = span['text'].strip()
                        
                        if is_italic and text:  # 기울어진 텍스트를 새로운 섹션의 시작으로 간주
                            if current_section:
                                content[current_section] = section_content.strip()
                            current_section = text
                            section_content = ""
                        elif current_section:
                            section_content += text + " "

    # 마지막 섹션 처리
    if current_section:
        content[current_section] = section_content.strip()

    # 청구항과 요약 추출
    claims = {k: v for k, v in content.items() if '청구항' in k}
    summary = content.get('요약', '')

    return {
        "청구항": claims,
        "요약": summary
    }

def process_sample_patents(input_file, sample_count=2):
    with open(input_file, 'r') as f:
        patent_data = json.load(f)

    new_patent_data = {}
    count = 0

    for patent_number, pdf_url in patent_data.items():
        if count >= sample_count:
            break

        print(f"Processing patent number: {patent_number}")
        pdf_filename = f"{patent_number}.pdf"
        
        try:
            download_pdf(pdf_url, pdf_filename)
            content = extract_content(pdf_filename)
            new_patent_data[patent_number] = content
            print(f"Extracted content for patent {patent_number}:\n", content)
            count += 1
        except Exception as e:
            print(f"Error processing {patent_number}: {str(e)}")
        finally:
            if os.path.exists(pdf_filename):
                os.remove(pdf_filename)

    print("Sample processing complete.")

# 실행 코드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
process_sample_patents(input_file)


Processing patent number: 1020170035102
Extracted content for patent 1020170035102:
 {'청구항': {}, '요약': ''}
Processing patent number: 1020170035108
Extracted content for patent 1020170035108:
 {'청구항': {}, '요약': ''}
Sample processing complete.


In [15]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        'full_text': full_text,
        '청구범위': '',
        '요약': ''
    }

    # 청구범위 추출
    claims_match = re.search(r'청구범위(.*?)(?:도면|$)', full_text, re.DOTALL)
    if claims_match:
        content['청구범위'] = claims_match.group(1).strip()
    
    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?:\(뒷면에 계속\)|$)', full_text, re.DOTALL)
    if summary_match:
        content['요약'] = summary_match.group(1).strip()
    
    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구범위:")
        print(content['청구범위'] if content['청구범위'] else 'Not found')
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구범위:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [16]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        summary = re.sub(r'\(뒷면에 계속\)\s*', '', summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = (claims[1] + claims[2]).strip()
            content['청구항_나머지'] = ''.join(claims[3:]).strip()
        else:
            content['청구항'] = claims[0].strip()

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [20]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        # 페이지 넘김 표시 및 페이지 번호 제거
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'\d+\s*$', '', summary, flags=re.MULTILINE)
        # 여러 줄의 공백을 하나의 공백으로 대체
        summary = re.sub(r'\s+', ' ', summary)
        content['요약'] = summary

    # 청구항 추출 (기존 코드와 동일)
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = (claims[1] + claims[2]).strip()
            content['청구항_나머지'] = ''.join(claims[3:]).strip()
        else:
            content['청구항'] = claims[0].strip()

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [21]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)


def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        # 페이지 넘김 표시 및 페이지 번호 제거
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'\d+\s*$', '', summary, flags=re.MULTILINE)
        # 기울어진 텍스트 제거 (일반적으로 이탤릭체로 표시됨)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        # 등록특허 뒤의 숫자들 제거
        summary = re.sub(r'등록특허\s*\d+(-\d+)*', '등록특허', summary)
        # 여러 줄의 공백을 하나의 공백으로 대체
        summary = re.sub(r'\s+', ' ', summary)
        content['요약'] = summary.strip()

    # 청구항 추출 (기존 코드와 동일)
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = (claims[1] + claims[2]).strip()
            content['청구항_나머지'] = ''.join(claims[3:]).strip()
        else:
            content['청구항'] = claims[0].strip()

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [22]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        # 페이지 넘김 표시 및 페이지 번호 제거
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'\d+\s*$', '', summary, flags=re.MULTILINE)
        # 기울어진 텍스트 제거 (일반적으로 이탤릭체로 표시됨)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        # 등록특허 뒤의 숫자들 제거
        summary = re.sub(r'등록특허\s*\d+(-\d+)*', '등록특허', summary)
        # "대 표 도 - 도" 및 "등록특허- - 1 -" 제거
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        summary = re.sub(r'등록특허-\s*-\s*\d+\s*-', '', summary)
        # 여러 줄의 공백을 하나의 공백으로 대체
        summary = re.sub(r'\s+', ' ', summary)
        content['요약'] = summary.strip()

    # 청구항 추출 (기존 코드와 동일)
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = (claims[1] + claims[2]).strip()
            content['청구항_나머지'] = ''.join(claims[3:]).strip()
        else:
            content['청구항'] = claims[0].strip()

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [23]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        # 페이지 넘김 표시 및 페이지 번호 제거
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'\d+\s*$', '', summary, flags=re.MULTILINE)
        # 기울어진 텍스트 제거 (일반적으로 이탤릭체로 표시됨)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        # 등록특허 뒤의 숫자들 제거
        summary = re.sub(r'등록특허\s*\d+(-\d+)*', '등록특허', summary)
        # "대 표 도 - 도" 및 "등록특허- - 1 -" 제거
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        summary = re.sub(r'등록특허-\s*-\s*\d+\s*-', '', summary)
        # 괄호 안의 숫자와 그 이후의 텍스트 제거
        summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        # 여러 줄의 공백을 하나의 공백으로 대체
        summary = re.sub(r'\s+', ' ', summary)
        content['요약'] = summary.strip()

    # 청구항 추출 (기존 코드와 동일)
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = (claims[1] + claims[2]).strip()
            content['청구항_나머지'] = ''.join(claims[3:]).strip()
        else:
            content['청구항'] = claims[0].strip()

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 
소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 
중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부
분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일
고정판(20);과, 
소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥
(31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의
크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥
(30);과 
원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자
석판(40);으로 이루어져서, 
원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지
지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일
정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으
로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동
기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의
상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는
영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서
는 연속적인 자기장의 변화와 함께

In [27]:
import fitz
import json
import requests
import os
import re

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def clean_text(text):
    # 등록특허와 뒤에 나오는 숫자들 제거
    text = re.sub(r'등록특허\s*\d+(-\d+)*', '', text)
    # 페이지 번호 형식 (- 숫자 -) 제거
    text = re.sub(r'\s*-\s*\d+\s*-\s*', ' ', text)
    # 여러 줄의 공백을 하나의 공백으로 대체
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        # 페이지 넘김 표시 제거
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        # 기울어진 텍스트 제거 (일반적으로 이탤릭체로 표시됨)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        # "대 표 도 - 도" 제거
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        # 괄호 안의 숫자와 그 이후의 텍스트 제거
        summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        # 텍스트 정리
        summary = clean_text(summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = clean_text(claims[1] + claims[2])
            content['청구항_나머지'] = clean_text(''.join(claims[3:]))
        else:
            content['청구항'] = clean_text(claims[0])

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
with open(input_file, 'r') as f:
    patent_data = json.load(f)

# 처음 한 개의 PDF만 처리
for patent_number, pdf_url in list(patent_data.items())[:1]:
    pdf_filename = f"{patent_number}.pdf"
    print(f"\nProcessing patent number: {patent_number}")
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        print("\n청구항1:")
        print(content.get('청구항1', 'Not found'))
        
        print("\n청구항 나머지:")
        print(content.get('청구항_나머지', 'Not found'))
        
        print("\n요약:")
        print(content['요약'] if content['요약'] else 'Not found')
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

print("Processing complete.")


Processing patent number: 1020170035102

청구항1:
청구항 1 소정의 형상과 재질로 되어서 일정길이를 가지며 하단부가 지면에 고정되는 한 개 이상의 고정기둥(10);과 중앙부에 소정크기의 구멍인 빈공간이 형성 된 고정부 원형 판(21)에서 빈 공간인 구멍의 외측 가장자리둘레 부 분을 따라 일정한 간격으로 보빈(bobbin)(221)에 코일(coil)(222)이 감겨진 다수의 권선체(22)들이 배열된 코일 고정판(20);과, 소정의 굵기와 재질과 형상으로 일정 길이를 가지며 내부가 비어 있거나 채워져 있는 풍력기둥(31)과, 풍력기둥 (31)의 하단에는 고정기둥(10)의 상측에 그 하단이 고정되도록 하는 소정의 길이를 가지며 그 단면의 크기(굵기)가 상기 풍력기둥(31)의 단면크기(굵기) 보다가 일정크기만큼 더 작은 진동막대(32)가 달린 진동기둥 (30);과 원형으로 된 진동부 원형 판(41)의 가장자리 근처의 둘레를 따라 원형의 영구자석(42)이 배치된 원형의 진동자 석판(40);으로 이루어져서, 원형의 코일고정판(20)은 그 외측둘레가 고정기둥(10)의 상부외측둘레에서 위쪽으로 돌출된 지지부재(23)에 지 지가 되어 고정이 되는 상태의 수평방향으로 배치가 되며 원형의 진동자석판(40)은 원형의 코일고정판(20)과 일 정거리 이격된 근접하는 위치에서 그 중심이 진동기둥(30)의 막대(32)에 결박되어 구속되는 상태의 수평방향으 로 배치가 되어 진동기둥(30)이 바람에 의하여 흔들리면서 진동을 함에 따라 진동자석판(40)은 그 중심이 진동 기둥(30) 아래쪽의 진동막대(32)에 결박되어 진동막대(32)와 함께 수평왕복의 진동운동을 하게 되어 고정기둥의 상측에서 진동자석판(40)과 가깝게 근접하여 고정된 코일고정판(20)의 권선체(22)에 감긴 코일(coil)(222)에는 영구자석(42)이 가깝게 근접하여 연속적으로 수평왕복의 진동운동을 하게 되고 그에 따라 코일(coil)(222)에서 는 연속적인 자기장의 변화와 함께 유도전기

### 리트라이

In [45]:
# 대표도 뒤 문자, 숫자 생략
import fitz
import json
import requests
import os
import re
from tqdm import tqdm

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def clean_text(text):
    # '대표도'와 그 뒤에 오는 모든 문자 및 숫자 제거 (줄 끝까지)
    text = re.sub(r'대\s*표\s*도\s*-?\s*도?\d*.*?(?=\n|$)', '', text, flags=re.DOTALL|re.MULTILINE)
    # '대표도' 단독으로 있을 때도 제거
    text = re.sub(r'\b대\s*표\s*도\b', '', text)

    # '명세서'와 그 앞뒤의 숫자 제거
    text = re.sub(r'\s*\d*\s*명\s*세\s*서\s*\d*\s*', ' ', text)
    
    # 등록특허와 뒤에 나오는 숫자들 제거
    text = re.sub(r'등록특허\s*\d+(-\d+)*', '', text)
    # 페이지 번호 형식 (- 숫자 -) 제거
    text = re.sub(r'\s*-\s*\d+\s*-\s*', '', text)
    # 여러 줄의 공백을 하나의 공백으로 대체
    text = re.sub(r'\s+', ' ', text)
    # 문장 끝에 남은 숫자 제거
    text = re.sub(r'\s*\d+\s*$', '', text)
    return text.strip()


def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항1': '',
        '그 외 청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        summary = clean_text(summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = clean_text(claims[1] + claims[2])
            content['그 외 청구항'] = clean_text(''.join(claims[3:]))
        else:
            content['청구항1'] = clean_text(claims[0])

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
output_file = '/home/user/hjkim/contextual/parsed_patent_data_10samples.json'

with open(input_file, 'r') as f:
    patent_data = json.load(f)

parsed_data = {}

# 처음 10개의 PDF만 처리
for patent_number, pdf_url in tqdm(list(patent_data.items())[:10], desc="Processing patents"):
    pdf_filename = f"{patent_number}.pdf"
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        parsed_data[patent_number] = {
            "청구항1": content['청구항1'],
            "그 외 청구항": content['그 외 청구항'],
            "요약": content['요약']
        }
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

# 결과를 새 JSON 파일로 저장
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(parsed_data, f, ensure_ascii=False, indent=4)

print(f"Processing complete. Results saved to {output_file}")

Processing patents: 100%|██████████| 10/10 [04:14<00:00, 25.50s/it]

Processing complete. Results saved to /home/user/hjkim/contextual/parsed_patent_data_10samples.json





In [None]:
# 유리판 문제 해결한 코드(10개)
import fitz
import json
import requests
import os
import re
from tqdm import tqdm

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)

def clean_text(text):
    # '대표도'와 그 뒤에 오는 모든 문자 및 숫자 제거 (줄 끝까지)
    #text = re.sub(r'대\s*표\s*도\s*-\s*도?\d*.*?(?=\n|$)', '', text, flags=re.DOTALL|re.MULTILINE)
    text = re.sub(r'대\s*표\s*도.*', '', text)

    # '명세서'와 그 앞뒤의 숫자 제거
    text = re.sub(r'\s*\d*\s*명\s*세\s*서\s*\d*\s*', ' ', text)
    
    # 등록특허와 뒤에 나오는 숫자들 제거
    text = re.sub(r'등록특허\s*\d+(-\d+)*', '', text)
    # 페이지 번호 형식 (- 숫자 -) 제거
    text = re.sub(r'\s*-\s*\d+\s*-\s*', '', text)
    # 여러 줄의 공백을 하나의 공백으로 대체
    text = re.sub(r'\s+', ' ', text)
    # 문장 끝에 남은 숫자 제거
    #text = re.sub(r'\s*\d+\s*$', '', text)
    text = re.sub(r'\.\s*\(.*\)', '', text)  # 점 뒤에 괄호 시작하면 그 뒤는 모두 제거

    # 점 뒤에 숫자와 괄호가 함께 나오는 부분도 제거
    text = re.sub(r'\.\s*\d+\(\d+\).*', '', text)
    
    return text.strip()

def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항1': '',
        '그 외 청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        #summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        summary = clean_text(summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = clean_text(claims[1] + claims[2])
            content['그 외 청구항'] = clean_text(''.join(claims[3:]))
        else:
            content['청구항1'] = clean_text(claims[0])

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
output_file = '/home/user/hjkim/contextual/parsed_patent_data_10samples.json'

with open(input_file, 'r') as f:
    patent_data = json.load(f)

parsed_data = {}

# 처음 10개의 PDF만 처리
for patent_number, pdf_url in tqdm(list(patent_data.items())[:10], desc="Processing patents"):
    pdf_filename = f"{patent_number}.pdf"
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        parsed_data[patent_number] = {
            "청구항1": content['청구항1'],
            "그 외 청구항": content['그 외 청구항'],
            "요약": content['요약']
        }
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

# 결과를 새 JSON 파일로 저장
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(parsed_data, f, ensure_ascii=False, indent=4)

print(f"Processing complete. Results saved to {output_file}")

In [12]:
# 문제해결된 코드일지도??

import fitz
import json
import requests
import os
import re
from tqdm import tqdm

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)



def clean_text(text):
    # '대표도'가 나오면 그 앞까지만 텍스트를 유지
    text = re.split(r'대\s*표\s*도', text)[0]
    # '명세서'와 그 앞뒤의 숫자 제거
    text = re.sub(r'\s*\d*\s*명\s*세\s*서\s*\d*\s*', ' ', text)
    # '선행기술조사문헌'과 그 뒤 모든 문자 제거
    text = re.sub(r'\(\d+\)\s*선행기술조사문헌.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # CPC특허분류 제거
    text = re.sub(r'\(\d+\)\s*CPC특허분류.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # 발명자 제거
    text = re.sub(r'\(\d+\)\s*발명자.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # 등록특허와 뒤에 나오는 숫자들 제거
    text = re.sub(r'등록특허\s*\d+(-\d+)*', '', text)
    # 페이지 번호 형식 (- 숫자 -) 제거
    text = re.sub(r'\s*-\s*\d+\s*-\s*', '', text)
    # 여러 줄의 공백을 하나의 공백으로 대체
    text = re.sub(r'\s+', ' ', text)
    # 문장 끝에 남은 숫자 제거
    text = re.sub(r'\s*\d+\s*$', '', text)
    
    return text.strip()


def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항1': '',
        '그 외 청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        #summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        summary = clean_text(summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = clean_text(claims[1] + claims[2])
            content['그 외 청구항'] = clean_text(''.join(claims[3:]))
        else:
            content['청구항1'] = clean_text(claims[0])

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/random_test.json'
output_file = '/home/user/hjkim/contextual/random_test_result.json'

with open(input_file, 'r') as f:
    patent_data = json.load(f)

parsed_data = {}

# 처음 6개의 PDF만 처리
for patent_number, pdf_url in tqdm(list(patent_data.items())[:6], desc="Processing patents"):
    pdf_filename = f"{patent_number}.pdf"
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        parsed_data[patent_number] = {
            "청구항1": content['청구항1'],
            "그 외 청구항": content['그 외 청구항'],
            "요약": content['요약']
        }
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

# 결과를 새 JSON 파일로 저장
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(parsed_data, f, ensure_ascii=False, indent=4)

print(f"Processing complete. Results saved to {output_file}")

Processing patents:   0%|          | 0/6 [00:00<?, ?it/s]

Processing patents: 100%|██████████| 6/6 [00:16<00:00,  2.69s/it]

Processing complete. Results saved to /home/user/hjkim/contextual/random_test_result.json





## 전체 pdf 파싱(청구항1, 청구항 나머지, 요약)

In [15]:
import fitz
import json
import requests
import os
import re
from tqdm import tqdm

def download_pdf(url, filename):
    response = requests.get(url)
    with open(filename, 'wb') as f:
        f.write(response.content)



def clean_text(text):
    # '대표도'가 나오면 그 앞까지만 텍스트를 유지
    text = re.split(r'대\s*표\s*도', text)[0]
    # '명세서'와 그 앞뒤의 숫자 제거
    text = re.sub(r'\s*\d*\s*명\s*세\s*서\s*\d*\s*', ' ', text)
    # '선행기술조사문헌'과 그 뒤 모든 문자 제거
    text = re.sub(r'\(\d+\)\s*선행기술조사문헌.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # CPC특허분류 제거
    text = re.sub(r'\(\d+\)\s*CPC특허분류.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # 발명자 제거
    text = re.sub(r'\(\d+\)\s*발명자.*', '', text, flags=re.DOTALL|re.MULTILINE)
    # 등록특허와 뒤에 나오는 숫자들 제거
    text = re.sub(r'등록특허\s*\d+(-\d+)*', '', text)
    # 페이지 번호 형식 (- 숫자 -) 제거
    text = re.sub(r'\s*-\s*\d+\s*-\s*', '', text)
    # 여러 줄의 공백을 하나의 공백으로 대체
    text = re.sub(r'\s+', ' ', text)
    # 문장 끝에 남은 숫자 제거
    text = re.sub(r'\s*\d+\s*$', '', text)
    
    return text.strip()


def extract_content(pdf_path):
    doc = fitz.open(pdf_path)
    full_text = ""
    for page in doc:
        full_text += page.get_text()
    doc.close()

    content = {
        '청구항1': '',
        '그 외 청구항': '',
        '요약': ''
    }

    # 요약 추출
    summary_match = re.search(r'\(\d+\)\s*요\s*약(.*?)(?=청구범위|$)', full_text, re.DOTALL)
    if summary_match:
        summary = summary_match.group(1).strip()
        summary = re.sub(r'\(뒷면에\s*계속\)\s*', '', summary)
        summary = re.sub(r'<i>.*?</i>', '', summary)
        summary = re.sub(r'대\s*표\s*도\s*-\s*도', '', summary)
        #summary = re.sub(r'\(\d+\).*$', '', summary, flags=re.DOTALL)
        summary = clean_text(summary)
        content['요약'] = summary

    # 청구항 추출
    claims_match = re.search(r'청구범위(.*?)(?:발명의 설명|발명의 내용|과제의 해결 수단|$)', full_text, re.DOTALL)
    if claims_match:
        claims = claims_match.group(1).strip()
        claims = re.split(r'(청구항\s*\d+)', claims)
        if len(claims) > 1:
            content['청구항1'] = clean_text(claims[1] + claims[2])
            content['그 외 청구항'] = clean_text(''.join(claims[3:]))
        else:
            content['청구항1'] = clean_text(claims[0])

    return content

# JSON 파일에서 특허 데이터 로드
input_file = '/home/user/hjkim/contextual/pdf_register_data(1-20,000).json'
output_file = '/home/user/hjkim/contextual/parsed_patent_data(1-20,000).json'

with open(input_file, 'r') as f:
    patent_data = json.load(f)

parsed_data = {}

# 모든 PDF 처리
for patent_number, pdf_url in tqdm(patent_data.items(), desc="Processing patents"):
    pdf_filename = f"{patent_number}.pdf"
    
    try:
        download_pdf(pdf_url, pdf_filename)
        content = extract_content(pdf_filename)
        
        parsed_data[patent_number] = {
            "청구항1": content['청구항1'],
            "그 외 청구항": content['그 외 청구항'],
            "요약": content['요약']
        }
        
    except Exception as e:
        print(f"Error processing {patent_number}: {str(e)}")
    finally:
        if os.path.exists(pdf_filename):
            os.remove(pdf_filename)

    # 메모리 관리를 위해 주기적으로 결과를 파일에 저장
    if len(parsed_data) % 1000 == 0:
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(parsed_data, f, ensure_ascii=False, indent=4)

# 최종 결과를 JSON 파일로 저장
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(parsed_data, f, ensure_ascii=False, indent=4)

print(f"Processing complete. Results saved to {output_file}")

Processing patents:  20%|█▉        | 3988/19999 [3:02:02<10:57:17,  2.46s/it]

Error processing 1020170050481: Failed to open file '1020170050481.pdf'.


Processing patents:  37%|███▋      | 7448/19999 [3:42:23<1:41:05,  2.07it/s] 

Error processing 1020170063290: Failed to open file '1020170063290.pdf'.


Processing patents:  40%|███▉      | 7959/19999 [3:47:30<1:54:50,  1.75it/s] 

Error processing 1020170065295: Failed to open file '1020170065295.pdf'.


Processing patents:  49%|████▉     | 9857/19999 [4:09:36<1:30:41,  1.86it/s] 

Error processing 1020170075637: Failed to open file '1020170075637.pdf'.


Processing patents:  60%|█████▉    | 11995/19999 [5:56:51<7:10:42,  3.23s/it] 

Error processing 1020170085983: Failed to open file '1020170085983.pdf'.


Processing patents:  80%|████████  | 16099/19999 [7:44:46<33:20,  1.95it/s]      

Error processing 1020170108192: Failed to open file '1020170108192.pdf'.


Processing patents:  86%|████████▌ | 17127/19999 [7:54:19<22:34,  2.12it/s]  

Error processing 1020170114631: Failed to open file '1020170114631.pdf'.


Processing patents: 100%|██████████| 19999/19999 [8:21:16<00:00,  1.50s/it]  


Processing complete. Results saved to /home/user/hjkim/contextual/parsed_patent_data(1-20,000).json


### full_data.json에서 에러 특허번호 데이터 삭제

In [2]:
import json
import shutil
import os

# 에러가 발생한 특허번호 리스트
error_patents = [
    '1020170050481', '1020170063290', '1020170065295', '1020170075637',
    '1020170085983', '1020170108192', '1020170114631', '1020150089525',
    '1020150093885', '1020150112973', '1020150131001', '1020150131514',
    '1020150135500', '1020150135821', '1020150139984', '1020150144988'
]

# 원본 JSON 파일 경로
original_json_path = '/media/user/datadisk/Patent_data/full_data.json'

# 새로운 JSON 파일 경로
new_json_path = '/media/user/datadisk/Patent_data/full_data_error_deleted.json'

# 원본 파일을 새 이름으로 복사
shutil.copy2(original_json_path, new_json_path)

# 새로 복사된 JSON 파일 읽기
with open(new_json_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# 원본 항목 수 저장
original_count = len(data['items'])

# 에러가 발생한 특허번호에 해당하는 항목 삭제
data['items'] = [item for item in data['items'] if item['applicationNumber'] not in error_patents]

# 삭제된 항목 수 계산
deleted_count = original_count - len(data['items'])

# 수정된 데이터를 새 JSON 파일로 저장
with open(new_json_path, 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

print(f"원본 파일: {original_json_path}")
print(f"수정된 파일: {new_json_path}")
print(f"총 {deleted_count}개의 에러 특허 데이터가 삭제되었습니다.")
print(f"원본 항목 수: {original_count}")
print(f"수정 후 항목 수: {len(data['items'])}")

원본 파일: /media/user/datadisk/Patent_data/full_data.json
수정된 파일: /media/user/datadisk/Patent_data/full_data_error_deleted.json
총 23개의 에러 특허 데이터가 삭제되었습니다.
원본 항목 수: 147861
수정 후 항목 수: 147838


In [None]:
import json

# 에러가 발생한 특허번호 리스트
# error_patents = [
#     '1020170050481', '1020170063290', '1020170065295', '1020170075637',
#     '1020170085983', '1020170108192', '1020170114631', '1020150089525',
#     '1020150093885', '1020150112973', '1020150131001', '1020150131514',
#     '1020150135500', '1020150135821', '1020150139984', '1020150144988'
# ]

# JSON 파일 경로
json_file_path = '/media/user/datadisk/Patent_data/full_data_error_deleted.json'

# JSON 파일 읽기
with open(json_file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# 에러가 발생한 특허번호에 해당하는 항목 삭제
data['items'] = [item for item in data['items'] if item['applicationNumber'] not in error_patents]

# 수정된 데이터를 JSON 파일로 저장
with open(json_file_path, 'w', encoding='utf-8') as file:
    json.dump(data, file, ensure_ascii=False, indent=4)

print(f"에러가 발생한 {len(error_patents)}개의 특허 데이터가 삭제되었습니다.")

## 성은프로님의 20001부터 시작하는 코드와 합치기

In [None]:
import json

# 입력 파일 경로
file1 = '/home/user/hjkim/contextual/claim/parsed_patent_data(1-20,000).json'
file2 = '/home/user/hjkim/contextual/claim/parsed_patent_data(20001-).json'

# 출력 파일 경로
output_file = '/home/user/hjkim/contextual/claim/merged_parsed_patent_data.json'

# 두 파일의 내용을 저장할 리스트
merged_data = []

# 첫 번째 파일 읽기
with open(file1, 'r', encoding='utf-8') as f1:
    data1 = json.load(f1)
    merged_data.extend(data1)

# 두 번째 파일 읽기
with open(file2, 'r', encoding='utf-8') as f2:
    data2 = json.load(f2)
    merged_data.extend(data2)

# 병합된 데이터를 새 파일에 쓰기
with open(output_file, 'w', encoding='utf-8') as outfile:
    json.dump(merged_data, outfile, ensure_ascii=False, indent=2)

print(f"병합된 데이터가 {output_file}에 저장되었습니다.")