# 데이터 전처리 - 문서 검색 시스템

# pdf

In [None]:
def extract_text_and_tables_to_dataframe(pdf_path):
    page_contents = []
    text1 = ""  # text1 변수 초기화

    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            # 테이블 추출
            tables = page.extract_tables()

            # 테이블 데이터프레임으로 변환
            table_dfs = []
            if tables:
                for table_num, table in enumerate(tables):
                    df = pd.DataFrame(table[1:], columns=table[0])  # 첫 번째 행을 헤더로 사용
                    table_dfs.append(df)

            # 텍스트 추출
            text_content = page.extract_text()

            # 텍스트에서 테이블의 내용 제거
            if tables and text_content:
                for df in table_dfs:
                    table_text = dataframe_to_markdown(df)
                    text_content = text_content.replace(table_text, '')

            # 페이지 내용 추가
            page_contents.append({'Page': i + 1, 'Text': text_content.strip() if text_content else None, 'Tables': table_dfs})

            # text1에 텍스트 및 테이블 데이터 추가
            if text_content:
                text1 += text_content + "\n\n"  # 각 페이지 사이에 개행 추가

                # 테이블 데이터도 추가
                for df in table_dfs:
                    text1 += "```\n"  # 테이블 시작
                    text1 += dataframe_to_markdown(df) + "\n"
                    text1 += "```\n\n"  # 테이블 끝

    return page_contents, text1

def dataframe_to_markdown(df):
    # 데이터프레임을 Markdown 표 형식으로 변환
    return df.to_markdown(index=False)

# PDF 파일에서 텍스트와 테이블 추출하여 데이터프레임으로 변환
path = "./manual/OT_훈련생 안내사항_최종본 2024.06.24.pdf"
page_contents, text1 = extract_text_and_tables_to_dataframe(path)

# 추출된 페이지 내용 출력
for content in page_contents:
    page_num = content['Page']
    text_content = content['Text']
    tables = content['Tables']
    
    if text_content:
        print(f"Page {page_num} Text:")
        print(text_content)
    
    if tables:
        for table_num, df in enumerate(tables):
            print(f"Page {page_num} Table {table_num + 1} (Markdown format):")
            markdown_table = dataframe_to_markdown(df)
            print("```\n" + markdown_table + "\n```")
    
    print()

# "■|□" 패턴을 기준으로 텍스트를 나누기
pattern = r"(■|□)\s*(.*)"
matches = re.findall(pattern, text1)

# 각 조항을 제목과 내용으로 분리하여 리스트에 추가
split_text1 = []

for i in range(len(matches)):
    section_title = matches[i][0] + " " + matches[i][1].strip()  # 섹션 제목 (matches[i]의 첫 번째 요소는 "■" 또는 "□")
    if i < len(matches) - 1:
        start_index = text1.find(matches[i][0] + " " + matches[i][1])
        end_index = text1.find(matches[i + 1][0] + " " + matches[i + 1][1])
        section_content = text1[start_index:end_index].strip()
    else:
        start_index = text1.find(matches[i][0] + " " + matches[i][1])
        section_content = text1[start_index:].strip()  # 마지막 섹션의 경우 끝까지 추출

    split_text1.append((section_title, section_content))

# 각 섹션의 내용에서 일반 텍스트의 개행문자 제거 및 (p.n참조) 패턴 제거
documents = []

for section_title, section_content in split_text1:
    # 섹션 제목
    section_title_clean = re.sub(r'[■□➢*]', '', section_title).strip()  # 특수기호 제거

    # 섹션 내용 (테이블 부분의 개행 문자는 유지하고, 일반 텍스트 부분의 개행 문자는 제거)
    section_content_parts = section_content.split('```')
    cleaned_parts = []
    for i, part in enumerate(section_content_parts):
        if i % 2 == 0:  # 일반 텍스트 부분
            cleaned_parts.append(re.sub(r'[■□➢*]', '', part).replace('\n', '').strip())  # 특수기호 제거
        else:  # 테이블 부분
            cleaned_parts.append(part.strip())

    section_content_clean = '```'.join(cleaned_parts)

    # 섹션 제목과 내용이 동일하고 "(p.n참조)"를 포함하면 삭제
    if section_title_clean == section_content_clean and re.search(r'\(p\.\d+참조\)', section_content_clean):
        continue

    # JSON 형식으로 변환하여 저장
    document = {"section": section_title_clean, "content": section_content_clean}
    documents.append(document)

# JSON 파일로 저장
with open('OT_훈련생 안내사항_최종본 2024.06.24.json', 'w', encoding='utf-8') as f:
    json.dump(documents, f, ensure_ascii=False, indent=4)

print("JSON 파일로 저장되었습니다.")


# pdf 후처리

In [None]:
def extract_text_clean(pdf_path):
    full_text = []
    
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            width, height = page.width, page.height
            
            left_bbox = (0, 0, width * 0.5, height)
            right_bbox = (width * 0.5, 0, width, height)
            
            left_text = page.within_bbox(left_bbox).extract_text()
            right_text = page.within_bbox(right_bbox).extract_text()
            
            if left_text:
                full_text.append(left_text)
            if right_text:
                full_text.append(right_text)
    
    return "\n".join(full_text)

def split_text_by_pattern(text, pattern):
    matches = re.findall(pattern, text)
    split_text = []
    
    # 처음 나오는 문자열을 별도로 처리
    if matches:
        first_match_pos = text.find(matches[0])
        intro_text = text[:first_match_pos].strip()
        
        if intro_text:
            # 제목에서 첫 번째 줄만 추출
            intro_title = intro_text.split('\n')[0]
            split_text.append((intro_title, intro_text))
        
        for i in range(len(matches)):
            section_title = matches[i].strip()
            if i < len(matches) - 1:
                section_content = text.split(section_title, 1)[-1].split(matches[i + 1], 1)[0].strip()
            else:
                section_content = text.split(section_title, 1)[-1].strip()
            
            # 제목에서 괄호 안의 문자열만 추출
            title_inside_parentheses = re.search(r"\((.*?)\)", section_title).group(1)
            
            # section 제목을 content의 앞에 추가
            combined_content = f"{section_title} {section_content}"
            split_text.append((title_inside_parentheses, combined_content))
    else:
        split_text.append(("전체 텍스트", text.strip()))
    
    return split_text

def save_to_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

def remove_last_n_characters(text, n):
    """텍스트의 마지막 n 문자를 제거"""
    return text[:-n] if n < len(text) else ""

if __name__ == "__main__":

    # 텍스트 추출
    path = "./manual/훈련생준수사항_240624.pdf"
    text = extract_text_clean(path)
    
    # 텍스트의 마지막 n 문자 제거 (예: 마지막 1000 문자 제거)
    n = 85
    text = remove_last_n_characters(text, n)
    
    # "제 n조(문자열)" 패턴을 기준으로 텍스트를 나누기
    pattern = r"(제\s?\d+\s*조\s*\([^\)]+\))"
    split_text = split_text_by_pattern(text, pattern)
    
    # 각 섹션을 JSON 형식으로 변환
    documents = [{"section": title.strip(), "content": content.replace("\n", "").strip()} for title, content in split_text]
    
    # JSON 파일로 저장
    save_to_json(documents, '훈련생준수사항_240624.json')
    
    # 결과 출력 (선택 사항)
    for doc in documents:
        print(f"제목: {doc['section']}")
        print(f"내용: {doc['content']}")
        print("===================================")

print("JSON 파일로 저장되었습니다.")


In [None]:
import pdfplumber
import pandas as pd
import re
import json

def extract_text_and_tables_to_dataframe(pdf_path):
    page_contents = []
    text1 = ""  # text1 변수 초기화

    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            # 테이블 추출
            tables = page.extract_tables()

            # 테이블 데이터프레임으로 변환
            table_dfs = []
            if tables:
                for table_num, table in enumerate(tables):
                    df = pd.DataFrame(table[1:], columns=table[0])  # 첫 번째 행을 헤더로 사용
                    table_dfs.append(df)

            # 텍스트 추출
            text_content = page.extract_text()

            # 텍스트에서 테이블의 내용 제거
            if tables and text_content:
                for df in table_dfs:
                    table_text = dataframe_to_markdown(df)
                    text_content = text_content.replace(table_text, '')

            # 페이지 내용 추가
            page_contents.append({'Page': i + 1, 'Text': text_content.strip() if text_content else None, 'Tables': table_dfs})

            # text1에 텍스트 및 테이블 데이터 추가
            if text_content:
                text1 += text_content + "\n\n"  # 각 페이지 사이에 개행 추가

                # 테이블 데이터도 추가
                for df in table_dfs:
                    text1 += "```\n"  # 테이블 시작
                    text1 += dataframe_to_markdown(df) + "\n"
                    text1 += "```\n\n"  # 테이블 끝

    return page_contents, text1

def dataframe_to_markdown(df):
    # 데이터프레임을 Markdown 표 형식으로 변환
    return df.to_markdown(index=False)

def clean_text(text):
    # 특수문자 제거
    return re.sub(r'[■□ㅇ▶※]', '', text).replace('\n', '').strip()  # 특수기호 제거

def split_text_by_pattern(text, pattern):
    matches = list(re.finditer(pattern, text))
    split_text = []

    if matches:
        for i in range(len(matches)):
            section_title = clean_text(matches[i].group().strip())
            if i < len(matches) - 1:
                section_content = clean_text(text[matches[i].end():matches[i + 1].start()].strip())
            else:
                section_content = clean_text(text[matches[i].end():].strip())
            
            split_text.append((section_title, section_content))
    else:
        split_text.append(("전체 텍스트", clean_text(text.strip())))
    
    return split_text

def save_to_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# PDF 파일에서 텍스트와 테이블 추출하여 데이터프레임으로 변환
path = "./manual/[별지 2] 개인정보의 수집&이용 및 제공에 관한 동의서_20231228수정.pdf"
page_contents, text1 = extract_text_and_tables_to_dataframe(path)

# 추출된 페이지 내용 출력
for content in page_contents:
    page_num = content['Page']
    text_content = content['Text']
    tables = content['Tables']
    
    if text_content:
        print(f"Page {page_num} Text:")
        print(text_content)
    
    if tables:
        for table_num, df in enumerate(tables):
            print(f"Page {page_num} Table {table_num + 1} (Markdown format):")
            markdown_table = dataframe_to_markdown(df)
            print("```\n" + markdown_table + "\n```")
    
    print()

# "■|□|▶|※" 패턴을 기준으로 텍스트를 나누기
pattern = r"(▶|※)\s*(.*)"
split_text = split_text_by_pattern(text1, pattern)

# 각 섹션을 JSON 형식으로 변환하여 저장
documents = [{"section": title.strip(), "content": f"{title.strip()} {content.strip()}"} for title, content in split_text]

# JSON 파일로 저장
save_to_json(documents, '[별지 2] 개인정보의 수집&이용 및 제공에 관한 동의서_20231228수정.json')

# 결과 출력 (선택 사항)
for doc in documents:
    print(f"제목: {doc['section']}")
    print(f"내용: {doc['content']}")
    print("===================================")

print("JSON 파일로 저장되었습니다.")


### 테이블 토큰수, 마크다운으로 통으로 가져오지 않고 테이블에서 원하는 내용만 추출할 수 있게. output으로 표 자체를 통으로 안내니까 상관없나? 확인해보기

In [27]:
import pdfplumber
import pandas as pd
import re
import json

def extract_text_and_tables_to_dataframe(pdf_path):
    page_contents = []
    text1 = ""  # text1 변수 초기화

    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            # 테이블 추출
            tables = page.extract_tables()

            # 테이블 데이터프레임으로 변환
            table_dfs = []
            if tables:
                for table_num, table in enumerate(tables):
                    df = pd.DataFrame(table[1:], columns=table[0])  # 첫 번째 행을 헤더로 사용
                    table_dfs.append(df)

            # 텍스트 추출
            text_content = page.extract_text()

            # 특정 텍스트 패턴 제거
            if text_content:
                text_content = remove_specific_text(text_content)

            # 텍스트에서 테이블의 내용 제거
            if tables and text_content:
                for df in table_dfs:
                    table_text = dataframe_to_markdown(df)
                    text_content = text_content.replace(table_text, '')

            # 페이지 내용 추가
            page_contents.append({'Page': i + 1, 'Text': text_content.strip() if text_content else None, 'Tables': table_dfs})

            # text1에 텍스트 및 테이블 데이터 추가
            if text_content:
                text1 += text_content + "\n\n"  # 각 페이지 사이에 개행 추가

                # 테이블 데이터도 추가
                for df in table_dfs:
                    text1 += "```\n"  # 테이블 시작
                    text1 += dataframe_to_markdown(df) + "\n"
                    text1 += "```\n\n"  # 테이블 끝

    return page_contents, text1

def remove_specific_text(text):
    # 특정 텍스트 정규식으로 제거
    specific_text = "2024년 월 일위 개인정보의 수집 이용 안내 및 제공에 동의합니다\. 성명: \(서명\)"
    return re.sub(specific_text, '', text)

def dataframe_to_markdown(df):
    # 데이터프레임을 Markdown 표 형식으로 변환
    return df.to_markdown(index=False)

def clean_text(text):
    # 특수문자 제거
    return re.sub(r'[■□ㅇ▶※]', '', text).replace('\n', '').strip()  # 특수기호 제거

def split_text_by_pattern(text, pattern):
    matches = list(re.finditer(pattern, text))
    split_text = []

    if matches:
        for i in range(len(matches)):
            section_title = clean_text(matches[i].group().strip())
            if i < len(matches) - 1:
                section_content = clean_text(text[matches[i].end():matches[i + 1].start()].strip())
            else:
                section_content = clean_text(text[matches[i].end():].strip())
            
            split_text.append((section_title, section_content))
    else:
        split_text.append(("전체 텍스트", clean_text(text.strip())))
    
    return split_text

def save_to_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# PDF 파일에서 텍스트와 테이블 추출하여 데이터프레임으로 변환
path = "./manual/[별지 2] 개인정보의 수집&이용 및 제공에 관한 동의서_20231228수정.pdf"
page_contents, text1 = extract_text_and_tables_to_dataframe(path)

# 추출된 페이지 내용 출력
for content in page_contents:
    page_num = content['Page']
    text_content = content['Text']
    tables = content['Tables']
    
    if text_content:
        print(f"Page {page_num} Text:")
        print(text_content)
    
    if tables:
        for table_num, df in enumerate(tables):
            print(f"Page {page_num} Table {table_num + 1} (Markdown format):")
            markdown_table = dataframe_to_markdown(df)
            print("```\n" + markdown_table + "\n```")
    
    print()

# "■|□|▶|※" 패턴을 기준으로 텍스트를 나누기
pattern = r"(▶|※)\s*(.*)"
split_text = split_text_by_pattern(text1, pattern)

# 각 섹션을 JSON 형식으로 변환하여 저장
documents = [{"section": title.strip(), "content": f"{title.strip()} {content.strip()}"} for title, content in split_text]

# JSON 파일로 저장
save_to_json(documents, '오오오.json')

# 결과 출력 (선택 사항)
for doc in documents:
    print(f"제목: {doc['section']}")
    print(f"내용: {doc['content']}")
    print("===================================")

print("JSON 파일로 저장되었습니다.")


Page 1 Text:
■ 국민내일배움카드 운영규정 [별지 제2호서식]
개인정보의 수집ㆍ이용 및 제공에 관한 동의서
▶ 개인정보 수집ㆍ이용에 관한 안내
ㅇ 고용노동부는 직업능력개발계좌 발급 및 지원 등에 관한 사무를 수행
하기 위하여 「국민 평생 직업능력 개발법 시행령」 제52조의2제1항에
따라 주민등록번호 또는 외국인등록번호가 포함된 자료 및 기타 민감정
보를 다음과 같이 직업능력개발정보망(HRD-Net)에 수집ㆍ관리하고 있으며,
「개인정보 보호법」에서 규정하고 있는 책임과 의무를 준수하고 실천합니
다.
수집목적 수집항목 보유기간
1) 직업능력개발계좌 발급 및 훈련 진단‧상
담
2) 비용지원 및 개인별 훈련이력 관리 성명, 주민등록번호, 주소, 이메일주소
3) 일자리정보, 취업지원사업 등 관련정보 (선택), 전화번호 또는 휴대전화번호, 수집일부터
및 서비스의 제공 그 밖에 학력･자격･경력 등 상담 및 계속
4) 정부의 직업능력개발훈련 성과관리 계좌발급․지원에 필요한 민감정보
5) 훈련 만족도 조사 및 제도개선에 필요한
의견조사 실시 등
ㅇ 고용노동부는 개인정보를 수집목적에 필요한 범위에서 적합하게 처리
하며, 정보주체의 사전 동의 없이 개인정보를 제3자에게 제공하지 않
습니다.
ㅇ 직업능력개발계좌를 발급받은 사람(정보주체)은 자신에 관한 개인정보
의 열람 ․ 수정을 요청할 수 있습니다. 다만, 훈련실시 및 비용지원 등
에 관한 정보는 오류가 있는 경우를 제외하고는 수정․삭제를 요청할 수
없습니다.
▶ 개인정보의 제공에 관한 동의
ㅇ 고용노동부는 취업지원 관련 정보 및 서비스 제공 등을 위하여 직업능력개발계
좌를 발급받은 사람(정보주체)으로부터 제공받은 개인정보를 다음과 같이
제공(보유기관으로부터 수집ㆍ제공 포함)합니다.
Page 1 Table 1 (Markdown format):
```
| 수집목적                                 | 수집항목                             | 보유기간   |
|:----------