In [1]:
# 기본 경로 설정
# ===============================================================
import os
import subprocess

PROJECT_NAME = "rag"

ROOT_DIR = os.getcwd()

try:
    from google.colab import drive, userdata
    IS_COLAB_MODE = True
    print("코랩 모드")

except ModuleNotFoundError as e:
    IS_COLAB_MODE = False
    ROOT_DIR = os.path.abspath(os.path.join(ROOT_DIR, ".."))
    os.environ["KMP_DUPLICATE_LIB_OK"] = "True"
    os.environ["TOKENIZERS_PARALLELISM"] = "false"
    print(f"로컬 모드")


    DATA_DIR = os.path.join(ROOT_DIR, "data")
    RAW_DIR = os.path.join(DATA_DIR, "raw")
    PDF_DIR = os.path.join(DATA_DIR, "pdf")
    os.makedirs(DATA_DIR, exist_ok=True)


# 환경변수 로드 설정
def get_secret(key_name: str):
    if IS_COLAB_MODE:
        return userdata.get(key_name)
    else:
        from dotenv import load_dotenv
        load_dotenv(dotenv_path=os.path.join(ROOT_DIR, ".env"))
        return os.getenv(key_name)


if IS_COLAB_MODE:
    drive.mount('/content/drive')

    DATA_DIR = os.path.join(ROOT_DIR, "drive", "MyDrive", "codeit-part3-team4", "data")
    RAW_DIR = os.path.join(DATA_DIR, "raw")
    PDF_DIR = os.path.join(DATA_DIR, "pdf")
    os.makedirs(DATA_DIR, exist_ok=True)

    SAVE_DIR = os.path.join(DATA_DIR, "runs", PROJECT_NAME)
    os.makedirs(SAVE_DIR, exist_ok=True)


# .DS_Store 파일 삭제
_ = subprocess.run(
    ["find", DATA_DIR, "-name", ".DS_Store", "-type", "f", "-delete"],
    check=True
)

로컬 모드


# data_list.csv & data_list.xlsx

In [2]:
from glob import glob

DATA_CSV_PATH, DATA_XLSX_PATH, _ = glob(os.path.join(RAW_DIR, "*"))

In [3]:
import pandas as pd

xlsx_df = pd.read_excel(DATA_XLSX_PATH)
csv_df = pd.read_csv(DATA_CSV_PATH)

compare_df = csv_df == xlsx_df

### data_list.csv와 data_list.xlsx 정보에 차이 좀 있습니다. 

### 나중에 제대로 들여다보겠습니다.

In [5]:
for column in compare_df.columns:
    print(column, compare_df[column].sum())

공고 번호 9
공고 차수 82
사업명 99
사업 금액 99
발주 기관 100
공개 일자 100
입찰 참여 시작일 74
입찰 참여 마감일 92
사업 요약 100
파일형식 100
파일명 100
텍스트 5


### xlsx, csv 파일에 중복치 없습니다.

In [4]:
sum(xlsx_df.duplicated()), sum(csv_df.duplicated())

(0, 0)

# pdf 파일들

In [None]:
import pdfplumber

from img2table.document import PDF
from img2table.ocr import TesseractOCR

from langchain_community.document_loaders import PyPDFLoader

In [6]:
PDF_PATH_LIST = glob(os.path.join(PDF_DIR, "*"))

In [10]:
sample_pdf = PDF_PATH_LIST[0]
sample_pdf

'/Users/won/dev/00_codeit/0_mission/200_DL_RAG/data/pdf/사단법인 보험개발원_실손보험 청구 전산화 시스템 구축 사업.pdf'

### 표 데이터 수집

In [11]:
tables_by_page = PDF(sample_pdf).extract_tables(
    ocr=TesseractOCR(n_threads=1, lang="eng"),
    min_confidence=1
)

tesseract 5.5.2
 leptonica-1.87.0
  libgif 5.2.2 : libjpeg 8d (libjpeg-turbo 3.1.3) : libpng 1.6.54 : libtiff 4.7.1 : zlib 1.2.12 : libwebp 1.6.0 : libopenjp2 2.5.4
 Found NEON
 Found libarchive 3.8.5 zlib/1.2.12 liblzma/5.8.2 bz2lib/1.0.8 liblz4/1.10.0 libzstd/1.5.7 expat/expat_2.7.1 CommonCrypto/system libb2/system
 Found libcurl/8.7.1 SecureTransport (LibreSSL/3.3.6) zlib/1.2.12 nghttp2/1.67.1


In [20]:
TABLE_DICT = dict()

for page_num, tables in tables_by_page.items():
    if tables:
        for i, table in enumerate(tables):
            TABLE_DICT[page_num] = {
                "table": table.df,
                "table_title": table.title,
                "table_num": float(f"{page_num}.{i}")
            }

### 텍스트 데이터 수집

In [None]:
import json

import re
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [14]:
# for pdf_path in PDF_PATH_LIST:
    # loader = PyPDFLoader(pdf_path)
    # docs = loader.load()

loader = PyPDFLoader(sample_pdf)
docs = loader.load()

Ignoring wrong pointing object 26 0 (offset 0)
Ignoring wrong pointing object 372 0 (offset 0)


### 문서마다 I, 1 등 숫자 체계 등이 불규칙하니

### 목차 페이지에서 얻은 정보로 청킹하려 합니다.

### 목차 없는 문서는 잠시 보류하겠습니다.

In [None]:
# index.json: 목차 페이지 정보만 모은 json 파일입니다

index_pages_json_path = os.path.join(DATA_DIR, "index_pages.json")

chapter_splitter = RecursiveCharacterTextSplitter(
    chunk_size=30,
    chunk_overlap=0,
    separators=[
        r"\n",
        r"\s+\s+"
    ],
    is_separator_regex=True,
    keep_separator="start"
)

In [None]:
with open(index_pages_json_path, "r", encoding="utf-8") as f:
    index_pages_dict = json.load(f)

In [None]:
section_words_json_path = os.path.join(DATA_DIR, "section_words.json")

with open(section_words_json_path, "r", encoding="utf-8") as f:
    section_words_dict = json.load(f)

NameError: name 'index_pages_json_path' is not defined