## Data preparation

### 1. PDF -> .txt

In [8]:
from langchain_community.document_loaders import PyPDFLoader

def extract_text_with_pypdf_loader(pdf_path):

    """ PyPDFLoader를 사용하여 PDF에서 텍스트를 추출하고, 페이지를 구분자로 합친 후 반환 """

    print("문서 로드중... ", pdf_path)
    try:
        loader = PyPDFLoader(pdf_path, mode="page")
        docs = loader.load()

        if not docs:
            print("PDF에서 추출된 내용이 없습니다")
            return None
        
        full_text = []
        print(f"총 {len(docs)} 페이지(Document) 추출 완료")

        for i, doc in enumerate(docs):
            text = doc.page_content

            full_text.append(f"\n\n[PAGE_BREAK_{i+1}]\n\n")
            full_text.append(text.strip())

        return "\n".join(full_text)

    except Exception as e:
        print(f"PDF 처리 중 오류 발생 : {e}")
        return None

In [None]:
import os

BOOK_NAME = "the_wizard_of_oz"
INPUT_PDF_PATH = os.path.join("data", "01_original", BOOK_NAME, f"{BOOK_NAME}.pdf")
OUTPUT_TXT_PATH = os.path.join("data", "01_original", BOOK_NAME, f"{BOOK_NAME}.txt")

os.makedirs(os.path.dirname(INPUT_PDF_PATH), exist_ok=True)
os.makedirs(os.path.dirname(OUTPUT_TXT_PATH), exist_ok=True)

# 1. 파일이 존재하는지 확인 (필수)
if not os.path.exists(INPUT_PDF_PATH):
    print(f"오류 ::: PDF 파일 없음 : {INPUT_PDF_PATH}")
else:
    extracted_content = extract_text_with_pypdf_loader(INPUT_PDF_PATH)
    
    if extracted_content:
        # 추출된 내용을 TXT 파일로 저장
        with open(OUTPUT_TXT_PATH, 'w', encoding='utf-8') as f:
            f.write(extracted_content)
        
        print(f"성공 ::: {OUTPUT_TXT_PATH}")

문서 로드중...  data\01_original\the_wizard_of_oz\the_wizard_of_oz.pdf
총 37 페이지(Document) 추출 완료
성공 ::: data\01_original\the_wizard_of_oz\the_wizard_of_oz.txt


### 2. .txt 파일 데이터 정제

In [12]:
import os

BOOK_NAME = "the_wizard_of_oz"
INPUT_TXT_PATH = os.path.join("data", "01_original", BOOK_NAME, f"{BOOK_NAME}.txt")
OUTPUT_TXT_PATH = os.path.join("data", "02_cleaned", BOOK_NAME, f"{BOOK_NAME}_ko.txt")

# 정제된 파일을 저장할 폴더 생성 확인
os.makedirs(os.path.dirname(OUTPUT_TXT_PATH), exist_ok=True)

# 파일 읽기
try:
    with open(INPUT_TXT_PATH, 'r', encoding='utf-8') as f:
        raw_content = f.read()
    print(f"원본 파일 로드 완료 ::: {len(raw_content):,} bytes")
except FileNotFoundError:
    print(f"오류 ::: 입력 파일이 존재하지 않습니다 : {INPUT_TXT_PATH}")
    raw_content = ""

원본 파일 로드 완료 ::: 44,700 bytes


In [13]:
import re

def clean_pdf_text(text):

    """ PDF에서 추출된 텍스트를 RAG에 적합하게 정제하는 함수 """
    
    # 1. 하이픈 연결 복원 및 불필요한 줄바꿈 제거
    text = re.sub(r'(\w+)-\n(\w+)', r'\1\2', text)
    text = re.sub(r'(?<!\n)\n(?![\n\s])', ' ', text)

    # 2. 페이지 구분자 제거 및 페이지 번호/반복 패턴 제거
    # PDF 추출 시 넣었던 [PAGE_BREAK_X] 구분자 제거
    text = re.sub(r'\n\s*\[PAGE_BREAK_\d+\]\s*\n', '\n\n', text)
    
    # 3. 불필요한 특수 문자/탭 제거
    text = re.sub(r'[\t]', ' ', text)

    # 4. 연속된 공백 및 줄바꿈 정리
    text = re.sub(r'[ ]+', ' ', text)
    text = re.sub(r'\n{3,}', '\n\n', text)
    
    # 5. 최종 공백 제거
    return text.strip()

# 정제 실행
if raw_content:
    cleaned_content = clean_pdf_text(raw_content)
    print("정제 함수 실행 완료")

정제 함수 실행 완료


In [None]:
# 정제 전후 내용 일부 비교
if raw_content:
    print("\n--- BEFORE ---")
    print(raw_content[:1000])

    print("\n--- AFTER ---")
    print(cleaned_content[:1000])

    # 저장
    with open(OUTPUT_TXT_PATH, 'w', encoding='utf-8') as f:
        f.write(cleaned_content)
        
    print(f"정제 텍스트 최종 저장 완료 ::: {OUTPUT_TXT_PATH}")

### 3. chunking

In [8]:
from dotenv import load_dotenv
import os

load_dotenv()

BOOK_ID = 1  # DB books 테이블에 들어갈 값
BOOK_NAME = "the_wizard_of_oz"
EMBEDDING_MODEL = "text-embedding-3-small"
EMBEDDING_DIMENSION = 1536  # pgvector 설정

INPUT_TXT_PATH = os.path.join("data", "02_cleaned", BOOK_NAME, f"{BOOK_NAME}_ko.txt")
OUTPUT_JSON_PATH = os.path.join("data", "03_processed", f"{BOOK_NAME}_data_with_embeddings.json")

# 출력 폴더 생성
os.makedirs(os.path.dirname(OUTPUT_JSON_PATH), exist_ok=True)

In [9]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

def chunking(file_path):
    """
    정제된 텍스트 파일을 읽어 chunking
    """
    
    if not os.path.exists(file_path):
        print(f"오류 ::: 입력 파일 없음 : {file_path}")
        return None

    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()

    # 1. Chunking
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=1000, 
        chunk_overlap=100,
        separators=["\n\n", "\n", " ", ""] 
    )
    
    chunks = text_splitter.split_text(text)

    print(f"total_chunk ::: {len(chunks)}")

    return chunks

### 4. embedding

In [13]:
# 2. Embedding
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import PGVector

def embed_chunks(chunks, book_id, book_title, model_name = "text-embedding-3-small"):
    """ embedding & DB 로딩용 JSON 구조로 변환 """

    if not chunks:
        return []

    try:
        embedding = OpenAIEmbeddings(model=model_name)
    except Exception as e:
        print(f"오류 ::: OpenAI 클라이언트 초기화 실패 : {e}")
        return None

    try:
        vectors = embedding.embed_documents(chunks)
        print(f"총 {len(vectors)}개 청크 임베딩 완료")

        embedded_data = []
        for i, (chunk, vector) in enumerate(zip(chunks, vectors)):

            chapter_name = f"{book_title} - {i}번째 청크"
            
            embedded_data.append({
                "book_id" : book_id,
                "chunk_index" : i,
                "chapter_name": chapter_name,
                "text_content": chunk,
                "embedding": vector
            })

        print(f"임베딩 완료 ::: {len(embedded_data)}")
        return embedded_data


    except Exception as e:
        print(f"오류 ::: 임베딩 생성 실패 : {e}")
        return []

### 5. json 변환

In [14]:
import json

# 1. 청크 분할 (Chunking) 실행
all_chunks = chunking(INPUT_TXT_PATH)

print("all_chunks ::: ", len(all_chunks))

if all_chunks:
    processed_data = embed_chunks(
        chunks=all_chunks,
        book_id=BOOK_ID,
        book_title=BOOK_NAME,
        model_name=EMBEDDING_MODEL
    )

    if processed_data:
        with open(OUTPUT_JSON_PATH, 'w', encoding='utf-8') as f:
            json.dump(processed_data, f, ensure_ascii=False, indent=2)
            
        print("성공 ::: JSON 파일 저장 완료")

total_chunk ::: 73
all_chunks :::  73
총 73개 청크 임베딩 완료
임베딩 완료 ::: 73
성공 ::: JSON 파일 저장 완료


### 6. DB 저장

In [17]:
import os
import json
import psycopg2
from dotenv import load_dotenv

load_dotenv()

# --- DB 연결 설정 (WSL DB 정보) ---
# .env 파일에 설정된 값을 사용합니다.
DB_NAME = os.getenv("DB_NAME")
DB_USER = os.getenv("DB_USER")
DB_PASS = os.getenv("DB_PASS") 
DB_HOST = os.getenv("DB_HOST")
DB_PORT = os.getenv("DB_PORT")

# --- 파일 경로 설정 ---
BOOK_NAME = "the_wizard_of_oz"
JSON_FILE_PATH = os.path.join("data", "03_processed", f"{BOOK_NAME}_data_with_embeddings.json")

In [18]:
import json
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import PGVector

# 1. JSON 파일 로드
with open(JSON_FILE_PATH, 'r', encoding='utf-8') as f:
    data = json.load(f)

print(f"총 {len(data)}개 청크 로드")

# 2. Document 형식으로 변환
documents = []
embeddings_list = []

for item in data:
    doc = Document(
        page_content=item['text_content'],
        metadata={
            'book_id': item['book_id'],
            'chunk_index': item['chunk_index'],
            'chapter_name': item['chapter_name']
        }
    )
    documents.append(doc)
    embeddings_list.append(item['embedding'])  # 기존 임베딩 재사용

print(f"{len(documents)}개 문서 변환 완료")

# 3. PGVector에 저장 (기존 임베딩 사용)
PGVECTOR_CONNECTION_STRING = f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"

# 임베딩 객체 (형식만 맞추기 위해)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# from_documents 사용 (임베딩은 이미 있지만 재계산됨)
vector_store = PGVector.from_documents(
    documents=documents,
    embedding=embeddings,
    collection_name="BOOK_CHUNKS",
    connection_string=PGVECTOR_CONNECTION_STRING,
    pre_delete_collection=True  # 기존 데이터 삭제
)

print("✅ PGVector에 데이터 저장 완료!")

총 73개 청크 로드
73개 문서 변환 완료
✅ PGVector에 데이터 저장 완료!


  store = cls(


In [None]:
# def save_to_pgvector(json_path):
#     """
#     JSON 파일에서 데이터를 읽어 PostgreSQL의 book_chunks 테이블 insert
#     """
#     if not os.path.exists(json_path):
#         print(f"오류 ::: JSON 파일 없음 : {json_path}")
#         return

#     # 1. JSON 파일 로드
#     with open(json_path, 'r', encoding='utf-8') as f:
#         data_to_load = json.load(f)
    
#     if not data_to_load:
#         print("경고 : JSON 파일에 로드할 데이터가 없습니다")
#         return

#     print(f"JSON 파일 로드 완료 ::: 총 {len(data_to_load)}개")

#     # 2. PostgreSQL DB 연결
#     conn = None
#     try:
#         conn = psycopg2.connect(
#             database=DB_NAME,
#             user=DB_USER,
#             password=DB_PASS,
#             host=DB_HOST,
#             port=DB_PORT
#         )
#         cursor = conn.cursor()
#         print("DB 연결 성공")
        
#         # 3. 데이터 삽입 SQL 쿼리 정의
#         insert_query = """
#         INSERT INTO book_chunks (
#             book_id, chunk_index, chapter_name, text_content, embedding
#         ) VALUES (%s, %s, %s, %s, %s)
#         """
        
#         records_to_insert = []
#         for record in data_to_load:
#             records_to_insert.append((
#                 record.get("book_id"),
#                 record.get("chunk_index"),
#                 record.get("chapter_name"),
#                 record.get("text_content"),
#                 record.get("embedding")
#             ))
        
#         # 4. 데이터 insert
#         print("... DB에 데이터 삽입 중")
        
#         for i, record in enumerate(records_to_insert):
#              cursor.execute(insert_query, record)
#              if (i + 1) % 100 == 0:
#                  print(f"  ... {i+1}개 레코드 삽입 완료.")
        
#         # 5. 커밋
#         conn.commit()
#         print(f"\n성공 : 모든 {len(data_to_load)}개 레코드를 insert")

#     except psycopg2.Error as e:
#         print(f"\n오류: DB insert 중 오류 발생: {e}")
#         if conn:
#             conn.rollback() # 오류 발생 시 롤백
#     except Exception as e:
#         print(f"\n일반 오류 발생: {e}")
#     finally:
#         if conn:
#             cursor.close()
#             conn.close()
#             print("DB 연결 종료.")

In [None]:
# save_to_pgvector(JSON_FILE_PATH)

JSON 파일 로드 완료 ::: 총 73개
DB 연결 성공
... DB에 데이터 삽입 중

성공 : 모든 73개 레코드를 insert
DB 연결 종료.


-----

### DB connection Test

In [16]:
# 방법 1. psycopg2 커서 이용 직접쿼리
import psycopg2

# WSL IP 주소와 PostgreSQL 포트, 데이터베이스, 사용자명, 비밀번호 입력
conn = psycopg2.connect(
    host=DB_HOST,
    port=DB_PORT,
    database=DB_NAME,
    user=DB_USER,
    password=DB_PASS
)
print("연결 성공!")

cur = conn.cursor()

cur.execute("SELECT * FROM BOOK_CHUNKS where chunk_pk =2;")

rows = cur.fetchall()

for row in rows:
    print(row)

cur.close()
conn.close()

연결 성공!
(2, 1, 0, 'the_wizard_of_oz - 0번째 청크', '오즈의 마법사 지은이: L. 프랭크 바움 제1장. 사이클론 (The Cyclone) 도로시는 캔자스의 넓은 대초원 한가운데에서 살고 있었다. 그녀는 농부인 헨리 아저씨와 그의 아내 엠 아주머니와 함께 살았다. 그들의 집은 아주 작았는데, 그것은 나무를 운반해오는 데 오랜 시간이 걸렸기 때문이다. 집은 벽 네 개와 바닥, 지붕으로 이루어진 단 하나의 방뿐이었다. 그 방 안에는 낡은 요리용 난로, 식기들이 들어 있는 찬장, 탁자, 의자 몇 개, 그리고 침대들이 있었다. 헨리 아저씨와 엠 아주머니는 방 한쪽 구석의 큰 침대를 쓰고, 도로시는 다른 구석의 작은 침대를 썼다. 다락방은 없었고, 지하실이라고 해봐야 작은 구멍 하나가 전부였다. 그곳은 ’사이클론 지하실’이라 불렸는데, 거대한 회오리바람이 불 때 피할 수 있도록 만든 곳이었다. 바닥 가운데 있는 함정문을 열고 사다리를 타고 내려가면 그 어둡고 좁은 구멍으로 들어갈 수 있었다. 도로시가 문앞에 서서 밖을 바라보면 사방으로 회색빛 평원만이 끝없이 펼쳐져 있었다. 나무도, 집도 보이지 않았다. 태양은 밭을 잿빛 덩어리로 굳게 말려버렸고, 땅에는 작은 균열이 여기저기 나 있었다. 풀조차도 태양에 말라버려 초록빛을 잃고 회색빛을 띠고 있었다. 한때는 집에도 페인트가 칠해져 있었지만, 태양이 그 페인트를 벗겨내고 비가 그것을 씻어버려, 이제 집은 다른 모든 것처럼 칙칙하고 회색빛이었다. 엠 아주머니가 이곳에 처음 왔을 때는 젊고 예쁜 아내였다. 하지만 태양과 바람은 그녀의 눈빛에서 반짝임을 빼앗아가고, 그녀의 뺨과 입술에서 붉은 기운을 사라지게 만들었다. 이제 그녀의 얼굴은 말랐고, 표정은 굳어버려, 웃는 일이 거의 없었다. 도로시는 부모를 잃은 고아였는데, 처음 이 집에 왔을 때 그녀가 웃는 소리를 듣고 엠 아주머니는 심장이 멎을 만큼 놀랐었다. 지금도 도로시의 웃음소리를 들을 때마다 신기해했다. 헨리 아저씨는 한 번도 웃지 않았다.

In [14]:
# 방법 2. psycopg2 연결 그대로 langchain pgvector 연결
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import PGVector

PGVECTOR_CONNECTION_STRING = f"postgresql+psycopg2://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_NAME}"
EMBEDDING_MODEL = "text-embedding-3-small"

print(PGVECTOR_CONNECTION_STRING)

try:
    embeddings = OpenAIEmbeddings(model=EMBEDDING_MODEL)
except Exception as e:
    print(f"오류 ::: OpenAI 클라이언트 초기화 실패 : {e}")

vector_store = PGVector.from_existing_index(
    embedding = embeddings,
    collection_name = "BOOK_CHUNKS",
    connection_string = PGVECTOR_CONNECTION_STRING
)
print("PGVector 연결 성공 ::: ",  vector_store)

postgresql+psycopg2://postgres:1234@172.22.219.18:5432/test_reading_mate
PGVector 연결 성공 :::  <langchain_community.vectorstores.pgvector.PGVector object at 0x000002632EAE9070>


In [None]:
import psycopg2

# WSL IP 주소와 PostgreSQL 포트, 데이터베이스, 사용자명, 비밀번호 입력
conn = psycopg2.connect(
    host=DB_HOST,
    port=DB_PORT,
    database=DB_NAME,
    user=DB_USER,
    password=DB_PASS
)
print("연결 성공!")

cur = conn.cursor()

# insert
insert_query = """
INSERT INTO BOOKS(title_ko, author, is_novel, genre)
VALUES (%s, %s, %s, %s)
"""

insert_data = (
    "오즈의 마법사",
    "라이먼 프랭크 바움",
    "FALSE",
    "동화, 판타지"
)

cur.execute(insert_query, insert_data)

conn.commit()
cur.execute("SELECT * FROM BOOKS;")

rows = cur.fetchall()

for row in rows:
    print(row)

cur.close()
conn.close()

연결 성공!
(1, '오즈의 마법사', '라이먼 프랭크 바움', False, '동화, 판타지')
