In [23]:
import os
from glob import glob
pdf_files = glob(os.path.join('pdf_data', '홍길동 이력서.pdf'))
len(pdf_files) 

1

In [24]:
# pdf 파일 목록
pdf_files

['pdf_data\\홍길동 이력서.pdf']

In [25]:
# pdf 파일을 읽어서 텍스트로 변환
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader(pdf_files[0])
data = loader.load()
len(data)

3

In [26]:
# 첫번째 페이지의 텍스트 출력
from pprint import pprint
pprint(data[0].page_content) 

(' \n'
 '이 력 서 \n'
 '  이름 홍길동 영문 Hong-gildong 한문     - \n'
 ' 주민번호 930328 - 1234788 나이   30세 \n'
 ' 휴대폰 010-1234-5678 전화번호 - \n'
 ' E - mail AB0000@naver.com SNS - \n'
 ' 주소 서울특별시 서초구 서초대로로 \n'
 ' \n'
 '학력사항 (최종학력: 서울대학교(4년) 졸업) \n'
 '재학기간 학교명 및 전공 학점 구분 \n'
 '2001.03 ~ 2008.02 서울대학교 전기전자공학과 3.48 / 4.5 졸업 \n'
 '1998.03 ~ 2001.02 성인 고등학교 - 졸업 \n'
 '    \n'
 ' \n'
 '활동사항 \n'
 '기간 활동 내용 활동구분 기관 및 장소 \n'
 '1998.02 ~ 1999.02 관악구 불우이웃 돕기 동아리 서울대학교 \n'
 '2000.01 ~ 2000.12 Ktf 퓨쳐스 리더 6기 대외할동 ktf \n'
 '2020.01 ~ 2020.12 삼신 전자 인턴 인턴 삼신전자자 \n'
 ' \n'
 '어학 자격증 \n'
 '언어 시험 점수 기관 \n'
 '영어 toeic 990 ybm \n'
 '영어 Toeic speaking 180 ybm \n'
 '어학연수 \n'
 '기간 과정명 기관 \n'
 '2005.01 ~ 2008.06 호주 워킹 홀리데이 - \n'
 '   \n'
 '   \n'
 ' \n'
 '수상내역 \n'
 '기간 상세 내용 기관 \n')


In [28]:
# 첫번째 페이지의 메타데이터 출력
pprint(data[0].metadata)  

{'page': 0, 'source': 'pdf_data\\홍길동 이력서.pdf'}


In [29]:
import re  
# split_pattern = r'(.+)\s우편'
split_pattern = r'이 력 서 \n'
split_text = re.findall(split_pattern, "".join(data[0].page_content))
split_text

['이 력 서 \n']

In [30]:
# split_text가 존재하면 split_pattern으로 분리
if split_text:
    parts = re.split(split_pattern, "".join(data[0].page_content))

In [31]:
# 분리된 텍스트 출력
parts[1]

'  이름 홍길동 영문 Hong-gildong 한문     - \n 주민번호 930328 - 1234788 나이   30세 \n 휴대폰 010-1234-5678 전화번호 - \n E - mail AB0000@naver.com SNS - \n 주소 서울특별시 서초구 서초대로로 \n \n학력사항 (최종학력: 서울대학교(4년) 졸업) \n재학기간 학교명 및 전공 학점 구분 \n2001.03 ~ 2008.02 서울대학교 전기전자공학과 3.48 / 4.5 졸업 \n1998.03 ~ 2001.02 성인 고등학교 - 졸업 \n    \n \n활동사항 \n기간 활동 내용 활동구분 기관 및 장소 \n1998.02 ~ 1999.02 관악구 불우이웃 돕기 동아리 서울대학교 \n2000.01 ~ 2000.12 Ktf 퓨쳐스 리더 6기 대외할동 ktf \n2020.01 ~ 2020.12 삼신 전자 인턴 인턴 삼신전자자 \n \n어학 자격증 \n언어 시험 점수 기관 \n영어 toeic 990 ybm \n영어 Toeic speaking 180 ybm \n어학연수 \n기간 과정명 기관 \n2005.01 ~ 2008.06 호주 워킹 홀리데이 - \n   \n   \n \n수상내역 \n기간 상세 내용 기관 \n'

In [None]:
from langchain_core.pydantic_v1 import BaseModel
from typing import List, Optional
from datetime import date

# 기본 정보 (Personal Information)
class PersonalInfo(BaseModel):
    name: str
    english_name: Optional[str]
    id_number: str
    age: int
    phone: str
    email: EmailStr
    address: str


# 학력사항 (Education)
class Education(BaseModel):
    period: str
    school: str
    major: str
    score: Optional[str]  # 학점은 선택적
    status: str


# 활동사항 (Activities)
class Activity(BaseModel):
    period: str
    activity_name: str
    description: str
    activity_type: str
    institution_location: str


# 어학 자격증 (Language Qualifications)
class LanguageCertification(BaseModel):
    language: str
    exam: str
    score: int
    institution: str


# 수상내역 (Awards) - Optional 항목
class Award(BaseModel):
    period: str
    description: str
    institution: str


# 이력서 (Resume) 전체
class Resume(BaseModel):
    personal_info: PersonalInfo
    education: List[Education]
    activities: List[Activity]
    language_certifications: List[LanguageCertification]
    awards: Optional[List[Award]] = []  # 수상내역은 선택 사항






For example, replace imports like: `from langchain_core.pydantic_v1 import BaseModel`
with: `from pydantic import BaseModel`
or the v1 compatibility namespace if you are working in a code base that has not been fully upgraded to pydantic 2 yet. 	from pydantic.v1 import BaseModel

  exec(code_obj, self.user_global_ns, self.user_ns)


ImportError: email-validator is not installed, run `pip install pydantic[email]`

In [None]:
# 문서 객체를 페이지별로 순회하며 사례 번호 등 메타데이터를 추출하고 업데이트
pdf_docs = []
case_metadata = {}
for doc in data[:]:
    split_text = re.findall(split_pattern, "".join(doc.page_content))
    if split_text:
        

    else:
        # Update metadata 
        doc.metadata.update(case_metadata) 

        # Append to split_docs
        pdf_docs.append(doc)

len(pdf_docs)