In [1]:
from llama_index import Document, VectorStoreIndex, SimpleDirectoryReader, ServiceContext
from llama_index.storage.storage_context import StorageContext
from llama_index.schema import MetadataMode
import pandas as pd 
import os

In [2]:
data_path = os.path.join('/workspace/data/')

### CSV File 칼럼 -> Document 생성 

In [3]:
data = pd.read_csv(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_DEPOSIT_vec.csv'))
data

Unnamed: 0,보증_고유키,상품설명
0,보증_0,기업 전용 정기적금 상품
1,보증_1,복잡한 우대금리 조건 없이 쉽고 간편한 적금 상품
2,보증_2,누구나 쉽게 이해하고 가입할 수 있는 정기예금 대표상품
3,보증_3,"중견기업 등에 대해서 우대금리 및 우대서비스를 제공하는 상품으로, 결제성 자금의 일..."
4,보증_4,"영업점 방문없이 가입이 가능한 고금리 입출금이 자유로운 예금으로 인터넷뱅킹, 스마트..."
...,...,...
1538,보증_1548,- 매월 약정일에 일정회차 이상을 납입하면 국민주택 청약이 가능한 성격을 기본으로 ...
1539,보증_1549,- 매월 약정일에 일정회차 이상을 납입하면 국민주택 청약이 가능한 성격을 기본으로 ...
1540,보증_1550,증금와이드예수금은 대한민국 투자자의 여유자금에 높고 안전한 예금이자로 고객의 소중한...
1541,보증_1551,당사 보유채권에 대하여 환매수 조건으로 매매하는 방식으로 안정성과 수익성을 동시에 ...


In [4]:
category = 'deposit'

id_list = data.보증_고유키.values.tolist()
desc_list = data.상품설명.values.tolist()

In [5]:
documents = []

for idx in range(len(desc_list)):
    doc = Document(text=desc_list[idx], doc_id=id_list[idx], metadata={"category": category}, excluded_llm_metadata_keys = ['category'])
    documents.append(doc)

In [6]:
documents[0]

Document(id_='보증_0', embedding=None, metadata={'category': 'deposit'}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=['category'], relationships={}, hash='2ecd58205351e819e0afa38f030f468fd516c3820082cf5f9fd15f569846d656', text='기업 전용 정기적금 상품', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')

In [7]:
documents[3].get_content() # documents[3].text

'중견기업 등에 대해서 우대금리 및 우대서비스를 제공하는 상품으로, 결제성 자금의 일시예치 및 여유자금의 단기적 운용 목적으로 적합'

In [8]:
print(f'embedding model see this: {documents[2].get_content(metadata_mode=MetadataMode.EMBED)}', end='\n\n')
print(f'LLM see this: {documents[2].get_content(metadata_mode=MetadataMode.LLM)}')

embedding model see this: category: deposit

누구나 쉽게 이해하고 가입할 수 있는 정기예금 대표상품

LLM see this: 누구나 쉽게 이해하고 가입할 수 있는 정기예금 대표상품


#### llama hub  -> 실패

In [9]:
from llama_index import download_loader
from pathlib import Path

In [10]:
SimpleCSVReader = download_loader("SimpleCSVReader")
loader = SimpleCSVReader(encoding="utf-8")
documents = loader.load_data(file=Path(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_DEPOSIT_vec.csv')))

In [11]:
print(f'len document: {len(documents)}')
documents[0].text[:40]

len document: 1


'보증_고유키, 상품설명\n보증_0, 기업 전용 정기적금 상품\n보증_1, 복'

In [12]:
PandasCSVReader = download_loader("PandasCSVReader")
loader = PandasCSVReader()
documents = loader.load_data(file=Path(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_DEPOSIT_vec.csv')))

In [13]:
print(f'len document: {len(documents)}')
documents[0].text[:40]

len document: 1


'보증_0, 기업 전용 정기적금 상품\n보증_1, 복잡한 우대금리 조건 없이'

#### SimpleDirectoryReader  -> 실패 

In [14]:
from llama_index import SimpleDirectoryReader 

reader = SimpleDirectoryReader(input_files=[os.path.join(data_path, 'financial', \
                                                         'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_DEPOSIT_vec.csv')])
documents = reader.load_data(num_workers=4)

In [15]:
print(f'len document: {len(documents)}')
documents[0].text[:40]

len document: 1


'보증_0, 기업 전용 정기적금 상품\n보증_1, 복잡한 우대금리 조건 없이'

### PDF File  -> Document 생성 

In [16]:
from llama_index import(VectorStoreIndex,
                        SimpleDirectoryReader,
                        load_index_from_storage,
                        StorageContext,
                        ServiceContext,
                        Document)

In [19]:
documents = SimpleDirectoryReader(os.path.join(data_path, 'pdf', 'rules')).load_data()
print(len(documents))
print(documents[3])

27
Doc ID: 8a22c111-2b02-4b35-8bfe-ec3c5040e29f
Text: 4   제64조(재심절차 ) ···························  16      제10장 교육 및
성희롱의  예방  제65조(직무교육 )  ···························  16  제66조(성희롱의  예방)
························  17    제11장 직장 내 괴롭힘의  예방  제67조(직장 내 괴롭힘 행위의
금지)  ··················  17  제68조(금지되는  직장 내 괴롭힘 행위)
·················  17  제69조(직장 내 괴롭힘 예방교육 )  ···················  17
제70조(직장 내 괴롭힘 행위 발...


In [20]:
reader = SimpleDirectoryReader(os.path.join(data_path, 'pdf', 'rules'))

all_docs = []
for docs in reader.iter_data():
    for doc in docs:
        doc.text = doc.text.upper()
        all_docs.append(doc)

In [21]:
all_docs[0]

Document(id_='992bdcb2-c32c-4be5-9246-a04198fa4e3f', embedding=None, metadata={'page_label': '1', 'file_name': '취업규칙.pdf', 'file_path': '/workspace/data/pdf/rules/취업규칙.pdf', 'file_type': 'application/pdf', 'file_size': 520849, 'creation_date': '2024-01-19', 'last_modified_date': '2024-01-19', 'last_accessed_date': '2024-01-19'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, hash='a545264a43b0295236059c8c90c89b7a5ea20052165f37f77d9ce1288d02b729', text='1 \n 문서번호  FG–1601 \n제정일자 - \n개정일자  2022.09.01 \n \n \n \n \n \n \n \n \n \n \n취 업 규 칙 \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n \n주식회사  핑거 \n \n \n \n \n \n \n \n \n \n ', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', 