In [1]:
import chromadb
import os 
import torch
import pandas as pd 
import numpy as np 
from chromadb.utils import embedding_functions
from sentence_transformers import SentenceTransformer, util
from transformers import AutoTokenizer, AutoModel

In [2]:
data_path = os.path.join('/workspace/data/')

In [5]:
card = pd.read_csv(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_CARD_vec.csv'))
deposit = pd.read_csv(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_DEPOSIT_vec.csv'))
loan = pd.read_csv(os.path.join(data_path, 'financial', 'SHINHAN BANK_Financial_Product_Scraping_Result_20240104_LOAN_vec.csv'))

In [9]:
print(f'card table columns: {card.columns}', end='\n\n')
print(f'deposit table columns: {deposit.columns}', end='\n\n')
print(f'loan table columns: {loan.columns}', end='\n\n')

card table columns: Index(['카드_고유키', '카드회사명', '상품명', '카드설명', '가입대상', '혜택유형', '연회비', '브랜드', '할인혜택',
       '가입방법', '발급안내', '연체이자율', '유의사항'],
      dtype='object')

deposit table columns: Index(['보증_고유키', '금융회사명', '금융상품명', '가입방법', '이자지급방법', '예금자보호', '세제혜택', '만기후이자율',
       '우대조건', '가입제한', '가입대상', '기타 유의사항', '최고한도', '저축기간', '저축금리', '최고금리',
       '최고 우대금리', '가입금액', '기준일자', '상품설명', '중도해지금리'],
      dtype='object')

loan table columns: Index(['대출_고유키', '금융회사명', '금융상품명', '상품종류', '대출종류', '가입대상', '상품특징', '대출신청자격',
       '가입방법', '대출기간', '상환방법', '대출 부대비용', '중도 상환 수수료', '연체 이자율 ', '대출한도',
       '담보 유형', '대출 상환유형', '대출 금리 유형', '우대조건', '최고 우대금리', '대출 금리_기준',
       '대출 금리_가산', '대출 금리_우대', '대출 금리_최저', '대출 금리_최고', '상품설명', '유의사항', '금리인하',
       '대출철회', '이자부과시기', '위법계약', '대출금리'],
      dtype='object')



In [10]:
card.isna().sum()

카드_고유키       0
카드회사명        0
상품명          0
카드설명       106
가입대상      1076
혜택유형       273
연회비        272
브랜드         94
할인혜택        72
가입방법      1057
발급안내      1042
연체이자율      437
유의사항       496
dtype: int64

In [11]:
model_name = 'kakaobank/kf-deberta-base'

In [12]:
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

In [79]:
hugging_face_ef = embedding_functions.HuggingFaceEmbeddingFunction(
	api_key='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',
	model_name=model_name
)

In [171]:
tmp_emb = hugging_face_ef(['새로운 세상'])
np.mean(np.squeeze(tmp_emb), axis=0)[:2]

array([-0.52915223,  0.89254666])

In [172]:
get_emb(tokenizer, model, '새로운 세상')

[-0.5291522741317749,
 0.8925473690032959,
 -1.7507115602493286,
 -0.43045201897621155,
 0.09544705599546432,
 1.0392788648605347,
 -0.44095829129219055,
 -0.2812145948410034,
 0.6173307299613953,
 0.018033403903245926,
 0.43473106622695923,
 -0.1581931710243225,
 -1.5390393733978271,
 0.37348291277885437,
 0.11685200035572052,
 -1.1715202331542969,
 -0.03482688218355179,
 -0.153037890791893,
 -0.2995452582836151,
 0.20062032341957092,
 0.31381163001060486,
 0.1698843389749527,
 1.2284948825836182,
 0.6525830030441284,
 -0.5895830392837524,
 -0.5889073610305786,
 -0.8616515398025513,
 -0.7097374796867371,
 1.263092041015625,
 0.8288382887840271,
 -1.1671603918075562,
 -0.8157868981361389,
 0.08581451326608658,
 -0.35999274253845215,
 0.5555779933929443,
 -0.03957207500934601,
 0.9085263013839722,
 0.4364621937274933,
 -0.6083216667175293,
 0.46211865544319153,
 -0.47500190138816833,
 -0.5603294968605042,
 0.8995441794395447,
 -0.9419088363647461,
 0.48583510518074036,
 -1.6489285230636

In [162]:
hugging_face_ef

<chromadb.utils.embedding_functions.HuggingFaceEmbeddingFunction at 0x7feadcb0a560>

In [13]:
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

### ChromaDB 

In [15]:
chroma_client = chromadb.HttpClient(host='172.19.240.1', port=8000)

In [310]:
chroma_card = chroma_client.create_collection(name='card', embedding_function=hugging_face_ef)

In [16]:
chroma_card = chroma_client.get_collection(name='card')
chroma_loan = chroma_client.get_collection(name='loan')
chroma_deposit = chroma_client.get_collection(name='deposit')

In [122]:
chroma_client.list_collections()

[Collection(name=card), Collection(name=loan), Collection(name=deposit)]

In [309]:
chroma_client.delete_collection('card')

In [434]:
column = '유의사항' 

In [435]:
tb_docs = card.dropna(subset=column, axis=0)
tb_docs.reset_index(inplace=True, drop=True)
tb_docs.head(1)

Unnamed: 0,카드_고유키,카드회사명,상품명,카드설명,가입대상,혜택유형,연회비,브랜드,할인혜택,가입방법,발급안내,연체이자율,유의사항
0,카드_1,수협은행카드,휴먼라이프 S1 수협카드,바다위새로운세상휴먼라이프크루즈여행을위한맞춤혜택,,할인형,,Local (국내전용) / MasterCard (국내외겸용) 연회비 Local (1...,,관심상품등록,,"회원별, 이용상품별 약정금리+최대 3%(p), 법정 최고금리(20%) 이내 단, 연...",이 안내장은 관계 법령 및 내부통제기준에 따른 절차를 준수 하였습니다.계약체결 전 ...


In [436]:
len(tb_docs)

633

In [437]:
documents = tb_docs[column].values.tolist()

In [438]:
documents[:2]

['이 안내장은 관계 법령 및 내부통제기준에 따른 절차를 준수 하였습니다.계약체결 전 카드상품별 연회비, 이용조건 등에 관한 상세 사항은 금융상품설명서, 약관 및 홈페이지를 확인하시기 바랍니다.신용카드 발급이 부적정한 경우 (연체금 보유, 신용평점 낮음 등) 카드발급이 제한될 수 있습니다.카드이용대금과 이에 수반되는 모든 수수료를 지정된 대금 결제일에 상환합니다.※상환능력에 비해 신용카드 사용액이 과도할 경우, 귀하의 개인신용평점이 하락할 수 있습니다.※개인신용평점 하락으로 금융거래와 관련된 불이익이 발생할 수 있습니다.※일정기간 납부해야 할 원리금이 연체될 경우 계약만료 기한이 도래하기 전에 모든 원리금을 변제해야 할 의무가 발생할 수 있습니다.※연체이자율 : 회원별, 이용상품별 약정금리+최대 3%(p), 법정 최고금리(20%) 이내 단, 연체 발생 시점에 약정금리가 없는 경우는 아래와 같이 적용함- 일시불 거래 연체 시 : 거래발생 시점의 최소기간(2개월) 유이자 할부금리- 무이자 할부 거래 연체 시 : 거래 발생 시점의 동일한 할부 계약기간의 유이자 할부 금리- 그 외의 경우 : 약정금리는 상법상 상사법정이율과 상호금융 가계자금대출금리*중 높은 금리적 * 한국은행에서 매월 발표하는 가장 최근의 비은행 금융기관 가중평균대출금리(신규대출 기준)금융소비자는 금소법 제19조 제1항에 따라 해당 상품 또는 서비스에 대하여 설명을 받을 권리가 있으며, 그 설명을 듣고 내용을 충분히 이해한 후 거래하시기 바랍니다.',
 '이 안내장은 관계 법령 및 내부통제기준에 따른 절차를 준수 하였습니다.계약체결 전 카드상품별 연회비, 이용조건 등에 관한 상세 사항은 금융상품설명서, 약관 및 홈페이지를 확인하시기 바랍니다.신용카드 발급이 부적정한 경우 (연체금 보유, 신용평점 낮음 등) 카드발급이 제한될 수 있습니다.카드이용대금과 이에 수반되는 모든 수수료를 지정된 대금 결제일에 상환합니다.※상환능력에 비해 신용카드 사용액이 과도할 경우, 귀하의 개인신용평점이 하락할 수 있습니다.

In [439]:
def get_emb(tokenizer, model, doc):
    encoded_input = tokenizer(doc, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**encoded_input)
    
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
    sentence_embeddings= list(map(float, sentence_embeddings[0]))
    return sentence_embeddings

In [440]:
tb_dict.keys()

dict_keys(['카드_고유키', '카드회사명', '상품명'])

In [441]:
def get_metadata(columns, data, idx):
    meta_dict = dict()
    for col in columns:
        try:
            assert meta_dict[col]
        except:
            meta_dict[col] = data[col][idx]
    return meta_dict

In [442]:
col = ['카드_고유키', '카드회사명', '상품명']
get_metadata(col, tb_docs, 0)

{'카드_고유키': '카드_1', '카드회사명': '수협은행카드', '상품명': '휴먼라이프 S1 수협카드'}

In [443]:
docs = []; embeddings = []; metadatas = []; ids = []
col = ['카드_고유키', '카드회사명', '상품명']

for idx in range(len(tb_docs)):
    start_idx += 1 
    ids.append(str(start_idx))
    docs.append(documents[idx])
    emb = get_emb(tokenizer, model, documents[idx])
    # print(np.shape(emb))
    embeddings.append(emb)
    meta_dict = get_metadata(col, tb_docs, idx)
    metadatas.append(meta_dict)    

In [444]:
start_idx

6365

In [445]:
chroma_card.add(
    ids=ids,
    documents=docs, 
    embeddings=embeddings,
    metadatas=metadatas
)

In [451]:
txt = '연회비가 어떻게 되나요 ?'
emb = get_emb(tokenizer, model, txt)

results = chroma_card.query(
    query_embeddings = emb,
    n_results = 5
)
results

{'ids': [['4311', '6303', '2561', '2531', '2530']],
 'distances': [[212.09268188476562,
   213.4901906806185,
   223.91123962402344,
   224.44786071777344,
   224.553466796875]],
 'embeddings': None,
 'metadatas': [[{'상품명': '[NH농협] Air Money 카드',
    '카드_고유키': '카드_529',
    '카드회사명': 'BC카드'},
   {'상품명': 'WON FRIENDS 신용카드', '카드_고유키': '카드_957', '카드회사명': '전북은행카드'},
   {'상품명': '신세계 씨티 플래티늄 아시아나', '카드_고유키': '카드_892', '카드회사명': '씨티카드'},
   {'상품명': '경차', '카드_고유키': '카드_860', '카드회사명': '현대카드'},
   {'상품명': '햇살론', '카드_고유키': '카드_859', '카드회사명': '현대카드'}]],
 'documents': [['OK Cashbag 가맹점 이용 시 OK Cashbag 포인트 적립 서비스 제공, 세부서비스안내 : OK Cashbag 홈페이지(www.okcashbag.com), 연회비 : 국내전용(BC) / 해외 겸용(UnionPay): 1만5천원, 연회비는 카드 발급 시 선 청구 됩니다,유효기간이 도래하기 전에 카드를 해지하는 경우 연회비 반환 금액은 고객님이 NH농협카드와 계약을 해지한 날부터 일할 계산하여 산정됩니다.- 단, 카드의 발행?배송 등 카드발급(신규 가입 년도에 한함)에 소요된 비용, 카드 이용시 제공되는 추가적인 혜택 등 부가서비스 제공에 소요된 비용은 반환 금액에서 제외',
   '연회비는 카드별로 기본연회비와 제휴연회비를 합산한 총 연회비가 청구됩니다. 후불교통기능이 탑재되어 발급됩니다. (비교통 선택 불가) 모든 가맹점 0.5% J Money 포인트 적립',
 

In [447]:
chroma_card.count()

6365

In [448]:
1023 + 53 + 856 + 857 + 1035 + 1057 + 72 + 87 + 692 + 633

6365