In [1]:
import pandas as pd
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

# 파일을 읽어오는 부분
df = pd.read_csv("/Users/marketdesigners/Documents/GitHub/Congress_Competition/DB/law_list/embeddings_data.csv")
embeddings = df["Embedding"].apply(lambda x: eval(x)).tolist()
embeddings_tensor = torch.tensor(embeddings, dtype=torch.float32)

# 준비된 텍스트
sentences2 = """나라에 성폭력 피해자들의 보호를 위한 법률안으로

'성폭력 보호 및 지원 방안 제정법'을 마련하고, 이를 국회가 채택하고 국민에게 새로운 보호장치를 제공하고자 합니다.

이 법률에 의해 보호자가 배정되고 당해 사건에 민원 및 피해자를 보호하기 위해 법률 상 여러 조치도 가능하도록 하여야 합니다. 또한 경찰에 대한 강력한 책임을 맡게 하고, 경찰이 성폭력 피해자들과 상대방들을 적극적으로 보호하고 도움을 줄 수 있도록 규정하는 것 등이 포함되어야 합니다."""

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# sentences2에 대해 토큰화 및 임베딩
encoded_input2 = tokenizer(sentences2, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
    model_output2 = model(**encoded_input2)

# Mean pooling 함수
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] 
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# 임베딩 계산
sentence_embedding2 = mean_pooling(model_output2, encoded_input2['attention_mask'])

# 정규화
sentence_embedding2_normalized = F.normalize(sentence_embedding2, p=2, dim=1)

# 각 문장에 대한 코사인 유사도 계산
cosine_similarities = F.cosine_similarity(embeddings_tensor, sentence_embedding2_normalized, dim=1)

# 상위 5개 문장 선택
top5_indices = cosine_similarities.topk(5).indices

# 결과 출력 준비
top5_sentences = [df.iloc[index].to_dict() for index in top5_indices.numpy()]

top5_sentences



'(ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: 5ff08156-1037-43b4-9428-3e2780f249b7)')' thrown while requesting HEAD https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/resolve/main/tokenizer_config.json
'(ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: bbdc2987-7b8e-4856-8146-e7cdb11d5d42)')' thrown while requesting HEAD https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/resolve/main/config.json
2023-11-30 01:41:01.144593: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


[{'Unnamed: 0': 1245,
  '제목': '[2020228] 의무경찰대 설치 및 운영에 관한 법률 일부개정법률안(김병기의원 등 10인) 입법예고중',
  '내용': '제안이유 및 주요내용\n\n  현행법은 적전 상황(전시 상황에서 공격하거나 방어하는 등의 대치 상황)에서 근무를 기피할 목적으로 신체를 상해한 경우 사형까지 선고할 수 있도록 규정하고 있음.\n  그런데 적전 상황이라는 특수성을 고려하더라도 타인에 대한 위해가 아닌 자해를 이유로 사형까지 선고할 수 있도록 한 것은 과도하다는 지적이 있고, 국가인권위원회의 사형 조항 폐지 여부를 묻는 질의에 경찰청도 폐지가 타당하다는 입장을 전달함.\n  이에 벌칙에서 사형을 삭제하여 책임에 상응하는 형벌을 규정하려는 것임(안 제9조제5항).',
  'Embedding': '[0.03484579920768738, 0.012818427756428719, 0.033434025943279266, 0.028241194784641266, -0.07713396847248077, -0.023583464324474335, 0.021443340927362442, 0.031592290848493576, -0.0034822996240109205, -0.015096727758646011, 0.1147274523973465, 0.0020815718453377485, 0.08629763126373291, -0.020505748689174652, 0.015311536379158497, -0.02416517771780491, 0.006159990560263395, 0.08483614027500153, -0.07643640786409378, 0.10627863556146622, 0.022138291969895363, -0.023309018462896347, -0.014165555126965046, -0.037942055612802505, -0.0507672093808651, -0.005650091916322708, -0.041702