In [None]:
from sentence_transformers import SentenceTransformer, util
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
import re

model_st = SentenceTransformer('all-MiniLM-L6-v2')

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model_t5 = T5ForConditionalGeneration.from_pretrained("t5-small")

device = 'cpu'
model_t5.to(device)

def load_and_process_txt(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return clean_text(text)

def clean_text(text):
    text = re.sub(r'\s+', ' ', text)  
    text = re.sub(r'[.,!?]', '', text)  
    text = re.sub(r'[^가-힣0-9a-zA-Z\s]', '', text)  
    return text.strip()  


prompts = [
    "교내 카페 위치",
    "교내 카페 어디에 있나요?",
    "교내 카페가 어디에요?",
    "학교 내 카페는 어디 있나요?",
    "학교 카페 위치 알려줘",
    
    "교내 편의점 위치",
    "교내 편의점 어디에 있나요?",
    "학교 내 편의점은 어디인가요?",
    "학교 편의점 위치 알려줘",
    
    "약국 위치",
    "학교 내 약국은 어디에요?",
    "약국이 어디에 있나요?",
    "약국은 어디에 있습니까?",
    "교내 약국은 어디에 있나요?"
    "교내 약국 위치가 어떻게 되나요?"
    
    "프린터기 위치",
    "학교 내 프린터기는 어디에요?",
    "프린터기가 어디에 있나요?",
    "프린터기는 어느 층에 있죠?",
    
    "교내 건물",
    "학교 건물은 어디에 있나요?",
    "교내의 모든 건물 위치",
    "학교 내 모든 건물은 어디에요?",
    
    "수강 편람을 어디서 확인할 수 있나요?",
    "수강 편람은 어떤 곳에서 찾을 수 있습니까?",
    "수강 편람을 보려면 어디로 가야 하나요?",
    "수강 편람을 어떻게 확인하나요?",
    "수강 편람은 온라인에서 볼 수 있나요?",
    "수강 편람에 대한 정보는 어디서 찾을 수 있나요?",
    "수강 편람을 다운로드하려면 어디로 가야 하나요?",
    "수강 편람은 어떤 자료실에 있나요?",
    "수강 편람을 인쇄할 수 있는 곳은 어디인가요?",
    "수강 편람은 학과 사무실에 있나요?",
    "수강 편람을 찾으려면 누구에게 물어봐야 하나요?",
    "수강 편람은 언제부터 확인할 수 있나요?"
    "수강 편람 알려줘",
    "수강 편람이 궁금해",
    "수강 편람에서 를 찾아줘"
]


completions = [
    "광개토관 15층 유캔두잇\n광개토관 5층 514호 카페 결\n광개토관 B1층 카페딕셔너리\n충무관 1층 카페딕셔너리\n학술정보원 2층 카페드림\n대양AI센터 1층 투썸\n학생회관 1층 베이글카페\n학생회관 2층 제주몰빵",  # 카페 관련 질문
    
    "광개토관 15층 유캔두잇\n광개토관 5층 514호 카페 결\n광개토관 B1층 카페딕셔너리\n충무관 1층 카페딕셔너리\n학술정보원 2층 카페드림\n대양AI센터 1층 투썸\n학생회관 1층 베이글카페\n학생회관 2층 제주몰빵",  # 카페 관련 질문
    
    "광개토관 15층 유캔두잇\n광개토관 5층 514호 카페 결\n광개토관 B1층 카페딕셔너리\n충무관 1층 카페딕셔너리\n학술정보원 2층 카페드림\n대양AI센터 1층 투썸\n학생회관 1층 베이글카페\n학생회관 2층 제주몰빵",  # 카페 관련 질문
    
    "광개토관 15층 유캔두잇\n광개토관 5층 514호 카페 결\n광개토관 B1층 카페딕셔너리\n충무관 1층 카페딕셔너리\n학술정보원 2층 카페드림\n대양AI센터 1층 투썸\n학생회관 1층 베이글카페\n학생회관 2층 제주몰빵",  # 카페 관련 질문
    
    "광개토관 15층 유캔두잇\n광개토관 5층 514호 카페 결\n광개토관 B1층 카페딕셔너리\n충무관 1층 카페딕셔너리\n학술정보원 2층 카페드림\n대양AI센터 1층 투썸\n학생회관 1층 베이글카페\n학생회관 2층 제주몰빵",  # 카페 관련 질문
    
    "율곡관 지하 1층 이마트24\n광개토관 지하 1층 이마트24\n대양AI센터 1층 CU\n학생회관 1층 CU", 
    
    "율곡관 지하 1층 이마트24\n광개토관 지하 1층 이마트24\n대양AI센터 1층 CU\n학생회관 1층 CU", 
    
    "율곡관 지하 1층 이마트24\n광개토관 지하 1층 이마트24\n대양AI센터 1층 CU\n학생회관 1층 CU", 
    
    "율곡관 지하 1층 이마트24\n광개토관 지하 1층 이마트24\n대양AI센터 1층 CU\n학생회관 1층 CU", 
    
    "대양AI센터 1층",  
    
    "대양AI센터 1층",  
    
    "대양AI센터 1층",  
    
    "대양AI센터 1층",  
    
    "대양AI센터 1층",  
    
    "대양AI센터 1층",  
    
    "학생회관 1층\n군자관 1층\n도서관 1층", 
    
    "학생회관 1층\n군자관 1층\n도서관 1층",  
    
    "학생회관 1층\n군자관 1층\n도서관 1층",  
    
    "학생회관 1층\n군자관 1층\n도서관 1층",  
    
    "대양AI센터\n광개토관\n집현관\n세종관\n충무관\n대양홀\n이당관\n모차르트홀\n군자관\n학생회관\n애지헌\n진관홀\n용덕관\n박물관\n우정당\n동천관\n율곡관\n다산관\n영실관\n세종사이버대학교\n세종초등학교",  
    "대양AI센터\n광개토관\n집현관\n세종관\n충무관\n대양홀\n이당관\n모차르트홀\n군자관\n학생회관\n애지헌\n진관홀\n용덕관\n박물관\n우정당\n동천관\n율곡관\n다산관\n영실관\n세종사이버대학교\n세종초등학교",  # 건물 관련 질문
    "대양AI센터\n광개토관\n집현관\n세종관\n충무관\n대양홀\n이당관\n모차르트홀\n군자관\n학생회관\n애지헌\n진관홀\n용덕관\n박물관\n우정당\n동천관\n율곡관\n다산관\n영실관\n세종사이버대학교\n세종초등학교",  # 건물 관련 질문
    "대양AI센터\n광개토관\n집현관\n세종관\n충무관\n대양홀\n이당관\n모차르트홀\n군자관\n학생회관\n애지헌\n진관홀\n용덕관\n박물관\n우정당\n동천관\n율곡관\n다산관\n영실관\n세종사이버대학교\n세종초등학교",  # 건물 관련 질문
    
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1',
    '1'
]


def process_text(input_text):
    user_embedding = model_st.encode(input_text, convert_to_tensor=True)
    prompt_embeddings = model_st.encode(prompts, convert_to_tensor=True)

    similarities = util.pytorch_cos_sim(user_embedding, prompt_embeddings)[0]
    most_similar_index = similarities.argmax()

    response = completions[most_similar_index]
    print("답변:", response)


txt_file_path = '/Users/withmocha/Desktop/정리된_텍스트.txt'  
context = load_and_process_txt(txt_file_path)


text_input = "수강편람에서 학번을 찾아줘"
process_text(text_input)


def answer_question(question, context):
    input_text = f"question: {question} context: {context}"
    inputs = tokenizer(input_text, return_tensors="pt").to(device)

    generated_ids = model_t5.generate(inputs['input_ids'], max_length=50)
    generated_text = tokenizer.decode(generated_ids[0], skip_special_tokens=True)
    return generated_text


example_question = "수강 편람은 어디에서 볼 수 있나요?"
answer = answer_question(example_question, context)


You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Token indices sequence length is longer than the specified maximum sequence length for this model (81245 > 512). Running this sequence through the model will result in indexing errors


답변: 1


: 