In [22]:
#####################################
# KLUE STS, OLMo-7b original
#####################################

from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset
import torch

# 모델 경로 설정
model_path = "allenai/OLMo-7B-hf"

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
model = AutoModelForCausalLM.from_pretrained(model_path, local_files_only=True, torch_dtype=torch.bfloat16, device_map="auto")

# 테스트 데이터셋 로드 (KLUE STS 예시, 필요에 따라 다른 데이터셋 사용)
dataset = load_dataset('klue', 'sts')

# 모델을 평가 모드로 전환
model.eval()

def predict_similarity(sentence1, sentence2):
    # 두 문장을 결합하여 모델에 입력할 형식으로 준비
    inputs = tokenizer(f"Input: {sentence1}\nOutput: {sentence2}", return_tensors="pt", padding=True, truncation=True, max_length=1024)
    inputs = inputs.to(model.device)  # 모델이 있는 디바이스로 이동
    
    with torch.no_grad():
        # 모델을 통해 예측 수행
        outputs = model(**inputs)
    
    # 마지막 단어에 대한 로짓 추출 (CausalLM 모델에서는 생성된 텍스트를 예측)
    logits = outputs.logits  # 마지막 토큰의 로짓
    predicted_token = torch.argmax(logits[0, -1, :]).item()  # 마지막 단어 예측
    
    # 예측된 토큰을 텍스트로 변환
    predicted_word = tokenizer.decode(predicted_token)
    
    # 예측된 텍스트 길이를 유사도 점수로 변환 (임시 해결책)
    predicted_score = len(predicted_word.split())  # 단어 수를 유사도 점수로 가정
    
    return predicted_score

# 'validation' 데이터셋에서 예측 수행
predictions = []
labels = []

for example in dataset['validation']:
    sentence1 = example['sentence1']
    sentence2 = example['sentence2']
    label = example['labels']['label']  # 'labels'에서 실제 값 가져오기
    
    pred = predict_similarity(sentence1, sentence2)
    predictions.append(pred)
    labels.append(label)

# 평가 지표 계산 (예시: MSE, MAE)
from sklearn.metrics import mean_squared_error, mean_absolute_error

mse = mean_squared_error(labels, predictions)
mae = mean_absolute_error(labels, predictions)

print("Evaluation")
print("KLUE-STS | OLMo-7b Original")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Mean Absolute Error (MAE): {mae}")


Loading checkpoint shards:   0%|          | 0/6 [00:00<?, ?it/s]

Evaluation
KLUE-STS | OLMo-7b Original
Mean Squared Error (MSE): 8.196705202312138
Mean Absolute Error (MAE): 2.447976878612717


In [23]:
#####################################
# KLUE STS, OLMo-7b FineTuned
#####################################

# 모델 경로 설정
model_path = 'fine-tuned-models/fine-tuned-olmo7B-v12-80000'

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
model = AutoModelForCausalLM.from_pretrained(model_path, local_files_only=True, torch_dtype=torch.bfloat16, device_map="auto")

# 테스트 데이터셋 로드 (KLUE STS 예시, 필요에 따라 다른 데이터셋 사용)
dataset = load_dataset('klue', 'sts')

# 모델을 평가 모드로 전환
model.eval()

def predict_similarity(sentence1, sentence2):
    # 두 문장을 결합하여 모델에 입력할 형식으로 준비
    inputs = tokenizer(f"Input: {sentence1}\nOutput: {sentence2}", return_tensors="pt", padding=True, truncation=True, max_length=1024)
    inputs = inputs.to(model.device)  # 모델이 있는 디바이스로 이동
    
    with torch.no_grad():
        # 모델을 통해 예측 수행
        outputs = model(**inputs)
    
    # 마지막 단어에 대한 로짓 추출 (CausalLM 모델에서는 생성된 텍스트를 예측)
    logits = outputs.logits  # 마지막 토큰의 로짓
    predicted_token = torch.argmax(logits[0, -1, :]).item()  # 마지막 단어 예측
    
    # 예측된 토큰을 텍스트로 변환
    predicted_word = tokenizer.decode(predicted_token)
    
    # 예측된 텍스트 길이를 유사도 점수로 변환 (임시 해결책)
    predicted_score = len(predicted_word.split())  # 단어 수를 유사도 점수로 가정
    
    return predicted_score

# 'validation' 데이터셋에서 예측 수행
predictions = []
labels = []

for example in dataset['validation']:
    sentence1 = example['sentence1']
    sentence2 = example['sentence2']
    label = example['labels']['label']  # 'labels'에서 실제 값 가져오기
    
    pred = predict_similarity(sentence1, sentence2)
    predictions.append(pred)
    labels.append(label)

# 평가 지표 계산 (예시: MSE, MAE)
from sklearn.metrics import mean_squared_error, mean_absolute_error

mse = mean_squared_error(labels, predictions)
mae = mean_absolute_error(labels, predictions)

print("Evaluation")
print("KLUE-STS | OLMo-7b fine tuned")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Mean Absolute Error (MAE): {mae}")


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Evaluation
KLUE-STS | OLMo-7b fine tuned
Mean Squared Error (MSE): 7.81635838150289
Mean Absolute Error (MAE): 2.3836223506743734


In [24]:
#####################################
# KLUE STS, OLMo-1b Original
#####################################

# 모델 경로 설정
model_path = "allenai/OLMo-1B-hf"

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
model = AutoModelForCausalLM.from_pretrained(model_path, local_files_only=True, torch_dtype=torch.bfloat16, device_map="auto")

# 테스트 데이터셋 로드 (KLUE STS 예시, 필요에 따라 다른 데이터셋 사용)
dataset = load_dataset('klue', 'sts')

# 모델을 평가 모드로 전환
model.eval()

# 'validation' 데이터셋에서 예측 수행
predictions = []
labels = []

for example in dataset['validation']:
    sentence1 = example['sentence1']
    sentence2 = example['sentence2']
    label = example['labels']['label']  # 'labels'에서 실제 값 가져오기
    
    pred = predict_similarity(sentence1, sentence2)
    predictions.append(pred)
    labels.append(label)

# 평가 지표 계산 (예시: MSE, MAE)
from sklearn.metrics import mean_squared_error, mean_absolute_error

mse = mean_squared_error(labels, predictions)
mae = mean_absolute_error(labels, predictions)

print("Evaluation:")
print("KLUE-STS | OLMo-1b Original")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Mean Absolute Error (MAE): {mae}")


Evaluation:
KLUE-STS | OLMo-1b Original
Mean Squared Error (MSE): 8.107687861271677
Mean Absolute Error (MAE): 2.430635838150289


In [25]:
#####################################
# KLUE STS, OLMo-1b FineTuned
#####################################

# 모델 경로 설정
model_path = "./fine-tuned-models/fine-tuned-olmo1B-80000-v11"

# 토크나이저와 모델 로드
tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
model = AutoModelForCausalLM.from_pretrained(model_path, local_files_only=True, torch_dtype=torch.bfloat16, device_map="auto")

# 테스트 데이터셋 로드 (KLUE STS 예시, 필요에 따라 다른 데이터셋 사용)
dataset = load_dataset('klue', 'sts')

# 모델을 평가 모드로 전환
model.eval()

# 'validation' 데이터셋에서 예측 수행
predictions = []
labels = []

for example in dataset['validation']:
    sentence1 = example['sentence1']
    sentence2 = example['sentence2']
    label = example['labels']['label']  # 'labels'에서 실제 값 가져오기
    
    pred = predict_similarity(sentence1, sentence2)
    predictions.append(pred)
    labels.append(label)

# 평가 지표 계산 (예시: MSE, MAE)
from sklearn.metrics import mean_squared_error, mean_absolute_error

mse = mean_squared_error(labels, predictions)
mae = mean_absolute_error(labels, predictions)

print("Evaluation:")
print("KLUE-STS | OLMo-1b FineTuned")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Mean Absolute Error (MAE): {mae}")


Evaluation:
KLUE-STS | OLMo-1b FineTuned
Mean Squared Error (MSE): 7.588998073217726
Mean Absolute Error (MAE): 2.340462427745665


In [27]:
import requests
import ollama
from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import load_dataset
import torch
from sklearn.metrics import mean_squared_error, mean_absolute_error
import re  # 정규 표현식 모듈 추가

# Ollama 서버 설정
ollama_host = "http://sg001:11434"
client = ollama.Client(host=ollama_host)  # 클라이언트 인스턴스 생성

# 서버 연결 확인
try:
    response = requests.get(ollama_host)
    print("Server connected")
    print(response.text)
except requests.ConnectionError:
    print("Not connected")

# Llama3.2 모델을 사용하여 분석
# Llama3.2 모델을 위한 프롬프트를 설정합니다
prompt = "Analyze the following sentence pair and provide a similarity score between 0 and 5, where 0 means no similarity and 5 means identical."

# KLUE STS 데이터셋 로드
dataset = load_dataset('klue', 'sts')

# 예측 함수 정의
def predict_similarity(sentence1, sentence2):
    # Llama3.2 모델을 통해 유사도 점수를 예측
    response = client.chat(
        model='llama3.2', 
        messages=[{
            'role': 'user',
            'content': f"{prompt} Sentence 1: {sentence1} Sentence 2: {sentence2}",
        }]
    )
    
    # 예측된 유사도 점수 추출 (정규 표현식을 사용하여 숫자만 추출)
    result_text = response['message']['content'].strip()
    
    # 유사도 점수는 "I would give a similarity score of X out of 5" 형태로 반환되므로, 숫자만 추출
    match = re.search(r'(\d(\.\d+)?)\s*out of 5', result_text)
    if match:
        predicted_score = float(match.group(1))  # 추출된 유사도 점수 반환
    else:
        predicted_score = 0.0  # 예기치 못한 형식이 나오면 기본값으로 0.0을 반환
    
    return predicted_score

# 'validation' 데이터셋에서 예측 수행
predictions = []
labels = []

for example in dataset['validation']:
    sentence1 = example['sentence1']
    sentence2 = example['sentence2']
    label = example['labels']['label']  # 'labels'에서 실제 값 가져오기
    
    pred = predict_similarity(sentence1, sentence2)
    predictions.append(pred)
    labels.append(label)

# 평가 지표 계산 (예시: MSE, MAE)
mse = mean_squared_error(labels, predictions)
mae = mean_absolute_error(labels, predictions)

print("Evaluation")
print("KLUE-STS | Llama3.2")
print(f"Mean Squared Error (MSE): {mse}")
print(f"Mean Absolute Error (MAE): {mae}")


Server connected
Ollama is running
Evaluation
KLUE-STS | Llama3.2
Mean Squared Error (MSE): 3.6705973025048175
Mean Absolute Error (MAE): 1.5129094412331405
