### Dataset: locchuong/llama_conversations

In [1]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import random
import sys
current_dir = os.getcwd()
sys.path.append(os.path.join(os.getcwd(), '..'))

import torch
# Check if a GPU is available
if torch.cuda.is_available():
    # Get the current device index (default is 0 if no other device is specified)
    current_device = torch.cuda.current_device()
    
    # Get the name of the GPU at this device index
    gpu_name = torch.cuda.get_device_name(current_device)
    print(f"Current GPU: {gpu_name}")
else:
    print("No GPU available.")

from transformers import pipeline
from datasets import load_dataset
from utils.helper import calculate_metrics

print("Import Successfull!")

# Load dataset
dataset_name = "locchuong/llama_conversations"
dataset = load_dataset(dataset_name)

# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]

# Create pipeline
model_id = "meta-llama/Llama-3.2-1B-Instruct"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
)

print("Pipeline Created!")

# Select random sample
random_sample = train_data[random.choice(range(train_data.num_rows))]
tag = random_sample["tag"]
messages = random_sample["conversations"]
if tag == "aixsatoshi/cosmopedia-japanese-100k":
    reference = messages[-1]['content']
    max_new_tokens = 512
else:
    reference = messages[-1]['content']
    messages = messages[:-1] # Cut off assistant's response
    max_new_tokens = 256

print("Reference: ",reference,"\n")

outputs = pipe(
    messages,
    max_new_tokens=max_new_tokens,
)

candidate = outputs[0]["generated_text"][-1]['content']

print("Model: ", candidate)

bert_score, bleu_2_score, bleu_4_score, rouge_2_score, rouge_l = calculate_metrics(reference, candidate)
print("BERT:", bert_score)
print("BLEU-2:", bleu_2_score)
print("BLEU-4:", bleu_4_score)
print("ROUGE-2:", rouge_2_score)
print("ROUGE-L:", rouge_l)

Current GPU: Tesla P40
Import Successfull!
Available Splits: dict_keys(['train'])


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Pipeline Created!
Reference:  重罪謀殺化法則は、一部の英米法諸法域において適用されます。近代的な解釈では、当該重罪が本質的に危険なものであるか、または行為者が明らかに危険な方法において行ったことが求められます。この法則は、危険な重罪の抑止手段として正当化されることもあります。ただし、イングランドおよびウェールズと北アイルランドでは廃止されており、一部の法域では同様の規定によって代替されています。 

Model:  重罪謀殺化法則は、重罪の過程中で行為者が適用ある重罪の過程において偶発的にまたは具体的な殺意なく人を死に至らしめた場合、謀殺となるというものです。

この法則は、次のような方法で使われることがあります。

1.  **刑事責任の拡大**: 重罪の過程中で行為者が行った行為が、死に至るまでの過程で行われた行為と見なされる場合、刑事責任を拡大します。たとえば、殺意なく死に至るまでの過程で、行為者がその過程で死に至った場合、刑事責任は拡大されます。
2.  **死の原因を定義する**: 重罪の過程中で行為者が死に至るまでの過程で死に至った場合、死の原因を定義する必要があります。たとえば、死に至るまでの過程で、行為者がその過程で死に至った場合、死の原因を定義する必要




BERT: 0.6745099425315857
BLEU-2: 0.3063063063063063
BLEU-4: 0.16848802831087525
ROUGE-2: 0.1099476439790576
ROUGE-L: 0.16666666666666666


In [2]:
messages

[{'content': '重罪謀殺化法則とは何ですか？', 'role': 'user'},
 {'content': '重罪謀殺化法則は、謀殺罪を2つの方向に拡大する法理で、行為者が適用ある重罪の過程において偶発的にまたは具体的な殺意なく人を死に至らしめた場合、謀殺となるというものです。また、この法則によりかかる重罪への加担者は、当該重罪の過程またはその助長の際に生じたいかなる死についても刑事責任を負います。',
  'role': 'assistant'},
 {'content': '重罪謀殺化法則の起源はどこにありますか？', 'role': 'user'},
 {'content': '重罪謀殺化法則の概念の起源は古代ローマ法にありますが、近代的な形態を得たのは18世紀です。古典的な例としては、密猟者が鹿に向けて射た矢が藪の中に隠れていた少年に当たった場合、密猟者はその意図しない結果であっても、重罪謀殺の責任を負うとされます。',
  'role': 'assistant'},
 {'content': '重罪謀殺化法則はどのように使われるのですか？', 'role': 'user'}]

### Benchmark: locchuong/llama-longquan-llm-japanese-dataset-split_10

In [1]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import random
import sys
current_dir = os.getcwd()
sys.path.append(os.path.join(os.getcwd(), '..'))

import torch
# Check if a GPU is available
if torch.cuda.is_available():
    # Get the current device index (default is 0 if no other device is specified)
    current_device = torch.cuda.current_device()
    
    # Get the name of the GPU at this device index
    gpu_name = torch.cuda.get_device_name(current_device)
    print(f"Current GPU: {gpu_name}")
else:
    print("No GPU available.")

from transformers import pipeline
from datasets import load_dataset
from utils.helper import calculate_metrics

print("Import Successfull!")

# Load dataset
dataset_name = "locchuong/llama-longquan-llm-japanese-dataset-split_10"
dataset = load_dataset(dataset_name)

# View available dataset splits
print("Available Splits:", dataset.keys())

# Load specific split (e.g., 'train') and inspect the first few rows
train_data = dataset["train"]

# Create pipeline
model_id = "meta-llama/Llama-3.2-1B-Instruct"

pipe = pipeline(
    "text-generation",
    model=model_id,
    device_map="auto",
)

print("Pipeline Created!")

# Select random sample
random_sample = train_data[random.choice(range(train_data.num_rows))]
tag = random_sample["tag"]
messages = random_sample["conversations"]
reference = messages[-1]['content']
messages = messages[:-1]
    
print("Reference: ",reference,"\n")

outputs = pipe(
    messages,
    max_new_tokens=128,
)

candidate = outputs[0]["generated_text"][-1]['content']

print("Model: ", candidate)

bert_score, bleu_2_score, bleu_4_score, rouge_2_score, rouge_l = calculate_metrics(reference, candidate)
print("BERT:", bert_score)
print("BLEU-2:", bleu_2_score)
print("BLEU-4:", bleu_4_score)
print("ROUGE-2:", rouge_2_score)
print("ROUGE-L:", rouge_l)

Current GPU: Tesla P40
Import Successfull!
Available Splits: dict_keys(['train'])


Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.


Pipeline Created!
Reference:  コロムビア・レコード（Columbia Records）は、アメリカのレコードレーベルの一つ。現在はソニーグループ完全子会社のソニー・ミュージックエンタテインメント米国法人（SMEI）の一部門となっている。 

Model:  コロムビア・レコード（Colombia Records）とは、米国で1950年代から1970年代にかけて活躍した、ラジオ・テープ・レーベルである。コロムビア・レコードは、多くのアーティストがレーベルからレコードやシングルをリリースした。

コロムビア・レコードは、1958年にラッパー・デイビッド・バラードが設立した。バラードは、1950年代後半から1960年代にかけて、コロム




BERT: 0.6925212740898132
BLEU-2: 0.328042328042328
BLEU-4: 0.21045793553487732
ROUGE-2: 0.1382978723404255
ROUGE-L: 0.19999999999999998
