In [1]:
pwd

'/home/dellaanima/edit_analysis'

In [8]:
import json
from transformers import AutoTokenizer

# Transformer 모델에서 사용할 tokenizer 로드
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

# JSON 파일 로드
file_path = "../KE_datasets/zsre_mend_train.json" 
with open(file_path, 'r') as file:
    data = json.load(file)



In [9]:

# 'answers'의 토큰 길이가 'alt'보다 긴 경우 계산
longer_answers_count = 0
total_samples = 0

for sample in data:
    alt_tokens = tokenizer(sample['alt'])['input_ids']
    answers_tokens = [tokenizer(answer)['input_ids'] for answer in sample['answers']]
    
    # 각 answer의 토큰 길이를 확인하고, alt 토큰 길이보다 긴 경우가 있는지 검사
    for tokens in answers_tokens:
        if len(tokens) > len(alt_tokens):
            longer_answers_count += 1
            break  # 최소 하나의 answer만 길면 샘플을 카운트하고 다음 샘플로 넘어갑니다.

    total_samples += 1

# 결과 출력
longer_ratio = longer_answers_count / total_samples if total_samples > 0 else 0
print(f"전체 샘플 수: {total_samples}")
print(f"Answers 토큰 길이가 Alt 토큰 길이보다 긴 샘플 수: {longer_answers_count}")
print(f"Answers 토큰 길이가 Alt 토큰 길이보다 긴 케이스의 비율: {longer_ratio:.2f}")

전체 샘플 수: 163196
Answers 토큰 길이가 Alt 토큰 길이보다 긴 샘플 수: 51584
Answers 토큰 길이가 Alt 토큰 길이보다 긴 케이스의 비율: 0.32


In [10]:

# 'alt'의 토큰 길이가 'answers'의 모든 토큰 길이보다 긴 경우 계산
longer_alt_count = 0
total_samples = 0

for sample in data:
    alt_tokens = tokenizer(sample['alt'])['input_ids']
    answers_tokens = [tokenizer(answer)['input_ids'] for answer in sample['answers']]
    
    # 모든 answers의 토큰 길이보다 alt의 토큰 길이가 길어야 카운트
    if all(len(alt_tokens) > len(tokens) for tokens in answers_tokens):
        longer_alt_count += 1

    total_samples += 1

# 결과 출력
longer_ratio = longer_alt_count / total_samples if total_samples > 0 else 0
print(f"전체 샘플 수: {total_samples}")
print(f"Alt 토큰 길이가 모든 Answers 토큰 길이보다 긴 샘플 수: {longer_alt_count}")
print(f"Alt 토큰 길이가 모든 Answers 토큰 길이보다 긴 케이스의 비율: {longer_ratio:.2f}")

전체 샘플 수: 163196
Alt 토큰 길이가 모든 Answers 토큰 길이보다 긴 샘플 수: 49380
Alt 토큰 길이가 모든 Answers 토큰 길이보다 긴 케이스의 비율: 0.30


In [12]:
import json
from transformers import AutoTokenizer

# Transformer 모델에서 사용할 tokenizer 로드
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

# JSON 파일 로드
file_path = "../KE_datasets/counterfact.json"  
with open(file_path, 'r') as file:
    data = json.load(file)



In [13]:
# 'target_true'의 토큰 길이가 'target_new'보다 긴 경우 계산
longer_true_count = 0
total_samples = 0

for item in data:
    target_new_tokens = tokenizer(item['requested_rewrite']['target_new']['str'])['input_ids']
    target_true_tokens = tokenizer(item['requested_rewrite']['target_true']['str'])['input_ids']

    if len(target_true_tokens) > len(target_new_tokens):
        longer_true_count += 1

    total_samples += 1

# 결과 출력
longer_ratio = longer_true_count / total_samples
print(f"전체 샘플 수: {total_samples}")
print(f"target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 수:  {longer_true_count}")
print(f"target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 비율: {longer_ratio:.2f}")


전체 샘플 수: 21919
target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 수:  5516
target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 비율: 0.25


In [18]:
# 'target_true'의 토큰 길이가 'target_new'보다 긴 경우 계산
longer_new_count = 0
total_samples = 0

for item in data:
    target_new_tokens = tokenizer(item['requested_rewrite']['target_new']['str'])['input_ids']
    target_true_tokens = tokenizer(item['requested_rewrite']['target_true']['str'])['input_ids']

    if len(target_true_tokens) < len(target_new_tokens):
        longer_new_count += 1

    total_samples += 1

# 결과 출력
longer_ratio = longer_new_count / total_samples
print(f"전체 샘플 수: {total_samples}")
print(f"target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 수:  {longer_new_count}")
print(f"target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 비율: {longer_ratio:.2f}")


전체 샘플 수: 21919
target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 수:  5562
target_true(answers) 의 토큰 길이가 target_new(alt) 토큰 길이보다 긴 샘플 비율: 0.25
