In [1]:
import json
import random
import pandas as pd
import matplotlib.pyplot as plt


from typing import List, Optional

In [2]:
doc_file = "../dataset/documents.jsonl"
eval_file = "../dataset/eval.jsonl"

# 분석에 사용할 함수들

In [3]:
def load_jsonl(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        return [json.loads(line) for line in f]


def select_doc_sample(doc_data: List, idx: Optional[int] = None):
    if idx is None:
        idx = random.randint(0, len(doc_data)-1)
    
    sample = doc_data[idx]
    print(f"docid : {sample['docid']}")
    print(f"src : {sample['src']}")
    print("content :")
    print("\n".join(sample['content'].split('. ')))


def select_eval_sample(eval_data: List, idx : Optional[int] = None):
    if idx is None:
        idx = random.randint(0, len(eval_data)-1)

    sample = eval_data[idx]
    print(f"eval_id : {sample['eval_id']}")
    print(f"msg :")

    for m in sample['msg']:
        print(f"  -{m['role']} : {m['content']}")

# Document 분석

```documents.jsonl```의 구조
- 4272개의 문서로 구성.
- docid : document id
- src : document의 출처
- content : 문서 내용

document는 질의가 들어왔을 때 적절한 내용을 찾아 반환하는 것이 주요 목적. ```query는 포함되어 있지 않다.```

In [4]:
documents_data = load_jsonl(doc_file)
print(len(documents_data))
print(documents_data[0].keys())

4272
dict_keys(['docid', 'src', 'content'])


In [5]:
select_doc_sample(documents_data)

docid : 4c7ecaa7-bd0e-44cc-b7cd-3aa9b47c8648
src : ko_mmlu__nutrition__test
content :
렙틴 분비를 저해하는 선천적 장애의 표현형은 다양합니다
그 중 일반적으로 나타나는 증상은 비만, 비정상 성장, 갑상선 기능 저하증, 과인슐린증입니다
이러한 표현형은 렙틴이 체내에서 충분히 분비되지 않거나 작용하지 않을 때 발생할 수 있습니다
비만은 체중이 과도하게 증가하는 것을 의미하며, 이는 렙틴의 신호를 제대로 받지 못해 식욕 조절이 어려워지기 때문입니다
비정상 성장은 성장 속도가 비정상적으로 빠르거나 느려지는 것을 의미하며, 이는 렙틴의 신호를 제대로 받지 못해 성장 호르몬의 분비가 어려워지기 때문입니다
갑상선 기능 저하증은 갑상선 호르몬의 분비가 부족하여 신진대사가 느려지는 것을 의미하며, 이는 렙틴의 신호를 제대로 받지 못해 갑상선 기능이 저하되기 때문입니다
과인슐린증은 인슐린의 분비가 과도하게 증가하는 것을 의미하며, 이는 렙틴의 신호를 제대로 받지 못해 인슐린의 분비가 조절되지 않기 때문입니다
이러한 표현형은 렙틴 분비를 저해하는 선천적 장애의 특징적인 증상으로 알려져 있습니다.


In [6]:
select_doc_sample(documents_data, 4)

docid : 74f22819-1a8e-4646-8a9d-13323de8cdb8
src : ko_ai2_arc__ARC_Challenge__validation
content :
비버는 나무를 베고, 덤불과 관목을 모아 강과 개울에 댐을 만드는 것으로 알려져 있습니다
이러한 댐은 비버의 서식지를 만들어주고 다양한 동물들에게도 이점을 제공합니다
그러나 최근에는 미국 내 비버 개체 수가 인간들에 의한 포획으로 인해 감소하고 있습니다
이러한 비버 개체 수의 감소는 생태학적 결과에 영향을 미칠 수 있습니다


가장 높은 가능성으로는 연못 서식지 수의 큰 감소가 있을 것입니다
비버는 댐을 만들어 물을 얕은 연못으로 변화시키는데, 이는 다양한 수생 생물들에게 중요한 서식지를 제공합니다
그러나 비버 개체 수의 감소로 인해 댐의 수가 줄어들게 되면 연못의 규모도 작아지게 됩니다
이는 다양한 수생 생물들에게 영향을 미칠 수 있으며, 서식지 수의 큰 감소로 이어질 수 있습니다.

따라서 비버 개체 수의 감소는 생태학적 결과로 연못 서식지 수의 큰 감소를 가져올 가능성이 가장 높습니다
이는 생태계의 균형을 깨뜨릴 수 있으며, 다양한 생물들에게 영향을 미칠 수 있습니다.


In [7]:
select_doc_sample(documents_data, 52)

docid : c58ab6ec-4b3c-4561-96e7-a32829096032
src : ko_ai2_arc__ARC_Challenge__test
content :
존은 한 시간 동안 시속 80킬로미터로 트럭을 운전했습니다
그 다음 시간에는 시속 100킬로미터로 운전했습니다
이렇게 두 시간 동안 그의 평균 속도를 계산해보면, (80 + 100) / 2 = 90킬로미터가 됩니다
따라서, 존의 평균 속도는 시속 90킬로미터입니다.


In [8]:
documents_df = pd.DataFrame(documents_data)

In [9]:
# 각 문서의 길이 (단어 수) 계산
documents_df['content_length'] = documents_df['content'].apply(lambda x: len(x.split()))

content_length_stats = documents_df['content_length'].describe()
print(f"문서 길이 분포 : \n{content_length_stats}")

문서 길이 분포 : 
count    4272.000000
mean       74.742509
std        25.024805
min         9.000000
25%        59.000000
50%        71.000000
75%        85.000000
max       315.000000
Name: content_length, dtype: float64


In [10]:
documents_df['cleaned_content'] = documents_df['content'].apply(lambda x: x.replace('\n', ' ').replace('\r', ' '))

In [11]:
print("-----원본-----")
print(documents_df.iloc[4]['content'])
print()

print("-----개행문자 제거-----")
print(documents_df.iloc[4]['cleaned_content'])

-----원본-----
비버는 나무를 베고, 덤불과 관목을 모아 강과 개울에 댐을 만드는 것으로 알려져 있습니다. 이러한 댐은 비버의 서식지를 만들어주고 다양한 동물들에게도 이점을 제공합니다. 그러나 최근에는 미국 내 비버 개체 수가 인간들에 의한 포획으로 인해 감소하고 있습니다. 이러한 비버 개체 수의 감소는 생태학적 결과에 영향을 미칠 수 있습니다. 

가장 높은 가능성으로는 연못 서식지 수의 큰 감소가 있을 것입니다. 비버는 댐을 만들어 물을 얕은 연못으로 변화시키는데, 이는 다양한 수생 생물들에게 중요한 서식지를 제공합니다. 그러나 비버 개체 수의 감소로 인해 댐의 수가 줄어들게 되면 연못의 규모도 작아지게 됩니다. 이는 다양한 수생 생물들에게 영향을 미칠 수 있으며, 서식지 수의 큰 감소로 이어질 수 있습니다.

따라서 비버 개체 수의 감소는 생태학적 결과로 연못 서식지 수의 큰 감소를 가져올 가능성이 가장 높습니다. 이는 생태계의 균형을 깨뜨릴 수 있으며, 다양한 생물들에게 영향을 미칠 수 있습니다.

-----개행문자 제거-----
비버는 나무를 베고, 덤불과 관목을 모아 강과 개울에 댐을 만드는 것으로 알려져 있습니다. 이러한 댐은 비버의 서식지를 만들어주고 다양한 동물들에게도 이점을 제공합니다. 그러나 최근에는 미국 내 비버 개체 수가 인간들에 의한 포획으로 인해 감소하고 있습니다. 이러한 비버 개체 수의 감소는 생태학적 결과에 영향을 미칠 수 있습니다.   가장 높은 가능성으로는 연못 서식지 수의 큰 감소가 있을 것입니다. 비버는 댐을 만들어 물을 얕은 연못으로 변화시키는데, 이는 다양한 수생 생물들에게 중요한 서식지를 제공합니다. 그러나 비버 개체 수의 감소로 인해 댐의 수가 줄어들게 되면 연못의 규모도 작아지게 됩니다. 이는 다양한 수생 생물들에게 영향을 미칠 수 있으며, 서식지 수의 큰 감소로 이어질 수 있습니다.  따라서 비버 개체 수의 감소는 생태학적 결과로 연못 서식지 수의 큰 감소를 가져올 가능성이 가장 높습니다. 이는 생태계의 

In [12]:
documents_df.to_csv("../dataset/documents.csv", index=False)

# Eval 분석

```eval.jsonl```의 구조

- eval_idx : query id
- msg : query(user와 assistant간 대화 메시지)

20개의 멀티턴 대화, 20개의 과학 상식 이외 일상 대화 포함.

In [13]:
eval_data = load_jsonl(eval_file)
print(len(eval_data))
print(eval_data[0].keys())

220
dict_keys(['eval_id', 'msg'])


In [14]:
select_eval_sample(eval_data)

eval_id : 240
msg :
  -user : 글루텐이 에너지 흡수에 미치는 영향은?


In [15]:
select_eval_sample(eval_data, 2)

eval_id : 107
msg :
  -user : 기억 상실증 걸리면 너무 무섭겠다.
  -assistant : 네 맞습니다.
  -user : 어떤 원인 때문에 발생하는지 궁금해.
