# 02 Data Loading
KLUE-NLI task 중 hugging face 에서 Data set 을 가져오는 방법에 대해 다룹니다.

---

## Data Download
hugging face 의 `Datasets` 라이브러리를 사용하여 데이터를 불러옵니다. load_dataset 매서드를 이용합니다.

In [6]:
from datasets import load_dataset
dataset = load_dataset('klue', task) # klue 의 task=nil 을 load
dataset # dataset 구조 확인

Downloading:   0%|          | 0.00/5.19k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/2.93k [00:00<?, ?B/s]

Downloading and preparing dataset klue/nli (download: 1.20 MiB, generated: 6.10 MiB, post-processed: Unknown size, total: 7.30 MiB) to /root/.cache/huggingface/datasets/klue/nli/1.0.0/55ff8f92b7a4b9842be6514ce0b4b5295b46d5e493f8bb5760da4be717018f90...


Downloading:   0%|          | 0.00/1.26M [00:00<?, ?B/s]

0 examples [00:00, ? examples/s]

0 examples [00:00, ? examples/s]

Dataset klue downloaded and prepared to /root/.cache/huggingface/datasets/klue/nli/1.0.0/55ff8f92b7a4b9842be6514ce0b4b5295b46d5e493f8bb5760da4be717018f90. Subsequent calls will reuse this data.


DatasetDict({
    train: Dataset({
        features: ['guid', 'source', 'premise', 'hypothesis', 'label'],
        num_rows: 24998
    })
    validation: Dataset({
        features: ['guid', 'source', 'premise', 'hypothesis', 'label'],
        num_rows: 3000
    })
})

## Data view

dataset 는 train 셋과 validation 으로 구성되어 있습니다.

각각의 set의 구조를 데이터 샘플을 통해 살펴보겠습니다.

In [7]:
dataset['train'][0]

{'guid': 'klue-nli-v1_train_00000',
 'hypothesis': '힛걸 진심 최고로 멋지다.',
 'label': 0,
 'premise': '힛걸 진심 최고다 그 어떤 히어로보다 멋지다',
 'source': 'NSMC'}

klue 의 nli task dataset 구조는 다음과 같습니다. 자세한 내용은 klue 공식 페이지 [링크](https://github.com/KLUE-benchmark/KLUE/wiki/KLUE-NLI-dataset-description)를 참조바랍니다.
  1. 'guid' : index, 고유 식별자
  2. 'hypothesis': 가설 문장
  3. 'label': 라벨 (gold label 을 의미)
  4. 'premise': 전제 문장
  5. 'source': 문장 출처

각 column 구성을 임의의 샘플을 추출하여 살펴보겠습니다.

In [9]:
import datasets
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, datasets.ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

show_random_elements(dataset["train"])

Unnamed: 0,guid,source,premise,hypothesis,label
0,klue-nli-v1_train_23471,policy,"한국판 뉴딜의 두 번째 축으로, 지속 가능한 성장의 길을 열어갈 그린 뉴딜에 1조 4천억원을 반영하였습니다.",그린 뉴딜에 반영된 금액이 디지털 뉴딜에 반영된 금액보다 많습니다.,neutral
1,klue-nli-v1_train_05141,wikinews,뉴스레터의 브랜디드 콘텐츠는 독자에게 유용한 정보를 제공하기도 하지만 상품 등을 소비자에 알리고 있기도 하다.,뉴스레터의 브랜디드 콘텐츠는 독자에게 유용한 정보를 제공하기도 하고 소비자에게 광고도 하고 있다.,entailment
2,klue-nli-v1_train_06760,policy,또 해수욕장이 위치한 보길도는 다수의 유적지가 있으며 그중 윤선도의 유적지인 세연정은 고즈넉한 분위기로 차분한 여행이 가능하다.,보길도에는 해수욕장이 없다.,contradiction
3,klue-nli-v1_train_00279,wikipedia,"1994년 12월 7일 서울 명동, 그해 마지막 시위에서 나눔의 집 할머니들은 위안부 문제 처리 없는 일본의 유엔 가입을 반대하는 주제로 시위를 한다.",1994년 12월 7일 서울 명동에서는 그해 첫 시위가 시작된다.,contradiction
4,klue-nli-v1_train_15022,airbnb,위치가 진짜 뉴욕 여행하기에 너무 좋았습니다.,뉴욕 여행하기에 편리한 위치입니다.,entailment
5,klue-nli-v1_train_24613,airbnb,호스트의 친절과 숙소 퀄리티가 너무 좋았어요,호스트가 불친절했어요.,contradiction
6,klue-nli-v1_train_14770,wikitree,"우선, 이장에 대해서는 활동수당 이외에 2년에 1번씩 건강검진비용과 매월 통신요금의 일부를 지원하고, 독감예방접종, 업무수첩 등도 지원하다.",이장은 통신요금의 20%를 지원받는다.,neutral
7,klue-nli-v1_train_01370,wikipedia,강민주는 대학원에서 심리학을 전공한 후 여성 문제상담소에서 연구원으로 일한다.,강민주는 가족 문제상담소에서 연구원으로 일한다.,contradiction
8,klue-nli-v1_train_09385,wikitree,보험료를 이중으로 내거나 액수 등을 착오해 납부하는 경우다.,보험료를 이중으로 낼 경우 차후에 초과분을 돌려 받을 수 있다.,neutral
9,klue-nli-v1_train_17287,policy,"이와 같은 거대자료가 축적되면 인공지능을 활용, 댐의 이상유무를 점검할 수 있다.",축적된 거대자료는 댐을 확인하는데 방해된다.,contradiction


NLI task 의 목적은 `premise`와 `hypothesis`문장 간 관계를 판단하는 것 입니다. 따라서 input 값은 `premise`, `hypothesis` 이며, label 이 y 값으로 사용됩니다.

다음은 데이터 전처리 과정을 살펴보겠습니다.

----