로컬 데이터셋 로딩하기

In [3]:
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
!wget https://github.com/crux82/squad-it/raw/master/SQuAD_it-test.json.gz
!gzip -dkv SQuAD_it*.json.gz

--2023-05-25 16:15:01--  https://github.com/crux82/squad-it/raw/master/SQuAD_it-train.json.gz
Resolving github.com (github.com)... 20.200.245.247
Connecting to github.com (github.com)|20.200.245.247|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/crux82/squad-it/master/SQuAD_it-train.json.gz [following]
--2023-05-25 16:15:02--  https://raw.githubusercontent.com/crux82/squad-it/master/SQuAD_it-train.json.gz
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 7725286 (7.4M) [application/octet-stream]
Saving to: ‘SQuAD_it-train.json.gz’


2023-05-25 16:15:03 (19.4 MB/s) - ‘SQuAD_it-train.json.gz’ saved [7725286/7725286]

--2023-05-25 16:15:03--  https://github.com/crux82/squad-it/raw/master/SQuAD_it-t

In [4]:
# load_dataset() 함수를 사용하여 JSON 파일을 로드하려면 일반적인 JSON 형식(파이썬의 
# 중첩 딕셔너리와 유사)인지 JSON Lines(줄로 구분된 JSON)인지 알아야 함
# SQuAD-it는 하나의 data 필드에 모든 텍스트가 저장된 중첩 형식(nested format)을 사용함
# 이는 field 매개변수를 지정하여 데이터셋을 로드할 수 있음
from datasets import load_dataset
squad_it_dataset = load_dataset('json', data_files='SQuAD_it-train.json', field='data')

# 로컬 파일을 로드하면 학습 분할(train split)된 DatasetDict 개체 생성됨
# 학습 분할에 존재하는 데이터의 행의 수(num_rows)와 열의 이름(features)이 출력됨
print(squad_it_dataset)

# 학습 분할(train split) 인덱싱 후 내용 확인 가능
print(squad_it_dataset["train"][2])

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-14841bacf120a6eb/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-14841bacf120a6eb/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 442
    })
})
{'paragraphs': [{'context': 'La frase "51° stato" può essere usata in senso positivo, nel senso che una regione o territorio è così allineata, solidale e favorevole agli Stati Uniti che è come uno stato americano. Può anche essere utilizzato in senso peggiorativo, il che significa che un\' area o una regione è percepita come sottoposta a un\' eccessiva influenza o controllo militare o culturale americano. In vari paesi del mondo, le persone che credono che la loro cultura locale o nazionale sia troppo americanizzata usano talvolta il termine "51° stato" in riferimento al proprio paese. eccessiva influenza o controllo culturale o militare americano eccessivo.', 'qas': [{'answers': [{'answer_start': 71, 'text': 'una regione o territorio è così allineata, solidale e favorevole agli Stati Uniti'}], 'id': '572eedffc246551400ce47bc', 'question': 'Qual è la connotazione positiva dell\

In [5]:
# 단일 DatasetDict 객체에 학습과 테스트 분할을 포함시켜 한꺼번에 두 집합에 
# Dataset.map() 함수를 적용하는 방법.
# data_files에 각 split name을 해당 집합 파일명에 매핑하는 딕셔너리 지정
data_files = {"train": "SQuAD_it-train.json", "test": "SQuAD_it-test.json"}
squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
squad_it_dataset

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-0988dc9a9cdcf355/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-0988dc9a9cdcf355/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

DatasetDict({
    train: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 442
    })
    test: Dataset({
        features: ['paragraphs', 'title'],
        num_rows: 48
    })
})

In [6]:
# 입력 파일의 압축 해제를 자동 지원.
# 자동 압축 해제는 ZIP 및 TAR과 같은 다른 압축 형식에도 적용됨
data_files = {'train': 'SQuAD_it-train.json.gz', 'test': 'SQuAD_it-test.json.gz'}
squad_it_dataset = load_dataset('json', data_files=data_files, field='data')

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-034c4ba1fcfd5f33/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-034c4ba1fcfd5f33/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

원격 데이터셋 로딩하기

In [7]:
# GitHub에서 호스팅되는 SQuAD-it 데이터셋의 경우 data_files 매개변수에 
# SQuAD_it-*.json.gz URL을 지정할 수 있음
url = "https://github.com/crux82/squad-it/raw/master/"
data_files = {'train': url + 'SQuAD_it-test.json.gz', 
              'test': url + 'SQuAD_it-test.json.gz'}

# gz파일을 수동으로 다운로드하고 압축을 해제하는 단계를 생략할 수 있음
squad_it_dataset = load_dataset('json', data_files=data_files, field='data')

Found cached dataset json (/root/.cache/huggingface/datasets/json/default-bf56bcbccfaf6dd0/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


  0%|          | 0/2 [00:00<?, ?it/s]

데이터셋 슬라이싱(slicing)과 다이싱(dicing)

In [10]:
# UC Irvine Machine Learning Repository의 Drug Review Dataset 다운로드
# 다양한 약물에 대한 환자 리뷰, 치료 상태 및 환자 만족도에 대한 별 10개 등급 포함

!wget "https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip"
!unzip drugsCom_raw.zip

--2023-05-25 16:18:10--  https://archive.ics.uci.edu/ml/machine-learning-databases/00462/drugsCom_raw.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 42989872 (41M) [application/x-httpd-php]
Saving to: ‘drugsCom_raw.zip’


2023-05-25 16:18:16 (8.59 MB/s) - ‘drugsCom_raw.zip’ saved [42989872/42989872]

Archive:  drugsCom_raw.zip
  inflating: drugsComTest_raw.tsv    
  inflating: drugsComTrain_raw.tsv   


In [11]:
# TSV는 구분 기호로 쉼표 대신 탭을 사용하는 CSV의 변형.
# load_dataset() 함수에 구분 기호 매개변수(delimiter)를 지정
from datasets import load_dataset
data_files = {'train': 'drugsComTrain_raw.tsv', 'test': 'drugsComTest_raw.tsv'}
drug_dataset = load_dataset('csv', data_files=data_files, delimiter='\t')

# 일부 무작위 샘플 확인.
# Datasets에서 shuffle(), select()를 chaining하여 무작위 샘플을 가져올 수 있음
drug_sample = drug_dataset['train'].shuffle(seed=42).select(range(1000))
drug_sample[:3]

Found cached dataset csv (/root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1)


  0%|          | 0/2 [00:00<?, ?it/s]

Loading cached shuffled indices for dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-fb0a619296aeebea.arrow


{'Unnamed: 0': [87571, 178045, 80482],
 'drugName': ['Naproxen', 'Duloxetine', 'Mobic'],
 'condition': ['Gout, Acute', 'ibromyalgia', 'Inflammatory Conditions'],
 'review': ['"like the previous person mention, I&#039;m a strong believer of aleve, it works faster for my gout than the prescription meds I take. No more going to the doctor for refills.....Aleve works!"',
  '"I have taken Cymbalta for about a year and a half for fibromyalgia pain. It is great\r\nas a pain reducer and an anti-depressant, however, the side effects outweighed \r\nany benefit I got from it. I had trouble with restlessness, being tired constantly,\r\ndizziness, dry mouth, numbness and tingling in my feet, and horrible sweating. I am\r\nbeing weaned off of it now. Went from 60 mg to 30mg and now to 15 mg. I will be\r\noff completely in about a week. The fibro pain is coming back, but I would rather deal with it than the side effects."',
  '"I have been taking Mobic for over a year with no side effects other than 

- 재현성(reproducibility)을 위해 Dataset.shuffle()의 seed를 고정
- Dataset.select()는 반복 가능 인덱스(iterable indices)를 입력해야 하므로 range(1000)을 전달
- 해당 데이터 셋의 단점
  - "Unnamed: 0" 컬럼(column)은 확실하지는 않지만 각 환자의 익명 ID(anonymized ID)처럼 보임
  - "condition" 컬럼(column)에는 대문자와 소문자 레이블이 혼합되어 있음
  - review의 길이는 다양하며 줄 구분 기호(\r\n)와 '와 같은 HTML 문자 코드 혼합되어 있음

In [12]:
# "Unnamed: 0" 컬럼이 환자의 식별자(anonymous ID)라는 가정이 맞는지 테스트하기 위해 
# Dataset.unique() 함수를 사용하여 ID의 개수가 해당 데이터셋 분할들(splits)의 행(row)의 
# 수와 일치하는지 확인
for split in drug_dataset.keys():
    assert len(drug_dataset[split]) == len(drug_dataset[split].unique('Unnamed: 0'))
    
# 데이터셋 정제

# 컬럼명 변경
drug_dataset = drug_dataset.rename_column(
    original_column_name='Unnamed: 0', new_column_name='patient_id')
print(drug_dataset)

# map()을 사용하여 모든 condition 레이블 정규화.
# 각 split의 모든 행에 적용하기 위한 method 추가
def lowercase_condition(example):
    return {'condition': example['condition'].lower()}

# condition 컬럼의 일부 항목에 None이 포함되어 error 발생함.
# drug_dataset.map(lowercase_condition)

# lambda 함수를 이용하여 map, filter 작업을 정의할 수 있음. None 항목 제거.
drug_dataset = drug_dataset.filter(lambda x: x['condition'] is not None)

# 다시 정규화
drug_dataset = drug_dataset.map(lowercase_condition)
drug_dataset['train']['condition'][:3]


Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-fa448e2786d6c2e4.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-766f35b7c3c7bd97.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-139a90e0e05c004d.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-3e4fe24a3a4d26cb.arrow


DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount'],
        num_rows: 161297
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount'],
        num_rows: 53766
    })
})


['left ventricular dysfunction', 'adhd', 'birth control']

새로운 컬럼(column) 만들기  
- 고객 리뷰를 다룰 때마다 각 리뷰의 단어 수를 확인하는 것이 좋음
  - 리뷰는 "Great!"와 같은 한 단어이거나 수천 개의 단어로 구성된 에세이(full-blown essays)로 작성되었을 수도 있음
  - 사용 사례에 따라 다르게 처리해야 함
  - 각 리뷰의 단어 수를 계산하기 위해 각 텍스트를 공백(whitespace)으로 나누는 대략적인 휴리스틱(heuristics)을 사용함

In [13]:
# 리뷰의 단어 수를 계산하는 함수
# 데이터셋의 column 이름과 다른 새로운 키(review_length)를 가진 딕셔너리 반환.
# Dataset.map()에 전달되면 모든 행에 적용되어 review_length 열을 생성함
def compute_review_length(example):
    return {'review_length': len(example['review'].split())}

drug_dataset = drug_dataset.map(compute_review_length)
print(drug_dataset['train'][0])

# sort()를 사용하여 extreme value(극단값) 확인
print(drug_dataset['train'].sort('review_length')[:3])

# 데이터셋에 새 열을 추가하는 다른 방법 : Dataset.add_column()
# 추가하고자 하는 column을 Python 리스트 또는 NumPy 배열로 제공함

# 30단어 미만으로 표현된 리뷰 제거
drug_dataset = drug_dataset.filter(lambda x: x['review_length'] > 30)
print(drug_dataset.num_rows) # 약 15% 제거

# html 문자가 있을 경우 이스케이프 해제(unescape)
# text = 'I&#039;m a transformer called BERT'
# print(html.unescape(text)) # I'm a transformer called BERT

import html
drug_dataset = drug_dataset.map(lambda x: {'review': html.unescape(x['review'])})

Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-bc288479d484fae4.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-eed5181860f66e0e.arrow
Loading cached sorted indices for dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-d1654f972aa506ef.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-36b53cb25f995a80.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-322cf1e6ad76d5dd.ar

{'patient_id': 206461, 'drugName': 'Valsartan', 'condition': 'left ventricular dysfunction', 'review': '"It has no side effect, I take it in combination of Bystolic 5 Mg and Fish Oil"', 'rating': 9.0, 'date': 'May 20, 2012', 'usefulCount': 27, 'review_length': 17}
{'patient_id': [111469, 13653, 53602], 'drugName': ['Ledipasvir / sofosbuvir', 'Amphetamine / dextroamphetamine', 'Alesse'], 'condition': ['hepatitis c', 'adhd', 'birth control'], 'review': ['"Headache"', '"Great"', '"Awesome"'], 'rating': [10.0, 10.0, 10.0], 'date': ['February 3, 2015', 'October 20, 2009', 'November 23, 2015'], 'usefulCount': [41, 3, 0], 'review_length': [1, 1, 1]}
{'train': 138514, 'test': 46108}


map() 메서드  
- Dataset.map()의 batched가 True로 설정되면 호출되는 순간마다 여러 개로 구성된 하나의 배치(batch)가 한번에 map 함수에 입력됨
- 배치 크기(batch size)는 별도 설정 가능. 디폴트값은 1000
  - 예를 들어 모든 HTML 특수문자를 unescape하기 위해서 위에서 실행한 map 함수는 실행 속도가 느림
  - list comprehension을 사용하여 동시에 처리할 수 있음
- batched=True를 지정하면 함수는 데이터 집합의 필드가 포함된 딕셔너리를 받지만 각 값은 이제 단일 값이 아닌 값 목록이 됨
- Dataset.map()의 반환 값은 데이터 집합에 업데이트하거나 추가하려는 필드가 포함된 딕셔너리와 값 목록으로 동일해야 함

In [14]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')

def tokenize_function(examples):
    return tokenizer(examples['review'], truncation=True)

In [15]:
# batched=True를 사용하여 HTML 문자의 이스케이프를 해제하는 방법
new_drug_dataset = drug_dataset.map(
    lambda x: {'review': [html.unescape(o) for o in x['review']]}, batched=True)

Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-ca6c8382d8aa8f20.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-f80ef624e5b4a328.arrow


In [16]:
# Dataset.map()의 자체 병렬화 기능
from transformers import AutoTokenizer
slow_tokenizer = AutoTokenizer.from_pretrained(
    'bert-base-cased', use_fast=False)

def slow_tokenize_function(examples):
    return slow_tokenizer(examples['review'], truncation=True)

# num_proc 값을 조정한다고 무조건 성능이 향상되는 것은 아님.
# num_proc을 사용하여 처리 속도를 높이는 것은 일반적으로 사용 중인 함수가 자체적으로 
# 다중 처리를 수행하지 않는 경우에만 좋은 아이디어라고 볼 수 있음.
%time tokenized_dataset = drug_dataset.map(slow_tokenize_function, batched=True, num_proc=8)

Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-e1bf23110c3010de_*_of_00008.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-9e68e02afcba4f9c_*_of_00008.arrow


CPU times: user 751 ms, sys: 31 ms, total: 782 ms
Wall time: 780 ms


- 일반적으로 기계 학습에서 하나의 example은 모델에 제공하는 feature의 집합으로 정의됨
- 특정 상황에서 이러한 feature는 Dataset 내의 column 집합으로 표현되지만, 다른 맥락에서는 여러 개의 feature가 하나의 단일 example에서 추출되어 단일 column에 속하는 경우도 있음

In [17]:
# examples을 토큰화하고 최대 길이 128로 자름

# return_overflowing_tokens=True로 지정함으로써 토크나이저에게 전체 review의 앞부분에 있는 
# 128개의 토큰으로 구성된 청크(chunk)가 아니라 모든 청크(chunk)를 반환하도록 요청함
def tokenize_and_split(examples):
    return tokenizer(examples['review'], truncation=True, 
                     max_length=128, return_overflowing_tokens=True,)
    
# 전체 데이터셋에 대해서 Dataset.map()을 사용하기 전에 테스트
result = tokenize_and_split(drug_dataset['train'][0])
[len(inp) for inp in result['input_ids']]
print(result['input_ids'])

[[101, 107, 1422, 1488, 1110, 9079, 1194, 1117, 2223, 1989, 1104, 1130, 19972, 11083, 119, 1284, 1245, 4264, 1165, 1119, 1310, 1142, 1314, 1989, 117, 1165, 1119, 1408, 1781, 1103, 2439, 13753, 1119, 1209, 1129, 1113, 119, 1370, 1160, 1552, 117, 1119, 1180, 6374, 1243, 1149, 1104, 1908, 117, 1108, 1304, 172, 14687, 1183, 117, 1105, 7362, 1111, 2212, 129, 2005, 1113, 170, 2797, 1313, 1121, 1278, 12020, 113, 1304, 5283, 1111, 1140, 119, 114, 146, 1270, 1117, 3995, 1113, 6356, 2106, 1105, 1131, 1163, 1106, 6166, 1122, 1149, 170, 1374, 1552, 119, 3969, 1293, 1119, 1225, 1120, 1278, 117, 1105, 1114, 2033, 1146, 1107, 1103, 2106, 119, 1109, 1314, 1160, 1552, 1138, 1151, 2463, 1714, 119, 1124, 1110, 150, 21986, 3048, 1167, 5340, 1895, 1190, 1518, 102], [101, 119, 1124, 1110, 1750, 6438, 113, 170, 1363, 1645, 114, 117, 1750, 172, 14687, 1183, 119, 1124, 1110, 11566, 1155, 1103, 1614, 1119, 1431, 119, 8007, 1117, 4658, 1110, 1618, 119, 1284, 1138, 1793, 1242, 1472, 23897, 1105, 1177, 1677, 1142,

In [18]:
# 학습집합의 첫 번째 example는 우리가 지정한 최대 토큰 수(128)보다 많이 토큰화되었기 
# 때문에 두 가지 feature로 구성됨.
# 첫번째 feature의 길이는 128이고 두번째 feature의 길이는 49.

# error 발생
# tokenized_dataset = drug_dataset.map(tokenize_and_split, batched=True)

- 오류가 발생한 이유는 컬럼(column) 중 하나의 개수에 불일치가 있음
  - 하나는 개수가 1,463이고 다른 하나는 길이가 1,000
  - Dataset.map()을 보면 이 1000은 매핑하는 함수(tokenize_and_split)에 전달된 총 샘플 개수
  - 1,000개의 예제가 입력되어 1,463개의 새로운 feature들을 출력하므로 shape error가 발생함
- 문제는 크기가 다른 두 개의 서로 다른 데이터셋을 혼합하려고 한다는 것
- 이 오류에서 drug_dataset 열에는 1,000개의 예제가 있으나 새롭게 구성하려는 tokenized_dataset에는 그보다 많은 수의 예제(1,463)가 있음 Dataset 객체로서는 제대로 작동할 수가 없음
- 이전 데이터셋의 열을 제거하거나 새로운 데이터셋과 동일한 크기로 만들어야 함

In [19]:
# remove_columns 매개변수 지정
tokenized_dataset = drug_dataset.map(
    tokenize_and_split, batched=True, remove_columns=drug_dataset["train"].column_names)

Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-b54bd56e181254fb.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-af604e755f8ddb54.arrow


In [20]:
# 길이를 비교하여 새 데이터셋에 원래 데이터셋보다 많은 요소가 있는지 확인
len(tokenized_dataset["train"]), len(drug_dataset["train"])

(206772, 138514)

- return_overflowing_tokens=True를 설정할 때 토크나이저가 반환하는 overflow_to_sample_mapping 필드가 필요함
- 이는 우리에게 새로운 feature 인덱스에서 그것이 시작된 샘플의 인덱스로의 매핑을 제공
- 이를 사용하여 새로운 feature를 생성하는 횟수만큼 각 예제의 값을 반복하여 원본 데이터셋에 있는 각 키를 올바른 크기의 값 목록과 연결할 수 있음

In [21]:
def tokenize_and_split(examples):
    result = tokenizer(examples['review'], truncation=True, max_length=128,
                       return_overflowing_tokens=True)
    # 신규 인덱스와 이전 인덱스와의 매핑 추출
    sample_map = result.pop('overflow_to_sample_mapping')
    for key, values in examples.items():
        result[key] = [values[i] for i in sample_map]
    return result

tokenized_dataset = drug_dataset.map(tokenize_and_split, batched=True)
print(tokenized_dataset)

Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-4035e7bd8eacd829.arrow
Loading cached processed dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-45268106c7197148.arrow


DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 206772
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 68876
    })
})


In [22]:
# 서드 파티 라이브러리 간 변환을 위해 Dataset.set_format() 함수 제공
drug_dataset.set_format("pandas")

# DataFrame 사용
print(drug_dataset["train"][:3])
train_df = drug_dataset["train"][:]

frequencies = (
    train_df["condition"].value_counts().to_frame().reset_index().rename(
        columns={"index": "condition", "condition": "frequency"}))
print(frequencies.head())

# from_pandas() 함수를 사용하여 Dataset 객체 생성
from datasets import Dataset
freq_dataset = Dataset.from_pandas(frequencies)
print(freq_dataset)

drug_dataset.reset_format()

   patient_id    drugName      condition  \
0       95260  Guanfacine           adhd   
1       92703      Lybrel  birth control   
2      138000  Ortho Evra  birth control   

                                              review  rating  \
0  "My son is halfway through his fourth week of ...     8.0   
1  "I used to take another oral contraceptive, wh...     5.0   
2  "This is my first time using any form of birth...     8.0   

                date  usefulCount  review_length  
0     April 27, 2010          192            141  
1  December 14, 2009           17            134  
2   November 3, 2015           10             89  
       condition  frequency
0  birth control      27655
1     depression       8023
2           acne       5209
3        anxiety       4991
4           pain       4744
Dataset({
    features: ['condition', 'frequency'],
    num_rows: 819
})


- 내부적으로 Dataset.set_format()은 데이터셋의 __getitem__() 던더(dunder, double under) 메서드에 대한 반환 형식을 변경함
- pandas 형식의 Dataset에서 train_df와 같은 새 객체를 생성하려는 경우 pandas.DataFrame을 얻기 위해 전체 데이터셋을 슬라이싱(slicing)해야 함을 의미함
- 출력 형식에 관계없이 drug_dataset["train"]의 유형이 Dataset임을 직접 확인할 수 있음

검증 집합(validation set) 생성  
- Datasets는 scikit-learn의 유명한 기능을 기반으로 하는 Dataset.train_test_split() 함수를 제공함
- 이를 사용하여 학습 집합을 학습 및 검증 집합으로 분할함

In [23]:
drug_dataset_clean = drug_dataset["train"].train_test_split(train_size=0.8, seed=42)
# 기본 test split을 validation으로 변경
drug_dataset_clean["validation"] = drug_dataset_clean.pop("test")
# test 추가
drug_dataset_clean["test"] = drug_dataset["test"]
print(drug_dataset_clean)

# 데이터셋을 Arrow 형식으로 저장
drug_dataset_clean.save_to_disk("drug-reviews")

from datasets import load_from_disk

# arrow 형식 파일 로드
drug_dataset_reloaded = load_from_disk("drug-reviews")
print(drug_dataset_reloaded)

# CSV 및 JSON 형식은 별도 파일로 저장해야 함
for split, dataset in drug_dataset_clean.items():
    dataset.to_json(f"drug-reviews-{split}.jsonl")

# JSON Lines 형식으로 저장
# !head -n 1 drug-reviews-train.jsonl

# JSON 파일 로드
data_files = {
    "train": "drug-reviews-train.jsonl",
    "validation": "drug-reviews-validation.jsonl",
    "test": "drug-reviews-test.jsonl",
}
drug_dataset_reloaded = load_dataset("json", data_files=data_files)

Loading cached split indices for dataset at /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-7cc7de6b96cc4523.arrow and /root/.cache/huggingface/datasets/csv/default-774518853761a459/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1/cache-c70faff307fa6037.arrow


DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 110811
    })
    validation: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 27703
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 46108
    })
})


Saving the dataset (0/1 shards):   0%|          | 0/110811 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/27703 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/46108 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 110811
    })
    validation: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 27703
    })
    test: Dataset({
        features: ['patient_id', 'drugName', 'condition', 'review', 'rating', 'date', 'usefulCount', 'review_length'],
        num_rows: 46108
    })
})


Creating json from Arrow format:   0%|          | 0/111 [00:00<?, ?ba/s]

Creating json from Arrow format:   0%|          | 0/28 [00:00<?, ?ba/s]

Creating json from Arrow format:   0%|          | 0/47 [00:00<?, ?ba/s]

Downloading and preparing dataset json/default to /root/.cache/huggingface/datasets/json/default-48fde84539a3dc73/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/3 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /root/.cache/huggingface/datasets/json/default-48fde84539a3dc73/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

FAISS를 이용한 시맨틱 검색  
- 시맨틱 검색을 위한 임베딩 사용하기
  - 개별 임베딩을 pooling하여 전체 문장, 단락 또는 문서에 대한 벡터 표현을 생성할 수 있음
  - 이런 임베딩을 사용하여 각 임베딩 사이의 내적 유사도 또는 다른 유사도 메트릭(similarity metric)을 계산하고 가장 많이 겹치는 문서를 반환하여 코퍼스에서 유사 문서 검색을 수행할 수 있음

In [24]:
# 데이터셋 로딩 및 준비 작업
from huggingface_hub import hf_hub_url

data_files = hf_hub_url(
    repo_id="spasis/datasets-github-issues",
    filename="datasets-issues-with-comments.jsonl",
    repo_type="dataset",)

from datasets import load_dataset
issues_dataset = load_dataset('json', data_files=data_files, split='train')
print(issues_dataset)

Found cached dataset json (/root/.cache/huggingface/datasets/json/default-eaac67148cd5cd4f/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4)


Dataset({
    features: ['url', 'repository_url', 'labels_url', 'comments_url', 'events_url', 'html_url', 'id', 'node_id', 'number', 'title', 'user', 'labels', 'state', 'locked', 'assignee', 'assignees', 'milestone', 'comments', 'created_at', 'updated_at', 'closed_at', 'author_association', 'active_lock_reason', 'draft', 'pull_request', 'body', 'reactions', 'timeline_url', 'performed_via_github_app', 'is_pull_request'],
    num_rows: 3651
})


- 첫 번째는 pull requests를 필터링하는 것
- Pull requests는 사용자 query에 응답하는데 거의 사용되지 않고 검색 엔진에 노이즈를 발생시키기 때문
- Dataset.filter() 함수를 사용하여 데이터셋에서 이런 row을 제거할 수 있음
  - 사용자 쿼리에 대한 답변을 제공할 수 없는 주석이 없는 행들도 필터링

In [25]:
issues_dataset = issues_dataset.filter(
    lambda x: (x['is_pull_request'] == False and len(x['comments']) > 0))
print(issues_dataset)

# 데이터셋에 많은 columns 이 있고 이들 대부분은 검색 대상이 아님
# 검색 관점에서 가장 유익한 열은 title, body 및 comments 이며, 
# html_url은 소스 문제에 대한 링크 제공
# Dataset.remove_columns()를 사용하여 나머지 열을 삭제
columns = issues_dataset.column_names
columns_to_keep = ['title', 'body', 'html_url', 'comments']
columns_to_remove = set(columns_to_keep).symmetric_difference(columns)
issues_dataset = issues_dataset.remove_columns(columns_to_remove)
print(issues_dataset)

Loading cached processed dataset at /root/.cache/huggingface/datasets/json/default-eaac67148cd5cd4f/0.0.0/e347ab1c932092252e717ff3f949105a4dd28b27e842dd53157d2f72e276c2e4/cache-045281b01ed96bfe.arrow


Dataset({
    features: ['url', 'repository_url', 'labels_url', 'comments_url', 'events_url', 'html_url', 'id', 'node_id', 'number', 'title', 'user', 'labels', 'state', 'locked', 'assignee', 'assignees', 'milestone', 'comments', 'created_at', 'updated_at', 'closed_at', 'author_association', 'active_lock_reason', 'draft', 'pull_request', 'body', 'reactions', 'timeline_url', 'performed_via_github_app', 'is_pull_request'],
    num_rows: 997
})
Dataset({
    features: ['html_url', 'title', 'comments', 'body'],
    num_rows: 997
})


- 임베딩을 생성하기 위해 각 이슈의 comments에 해당 이슈의 title과 body 내용을 추가
  - 이러한 필드들에는 종종 유용한 컨텍스트 정보가 포함되기 때문
  - 현재 데이터셋의 comments 열(column)은 현재 각 이슈에 대한 여러 개의 comments 리스트이므로 각 행이 (html_url, title, body, comment) 튜플로 구성되도록 해당 열을 분해해야 함
  - explode : 단일 행의 특정 필드가 여러 항목을 포함하는 경우 여러 개의 행으로 확장하는 기법
- DataFrame.explode() 함수는 리스트 형태로 구성된 열(list-like column)의 각 요소에 대해 새로운 행을 생성하고 해당 열이 아닌 다른 모든 열 값을 최초 행의 값으로 복제함

In [26]:
issues_dataset.set_format('pandas')
df = issues_dataset[:]

# 5번째 행은 해당 이슈와 관련된 4개의 comments가 있음
print(len(df['comments'][5].tolist()))

comments_df = df.explode('comments', ignore_index=True)
# 개별 comment가 포함된 comments열과 함께 행이 복제됨
print(comments_df[5:10])

from datasets import Dataset
comments_dataset = Dataset.from_pandas(comments_df)
print(comments_dataset)

4
                                            html_url  \
5  https://github.com/huggingface/datasets/issues...   
6  https://github.com/huggingface/datasets/issues...   
7  https://github.com/huggingface/datasets/issues...   
8  https://github.com/huggingface/datasets/issues...   
9  https://github.com/huggingface/datasets/issues...   

                                               title  \
5    set_format("np") no longer works for Image data   
6    set_format("np") no longer works for Image data   
7    set_format("np") no longer works for Image data   
8    set_format("np") no longer works for Image data   
9  Datasets created with `push_to_hub` can't be a...   

                                            comments  \
5  A quick fix for now is doing this:\r\n\r\n```p...   
6  This error also propagates to jax and is even ...   
7  Hi! We've recently introduced a new Image feat...   
8  Yes I agree it should return arrays and not a ...   
9  Thanks for reporting. I think this can be

In [27]:
# comment당 단어수를 저장하는 새로운 컬럼 생성
comments_dataset = comments_dataset.map(
    lambda x: {"comment_length": len(x['comments'].split())})
# 짧은 댓글 필터링
comments_dataset = comments_dataset.filter(
    lambda x: x['comment_length'] > 15 and x['body'] is not None)
print(comments_dataset)

def concatenate_text(examples):
    return {
        'text': examples['title'] + ' \n' + examples['body'] + ' \n'
        + examples['comments']}
comments_dataset = comments_dataset.map(concatenate_text)

Map:   0%|          | 0/3500 [00:00<?, ? examples/s]

Filter:   0%|          | 0/3500 [00:00<?, ? examples/s]

Dataset({
    features: ['html_url', 'title', 'comments', 'body', 'comment_length'],
    num_rows: 2571
})


Map:   0%|          | 0/2571 [00:00<?, ? examples/s]

텍스트 임베딩 생성  
- AutoModel 클래스를 사용하여 토큰 임베딩을 얻음. 다음은 모델을 로드할 적절한 체크포인트(checkpoint)를 선택하는 것
- 임베딩을 만드는데 사용할 sentence-transformers라는 라이브러리가 있음
  - 라이브러리 문서에 설명된 대로 현재 만들고자 하는 코드는 비대칭 의미 검색(asymmetric semantic search) 의 한 예임
  - 이슈 comments과 같이 더 긴 문서에서 답을 찾고자 하는 짧은 쿼리가 있기 때문

In [28]:
# 동일한 체크포인트를 사용하여 토크나이저 로드
from transformers import AutoTokenizer, AutoModel

model_ckpt = 'sentence-transformers/multi-qa-mpnet-base-dot-v1'
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
model = AutoModel.from_pretrained(model_ckpt)

In [29]:
import torch
device = torch.device('cuda')
model.to(device)

MPNetModel(
  (embeddings): MPNetEmbeddings(
    (word_embeddings): Embedding(30527, 768, padding_idx=1)
    (position_embeddings): Embedding(514, 768, padding_idx=1)
    (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): MPNetEncoder(
    (layer): ModuleList(
      (0): MPNetLayer(
        (attention): MPNetAttention(
          (attn): MPNetSelfAttention(
            (q): Linear(in_features=768, out_features=768, bias=True)
            (k): Linear(in_features=768, out_features=768, bias=True)
            (v): Linear(in_features=768, out_features=768, bias=True)
            (o): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (LayerNorm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (dropout): Dropout(p=0.1, inplace=False)
        )
        (intermediate): MPNetIntermediate(
          (dense): Linear(in_features

In [30]:
# GitHub 이슈 말뭉치의 각 항목을 단일 벡터로 표현하고 싶기 때문에 어떤 방식으로든 
# 토큰 임베딩을 pooling하거나 평균화(average)해야 함
# 자주 사용하는 접근 방식은 모델의 출력에 대해 [CLS] pooling을 수행하는 것
# 특수 [CLS] 토큰에 대한 last_hidden_state를 수집하면 됨

def cls_pooling(model_output):
    return model_output.last_hidden_state[:, 0]

# 문서 토큰화 -> gpu에 텐서 배치 -> 모델에 공급 -> 출력에 CLS pooling 적용
def get_embeddings(text_list):
    encoded_input = tokenizer(
        text_list, padding=True, truncation=True, return_tensors='pt')
    encoded_input = {k: v.to(device) for k, v in encoded_input.items()}
    model_output = model(**encoded_input)
    return cls_pooling(model_output)

embedding = get_embeddings(comments_dataset['text'][0])
print(embedding.shape)

# dataset.map을 이용하여 새로운 임베딩 열 생성
embeddings_dataset = comments_dataset.map(
    # FAISS로 데이터셋을 인덱싱할 때 datasets에 numpy 타입이 필요함
    lambda x: {
        'embeddings': get_embeddings(x['text']).detach().cpu().numpy()[0]})

torch.Size([1, 768])


Map:   0%|          | 0/2571 [00:00<?, ? examples/s]

효율적인 시맨틱 검색을 위한 FAISS 사용  
- 임베딩 데이터셋이 있으므로 이를 검색할 방법이 필요함. 이를 위해 FAISS 인덱스 라고 하는 Datasets 내에서의 특별한 자료 구조를 사용함
- FAISS(Facebook AI Similarity Search)는 임베딩 벡터를 빠르게 검색하고 클러스터링하는 효율적인 알고리즘을 제공하는 라이브러리
- FAISS의 기본 아이디어는 입력 임베딩과 유사한 임베딩을 찾을 수 있는 인덱스(index) 라는 특수 데이터 구조를 만드는 것
- Datasets에서 FAISS 인덱스를 만드는 것은 Dataset.add_faiss_index() 함수를 사용하고 인덱스할 데이터셋의 열을 지정함

In [31]:
embeddings_dataset.add_faiss_index(column="embeddings")

# Dataset.get_nearest_examples() 함수로 근접 이웃 검색(nearest neighbor lookup)을
# 수행하여 이 인덱스에 대한 쿼리를 수행할 수 있음
# 먼저 질문을 삽입하여 테스트
question = "How can I load a dataset offline?"
question_embedding = get_embeddings([question]).cpu().detach().numpy()
print(question_embedding.shape)

# 해당 쿼리를 나타내는 768차원 벡터를 만들고 전체 코퍼스와 비교하여 
# 가장 유사한 임베딩을 찾음
scores, samples = embeddings_dataset.get_nearest_examples(
    "embeddings", question_embedding, k=5)

import pandas as pd

# Dataset.get_nearest_examples() 함수는 쿼리와 문서 간의 중첩(유사도) 순위를 
# 매기는 점수 튜플(tuple)과 해당 샘플 집합(여기서는 가장 잘 일치하는 5개)을 반환
samples_df = pd.DataFrame.from_dict(samples)
samples_df["scores"] = scores
samples_df.sort_values("scores", ascending=False, inplace=True)

# 쿼리가 검색된 comments와 얼마나 잘 일치하는지 확인
for _, row in samples_df.iterrows():
    print(f"COMMENT: {row.comments}")
    print(f"SCORE: {row.scores}")
    print(f"TITLE: {row.title}")
    print(f"URL: {row.html_url}")
    print("=" * 50)
    print()

  0%|          | 0/3 [00:00<?, ?it/s]

(1, 768)
COMMENT: Requiring online connection is a deal breaker in some cases unfortunately so it'd be great if offline mode is added similar to how `transformers` loads models offline fine.

@mandubian's second bullet point suggests that there's a workaround allowing you to use your offline (custom?) dataset with `datasets`. Could you please elaborate on how that should look like?
SCORE: 25.505016326904297
TITLE: Discussion using datasets in offline mode
URL: https://github.com/huggingface/datasets/issues/824

COMMENT: The local dataset builders (csv, text , json and pandas) are now part of the `datasets` package since #1726 :)
You can now use them offline
```python
datasets = load_dataset('text', data_files=data_files)
```

We'll do a new release soon
SCORE: 24.5555419921875
TITLE: Discussion using datasets in offline mode
URL: https://github.com/huggingface/datasets/issues/824

COMMENT: I opened a PR that allows to reload modules that have already been loaded once even if there's no