Hugging Face의 Transformers 라이브러리는 자연어 처리(Natural Language Processing, NLP) 모델을 쉽게 사용하고 훈련할 수 있도록 도와주는 강력한 도구입니다. 이 라이브러리에서 제공되는 주요 구성 요소는 다음과 같습니다:

1. **Datasets:**
   - **설명:** Datasets는 Hugging Face에서 제공하는 데이터셋을 효과적으로 다룰 수 있는 도구입니다. 다양한 자연어 처리 작업에 필요한 데이터셋을 쉽게 다운로드하고 로드할 수 있습니다.
   - **활용:** `datasets` 모듈을 사용하여 데이터를 다운로드하고 필요한 형식으로 가공할 수 있습니다.

2. **Tokenizer:**
   - **설명:** Tokenizer는 문장을 모델이 이해할 수 있는 토큰으로 변환하는 역할을 합니다. 이는 문장을 단어 또는 하위 단위로 쪼개고, 각 토큰에 대응하는 정수 인덱스를 생성합니다.
   - **활용:** 모델을 사용하기 전에 입력 문장을 토큰화하여 모델이 이해할 수 있는 형태로 변환합니다. `AutoTokenizer`를 사용하여 모델에 맞는 토크나이저를 선택할 수 있습니다.

3. **Model:**
   - **설명:** Model은 사전 훈련된 언어 모델을 나타냅니다. Hugging Face의 Transformers 라이브러리는 다양한 사전 훈련된 모델을 제공하며, 이를 활용하여 다양한 자연어 처리 작업에 적용할 수 있습니다.
   - **활용:** `AutoModelForSequenceClassification`, `AutoModelForQuestionAnswering` 등을 사용하여 각각의 작업에 적합한 모델을 불러올 수 있습니다.

4. **Trainer (Optional):**
   - **설명:** Trainer는 모델을 훈련시키는 역할을 합니다. 이는 주어진 데이터셋을 사용하여 모델의 가중치를 조정하고, 성능을 향상시키는 과정을 담당합니다. 사용자가 직접 훈련을 수행할 수도 있습니다.
   - **활용:** `Trainer` 클래스를 사용하여 모델을 훈련하고, 훈련 과정의 설정을 지정할 수 있습니다. 훈련에 필요한 최적화 알고리즘, 학습률 등을 설정할 수 있습니다.

5. **Config:**
   - **설명:** Config는 모델의 설정을 관리하는데 사용됩니다. 모델의 아키텍처, 토크나이저, 훈련 파라미터 등에 대한 정보가 담겨 있습니다.
   - **활용:** `AutoConfig`를 사용하여 모델의 설정을 불러오거나 설정할 수 있습니다.

- 간단히 말하면, 데이터셋에서 데이터를 가져오고,
- 토크나이저를 사용하여 텍스트를 모델이 이해할 수 있는 형태로 변환하고,
- 사전 훈련된 모델을 사용하여 원하는 작업에 대한 예측이나 훈련을 수행할 수 있습니다.
- Trainer는 선택적으로 사용되며, **사용자가 직접 훈련 프로세스를 제어하고자 할 때 활용됩니다.** (dataloader build 안해도 됨)
- Config는 모델의 설정을 관리하여 훈련이나 예측에 필요한 매개변수들을 설정합니다.

이 문장은 Arrow 테이블을 감싸는(Dataset을 생성하는) 것으로, 이를 통해 데이터셋의 배열에서 PyTorch 텐서로 빠르게 읽기를 수행할 수 있다는 내용을 나타냅니다. 각 용어에 대한 설명은 다음과 같습니다:

1. **Dataset:**
   - **설명:** 데이터셋은 일반적으로 모델을 훈련하거나 평가하기 위해 사용되는 데이터의 집합을 나타냅니다. 여기서는 Arrow 테이블을 감싸는 특정 형태의 데이터셋을 언급하고 있습니다.

2. **Arrow Table:**
   - **설명:** Apache Arrow는 메모리 내에서 데이터를 공유하고 효율적으로 전송하기 위한 열 지향 데이터 구조를 제공하는 프레임워크입니다. Arrow 테이블은 이러한 열 지향 데이터를 담는 구조체로 이해할 수 있습니다.

3. **Zero-Copy Reads:**
   - **설명:** Zero-Copy는 데이터를 메모리에서 다른 위치로 복사하지 않고 읽어오는 방식을 나타냅니다. 따라서 메모리 복사의 오버헤드를 피하고 데이터를 효율적으로 처리할 수 있습니다.

4. **PyTorch Tensors:**
   - **설명:** PyTorch는 딥러닝 모델을 구축하고 훈련하기 위한 프레임워크로, 텐서(다차원 배열)를 다루는 데 특화되어 있습니다. PyTorch 텐서는 모델의 입력 및 출력으로 사용되며, 데이터를 효과적으로 다룰 수 있도록 설계되어 있습니다.

따라서 전체 문장은 Arrow 테이블을 감싸는 특별한 형태의 데이터셋을 설명하며, 이 데이터셋을 사용하면 Arrow 테이블의 배열을 PyTorch 텐서로 빠르게 읽어올 수 있다는 것을 나타내고 있습니다. 이는 데이터를 효율적으로 처리하고 딥러닝 모델에 입력으로 제공하기 위한 기능적인 측면을 강조하고 있습니다.

In [None]:
pip install huggingface_hub



In [None]:
pip install datasets

Collecting datasets
  Downloading datasets-2.15.0-py3-none-any.whl (521 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m521.2/521.2 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
Collecting pyarrow-hotfix (from datasets)
  Downloading pyarrow_hotfix-0.6-py3-none-any.whl (7.9 kB)
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pyarrow-hotfix, dill, multiprocess, datasets
Successfully installed datasets-2.15.0 dill-0.3.7 multiprocess-0.70.15 pyarrow-hotfix-0.6


In [None]:
import numpy as np
from datasets import Dataset
from torch.utils.data import DataLoader
data = np.random.rand(16)
label = np.random.randint(0, 2, size=16) # 0~ 1
ds = Dataset.from_dict({"data": data, "label": label}).with_format("torch")

주어진 코드 `label = np.random.randint(0, 2, size=16)`는 크기가 16인 배열을 생성하며, 이 배열의 각 요소는 0 또는 1 중에서 무작위로 선택된 값으로 채워집니다. 즉, 0과 1 사이의 난수로 이루어진 레이블(또는 클래스) 배열을 만든다고 할 수 있습니다.

이 코드를 한국어로 설명하면 다음과 같습니다:

```python
import numpy as np

# 크기가 16인 배열을 생성합니다.
label = np.random.randint(0, 2, size=16)

# 결과를 출력합니다.
print(label)
```

한국어 설명:
주어진 코드 `label = np.random.randint(0, 2, size=16)`는 크기가 16인 배열을 만들고, 배열의 각 원소를 0 또는 1 중에서 무작위로 선택하여 채웁니다. 즉, 0과 1 사이의 난수로 이루어진 레이블(또는 클래스) 배열을 생성하는 코드입니다. 결과는 `label` 변수에 저장되며, 이를 출력하면 배열이 나타납니다.

In [None]:
dataloader = DataLoader(ds, batch_size=4)
for batch in dataloader:
  print(batch)

{'data': tensor([0.3306, 0.2650, 0.7953, 0.1982]), 'label': tensor([0, 1, 0, 1])}
{'data': tensor([0.2746, 0.1512, 0.7676, 0.5406]), 'label': tensor([0, 1, 1, 0])}
{'data': tensor([0.0911, 0.0361, 0.6642, 0.9899]), 'label': tensor([1, 0, 1, 1])}
{'data': tensor([0.7543, 0.3667, 0.8765, 0.5921]), 'label': tensor([1, 1, 0, 1])}


In [None]:
from transformers import BertTokenizer, BertModel

In [None]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

In [None]:
model = BertModel.from_pretrained('bert-base-uncased')

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

In [None]:
pip install transformers



In [None]:
from transformers import AutoTokenizer, AutoModel, AutoModelForSequenceClassification, AutoModelForSeq2SeqLM, AutoConfig

In [None]:
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

In [None]:
model = AutoModel.from_pretrained("bert-base-cased")

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

In [None]:
config = AutoConfig.from_pretrained("bert-base-cased")

In [None]:
model = AutoModelForSequenceClassification.from_config(config) # 모델 설정 불러옴

In [None]:
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")

config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/892M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

이 코드는 Hugging Face Transformers 라이브러리에서 제공하는 `AutoModelForSeq2SeqLM` 클래스를 사용하여 미리 훈련된 T5 모델을 불러오는 예제입니다.

1. `AutoModelForSeq2SeqLM`: 이 클래스는 시퀀스 투 시퀀스 모델 중 하나인 "Seq2SeqLM" 모델을 자동으로 불러오는 역할을 합니다. 이 모델은 주로 번역, 요약, 질문 응답 등과 같은 시퀀스를 다른 시퀀스로 변환하는 작업에 사용됩니다.

2. `from_pretrained("t5-base")`: 이 부분은 미리 훈련된 모델을 불러오는 메서드입니다. 여기서 "t5-base"는 T5 모델의 베이스 버전을 나타냅니다. T5는 "Text-to-Text Transfer Transformer"의 약자로, 다양한 자연어 처리 작업을 하나의 통일된 형식으로 다루는 모델입니다.

따라서 이 코드는 T5 모델의 기본 버전을 불러와서 변수 `model`에 할당하는 것입니다. 이제 `model` 변수를 사용하여 원하는 자연어 처리 작업을 수행할 수 있습니다.

In [None]:
pip install transformers torchaudio



In [None]:
# Initialize our Trainer
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset if training_args.do_train else None,
        eval_dataset=eval_dataset if training_args.do_eval else None,
        compute_metrics=compute_metrics,
        tokenizer=tokenizer,
        data_collator=data_collator,
    )

In [None]:
from transformers import pipeline
classifier = pipeline("sentiment-analysis")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

In [None]:
classifier("i don't want to study anymore today.")

[{'label': 'NEGATIVE', 'score': 0.9910780787467957}]

In [None]:
from transformers import pipeline
classifier = pipeline("summarization")

No model was supplied, defaulted to sshleifer/distilbart-cnn-12-6 and revision a4f8f3e (https://huggingface.co/sshleifer/distilbart-cnn-12-6).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

In [None]:
classifier("abaskldfjalskfjaskdfj")

Your max_length is set to 142, but your input_length is only 14. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=7)


[{'summary_text': ' abaskldfjfjalskfjalakfj, abaskledfjj, fjaskdfj, is a Norwegian town . It is located in Oslo, Norway, with a population of 9,000 people . The town is known for its culture of tolerance and tolerance tolerance, and for its tolerance tolerance .'}]

In [None]:
classifier("Spiegel es gibt keinen Ton im Spiegel Es muss keine Welt geben, die so still ist. Ich habe auch Ohren im Spiegel Zwei harte Ohren, die mich verstehen. Ich bin ein Linkshänder im Spiegel Ein Linkshänder, der nicht weiß, wie er mir die Hand schütteln soll. Ich bin derjenige im Spiegel, der den anderen im Spiegel nicht berühren kann, wegen des Spiegels.)

In [None]:
from datasets import load_dataset, load_metric