1. **Datasets:**
   - **설명:** Datasets는 Hugging Face에서 제공하는 데이터셋을 효과적으로 다룰 수 있는 도구입니다. 다양한 자연어 처리 작업에 필요한 데이터셋을 쉽게 다운로드하고 로드할 수 있습니다.
   - **활용:** `datasets` 모듈을 사용하여 데이터를 다운로드하고 필요한 형식으로 가공할 수 있습니다.

2. **Tokenizer:**
   - **설명:** Tokenizer는 문장을 모델이 이해할 수 있는 토큰으로 변환하는 역할을 합니다. 이는 문장을 단어 또는 하위 단위로 쪼개고, 각 토큰에 대응하는 정수 인덱스를 생성합니다.
   - **활용:** 모델을 사용하기 전에 입력 문장을 토큰화하여 모델이 이해할 수 있는 형태로 변환합니다. `AutoTokenizer`를 사용하여 모델에 맞는 토크나이저를 선택할 수 있습니다.

3. **Model:**
   - **설명:** Model은 사전 훈련된 언어 모델을 나타냅니다. Hugging Face의 Transformers 라이브러리는 다양한 사전 훈련된 모델을 제공하며, 이를 활용하여 다양한 자연어 처리 작업에 적용할 수 있습니다.
   - **활용:** `AutoModelForSequenceClassification`, `AutoModelForQuestionAnswering` 등을 사용하여 각각의 작업에 적합한 모델을 불러올 수 있습니다.

4. **Trainer (Optional):**
   - **설명:** Trainer는 모델을 훈련시키는 역할을 합니다. 이는 주어진 데이터셋을 사용하여 모델의 가중치를 조정하고, 성능을 향상시키는 과정을 담당합니다. 사용자가 직접 훈련을 수행할 수도 있습니다.
   - **활용:** `Trainer` 클래스를 사용하여 모델을 훈련하고, 훈련 과정의 설정을 지정할 수 있습니다. 훈련에 필요한 최적화 알고리즘, 학습률 등을 설정할 수 있습니다.

5. **Config:**
   - **설명:** Config는 모델의 설정을 관리하는데 사용됩니다. 모델의 아키텍처, 토크나이저, 훈련 파라미터 등에 대한 정보가 담겨 있습니다.
   - **활용:** `AutoConfig`를 사용하여 모델의 설정을 불러오거나 설정할 수 있습니다.

간단히 말하면, 데이터셋에서 데이터를 가져오고,
토크나이저를 사용하여 텍스트를 모델이 이해할 수 있는 형태로 변환하고,
사전 훈련된 모델을 사용하여 원하는 작업에 대한 예측이나 훈련을 수행할 수 있습니다.
Trainer는 선택적으로 사용되며, 사용자가 직접 훈련 프로세스를 제어하고자 할 때 활용됩니다. (dataloader build 안해도 됨)
Config는 모델의 설정을 관리하여 훈련이나 예측에 필요한 매개변수들을 설정합니다.

In [5]:
from transformers import AutoTokenizer, pipeline # Hugging Face의 Transformers 라이브러리에 있는 클래스
#  모델을 사용하기 전에 입력 문장을 토큰화하여 모델이 이해할 수 있는 형태로 변환
import transformers
import torch

In [None]:
model = "meta-llama/Llama-2-7b-chat-hf"

# from_pretrained() 메소드를 통해 사전 훈련된 모델의 이름이나 경로만 제공하면 해당 모델의 클래스를 자동으로 선택하고 초기화
tokenizer = AutoTokenizer.from_pretrained(
    model,
    token="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",
)

# pipeline()은 pretrained model을 사용하는 가장 쉬운 방법, task 수행
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto"
)

OSError: ignored

In [None]:
!pip install huggingface-hub



In [3]:
import huggingface_hub

In [4]:
huggingface_hub.login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [6]:
model = "meta-llama/Llama-2-7b-chat-hf"

# from_pretrained() 메소드를 통해 사전 훈련된 모델의 이름이나 경로만 제공하면 해당 모델의 클래스를 자동으로 선택하고 초기화
tokenizer = AutoTokenizer.from_pretrained(
    model,
    use_auth_token=True,
)

# pipeline()은 pretrained model을 사용하는 가장 쉬운 방법, task 수행
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    torch_dtype=torch.float16,
    device_map="auto",
)



ImportError: ignored

In [None]:
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

text_generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

prompt = "Tell me a joke."
generated_text = text_generator(prompt, max_length=200, num_return_sequences=1)[0]["generated_text"]

print(generated_text)

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

In [2]:
def gen(x, max_length=200):
    # Hugging Face Transformers 라이브러리의 pipeline 함수를 사용하여 텍스트 생성 파이프라인을 초기화합니다.
    sequence = pipeline(
        x,  # 입력으로 사용할 문자열
        do_sample=True,  # 샘플링을 사용하여 다양한 결과를 얻도록 설정
        top_k=10,  # 다음 단어 예측 시 고려할 (확률이 높은) 상위 K개의 단어를 설정
        num_return_sequences=1,  # 반환할 시퀀스의 수를 1로 설정
        eos_token_id=tokenizer.eos_token_id,  # End-of-Sequence 토큰의 ID를 설정
        # 함수 내에서 이 부분을 설정함으로써 생성된 텍스트가 어디에서 종료되어야 하는지를 명시하는 것
        max_length=max_length,  # 생성된 텍스트의 최대 길이
    )

    # 생성된 텍스트에서 입력 문자열 x를 제거하고 결과를 반환 ("" 빈문자열로 대체긴 함)
    return sequence[0]["generated_text"].replace(x, "")


In [3]:
print(gen('i want to sleep right now... but i have too lot to do. what should i do?'))

NameError: ignored