https://github.com/meta-llama/llama-recipes

## **Hugging Face Hub에서 변환된 모델을 사용하는 방법**
Hugging Face Hub는 Meta Llama 가중치를 변환하여 업로드한 모델을 제공할 수 있습니다. 이 경우, 사용자는 변환된 모델을 바로 다운로드하고 사용할 수 있습니다.

#### 절차:
1. **Hugging Face Hub에 로그인**:
   Hugging Face Hub에서 모델을 다운로드하려면 Hugging Face 계정에 로그인해야 합니다. 이를 위해 `huggingface_hub` 라이브러리를 사용할 수 있습니다.
   ```python
   from huggingface_hub import login
   login()  # 명령어 실행 후, 계정 정보를 입력하여 로그인
   ```

2. **모델과 토크나이저 불러오기**:
   Hugging Face에 업로드된 Meta Llama 모델을 다운로드하여 사용합니다. 예를 들어, `meta-llama/Meta-Llama-3.1-8B-Instruct`라는 이름의 모델을 불러올 수 있습니다:
   ```python
   from transformers import AutoModelForCausalLM, AutoTokenizer

   model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
   model = AutoModelForCausalLM.from_pretrained(model)
   tokenizer = AutoTokenizer.from_pretrained(model)
   ```

3. **파이프라인 설정**:
   텍스트 생성 파이프라인을 설정하여 모델을 사용할 수 있습니다:
   ```python
   from transformers import pipeline

   generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
   input_text = "Once upon a time,"
   outputs = generator(input_text, max_length=50, num_return_sequences=1)
   print(outputs)
   ```

이 방법은 가중치 변환 과정 없이 Hugging Face Hub에 업로드된 모델을 바로 사용할 수 있어 간편합니다. 그러나 사용자가 접근할 수 있는 모델은 허브에 업로드된 변환된 모델에 한정됩니다.

---

### 방법별 비교

| 방법 | 장점 | 단점 |
| --- | --- | --- |
| **Meta에서 직접 다운로드하여 변환** | 최신 모델 가중치를 사용할 수 있음 | 가중치 다운로드 요청 필요, 변환 과정이 복잡함 |
| **Hugging Face Hub에서 사용** | 변환 없이 바로 사용 가능, 간편함 | 허브에 업로드된 모델에 한정됨, Meta의 가중치 배포보다 제한적 |



## Hugging Face Hub에 업로드된 허가된 Llama 모델을 가져오는 방식
- Meta에서 직접 다운로드하는 방식과는 별개로, 해당 모델이 Hugging Face Hub에 업로드되어 있으면, 로그인 후 쉽게 다운로드하여 사용
- 해당 모델이 Hugging Face 허브에 업로드되어 있어야 하고, 사용자가 해당 모델에 대한 접근 권한을 가져야 합니다.

In [None]:
%pip install --upgrade transformers
%pip install accelerate

Collecting transformers
  Downloading transformers-4.45.2-py3-none-any.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.4/44.4 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers<0.21,>=0.20 (from transformers)
  Downloading tokenizers-0.20.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading transformers-4.45.2-py3-none-any.whl (9.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m50.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tokenizers-0.20.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m48.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tokenizers, transformers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.19.1
    Uninstalling tokenizers-0.19.1:
      Successfully uninstalled tokenizers-0.1

In [None]:
%pip install --upgrade huggingface_hub

Collecting huggingface_hub
  Downloading huggingface_hub-0.25.2-py3-none-any.whl.metadata (13 kB)
Downloading huggingface_hub-0.25.2-py3-none-any.whl (436 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m436.6/436.6 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: huggingface_hub
  Attempting uninstall: huggingface_hub
    Found existing installation: huggingface-hub 0.24.7
    Uninstalling huggingface-hub-0.24.7:
      Successfully uninstalled huggingface-hub-0.24.7
Successfully installed huggingface_hub-0.25.2


In [None]:
from transformers import AutoTokenizer
import transformers
import torch

In [None]:
from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct

In [None]:
model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
tokenizer = AutoTokenizer.from_pretrained(model)

tokenizer_config.json:   0%|          | 0.00/55.4k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [None]:
pipeline = transformers.pipeline(
    'text-generation',
    model=model,
    torch_dtype = torch.float16,
    device_map = 'auto'
)

config.json:   0%|          | 0.00/855 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/184 [00:00<?, ?B/s]



In [None]:
sequences = pipeline(
    'I have tomatoes, basil and cheese at home. What can i cook for dinner?\n',
    do_sample=True,
    top_k = 10,
    num_return_sequences=1,
    eos_token_id = tokenizer.eos_token_id,
    truncation=True,
    max_length = 400
)

for seq in sequences:
    print(f"Result : {seq['generated_text']}")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


KeyboardInterrupt: 

Llama-3.2-1B