https://github.com/meta-llama/llama-recipes

## **Hugging Face Hub에서 변환된 모델을 사용하는 방법**
Hugging Face Hub는 Meta Llama 가중치를 변환하여 업로드한 모델을 제공할 수 있습니다. 이 경우, 사용자는 변환된 모델을 바로 다운로드하고 사용할 수 있습니다.

#### 절차:
1. **Hugging Face Hub에 로그인**:
   Hugging Face Hub에서 모델을 다운로드하려면 Hugging Face 계정에 로그인해야 합니다. 이를 위해 `huggingface_hub` 라이브러리를 사용할 수 있습니다.
   ```python
   from huggingface_hub import login
   login()  # 명령어 실행 후, 계정 정보를 입력하여 로그인
   ```

2. **모델과 토크나이저 불러오기**:
   Hugging Face에 업로드된 Meta Llama 모델을 다운로드하여 사용합니다. 예를 들어, `meta-llama/Meta-Llama-3.1-8B-Instruct`라는 이름의 모델을 불러올 수 있습니다:
   ```python
   from transformers import AutoModelForCausalLM, AutoTokenizer

   model = "meta-llama/Meta-Llama-3.1-8B-Instruct"
   model = AutoModelForCausalLM.from_pretrained(model)
   tokenizer = AutoTokenizer.from_pretrained(model)
   ```

3. **파이프라인 설정**:
   텍스트 생성 파이프라인을 설정하여 모델을 사용할 수 있습니다:
   ```python
   from transformers import pipeline

   generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
   input_text = "Once upon a time,"
   outputs = generator(input_text, max_length=50, num_return_sequences=1)
   print(outputs)
   ```

이 방법은 가중치 변환 과정 없이 Hugging Face Hub에 업로드된 모델을 바로 사용할 수 있어 간편합니다. 그러나 사용자가 접근할 수 있는 모델은 허브에 업로드된 변환된 모델에 한정됩니다.

---

### 방법별 비교

| 방법 | 장점 | 단점 |
| --- | --- | --- |
| **Meta에서 직접 다운로드하여 변환** | 최신 모델 가중치를 사용할 수 있음 | 가중치 다운로드 요청 필요, 변환 과정이 복잡함 |
| **Hugging Face Hub에서 사용** | 변환 없이 바로 사용 가능, 간편함 | 허브에 업로드된 모델에 한정됨, Meta의 가중치 배포보다 제한적 |



## Hugging Face Hub에 업로드된 허가된 Llama 모델을 가져오는 방식
- Meta에서 직접 다운로드하는 방식과는 별개로, 해당 모델이 Hugging Face Hub에 업로드되어 있으면, 로그인 후 쉽게 다운로드하여 사용
- 해당 모델이 Hugging Face 허브에 업로드되어 있어야 하고, 사용자가 해당 모델에 대한 접근 권한을 가져야 합니다.

In [14]:
%pip install --upgrade transformers
%pip install accelerate



In [15]:
%pip install --upgrade huggingface_hub



In [16]:
from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [17]:
from transformers import AutoTokenizer
import transformers
import torch

https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct

In [28]:
model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
tokenizer = AutoTokenizer.from_pretrained(model)

In [None]:
pipeline = transformers.pipeline(
    'text-generation',
    model=model,
    torch_dtype = torch.float16,
    device_map = 'auto'
)

config.json:   0%|          | 0.00/855 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/184 [00:00<?, ?B/s]



In [None]:
sequences = pipeline(
    'I have tomatoes, basil and cheese at home. What can i cook for dinner?\n',
    do_sample=True,
    top_k = 10,
    num_return_sequences=1,
    eos_token_id = tokenizer.eos_token_id,
    truncation=True,
    max_length = 400
)

for seq in sequences:
    print(f"Result : {seq['generated_text']}")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


KeyboardInterrupt: 

Llama-3.2-1B

## 1017

In [7]:
model_1B = 'meta-llama/Llama-3.2-1B'
tokenizer = AutoTokenizer.from_pretrained(model_1B)

In [8]:
from transformers import pipeline

generator = pipeline('text-generation',model=model_1B, tokenizer=tokenizer)
input_text = 'Once upon a time'
outputs = generator(input_text, max_length=50, num_return_sequences=1)
print(outputs)

config.json:   0%|          | 0.00/843 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.47G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/185 [00:00<?, ?B/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


[{'generated_text': 'Once upon a time, the best way to make money was to have a job. The average American earns $37,000 per year, and the average American worker spends about 2,000 hours a year on the job. That means that'}]


In [9]:
pipeline = transformers.pipeline(
    'text-generation',
    model=model_1B,
    torch_dtype = torch.float16,
    device_map = 'auto'

)

In [10]:
sequences = pipeline(
    'I have tomatoes, basil and cheese at home. What can I cook for dinner?\n',
    do_sample=True, # 모델이 가장 가능성 높은 토큰을 항상 고르는 것이 아니라 상위 k개의 토큰 중에서 무작위로 하나를 선택하여 더 다양한 응답을 생성
    top_k = 10, # 각 단계에서 상위 10개의 가장 가능성 높은 토큰 중에서 선택
    num_return_sequences=1, # 생성된 텍스트 시퀀스(응답)의 수를 1개로 설정
    eos_token_id = tokenizer.eos_token_id, # 문장의 끝을 나타내는 토큰 ID를 지정합니다, 모델이 이 토큰을 만나면 텍스트 생성을 멈춥니다
    truncation=True,
    max_length = 50,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Result: I have tomatoes, basil and cheese at home. What can I cook for dinner?
You can make a simple pasta dish with the tomatoes, basil and cheese. For example, you can prepare a simple pasta with tomato sauce, basil, cheese and


In [12]:
sequences = pipeline(
    # 'I have tomatoes, basil and cheese at home. What can I cook for dinner?\n',
    '피곤할 때는 뭘 해야하지',
    do_sample=True, # 모델이 가장 가능성 높은 토큰을 항상 고르는 것이 아니라 상위 k개의 토큰 중에서 무작위로 하나를 선택하여 더 다양한 응답을 생성
    top_k = 10, # 각 단계에서 상위 10개의 가장 가능성 높은 토큰 중에서 선택
    num_return_sequences=1, # 생성된 텍스트 시퀀스(응답)의 수를 1개로 설정
    eos_token_id = tokenizer.eos_token_id, # 문장의 끝을 나타내는 토큰 ID를 지정합니다, 모델이 이 토큰을 만나면 텍스트 생성을 멈춥니다
    truncation=True,
    max_length = 50,
)

for seq in sequences:
    print(f"Result: {seq['generated_text']}")

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Result: 피곤할 때는 뭘 해야하지?
The most common cause of fatigue is poor sleep. The recommended amount of sleep is 7 to 9 hours. If you don’t get enough sleep, you feel tired. If you don


Llama-3.2-3B

In [27]:
import torch
from transformers import pipeline

model_id = 'model-llama/Llama-3.2-3B-Instruct'
pipe = pipeline(
    'text-generation',
    model=model_id,
    torch_dtype = torch.bfloat16,
    device_map='auto'
)

messages = [
    {'role':'system','content':'You are a pirate chatbot who always responds in pirate speak!'},
    {'role':'user','content':'Who are you?'}
]

outputs = pipe(
    messages,
    max_new_tokens= 256,
)

print(outputs[0]['generated_text'][-1])

OSError: model-llama/Llama-3.2-3B-Instruct is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `huggingface-cli login` or by passing `token=<your_token>`

In [18]:
import requests
import torch
from PIL import Image
from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "meta-llama/Llama-3.2-11B-Vision"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id) # 입력 데이터를 모델에 맞게 전처리하는 데 사용
# url = "https://www.ilankelman.org/stopsigns/australia.jpg"
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/0052a70beed5bf71b92610a43a52df6d286cd5f3/diffusers/rabbit.jpg"
image = Image.open(requests.get(url, stream=True).raw) # 주어진 URL에서 이미지를 다운로드하여 PIL.Image 객체로 변환

# 이 프롬프트는 모델이 이미지와 관련된 시적 묘사를 생성하도록 유도하는 구체적인 요청을 포함
prompt = "<|image|><|begin_of_text|>If I had to write a haiku for this one"
inputs = processor(image, prompt, return_tensors="pt").to(model.device) # processor는 이미지와 프롬프트를 모델이 이해할 수 있는 텐서 형태로 변환

output = model.generate(**inputs, max_new_tokens=30) # 최대 30개의 새로운 토큰을 생성하며, 입력 데이터(이미지 및 프롬프트)를 사용해 텍스트를 예측
print(processor.decode(output[0])) # 생성한 텍스트를 사람이 읽을 수 있는 형식으로 디코딩하여 출력

config.json:   0%|          | 0.00/5.03k [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/89.4k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/5 [00:00<?, ?it/s]

model-00001-of-00005.safetensors:   0%|          | 0.00/4.99G [00:00<?, ?B/s]

model-00002-of-00005.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00003-of-00005.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00005.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00005-of-00005.safetensors:   0%|          | 0.00/1.47G [00:00<?, ?B/s]



Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/152 [00:00<?, ?B/s]



preprocessor_config.json:   0%|          | 0.00/437 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/50.7k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/459 [00:00<?, ?B/s]

KeyboardInterrupt: 

In [19]:
!git lfs clone https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview#llama-3-open-ko-8b-instruct-preview

          with new flags from 'git clone'

'git clone' has been updated in upstream Git to have comparable
speeds to 'git lfs clone'.
Cloning into 'Llama-3-Open-Ko-8B-Instruct-preview#llama-3-open-ko-8b-instruct-preview'...
fatal: https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview#llama-3-open-ko-8b-instruct-preview/info/refs not valid: could not determine hash algorithm; is this a git repository?
Error(s) during clone:
git clone failed: exit status 128


In [20]:
!git lfs install

Git LFS initialized.


In [21]:
!git clone https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview


Cloning into 'Llama-3-Open-Ko-8B-Instruct-preview'...
remote: Enumerating objects: 47, done.[K
remote: Counting objects: 100% (44/44), done.[K
remote: Compressing objects: 100% (44/44), done.[K
remote: Total 47 (delta 16), reused 0 (delta 0), pack-reused 3 (from 1)[K
Unpacking objects: 100% (47/47), 18.85 KiB | 603.00 KiB/s, done.

Exiting because of "interrupt" signal.
You can inspect what was checked out with 'git status'
and retry with 'git restore --source=HEAD :/'

^C


In [26]:
!huggingface-cli download meta-llama/Llama-3.2-3B-Instruct


Fetching 16 files:   0% 0/16 [00:00<?, ?it/s]Downloading '.gitattributes' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Instruct/blobs/a6344aac8c09253b3b630fb776ae94478aa0275b.incomplete'
Downloading 'LICENSE.txt' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Instruct/blobs/085b47c1575cb889b7024030e60b78f54f0b8c9e.incomplete'
Downloading 'model-00001-of-00002.safetensors' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Instruct/blobs/13cbd6d16e927a0c5bad54102514e6e18b4a47b3a6eb911e39d678d328d19f55.incomplete'
Downloading 'USE_POLICY.md' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Instruct/blobs/ac3c5f21b9779e3da0677d6d3c587778fe3a331e.incomplete'
Downloading 'README.md' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Instruct/blobs/eedaa79b1ba73d479ec586c17581998f5c4b7a9a.incomplete'
Downloading 'generation_config.json' to '/root/.cache/huggingface/hub/models--meta-llama--Llama-3.2-3B-Ins

In [None]:
!git lfs install
!git clone https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview
%cd Llama-3-Open-Ko-8B-Instruct-preview
!git lfs pull


In [None]:
%cd Llama-3-Open-Ko-8B-Instruct-preview
!git lfs pull


In [29]:
model = 'beomi/Llama-3-Open-Ko-8B-Instruct-preview'
tokenizer = AutoTokenizer.from_pretrained(model)

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/301 [00:00<?, ?B/s]

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "친절한 챗봇으로서 상대방의 요청에 최대한 자세하고 친절하게 답하자. 모든 대답은 한국어(Korean)으로 대답해줘."},
    {"role": "user", "content": "피보나치 수열이 뭐야? 그리고 피보나치 수열에 대해 파이썬 코드를 짜줘볼래?"},
]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=512,
    eos_token_id=terminators,
    do_sample=True,
    temperature=1,
    top_p=0.9,
)
response = outputs[0][input_ids.shape[-1]:]
print(tokenizer.decode(response, skip_special_tokens=True))


config.json:   0%|          | 0.00/707 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

KeyboardInterrupt: 