## 取得模型

這邊讀取 `meta-llama/Meta-Llama-3-8B-Instruct` 模型

#### 使用 .from_pretrained 讀取： 
* 使用**量化 (Quantization)** 技術來減少 GPU 記憶體的消耗
* 透過 `BitsAndBytesConfig` 可以輕鬆地將模型量化 8 到 4 位元。
* 將 `device_map` 設定為 `"auto"`，以確保模型權重都放在 GPU 裡面。
* 如果 CPU 記憶體也不是很夠的話，那就需要將 `low_cpu_mem_usage` 設定為 `True` 才能順利讀取模型。
* 以上步驟實際上會從 [Hugging Face Hub](https://huggingface.co/models) (HF Hub)下載模型的權重，預設會放在 `~/.cache/huggingface/` 裡面，也可以透過`cache_dir` 參數指定這些檔案要存放在哪裡：

In [1]:
%%bash
pip install hf_xet



In [1]:
from transformers import BitsAndBytesConfig
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "meta-llama/Meta-Llama-3-8B-Instruct"

# 需要 CUDA 與 GPU
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,    # 約需 8 GiB GPU 記憶體
    # load_in_4bit=True,  # 約需 6 GiB GPU 記憶體
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
# 需要 CUDA 與 GPU
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    low_cpu_mem_usage=True,
    quantization_config=bnb_config,
)


  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████| 4/4 [00:12<00:00,  3.06s/it]


### 有存取限制的模型
* 先去 [HF Hub](https://huggingface.co/) 註冊帳號
* 進入該模型介紹頁面，找到 "This repository is gated" 區塊，填寫存取表單，並等待核准通知。
* 前往 HF 帳號設定的 Access Tokens 頁面，並建立一個新的 Token。
    * 如果只要下載模型的話，權限只要設定 Read 就好。
    * 如果你想讓 Git 也記得這個 token，避免每次 push 都輸入密碼，可以執行：
        ```
        git config --global credential.helper store
        ```
        這會讓 Git 把憑證儲存在本地 .git-credentials 中（純文字，請小心安全性）。
        * 詳細說明：https://git-scm.com/book/en/v2/Git-Tools-Credential-Storage
* 使用建立好的 Access Token 登入後下載模型。


(方式一) 設定 SSH 金鑰，然後透過 SSH 下載：

In [None]:
%%bash
git clone git@hf.co:meta-llama/Meta-Llama-3-8B

(方式二) 透過 `huggingface-cli` 登入：

In [None]:
%%bash

huggingface-cli login
# 貼上 建立好的 Access Token

# 預設會放在 `~/.cache/huggingface/` 裡面，也可以透過 `--local-dir` 參數指定這些檔案要存放在哪裡
huggingface-cli download google/gemma-2b-it \
    --local-dir Models/Meta-Llama-3-8B