### 環境建置
llama.cpp 支援使用 CUDA 在 NVIDIA GPU 上進行運算，因此需要準備一個有包含編譯器 `nvcc` 的環境，才能使用 GPU 進行運算，一般來說只要安裝 CUDA 就會有了。
* 注意：
    * CUDA 的版本可以參考 llama.cpp 專案底下 `.devops` 資料夾內與 CUDA 相關的 Dockerfile，目前是使用 CUDA 11.7.1 版。
    * 但需要注意自身 `gcc` 的版本與 `nvcc` 是否相容。
        * 例如筆者的 `gcc` 版本為 13，那 `nvcc` 就要裝到 12.4 才能用，同時也別忘了GPU 驅動程式的支援版本！
* 除了 CUDA 以外還需要 CMake 編譯工具。

#### 以下示範使用 Conda 建立環境：

In [None]:
%%bash
conda create -yn ggml python=3.11
conda activate ggml
conda install -y nvidia/label/cuda-11.7.1::cuda
pip install cmake
conda activate ggml # 確保 cmake 路徑有被系統正確讀取

#### 透過 Git 將 llama.cpp 專案的原始碼複製下來：

In [None]:
%%bash
git clone https://github.com/ggerganov/llama.cpp --depth 1
cd llama.cpp

####  接著使用 CMake 進行建置：
* 使用 `-DLLAMA_CUBLAS=ON` 參數啟用 CUDA 函式庫，若只想使用 CPU 的話把這個選項移掉就好。
* 筆者這邊加上 `--fresh` 來強制 CMake 重新建立編譯資訊。

In [None]:
%%bash
cmake -B build -DGGML_CUDA=ON --fresh

* 在 cmake 執行的過程，確保以下訊息有出現：

    ```txt
    -- Found CUDAToolkit: /home/user/.miniconda3/envs/ggml/include (found version "11.8.89")
    -- cuBLAS found
    -- The CUDA compiler identification is NVIDIA 11.8.89
    ```
    * 如果沒有出現這些訊息的話，可能要確認一下 CUDA 環境是否設置正確，否則建置出來的程式會因為不能使用 GPU 而跑得很慢。

#### 最後進行完整建置：
* 建置過程約需一兩分鐘左右，完成建置後，相關的主程式與工具都會放在 `llama.cpp/build/bin` 底下。

In [None]:
%%bash
cmake --build build --config Release -j

* 補充：
    * llama.cpp 也支援 Windows 及 macOS 作業系統，除了參考 GitHub 的說明自行編譯以外，也可以在 GitHub 的 Releases 頁面找到作者預先編譯好的版本。