# オンデバイスの日本語LLMによるチャットボット

❗ **ランタイムのタイプはGPU（T4, A100, L4など）を指定すること**

## インストール

### FFmpegとPortAudioをインストール

In [None]:
!apt update && apt install -y ffmpeg portaudio19-dev

### [llama-cpp-python](https://github.com/abetlen/llama-cpp-python)をインストール（CUDAによる高速化が有効になるようにインストールします。）

まず、nvidia-smiコマンドでCUDAバージョンを確認します。

In [None]:
!nvidia-smi

次に、ビルド済みWheelからllama-cpp-pythonをインストールします。WheelファイルのURL末尾はCUDAバージョンにより以下のとおりです。
- `cu121`: CUDA 12.1
- `cu122`: CUDA 12.2
- `cu123`: CUDA 12.3
- `cu124`: CUDA 12.4

以下のセルで**該当するCUDAバージョン**を設定してください。  
CUDA対応Wheelファイルをビルドすると時間がかかるので、ビルド済みWheelからインストールします。トークン生成速度が遅いときは、CUDA対応Wheelではなく、CPU版Wheelでインストールされている場合があります。そのようなときは、[llama-cpp-python GitHubリポジトリ](https://github.com/abetlen/llama-cpp-python)を参考にビルド設定を見直してください。

In [None]:
# CUDAバージョン
%env LLAMA_CPP_CU_VER=cu122

# llama-cpp-pythonバージョン
%env LLAMA_CPP_PY_VER=0.2.87

llama-cpp-pythonをインストールします。

In [None]:
!python -m pip install \
"llama-cpp-python==${LLAMA_CPP_PY_VER}" \
--extra-index-url "https://abetlen.github.io/llama-cpp-python/whl/${LLAMA_CPP_CU_VER}"

ビルドする場合は以下の通り（非常に時間がかかる）

In [None]:
# !CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

### アプリケーションのGitHubリポジトリをクローン

In [None]:
!git clone https://github.com/tsutof/on-dev-chat-jp

### アプリケーションをインストール  
❗ Google Colab上において、以下のようなエラーが発生する場合がありますが、最終的にSuccessfully installedであれば、ほとんどの場合、アプリケーションの動作には問題ありません  
「 *ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.* 」

In [None]:
!pip install -e on-dev-chat-jp/

## シンプルなチャットボット

以下のセルのコマンドを実行すると、**gradio.liveでホストされるパブリックリンクのURL**が表示されるので、そのURLをクリックしてアプリケーションにアクセスします

⚠パブリックリンクは、その名のとおり、インターネット上のどこからでもアクセスできるので、ここからスタートするGUIには、個人情報など保護すべき情報は入力しないでください（詳細は [Gradio > Getting Started > Sharing Your App > Sharing Demos](https://www.gradio.app/guides/sharing-your-app#sharing-demos) を参照してください）

In [None]:
!python -m ondevchatjp.simple_chat --share

## RAGを利用したチャットボット

以下のセルのコマンドを実行すると、**gradio.liveでホストされるパブリックリンクのURL**が表示されるので、そのURLをクリックしてアプリケーションにアクセスします

⚠パブリックリンクは、その名のとおり、インターネット上のどこからでもアクセスできるので、ここからスタートするGUIには、個人情報など保護すべき情報は入力しないでください（詳細は [Gradio > Getting Started > Sharing Your App > Sharing Demos](https://www.gradio.app/guides/sharing-your-app#sharing-demos) を参照してください）

In [None]:
!python -m ondevchatjp.rag_chat --share

## ベクトル検索

以下のセルのコマンドを実行すると、**gradio.liveでホストされるパブリックリンクのURL**が表示されるので、そのURLをクリックしてアプリケーションにアクセスします

⚠パブリックリンクは、その名のとおり、インターネット上のどこからでもアクセスできるので、ここからスタートするGUIには、個人情報など保護すべき情報は入力しないでください（詳細は [Gradio > Getting Started > Sharing Your App > Sharing Demos](https://www.gradio.app/guides/sharing-your-app#sharing-demos) を参照してください）

In [None]:
!python -m ondevchatjp.vector_search --share