# Titan Takeoff | タイタンの離陸

> `TitanML`は、トレーニング、圧縮、および推論最適化プラットフォームを通じて、企業がより優れた、より小さく、より安価で、より高速なNLPモデルを構築し、デプロイするのを支援します。
>
> > `TitanML` helps businesses build and deploy better, smaller, cheaper, and faster NLP models through our training, compression, and inference optimization platform.

> 私たちの推論サーバーである[Titan Takeoff](https://docs.titanml.co/docs/titan-takeoff/getting-started)は、単一のコマンドでお客様のハードウェア上にローカルでLLMsをデプロイすることを可能にします。Falcon、Llama 2、GPT-2、T5など、ほとんどの生成モデルアーキテクチャがサポートされています。
>
> > Our inference server, [Titan Takeoff](https://docs.titanml.co/docs/titan-takeoff/getting-started) enables deployment of LLMs locally on your hardware in a single command. Most generative model architectures are supported, such as Falcon, Llama 2, GPT2, T5 and many more.



## Installation | インストール

Iris Takeoffを始めるために必要なのは、ローカルシステムにDockerとPythonがインストールされていることだけです。GPUサポート付きのサーバーを使用したい場合は、CUDAサポート付きのDockerをインストールする必要があります。

> To get started with Iris Takeoff, all you need is to have docker and python installed on your local system. If you wish to use the server with gpu support, then you will need to install docker with cuda support.

MacとWindowsユーザーの方は、dockerデーモンが実行中であることを確認してください！これを確認するには、ターミナルで`docker ps`を実行してください。デーモンを起動するには、Docker Desktopアプリを開いてください。

> For Mac and Windows users, make sure you have the docker daemon running! You can check this by running docker ps in your terminal. To start the daemon, open the docker desktop app.

takeoffサーバーを実行するために必要なIris CLIをインストールするには、以下のコマンドを実行してください：

> Run the following command to install the Iris CLI that will enable you to run the takeoff server:



In [None]:
!pip install titan-iris

## Choose a Model | モデルを選択

Takeoffは、Falcon、MPT、Llamaなど、最も強力な生成テキストモデルの多くをサポートしています。詳細については、[サポートされているモデル](https://docs.titanml.co/docs/titan-takeoff/supported-models)をご覧ください。ご自身のモデルを使用する方法については、[カスタムモデル](https://docs.titanml.co/docs/titan-takeoff/Advanced/custom-models)のページをご覧ください。

> Takeoff supports many of the most powerful generative text models, such as Falcon, MPT, and Llama. See the [supported models](https://docs.titanml.co/docs/titan-takeoff/supported-models) for more information. For information about using your own models, see the [custom models](https://docs.titanml.co/docs/titan-takeoff/Advanced/custom-models).

このデモでは、falcon 7B instructモデルを使用していきます。これは指示に従って動作するように訓練された優れたオープンソースモデルで、CPU上でも容易に推論処理を行うことができるほど小さなサイズです。

> Going forward in this demo we will be using the falcon 7B instruct model. This is a good open-source model that is trained to follow instructions, and is small enough to easily inference even on CPUs.

## Taking off | 離陸

モデルはHuggingFace上のモデルIDによって参照されます。Takeoffはデフォルトでポート8000を使用しますが、別のポートを使用するように設定することもできます。また、デバイスフラグでcudaを指定することにより、Nvidia GPUを使用するサポートもあります。

> Models are referred to by their model id on HuggingFace. Takeoff uses port 8000 by default, but can be configured to use another port. There is also support to use a Nvidia GPU by specifying cuda for the device flag.

takeoffサーバーを起動するには、以下のコマンドを実行してください：

> To start the takeoff server, run:

```shell
iris takeoff --model tiiuae/falcon-7b-instruct --device cpu
iris takeoff --model tiiuae/falcon-7b-instruct --device cuda # Nvidia GPU required
iris takeoff --model tiiuae/falcon-7b-instruct --device cpu --port 5000 # run on port 5000 (default: 8000)
```



その後、ログインページに移動します。そこでアカウントを作成して先に進む必要があります。ログインした後、サーバーが準備できているかどうかを確認するために画面に表示されたコマンドを実行してください。準備が整ったら、Takeoff統合の使用を開始できます。

> You will then be directed to a login page, where you will need to create an account to proceed.
> After logging in, run the command onscreen to check whether the server is ready. When it is ready, you can start using the Takeoff integration.

サーバーをシャットダウンするには、以下のコマンドを実行してください。複数のサーバーが稼働している場合、どのTakeoffサーバーをシャットダウンするかのオプションが表示されます。

> To shutdown the server, run the following command. You will be presented with options on which Takeoff server to shut down, in case you have multiple running servers.

```shell
iris takeoff --shutdown # shutdown the server
```



## Inferencing your model | モデルの推論処理

LLMにアクセスするには、TitanTakeoff LLMラッパーを使用してください：

> To access your LLM, use the TitanTakeoff LLM wrapper:



In [None]:
from langchain.llms import TitanTakeoff

llm = TitanTakeoff(
    base_url="http://localhost:8000", generate_max_length=128, temperature=1.0
)

prompt = "What is the largest planet in the solar system?"

llm(prompt)

デフォルトではパラメータは必要ありませんが、Takeoffが実行されている希望するURLを指し示すbaseURLを指定でき、[生成パラメータ](https://docs.titanml.co/docs/titan-takeoff/Advanced/generation-parameters)を供給することも可能です。

> No parameters are needed by default, but a baseURL that points to your desired URL where Takeoff is running can be specified and [generation parameters](https://docs.titanml.co/docs/titan-takeoff/Advanced/generation-parameters) can be supplied.

### Streaming | ストリーミング

ストリーミングは、ストリーミングフラグを通じてもサポートされています：

> Streaming is also supported via the streaming flag:



In [None]:
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

llm = TitanTakeoff(
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]), streaming=True
)

prompt = "What is the capital of France?"

llm(prompt)

### Integration with LLMChain | LLMChainとの統合



In [None]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

llm = TitanTakeoff()

template = "What is the capital of {country}"

prompt = PromptTemplate(template=template, input_variables=["country"])

llm_chain = LLMChain(llm=llm, prompt=prompt)

generated = llm_chain.run(country="Belgium")
print(generated)