## Collection-specific API - RAG
Collection-specific API（事前に作成したCollectionのAPIキーを利用）を利用したLLM/RAGの実施。

##### 注意: ドキュメントの読み込みと知識データベース化はデフォルト設定で事前実施済み、チャンクサイズとオーバーラップ設定の調整によって、精度改善の余地あり

In [2]:
from h2ogpte import H2OGPTE

import json

In [3]:
with open('_secret') as f:
    key = json.load(f)

In [4]:
client = H2OGPTE(
    address='https://playground.h2ogpte.h2o.ai',
    api_key=key['movie_sample'],
)

client

<h2ogpte.h2ogpte.H2OGPTE at 0x1098bfac0>

In [5]:
client.get_llm_names()

['mistralai/Mixtral-8x7B-Instruct-v0.1',
 'meta-llama/Meta-Llama-3-8B-Instruct',
 'meta-llama/Meta-Llama-3-70B-Instruct',
 'nvidia/Llama3-ChatQA-1.5-70B',
 'NousResearch/Nous-Capybara-34B',
 'mistralai/Mistral-7B-Instruct-v0.3',
 'h2oai/h2o-danube2-1.8b-chat',
 'mistralai/Mistral-Nemo-Instruct-2407',
 'OpenGVLab/InternVL-Chat-V1-5',
 'THUDM/cogvlm2-llama3-chat-19B',
 'liuhaotian/llava-v1.6-34b',
 'lmms-lab/llama3-llava-next-8b',
 'mistral-small-latest',
 'mistral-large-latest',
 'mistral-medium',
 'claude-3-5-sonnet-20240620',
 'claude-3-sonnet-20240229',
 'claude-3-opus-20240229',
 'claude-3-haiku-20240307',
 'microsoft/Phi-3-vision-128k-instruct',
 'microsoft/Phi-3-medium-128k-instruct',
 'google/gemma-2-27b-it',
 'gemini-1.5-pro-latest',
 'gemini-1.5-flash-latest',
 'gpt-3.5-turbo-0613',
 'gpt-3.5-turbo-16k-0613',
 'gpt-35-turbo-1106',
 'gpt-4-1106-preview',
 'gpt-4-turbo-2024-04-09']

In [23]:
client.count_documents()

1

In [14]:
collection = client.get_default_collection()
collection

CollectionInfo(id='bbc1a192-1d80-4e57-aeca-0af8d49adf40', name='movie_sample', description='この文脈は、さまざまなジャンルの映画について説明しているものである。', document_count=1, document_size=159328, updated_at=datetime.datetime(2024, 7, 24, 3, 0, 23, 612571, tzinfo=TzInfo(UTC)), user_count=1, is_public=False, username='yuki.shimada@h2o.ai', sessions_count=4)

In [15]:
type(collection)

h2ogpte.types.CollectionInfo

https://h2oai.github.io/h2ogpte/h2ogpte.html#h2ogpte.types.CollectionInfo

In [50]:
document_info = client.list_documents_in_collection(collection.id, offset=0, limit=999)
document_info

[DocumentInfo(id='498ee3dc-c7e5-46ab-b5b6-56001318c019', username='yuki.shimada@h2o.ai', name='movies_sample_story.pdf', type='PDF', size=159328, page_count=7, pii_settings=None, connector='Upload', uri=None, original_type='Text', meta_data_dict={}, status='completed', updated_at=datetime.datetime(2024, 7, 24, 4, 2, 26, 659657, tzinfo=TzInfo(UTC)))]

list_documents_in_collection(): https://h2oai.github.io/h2ogpte/h2ogpte.html#h2ogpte.h2ogpte.H2OGPTE.list_documents_in_collection

In [51]:
type(document_info[0])

h2ogpte.types.DocumentInfo

https://h2oai.github.io/h2ogpte/h2ogpte.html#h2ogpte.types.DocumentInfo

In [72]:
doc_chunks = client.list_document_chunks(document_info[0].id)
len(doc_chunks)

35

In [73]:
doc_chunks[0]

SearchResult(id=28, topic='498ee3dc-c7e5-46ab-b5b6-56001318c019', name='movies_sample_story.pdf', text='# Movie Title\nToy Story (1995)\n# Movie Detail\n『トイ・ストーリー』（1995 年）は、冒険、アニメーション、子供向け、コメディ、ファンタジーというジャンルを持つ映画です。この作品は、子供たちから大人まで幅広\nい層に愛されている名作です。\n物語は、主人公のウッディというおもちゃのカウボーイが、新しくやってきたおもちゃのバズ・ライトイヤーとの出会いをきっかけに展開します。ウッディは、バズの登場によっ\nて自分の存在意義に悩み始めますが、やがて二人は協力し合い、友情を深めていきます。\nこの映画は、おもちゃたちの秘密の生活を描いており、彼らが人間に見られないように動き回る様子が描かれています。おもちゃたちは、人間がいない間に自分たちの世界を築き\n', size=923, pages='{"version": 0, "selections": [{"page": 1, "block": 0, "polygons": [{"x": 58.0, "y": 57.7016}, {"x": 134.801, "y": 57.7016}, {"x": 134.801, "y": 67.7016}, {"x": 134.0, "y": 67.7016}, {"x": 134.0, "y": 69.0516}, {"x": 152.801, "y": 69.0516}, {"x": 152.801, "y": 79.0516}, {"x": 140.0, "y": 79.0516}, {"x": 140.0, "y": 91.7516}, {"x": 140.801, "y": 91.7516}, {"x": 140.801, "y": 101.7516}, {"x": 140.0, "y": 101.7516}, {"x": 140.0, "y": 103.1016}, {"x": 532.851, "y": 103.1016}, {"x": 532.851, "y": 113.1016}, {"x": 140.0, "y"

In [74]:
type(doc_chunks[0])

h2ogpte.types.SearchResult

https://h2oai.github.io/h2ogpte/h2ogpte.html#h2ogpte.types.SearchResult

In [85]:
doc_chunks[1]

SearchResult(id=29, topic='498ee3dc-c7e5-46ab-b5b6-56001318c019', name='movies_sample_story.pdf', text='上げ、さまざまな冒険やドタバタを繰り広げます。\nまた、本作はアニメーション映画としても非常に優れており、豪華な映像と緻密なストーリーテリングが魅力です。おもちゃたちの表情や動きがリアルに描かれており、観る者を\n引き込むこと間違いありません。\nさらに、コメディ要素も豊富に盛り込まれており、笑いの連続です。おもちゃたちが巻き起こす騒動や、ユーモア溢れるセリフが観客を楽しませてくれます。子供たちはもちろん、\n大人も心から笑える作品です。\n『トイ・ストーリー』は、子供たちに夢と冒険を与えるだけでなく、大人たちにも感動と笑いを届ける作品です。おもちゃたちの絆や成長、友情の尊さを描いたこの映画は、誰も\nが心に残る感動を与えてくれることでしょう。ぜひ、家族や友人と一緒に楽しんでください。\n##########################\n# Movie Title\nSeven (a.k.a.', size=1066, pages='{"version": 0, "selections": [{"page": 1, "block": 2, "polygons": [{"x": 58.0, "y": 182.5516}, {"x": 194.851, "y": 182.5516}, {"x": 194.851, "y": 192.5516}, {"x": 56.8, "y": 192.5516}, {"x": 56.8, "y": 182.5516}]}, {"page": 1, "block": 3, "polygons": [{"x": 58.0, "y": 205.2516}, {"x": 536.901, "y": 205.2516}, {"x": 536.901, "y": 215.2516}, {"x": 146.0, "y": 215.2516}, {"x": 146.0, "y": 216.6016}, {"x": 146.801, "y": 216.6016}, {"x": 146.801, "y": 226.6016}, {"x": 56

### Summarization

In [98]:
%%time
summary = client.summarize_document(
        document_id=document_info[0].id,
    )
summary

CPU times: user 682 ms, sys: 38.3 ms, total: 720 ms
Wall time: 50.8 s


DocumentSummary(id='f1eb5b59-cc2f-460e-b1bd-395584facd02', content="- The Lord of the Rings: The Fellowship of the Ring (2001) is a must-see film for those who enjoy adventure and fantasy. It faithfully recreates Tolkien's original work while adding cinematic appeal.\n- The story revolves around Frodo Baggins, who is tasked with destroying a ring that holds the power to control all. He embarks on a journey with a diverse group of companions from various races and abilities.\n- The film offers stunning visual effects, beautiful landscapes, and captivating action scenes.\n- It also explores deep themes such as the darkness, loneliness, and despair within the human psyche, providing a thought-provoking experience.\n- The movie has a dark and unique atmosphere, with impressive visuals and music.\n\n- American Beauty (1999) is a drama and romance film about a middle-aged man, Lester Burnham, rediscovering life and love after meeting a young girl named Angela.\n- The film features Kevin Spac

In [99]:
summary.content

"- The Lord of the Rings: The Fellowship of the Ring (2001) is a must-see film for those who enjoy adventure and fantasy. It faithfully recreates Tolkien's original work while adding cinematic appeal.\n- The story revolves around Frodo Baggins, who is tasked with destroying a ring that holds the power to control all. He embarks on a journey with a diverse group of companions from various races and abilities.\n- The film offers stunning visual effects, beautiful landscapes, and captivating action scenes.\n- It also explores deep themes such as the darkness, loneliness, and despair within the human psyche, providing a thought-provoking experience.\n- The movie has a dark and unique atmosphere, with impressive visuals and music.\n\n- American Beauty (1999) is a drama and romance film about a middle-aged man, Lester Burnham, rediscovering life and love after meeting a young girl named Angela.\n- The film features Kevin Spacey's remarkable performance, capturing Lester's internal struggles 

### RAG

In [86]:
chat_session_id = client.create_chat_session_on_default_collection()
chat_session_id

'2364d545-6f62-4d81-a920-795906ebe339'

In [91]:
%%time
with client.connect(chat_session_id) as session:
    reply = session.query(
        '戦争に関連する作品はどれになりますか？',
        llm='mistralai/Mixtral-8x7B-Instruct-v0.1',
        rag_config={"rag_type": "rag"},   # (Normal) RAG 
    )
    print(reply.content)

以下の作品が戦争に関連する作品です。

1. Braveheart (1995)
2. Schindler's List (1993)
3. Apollo 13 (1995)
4. Independence Day (1996)

これらの作品は、戦争の残酷さや人間の強さ、そして愛と勇気の力を描いた感動作です。具体的には、ブレイブハートは、13世紀のスコットランドを舞台に、勇敢な戦士ウィリアム・ウォレスの壮絶な物語を描いています。シンドラーのリストは、オスカー・シンドラーが、ホロコーストで救済を図った物語を描いています。アポロ13は、実際に起きた宇宙船アポロ13 号の事故を描いています。インデペンデンス・デイは、地球外生命体による侵略から地球を守るために立ち上がる人々の壮絶な戦いを描いています。
CPU times: user 10.1 ms, sys: 3.84 ms, total: 13.9 ms
Wall time: 44.4 s


In [92]:
%%time
with client.connect(chat_session_id) as session:
    reply = session.query(
        '戦争に関連する作品はどれになりますか？',
        llm='mistralai/Mixtral-8x7B-Instruct-v0.1',
        rag_config={"rag_type": "hyde1"},   # HyDE RAG
    )
    print(reply.content)

以下の作品が戦争に関連するものです：

* Braveheart (1995)
* Schindler's List (1993)
* Apollo 13 (1995)
* Star Wars: Episode IV - A New Hope (1977)
* Star Wars: Episode V - The Empire Strikes Back (1980)
* Star Wars: Episode VI - Return of the Jedi (1983)
* Saving Private Ryan (1998)
* The Hurt Locker (2008)
* American Sniper (2014)

詳しい情報は、以下を参照してください：

* Braveheart (1995)：アクション、ドラマ、戦争というジャンルの要素を巧みに組み合わせた作品。
* Schindler's List (1993)：ドラマと戦争をテーマにした感動的な映画。
* Apollo 13 (1995)：冒険、ドラマ、IMAX の要素を持つ映画。
* Star Wars: Episode IV - A New Hope (1977)：アクション、冒険、SF の要素を持つ映画。
* Star Wars: Episode V - The Empire Strikes Back (1980)：アクション、冒険、SF の要素を持つ壮大な映画。
* Star Wars: Episode VI - Return of the Jedi (1983)：アクション、冒険、SF の要素を持つ映画。
* Saving Private Ryan (1998)：戦争の撮影技術が革新的で、激しい戦争現場を描いた映画。
* The Hurt Locker (2008)：アメリカの陸上部隊がiraqに配備された時代を舞台に、爆弾除去士官たちの日常を描いた映画。
* American Sniper (2014)：アメリカのスナイパーの生涯を描いた映画。
CPU times: user 17.5 ms, sys: 6.27 ms, total: 23.7 ms
Wall time: 50.7 s


In [93]:
%%time
with client.connect(chat_session_id) as session:
    reply = session.query(
        '戦争に関連する作品はどれになりますか？',
        llm='mistralai/Mixtral-8x7B-Instruct-v0.1',
        rag_config={"rag_type": "hyde2"},   # HyDE + RAG composite
    )
    print(reply.content)

以下の作品が戦争に関連しています。

1. Braveheart (1995)
2. Schindler's List (1993)
3. The Terminator 2: Judgment Day (1991)
4. The Silence of the Lambs (1991)
5. The Apollo 13 (1995)

これらの作品は、戦争の残酷さや人間の強さ、そして愛と勇気の力を描いた感動作や、戦争の背景に立ち上がる人々の壮絶な戦いを描いた作品です。
CPU times: user 18 ms, sys: 7.09 ms, total: 25.1 ms
Wall time: 1min 27s


In [94]:
%%time
with client.connect(chat_session_id) as session:
    reply = session.query(
        '戦争に関連する作品はどれになりますか？',
        llm='mistralai/Mixtral-8x7B-Instruct-v0.1',
        rag_config={"rag_type": "rag+"},   # Summary RAG
    )
    print(reply.content)

以下の作品が、戦争に関連する作品です。

1. Braveheart (1995)
2. Apollo 13 (1995)
3. Schindler's List (1993)

これらの映画は、戦争や軍事についての話題を取り上げています。Braveheart は、スコットランドの独立をテーマにした映画で、戦争の残酷さや人間の強さを描いています。Apollo 13 は、宇宙船アポロ13 号の事故を描いた映画で、冒険心と危険に立ち向かう勇気をテーマにしています。Schindler's List は、ナチス・ドイツ時代にポーランドで活動していた実業家であるオスカー・シンドラーの物語を描いた映画で、人間の善悪について考えさせられます。
CPU times: user 10.7 ms, sys: 3.88 ms, total: 14.6 ms
Wall time: 49.4 s
