Pozn.: zde se nacházejí importy potřebné pro to, aby po restartu kernelu běžela libovolná buňka. V rámci výkladu jsou při setkání se s určitou třídou či funkcí importy samozřejmě uvedeny.

In [1]:
import os
import dotenv
import openai
import langchain

from langchain.prompts import ChatPromptTemplate
from langchain.prompts import PromptTemplate
from langchain.chat_models import ChatOpenAI
from langchain.llms import OpenAI

from langchain.chains import LLMChain
from langchain.chains import SimpleSequentialChain
from langchain.chains import SequentialChain
from langchain.chains import TransformChain

from langchain.chains.router import MultiPromptChain
from langchain.chains.router.llm_router import LLMRouterChain,RouterOutputParser

from langchain.chains import ConversationChain
from langchain.prompts import MessagesPlaceholder, SystemMessagePromptTemplate, HumanMessagePromptTemplate

from langchain.memory import ConversationBufferMemory
from langchain.memory import ConversationBufferWindowMemory 
from langchain.memory import ConversationTokenBufferMemory 
from langchain.memory import ConversationSummaryMemory 
from langchain.memory import ConversationEntityMemory 
from langchain.memory.prompt import ENTITY_MEMORY_CONVERSATION_TEMPLATE

from langchain.document_loaders import PyPDFLoader
from langchain.document_loaders import UnstructuredPDFLoader
from langchain.document_loaders import UnstructuredHTMLLoader
from langchain.document_loaders import BSHTMLLoader
from langchain.document_loaders import WebBaseLoader
from langchain.document_loaders import UnstructuredURLLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import Language
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

from langchain.chains import RetrievalQA
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo

dotenv.load_dotenv()
openai.api_key = os.environ["OPENAI_API_KEY"]

V době psaní těchto řádků je to už několik měsíců, co vzalo ChatGPT svět útokem. Člověk se tak mohl pravidelně i ve sdělovacích prostředcích setkávat s více či méně relevantními články o AI. Tento spisek nemá ambice kráčet jim po boku - absolutně netuším, zda AI (z nějakého důvodu ztotožněná s generativními modely - např. s "doplňovači" textu ala GPT) začne nahrazovat zaměstnance, zda nás vyhubí anebo zda život půjde dál ve starých kolejích. Namísto toho bych tu chtěl ukázat, jak pracovat s modely od OpenAI a to sice jak napřímo, tak skrze framework Langchain.  
Na tomto místě musím doporučit [langchainové kurzy](https://www.deeplearning.ai/short-courses/), které jsou dostupné na deeplearning.ai a ze kterých jsem při tvoření tohoto textu vycházel.

# Obsah
- [OpenAI](#OpenAI)
  - [Tokeny](#Tokeny)
  - [API klíč](#API-klíč)
  - [Jednoduchý příklad](#Jednoduchý-příklad)
  - [Chatbot](#Chatbot)
- [Langchain](#Langchain)
  - [Šablony promptů](#Šablony-promptů)
  - [Chains](#Chains)
    - [LLMChain](#LLMChain)
    - [Sekvenční chainy](#Sekvenční-chainy)
    - [RouterChain](#RouterChain)
    - [Transformation chain](#Transformation-chain)
  - [Paměť](#Paměť)
    - [ConversationBufferMemory](#ConversationBufferMemory)
    - [ConversationBufferWindowMemory](#ConversationBufferWindowMemory)
    - [ConversationTokenBufferMemory](#ConversationTokenBufferMemory)
    - [ConversationSummaryMemory](#ConversationSummaryMemory)
    - [ConversationEntityMemory](#ConversationEntityMemory)
  - [Q&A nad dokumenty](#Q&A-nad-dokumenty)
    - [Načtení dokunetů](#Načtení-dokumentů)
      - [Načtení pdfka](#Načtení-pdfka)
      - [Načtení html souboru](#Načtení-html-souboru)
      - [Načtení webové stránky](#Načtení-webové-stránky)
    - [Splittery](#Splittery)
    - [Embeddings, vectorstore](#Embeddings,-vectorstore)
    - [Similarity search](#Similarity-search)
    - [Question answering](#Question-answering)
    - [Automatické používání metadat](#Automatické-používání-metadat)
    - [Prefix před fragmenty](#Prefix-před-fragmenty)

# OpenAI
### Tokeny
Pro použití OpenAI člověk napřed musí sebe i svou kartu registrovat [zde](https://platform.openai.com/). Na stránkách je poté třeba nechat si vygenerovat API klíč, s jehož pomocí při RESTovém volání OpenAI pozná, co má komu vlastně naúčtovat. Ceník nalezneme [tady](https://openai.com/pricing). Je vhodné zdůraznit, že narozdíl od dejme tomu Midjourney si člověk nekupuje měsíční předplatné, nýbrž platí za míru používání modelů. Přesněji platí za počet modelem zpracovaných tokenů. Do toho se počítají jak tokeny do modelu vstupující, tak tokeny modelem produkované. A co že je vlastně onen token? Jedná se o skupinu písmen, která tvoří slovo anebo jeho část. V angličtině v průměru vychází 1 token na 0,75 slova, v jiných jazycích je poměr horší. Pro získání reálné představy doporučuji podívat se [sem](https://platform.openai.com/tokenizer). Krom očividného omezení peněženkou je součet vstupních a výstupních tokenů (a tak i délka textu) omezen pamětí modelu (kontextem z pricing stránky) - například pro 4K GPT-3.5 model není možné mít text (otázku a odpověď) delší než 4000 tokenů - nadbytečné tokeny budou oříznuty, resp. vůbec nevzniknou. O tom se člověk může předvědčit v "klasickém" webovém GUI rozhraní ChatGPT. Model sám o sobě si nepamatuje, co se dělo v předchozím hovoru. Proto se mu musí celá historie konverzace při každé interakci posílat nanovo. Po čase je historie příliš dlouhá a tak jsou staré tokeny zahozeny a model tudíž začne zapomínat začátky konverzací.

### API klíč
První tutoriálový příklad na [stránkách openai balíčku](https://pypi.org/project/openai/) začíná s 
```python
import openai
openai.api_key = "sk-..."  # supply your API key however you choose
```
Jeho problém tkví ve skutečnosti, že je API klíč umístěn uprostřed kódu. Když si člověk nedá pozor a kód někam pošle (třeba na GitHub), může se jeho jménem (a jeho peněženkou) GPT modelů dotazovat celý internet. Proto bude lepší používat [python-dotenv](https://pypi.org/project/python-dotenv/) balíček. S jeho pomocí Python načte klíč z .env souboru a nastaví ho jako proměnnou prostředí. Jak to konkrétně provedeme? Nejprve si pro jednoduchost ve stejném adresáři jako je notebook vytvoříme .env soubor (opravdu se takto jmenuje, tj. v názvu je jen přípona) a vložíme do něj
```
OPENAI_API_KEY=nazdar1234
```
Poté naimportujeme *dotenv* a provoláme funkci *load_dotenv*.

In [10]:
import dotenv
dotenv.load_dotenv();

Že se proměnná prostředí načetla ověříme s pomocí balíčku *os*:

In [9]:
import os
os.environ["OPENAI_API_KEY"]

'nazdar1234'

Pokud pracujeme s Azure OpenAI, je třeba inicializovat ještě několik dalších proměnných prostředí. Na těch už nic moc tajného není, tudíž mohou být volně v kódu. Vypadají nějak takto:
```python
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_VERSION"] = "2023-03-15-preview"
os.environ["OPENAI_API_BASE"] = "http://testingazureopenai.openai.azure.com"
```
Api type bude asi vždy stejné, api version se bude s časem měnit a nakonec api base závisí na jméně openai resourcu. Tyto parametry se dají nejsnadněji zjistit, když v AzureAI studiu vlezeme do "Chat Playground" a v sekci "Chat Session" klepneme na "View Code". 

### Jednoduchý příklad
Nyní ale přikročme k prvnímu chatovacímu příkladu. Napřed si načteme potřené balíčky a API klíč. Ten je potřeba vložit do *openai.api_key*.

In [1]:
import os
import openai
import dotenv

dotenv.load_dotenv()
openai.api_key = os.environ["OPENAI_API_KEY"]

Následně si vytvoříme objekt reprezentující chat a to s pomocí [*ChatCompletion.create*](https://platform.openai.com/docs/api-reference/chat/create). Tomu podhodíme jednak model, který chceme používat (parametr *model*), jednak dosavadní historii konverzace (parametr *messages*). Ta má podobu listu jsonů obsahujících jednak informaci o mluvčím (klíč "role" s hodnotami "user" či "assistant"), jednak samotnou promluvu (klíč "content").

In [4]:
completion = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "user", "content": "Ahoj."}
  ]
)

Výstupem je následující věc. Všimněte si, že na konci dostáváme i informaci o počtu použitých tokenů.

In [6]:
completion

<OpenAIObject chat.completion id=chatcmpl-7kC1Gk6FCrzqT3p5izzHji81w1yo4 at 0x15039f04530> JSON: {
  "id": "chatcmpl-7kC1Gk6FCrzqT3p5izzHji81w1yo4",
  "object": "chat.completion",
  "created": 1691243646,
  "model": "gpt-3.5-turbo-0613",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "Ahoj! Jak se m\u00e1\u0161?"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 11,
    "completion_tokens": 9,
    "total_tokens": 20
  }
}

Pokud chceme ale jen odpověď chatbota, použijeme

In [13]:
completion.choices[0].message.content

'Ahoj! Jak se máš?'

Do *create* metody lze vložit další parametry. Například *temperature*, která s rostoucí hodnotou vede k chaotičtějším/kreativnějším odpovědím. Podle dokumentace je minimum 0, maximum 2 a default 1. Obecně ale hodnoty větší než 1 vedou obvykle k nesmyslné změti písmen.

In [14]:
completion = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "user", "content": "Ahoj."}
  ],
  temperature=2
)

completion.choices[0].message.content

'Ahoj! Repoitorio Vas pin aku toda mald ty vy ziwa)?'

In [15]:
completion = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "user", "content": "Ahoj."}
  ],
  temperature=0
)

completion.choices[0].message.content

'Ahoj! Jak se máš?'

Do *messages* lze vložit i tzv. systémový prompt, který chatbotu říká,v jaké roli má vlastně vystupovat. Takováto věc se označuje klíčem "system".

In [17]:
completion = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
    {"role": "system", "content": "Jsi veverka milující oříšky. Odpovídáš maximálně ve dvou větách."},
    {"role": "user", "content": "Co bych si měl dát ke svačině?"}
  ],
  temperature=0.7
)

print(completion.choices[0].message.content)

Doporučuji si dát oříšky, jsou zdravé, plné energie a zároveň chutné.


### Chatbot
Bohužel kód jak ho tady máme jako chatbot nefunguje - nijak se tu neukládá historie konverzací a pokaždé tak začínáme nanovo. V openai balíčku se žádná příhodná funkce ani třída nenalézá a tak si celou (byť v tomto případě ultra krátkou) logiku musíme napsat sami.

In [19]:
chat_history = [
    {"role": "system", "content": "Jsi veverka milující oříšky. Odpovídáš maximálně ve dvou větách."}
  ]

print("Pro ukončení konverzace napište 'exit'")

while True:
    user_message = input("Uživatel: ")
    if user_message == "exit":
        break
    chat_history.append(
        {"role": "user", "content": user_message}
    )
    conversation = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=chat_history,
        temperature=0.7
    )
    chatbot_answer = conversation.choices[0].message.content
    chat_history.append(
        {"role": "assistant", "content": chatbot_answer}
    )
    print(f"Chatbot: {chatbot_answer}")

Pro ukončení konverzace napište 'exit'


Uživatel:  Co si mám dát ke svačině?


Chatbot: Doporučuji ti oříšky, jsou zdravé a chutné.


Uživatel:  Ale když já jsem na oříšky alergický.


Chatbot: V takovém případě si dej něco jiného, co ti nezpůsobuje alergickou reakci.


Uživatel:  A co?


Chatbot: Můžeš si dát například ovoce, zeleninu, jogurt nebo celozrnný chléb s nějakým sýrem nebo pomazánkou.


Uživatel:  exit


# Langchain
Sice bychom mohli pokračovat v používání čistého openai balíčku, ale museli bychom přitom programovat více, než by bylo potřeba. Existuje totiž balíček Langchain, který hromadu práce udělá za nás.

### Šablony promptů

S pomocí šablon lze s minimální prací navíc přepoužívat i poměrně komplexní prompty. Pro názornost nicméně začněme něčím jednoduchým.  
Napřed si napíšeme stringový základ šablony, ve kterém vložíme dodatečné parametry do složených závorek. Vlastně to vypadá jako f-stringy, jen to f-ko na začátku chybí. Šablonu jako takovou vytvoříme s pomocí *ChatPromptTemplate.from_template*, do které jako parametr vložíme string z předchozího kroku.

In [29]:
from langchain.prompts import ChatPromptTemplate

template_text = """
V jedné větě shrň text obklopený trojicí uvozovek. Odpověď musí být napsána v {language} jazyce. 
Text: '''{text}'''
"""
prompt_template = ChatPromptTemplate.from_template(template_text)

Takto vypadá jádro "šablonového" objektu. V první části vidíme jména do šablony dosazovaných proměnných.

In [30]:
prompt_template.messages[0].prompt

PromptTemplate(input_variables=['language', 'text'], output_parser=None, partial_variables={}, template="\nV jedné větě shrň text obklopený trojicí uvozovek. Odpověď musí být napsána v {language} jazyce. \nText: '''{text}'''\n", template_format='f-string', validate_template=True)

In [31]:
language = "anglickém"

Jako testovací text použijeme kousek z [wiki článku o veverkách](https://cs.wikipedia.org/wiki/Veverka_obecn%C3%A1).

In [9]:
squirrel_text = """
Veverka obecná obvykle dorůstá 19 až 23 cm a dosahuje hmotnosti mezi 250 a 340 g někdy i víc. 
Huňatý ocas, který napomáhá udržovat rovnováhu při lezení a skocích na stromech a který veverka využívá 
jako „pokrývku“ těla při spánku, je 14,5 až 20 cm dlouhý.[3] Charakteristickým znakem veverky obecné jsou střapce 
chlupů na ušních boltcích směřující do špičky a viditelné především v zimním období. 
Stejně jako většina stromových veverek má i veverka obecná ostré a zakřivené drápy, které jí pomáhají při lezení po větvích stromů. 
"""

Proměnné se do šablony dostanou v rámci provolání metody *format_messages*. V ní by každé proměnné měl odpovídat jeden parametr nesoucí její jméno.

In [34]:
filled_template = prompt_template.format_messages(
    language=language,
    text=squirrel_text
)

Výsledek vypadá následně:

In [35]:
filled_template

[HumanMessage(content="\nV jedné větě shrň text obklopený trojicí uvozovek. Odpověď musí být napsána v anglickém jazyce. \nText: '''\nVeverka obecná obvykle dorůstá 19 až 23 cm a dosahuje hmotnosti mezi 250 a 340 g někdy i víc. \nHuňatý ocas, který napomáhá udržovat rovnováhu při lezení a skocích na stromech a který veverka využívá \njako „pokrývku“ těla při spánku, je 14,5 až 20 cm dlouhý.[3] Charakteristickým znakem veverky obecné jsou střapce \nchlupů na ušních boltcích směřující do špičky a viditelné především v zimním období. \nStejně jako většina stromových veverek má i veverka obecná ostré a zakřivené drápy, které jí pomáhají při lezení po větvích stromů. \n'''\n", additional_kwargs={}, example=False)]

Nyní musíme Langchainu říct, s jakým jazykovým modelem má pracovat. Pro podporované modely přitom existují separátní třídy. Seznam nalezneme [zde](https://python.langchain.com/docs/integrations/llms/). Zdůrazněme, že zatímco balíček openai dokázal obhospodařit jak OpenAI modely, tak Azure OpenAI modely, zde se jedná o separátní entity. Navíc je rozdíl mezi třídou [OpenAI](https://python.langchain.com/docs/integrations/llms/openai) importovanou z langchain.llms a ChatOpenAI importovaným z langchain.chat_models. Na základě zdrojového kódu předpokládám, že OpenAI třída je určena na doplňovací úlohy - jejím defaultním LLMkem je text-davinci-003 a pokud se do ní člověk pokusí vložit chatovací LLMka, dostane se mu warning hlášky 
```
You are trying to use a chat model. This way of initializing it is no longer supported. Instead, please use: `from langchain.chat_models import ChatOpenAI` 
```
Jaké parametry můžeme do konstruktoru ChatOpenAI vložit? Jedná se primárně o teplotu (parametr *temperature* s defaultní hodnotou 0.7) a jméno LLM modelu (parametr *model_name* s defaultní hodnotou "gpt-3.5-turbo").

In [36]:
from langchain.chat_models import ChatOpenAI
chat = ChatOpenAI(temperature=0.0, model_name="gpt-3.5-turbo")

Když do našeho chatovacího modelu vložíme jako parametr šablonu a výsledku se zeptáme na atribut *content*, získáme odpověď. Vidíme, že anglický jazyk sice model pochopil, ale shrnutí zabralo více než požadovanou jednu větu. no, shrnutí - text vypadá spíš jako překlad...

In [37]:
summary_response = chat(filled_template)
print(summary_response.content)

"The common squirrel usually reaches a size of 19 to 23 cm and weighs between 250 and 340 g, sometimes even more, with a bushy tail, which helps maintain balance while climbing and jumping on trees and which the squirrel uses as a 'cover' for its body during sleep, measuring 14.5 to 20 cm long. A characteristic feature of the common squirrel is the tufts of fur on its ear tufts pointing towards the tip, visible mainly in winter. Like most tree squirrels, the common squirrel also has sharp and curved claws that help it climb tree branches."


Člověka by napadlo, že se text bez ztráty informací do jedné věty možná shrnout nedá a nízká teplota zabraňuje kreativnější práci s informacemi.

In [38]:
chat = ChatOpenAI(
    temperature=0.7, 
    model_name="gpt-3.5-turbo"
)
summary_response = chat(filled_template)
print(summary_response.content)

"The red squirrel usually grows to 19-23 cm and weighs between 250 and 340 grams, sometimes more, with a bushy tail that helps maintain balance while climbing and jumping on trees and which the squirrel uses as a 'cover' for its body during sleep, measuring 14.5-20 cm long.


Nicméně možná si model zkrátka co se instrukcí týče jenom nerozumí s češtinou tak dobře jako s angličtinou.

In [42]:
template_text = """
Summarize the text surrounded by three quotation marks in one sentence. The answer must be written in {language} language. 
Text: '''{text}'''
"""
prompt_template = ChatPromptTemplate.from_template(template_text)
language = "czech"

filled_template = prompt_template.format_messages(
    language=language,
    text=squirrel_text
)

chat = ChatOpenAI(
    temperature=0.0, 
    model_name="gpt-3.5-turbo"
)
summary_response = chat(filled_template)
print(summary_response.content)

Veverka obecná dorůstá délky 19 až 23 cm, váží mezi 250 a 340 g a má huňatý ocas dlouhý 14,5 až 20 cm, který jí pomáhá udržovat rovnováhu při lezení a skocích na stromech.


Možná se nám někdy stane, že bude odpověď useknutá. To nejspíš bude dáno skutečností, že defaultní hodnota parametru *max_tokens* pro *ChatOpenAI*, která má velikost 256, na celou odpověď zkrátka nestačí. Pokud nechceme být omezováni (resp. pokud chceme být omezeni jen maximální velikostí kontextového okna), vložíme do parametru -1.

In [41]:
template_text = """
Summarize the text surrounded by three quotation marks in one sentence. The answer must be written in {language} language. 
Text: '''{text}'''
"""
prompt_template = ChatPromptTemplate.from_template(template_text)
language = "czech"

filled_template = prompt_template.format_messages(
    language=language,
    text=squirrel_text
)

chat = ChatOpenAI(
    temperature=0.0, 
    model_name="gpt-3.5-turbo",
    max_tokens=22
)
summary_response = chat(filled_template)
print(summary_response.content)

Veverka obecná dorůstá délky 19 až 23 cm, vá


Zkusme nyní lehce komplikovanější šablonu, která se bude koukat na [popis hry Na křídlech](https://www.tlamagames.com/deskove-hry/wingspan/).

In [14]:
wingspan_text = """
Wingspan je kompetitivní středně těžká hra využívající karty a engine building mechanismus.

Stáváte se nadšenými ornitology a sběrateli a snažíte se objevit a přilákat ty nejzajímavější ptáky da Vaší sítě rezervací. Každý pták posiluje řetěz kombinací pro daný habitat (akci). Tyto habitaty jsou zaměřeny na několik klíčových oblastí rozvoje:

    Dostat žetony jídla výběrem kostky z krmítka (dice tower)
    Kladení vajec s využitím miniaturních vajec v různých barvách
    Dobrání ze stovek unikátních karet ptáků a zahrání těchto karet

Vítězem je ten hráč, který má po 4 kolech nejvíce bodů.

Pokud máte rádi hry jako Terraforming Mars a Gizmos, tak by tahle hra měla zalétnout na Váš stůl.

Hra je určena pro 1-5 hráčů od 14 let.

Pravidla i herní materiál je v angličtině.
"""

template_text = """
From text surrounded by by three quotation marks extract following information.

1) Minimal age
2) Number of players
3) Victory condition

The answer must be written in {language} language in {format} format. 

Text: '''{text}'''
"""

prompt_template = ChatPromptTemplate.from_template(template_text)
language = "czech"
format = "json"

filled_template = prompt_template.format_messages(
    language=language,
    format=format,
    text=wingspan_text
)

chat = ChatOpenAI(
    temperature=0.0, 
    model_name="gpt-3.5-turbo"
)
summary_response = chat(filled_template)
print(summary_response.content)

{
  "Minimal age": "14 let",
  "Number of players": "1-5 hráčů",
  "Victory condition": "ten hráč, který má po 4 kolech nejvíce bodů"
}


In [17]:
prompt_template = ChatPromptTemplate.from_template(template_text)
language = "english"
format = "plain text"

filled_template = prompt_template.format_messages(
    language=language,
    format=format,
    text=wingspan_text
)

chat = ChatOpenAI(
    temperature=0.0, 
    model_name="gpt-3.5-turbo"
)
summary_response = chat(filled_template)
print(summary_response.content)

1) Minimal age: The game is intended for players aged 14 and above.
2) Number of players: The game can be played by 1-5 players.
3) Victory condition: The player with the most points after 4 rounds is the winner.


V případě práce s Azure OpenAI budeme namísto *ChatOpenAI* používat *AzureChatOpenAI*. Rozdíl je i v parametrech - nebudeme specifikovat *model_name*, nýbrž *deployment_name*. V Azuru se totiž vytváří svého druhu instance modelů mimo (obvykle) v GUI, přičemž jsou pojmenovány právě jako deploymenty.  Vytvořené deploymenty člověk nalezne v Azure AI studiu v sekci "deployments" (do konstruktoru dáváme název z prvního sloupce tabulky).

```python
from langchain.chat_models import AzureChatOpenAI

chat = AzureChatOpenAI(deployment_name="jmeno_deploymentu", temperature=0)
```

## Chains
Je načase přistoupit k věci, podle které nese Langchain své jméno - k chainům. Ty jsou [definovány](https://python.langchain.com/docs/modules/chains/) jako posloupnosti volání komponent, které mohou obsahovat další chainy. To by ve výsledku mělo vést k větší přehlednosti a snazší udržování kódu.
#### [LLMChain](https://python.langchain.com/docs/modules/chains/foundational/llm_chain)
Jedná se o asi nejjednodušší chain. Člověk do něj při inicializaci nasype template a jazykový model. Při samotném použití *LLMChain* provoláme s hodnotou proměnné, která se dosadí do šablony. Výsledný textový řetězec poputuje do jazykového modelu a následně obdržíme výsledek.

In [9]:
from langchain.chains import LLMChain

chat = ChatOpenAI(temperature=0.95)
prompt_template = ChatPromptTemplate.from_template(
    "Jaké je nejvhodnější jméno pro {pet}? Odpověď má být krátka o délce jedné věty, ale měla by obsahovat zdůvodnění."
)
llm_chain = LLMChain(llm=chat, prompt=prompt_template)

In [14]:
pet = "psa"
llm_chain(pet)

{'pet': 'psa',
 'text': 'Nejvhodnější jméno pro psa je takové, které se snadno vyslovuje, je krátké a jednoduché, aby pes snadno rozuměl, když si na něj voláme.'}

Obvykle ale nechceme slovníkovou omáčku okolo, ale jen samotnou odpověď. Tehdy je lepší použít metodu *run*.

In [10]:
pet = "křečka"
llm_chain.run(pet)

'Nejvhodnějším jménem pro křečka je "Brouček", protože je to jednoduché, přívětivé a snadno zapamatovatelné jméno pro malé zvíře.'

In [11]:
pet = "králíka"
llm_chain.run(pet)

'Nejvhodnějším jménem pro králíka je "Skokan", protože tímto jménem se vyjadřuje jeho hlavní charakteristika - králíci jsou známí svou schopností skákat a pohybovat se rychle.'

Metodě *run* se podobá metoda predict. Liší se tím, že u ní musí být vstupy předávány jako keyword argumenty (nalevo od rovnítka jméno proměnné v šabloně, napravo nějaká hodnota, zde "čirou náhodou" uložená v proměnné stejného jména).

In [13]:
pet = "želvu"
llm_chain.predict(pet=pet)

'Nejvhodnější jméno pro želvu je "Ohnivka", protože toto jméno vyjadřuje sílu a odolnost, kterou želvy symbolizují, a zároveň vyvolává pocit exotiky a tajemna.'

K čemu je to dobré? Metoda *run* podporuje jen jeden argument, takže pokud chceme mít v šabloně více proměnných, musíme použít právě *predict*.

In [34]:
prompt_template_two_var = ChatPromptTemplate.from_template(
    """
    Write the best name for {pet}. Answer should be in one sentence, in {language} language, but should contain reasoning.
    """
)
llm_chain_two_var = LLMChain(llm=chat, prompt=prompt_template_two_var)

In [35]:
pet = "cat"
language = "german"
llm_chain_two_var.predict(pet=pet, language=language)

'Der beste Name für eine Katze ist "Schatzi", weil es ein süßer und liebevoller Name ist, der die Zuneigung und Verbundenheit zwischen dem Besitzer und der Katze ausdrückt.'

Pokud člověk chce odpovědi na více separátních vstupů, není třeba popořadě manuálně provolávat model, ale lze použít metodu *apply*. Té se podhodí list slovníků s proměnnými.

In [37]:
input_list = [
    {"pet": "parrot", "language":"english"},
    {"pet": "bear", "language":"czech"},
    {"pet": "monkey", "language":"german"}
]

llm_chain_two_var.apply(input_list)

[{'text': 'The best name for a parrot would be "Polly" because it is a classic and instantly recognizable bird name that has been popularized in literature and films, making it a fitting and memorable choice for a pet parrot.'},
 {'text': 'Nejlepší jméno pro medvěda je "Hugo", protože toto jméno vytváří přátelský a sympatický dojem, který se hodí k charakteristice medvědů jako velkých a silných, ale zároveň něžných a laskavých zvířat.'},
 {'text': 'Der beste Name für einen Affen wäre "Banane" , weil der Name sowohl die Verbindung zur natürlichen Umgebung des Affen herstellt als auch eine humorvolle und charmante Assoziation schafft.'}]

#### [Sekvenční chainy](https://python.langchain.com/docs/modules/chains/foundational/sequential_chains)
Sekvenční chainy jsou určeny pro situace, kdy výstup jednoho provolání modelu vkládáme jako vstup do provolání druhého. Existují ve dvou variantách:
- SimpleSequentialChain, který má jen jeden vstup a jeden výstup
- SequentialChain umožňující existenci více vstupů a výstupů

Pro ukázku SimpleSequentialChain si napřed vytvoříme dva LLMChainy.

In [41]:
from langchain.chains import SimpleSequentialChain

chat = ChatOpenAI(temperature=0.95)

prompt_template_post = ChatPromptTemplate.from_template(
    "Write a LinkedIn post for company {company}."
)

post_chain = LLMChain(llm=chat, prompt=prompt_template_post)

In [49]:
prompt_template_summary = ChatPromptTemplate.from_template(
    """
    Summarize the text surrounded by three quotation marks in one sentence.
    Text: '''{text}''''
    """
)

summary_chain = LLMChain(llm=chat, prompt=prompt_template_summary)

Následně s jejich pomocí vytvoříme SimpleSequentialChain.

In [50]:
overall_chain = SimpleSequentialChain(chains=[post_chain, summary_chain], verbose=True)

Ten uvedeme do provozu provoláním metody *run*. Do té vložíme hodnotu, která bude dosazena do prvního LLMChainu (pořadí chainů dáno pořadím v listu vkládaného do parametru *chains*).  
Jelikož jsme *SimpleSequentialChain* vytvořili s parametrem *verbose*=True, vidíme i mezivýsledky - výstup prvního a druhého LLMChainu v modré resp. žluté barvě.

In [51]:
post_summary = overall_chain.run("Hamster food Inc.")



[1m> Entering new SimpleSequentialChain chain...[0m
[36;1m[1;3m🌾🐹 A crucial ingredient for a happy, healthy hamster - Hamster Food Inc. 🐹🌾

I am incredibly proud and excited to share with you the remarkable journey of Hamster Food Inc.! 🎉🌟

At Hamster Food Inc., we live and breathe our passion for providing the very best nourishment for our adorable furry companions. With a commitment to quality, innovation, and the well-being of small pets, we have become a trusted name in the industry.

🌱 Our dedication to nutrition:
We understand that each little hamster has unique needs, depending on their breed, age, and activity level. That's why our team of expert nutritionists and veterinarians work tirelessly to develop a range of premium, balanced, and tasty food options for your precious pets. We focus on natural, wholesome ingredients, free from artificial additives, to ensure a diet that promotes optimal health and longevity.

🔬 Continuous Research & Development:
At Hamster Food Inc.

Výsledek jsme si uložili do proměnné *post_summary*.

In [52]:
post_summary

'Hamster Food Inc. is a company dedicated to providing premium, balanced, and sustainable food options for hamsters, with a focus on nutrition and the well-being of small pets.'

S *verbose*=False žádné barevné výsledky neuvidíme.

In [53]:
overall_chain = SimpleSequentialChain(chains=[post_chain, summary_chain], verbose=False)
post_summary = overall_chain.run("Hamster food Inc.")

In [54]:
post_summary

'Hamster Food Inc. is revolutionizing the world of pet care by providing high-quality and innovative nutrition options for hamsters, including a new product line called "Hamster Delights," while also emphasizing sustainability and customer feedback.'

Nyní se podívejme na *SequentialChain*. Zde první LLMChain bude mít dva vstupy. Navíc tu v parametru *output_key* říkáme, do jak pojmenované proměnné zpracované dalšími LLMChainy se má výstup tohoto chainu uložit.

In [3]:
from langchain.chains import SequentialChain

chat = ChatOpenAI(temperature=0.95)

prompt_template_post = ChatPromptTemplate.from_template(
    "Write a LinkedIn post for company {company} with length of {sentences_count} sentences."
)

post_chain = LLMChain(llm=chat, prompt=prompt_template_post, output_key="linkendin_post")

Dva vstupy a jeden *output_key* má i druhý *LLMChain*.

In [4]:
prompt_template_summary = ChatPromptTemplate.from_template(
    """
    Summarize the text surrounded by three quotation marks in one sentence. Use {language} language.
    Text: '''{linkendin_post}''''
    """
)

summary_chain = LLMChain(llm=chat, prompt=prompt_template_summary, output_key="summarization")

Nyní si vytvoříme *SequentialChain*. Oproti *SimpleSequentialChain* tu navíc máme parametry *input_variables* a *output_variables*. Všimněme si, že i když se proměnná *language* používá ař v druhém LLMChainu, je v *input_variables*. První LLMChain ji prostě ignoruje.  
V SequentialChainu bychom mohli mít více chainů a ty by ani nemusely mít uspořádány čistě sériově. Langchain už by si je postupně pospouštěl podle potřebných input a output proměnných. Dokonce ani konec nemusí být v jednom chainu - zakončení může být více a pak je output_key každého koncového chainu umístěn do listu v *output_variables*.

In [5]:
overall_chain = SequentialChain(
    chains=[post_chain, summary_chain],
    input_variables=["company", "sentences_count", "language"],
    output_variables=["summarization"],
    verbose=True
)

Aktivovat *SequentialChain* můžeme vložením slovníku se záznamem pro každou *input_variable* do instance chainu. Výstupem bude podobně jako u LLMChainu slovník o velikosti asi větší, než potřebujeme.

In [7]:
overall_chain({"language":"czech", "sentences_count":3, "company":"Turtles speedtravel"})



[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m


{'language': 'czech',
 'sentences_count': 3,
 'company': 'Turtles speedtravel',
 'summarization': 'Společnost Turtles speedtravel právě spustila revoluční, hyper-rychlé dopravní řešení, které se snaží změnit budoucnost cestování.'}

Všimněme si ale, že i když jsme nastavili *verbose*=True, nevidíme mezivýsledky. Netušíme tak, co se vlastně uvnitř děje. Když ale nastavíme langchain do debug modu s pomocí *langchain.debug* = True, uvidíme vše do nejmenších podrobností.

In [16]:
langchain.debug = True

In [11]:
overall_chain({"language":"czech", "sentences_count":3, "company":"Turtles speedtravel"})

[32;1m[1;3m[chain/start][0m [1m[1:chain:SequentialChain] Entering Chain run with input:
[0m{
  "language": "czech",
  "sentences_count": 3,
  "company": "Turtles speedtravel"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain] Entering Chain run with input:
[0m{
  "language": "czech",
  "sentences_count": 3,
  "company": "Turtles speedtravel"
}
[32;1m[1;3m[llm/start][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain > 3:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Write a LinkedIn post for company Turtles speedtravel with length of 3 sentences."
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain > 3:llm:ChatOpenAI] [3.70s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "Excited to announce that I have joined Turtles Speedtravel as their newest team member! Looking forward to working with this amazing company that is revolutionizing the travel indus

{'language': 'czech',
 'sentences_count': 3,
 'company': 'Turtles speedtravel',
 'summarization': 'Text: "Mám radost, že jsem se připojil k Turtles Speedtravel jako jejich nejnovější člen týmu! Těším se na spolupráci s touto úžasnou společností, která revolučně mění cestovní průmysl svými rychlými a ekologickými dopravními řešeními. Jsem nadšený, že se podílím na jejich misi, aby cestování bylo chytřejší, ekologičtější a efektivnější."'}

Existuje i metoda *run* vracející namísto slovníku jen stringový výstup pro *output_variables*. Byť zrovna v tomto příkladu se jaksi žádné shrnování textu nekonalo.

In [12]:
sequential_chain_result = overall_chain.run({"language":"czech", "sentences_count":3, "company":"Turtles speedtravel"})

[32;1m[1;3m[chain/start][0m [1m[1:chain:SequentialChain] Entering Chain run with input:
[0m{
  "language": "czech",
  "sentences_count": 3,
  "company": "Turtles speedtravel"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain] Entering Chain run with input:
[0m{
  "language": "czech",
  "sentences_count": 3,
  "company": "Turtles speedtravel"
}
[32;1m[1;3m[llm/start][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain > 3:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Write a LinkedIn post for company Turtles speedtravel with length of 3 sentences."
  ]
}
[36;1m[1;3m[llm/end][0m [1m[1:chain:SequentialChain > 2:chain:LLMChain > 3:llm:ChatOpenAI] [4.31s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "Excited to share that I have joined Turtles Speedtravel as their new Marketing Manager! With their innovative approach to sustainable tourism and commitment to creating unforgettabl

In [13]:
sequential_chain_result

'„S velkou radostí sděluji, že jsem se připojil k Turtles Speedtravel jako jejich nový marketingový manažer! S jejich inovativním přístupem k udržitelnému cestovnímu ruchu a závazkem vytvářet nezapomenutelné zážitky z cestování se těším, že budu součástí jejich cesty. Těším se na spolupráci s úžasným týmem Turtles Speedtravel, abychom v cestovním průmyslu vytvořili pozitivní dopad! #NovýZačátek #UdržitelnéCestování #TurtlesSpeedtravel“'

#### RouterChain
RouterChain dokáže posoudit, na který z podřízených chainů poslat uživatelský vstup. Narozdíl od sekvenčích chainů, kde je posloupnost řízena jménem proměnných (a tedy volbou programátora), v případě LLMRouterChain se o rozzařování skutečně stará jazykový model.  
Pozn.: v této podkapitole čerpám z langchainového kurzu z deeplearning.ai opravdu extenzivně - MULTI_PROMPT_ROUTER_TEMPLATE je převzat beze změn metodou ctrl+C, ctrl+V.  
Nejprve si vytvoříme základy šablon pro programování a pro vaření.

In [37]:
from langchain.chains.router import MultiPromptChain
from langchain.chains.router.llm_router import LLMRouterChain,RouterOutputParser
from langchain.prompts import PromptTemplate

it_problem_template = """You are a very smart programmer. 
You are great at answering questions about computers, programming and IT in a concise 
and easy to understand manner. 
When you don't know the answer to a question you admit that you don't know.

Here is a question:
{input}"""

cooking_template = """Your are master chef, expert at cooking and food preparation. 
When you don't know the answer to a question you admit that you don't know.


Here is a question:
{input}
"""

prompt_infos = [
    {
        "name": "programming", 
        "description": "Good for answering questions about programming and IT", 
        "prompt_template": it_problem_template
    },
    {
        "name": "food", 
        "description": "Good for answering questions about food and cooking", 
        "prompt_template": cooking_template
    }
]

Následně dojde k vytvoření instance jazykového modelu a listu slovníku o podchainech.

In [38]:
chat = ChatOpenAI(temperature=0)

destination_chains = {}
for one_prompt_info in prompt_infos:
    name = one_prompt_info["name"]
    prompt_template = one_prompt_info["prompt_template"]
    prompt = ChatPromptTemplate.from_template(template=prompt_template)
    chain = LLMChain(llm=chat, prompt=prompt)
    destination_chains[name] = chain  
    
destinations = [f"{one_prompt_info['name']}: {one_prompt_info['description']}" for one_prompt_info in prompt_infos]
destinations_str = "\n".join(destinations)
print(destinations_str)

programming: Good for answering questions about programming and IT
food: Good for answering questions about food and cooking


Vytvoříme si i defaultní podchain, kam půjdou uživatelské dotazy, které se nevejdou nikam jinam.

In [39]:
default_prompt = ChatPromptTemplate.from_template("{input}")
default_chain = LLMChain(llm=chat, prompt=default_prompt)

Následuje extenzivní popis router šablony.

In [40]:
MULTI_PROMPT_ROUTER_TEMPLATE = """Given a raw text input to a \
language model select the model prompt best suited for the input. \
You will be given the names of the available prompts and a \
description of what the prompt is best suited for. \
You may also revise the original input if you think that revising\
it will ultimately lead to a better response from the language model.

<< FORMATTING >>
Return a markdown code snippet with a JSON object formatted to look like:
```json
{{{{
    "destination": string \ name of the prompt to use or "DEFAULT"
    "next_inputs": string \ a potentially modified version of the original input
}}}}
```

REMEMBER: "destination" MUST be one of the candidate prompt \
names specified below OR it can be "DEFAULT" if the input is not\
well suited for any of the candidate prompts.
REMEMBER: "next_inputs" can just be the original input \
if you don't think any modifications are needed.

<< CANDIDATE PROMPTS >>
{destinations}

<< INPUT >>
{{input}}

<< OUTPUT (remember to include the ```json)>>"""

A vytvoření samotného routeru.

In [41]:
router_template = MULTI_PROMPT_ROUTER_TEMPLATE.format(
    destinations=destinations_str
)
router_prompt = PromptTemplate(
    template=router_template,
    input_variables=["input"],
    output_parser=RouterOutputParser(),
)

router_chain = LLMRouterChain.from_llm(chat, router_prompt)

A nakonec tu máme chain, který *LLMRouterChain* obaluje a spojuje ho s podchainy.

In [44]:
chain = MultiPromptChain(router_chain=router_chain, 
                         destination_chains=destination_chains, 
                         default_chain=default_chain, verbose=True
                        )

Zde máme příklad programátorského podchainu.

In [45]:
chain.run("What are good packages for graphs creation in Python?")

[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain] Entering Chain run with input:
[0m{
  "input": "WHat are good packages for graphs creation in Python?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain] Entering Chain run with input:
[0m{
  "input": "WHat are good packages for graphs creation in Python?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain] Entering Chain run with input:
[0m{
  "input": "WHat are good packages for graphs creation in Python?"
}
[32;1m[1;3m[llm/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain > 4:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Given a raw text input to a language model select the model prompt best suited for the input. You will be given the names of the available prompts and a description of what the prompt is best suited for. You may also revise the original input



[36;1m[1;3m[llm/end][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain > 4:llm:ChatOpenAI] [1.80s] Exiting LLM run with output:
[0m{
  "generations": [
    [
      {
        "text": "{\n    \"destination\": \"programming\",\n    \"next_inputs\": \"What are good packages for graphs creation in Python?\"\n}",
        "generation_info": {
          "finish_reason": "stop"
        },
        "message": {
          "lc": 1,
          "type": "constructor",
          "id": [
            "langchain",
            "schema",
            "messages",
            "AIMessage"
          ],
          "kwargs": {
            "content": "{\n    \"destination\": \"programming\",\n    \"next_inputs\": \"What are good packages for graphs creation in Python?\"\n}",
            "additional_kwargs": {}
          }
        }
      }
    ]
  ],
  "llm_output": {
    "token_usage": {
      "prompt_tokens": 251,
      "completion_tokens": 25,
      "total_tokens": 276
    },
    "mo

'There are several good packages for graph creation in Python. Some popular ones include:\n\n1. Matplotlib: Matplotlib is a widely used plotting library in Python. It provides a variety of functions to create different types of graphs, including line plots, bar plots, scatter plots, and more. It is highly customizable and offers a lot of flexibility in terms of graph appearance.\n\n2. Seaborn: Seaborn is built on top of Matplotlib and provides a higher-level interface for creating attractive and informative statistical graphics. It offers a range of built-in themes and color palettes, making it easy to create visually appealing graphs.\n\n3. Plotly: Plotly is a powerful library for creating interactive and dynamic graphs. It supports a wide range of graph types, including scatter plots, line plots, bar plots, 3D plots, and more. Plotly graphs can be embedded in web applications and can be easily shared and collaborated on.\n\n4. NetworkX: NetworkX is a Python library specifically desig

Tady je dotaz na kuchařský podchain.

In [46]:
chain.run("How should I prepare fried cheese?")

[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain] Entering Chain run with input:
[0m{
  "input": "How should I prepare fried cheese?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain] Entering Chain run with input:
[0m{
  "input": "How should I prepare fried cheese?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain] Entering Chain run with input:
[0m{
  "input": "How should I prepare fried cheese?"
}
[32;1m[1;3m[llm/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain > 4:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Given a raw text input to a language model select the model prompt best suited for the input. You will be given the names of the available prompts and a description of what the prompt is best suited for. You may also revise the original input if you think that revisingit will ultimately lead to a b

'To prepare fried cheese, you can follow these general steps:\n\n1. Choose a type of cheese that is suitable for frying, such as mozzarella, halloumi, or paneer. These cheeses have a higher melting point and hold their shape well when heated.\n\n2. Cut the cheese into slices or cubes, depending on your preference.\n\n3. In a shallow bowl, beat some eggs and season them with salt and pepper. In another bowl, place some breadcrumbs or flour for coating the cheese.\n\n4. Dip each piece of cheese into the beaten eggs, ensuring it is fully coated. Then, coat it with breadcrumbs or flour, pressing gently to adhere the coating.\n\n5. Heat some oil in a frying pan over medium heat. Once the oil is hot, carefully place the coated cheese into the pan, making sure not to overcrowd it.\n\n6. Fry the cheese for a few minutes on each side until it turns golden brown and crispy. Use a spatula to flip the cheese gently.\n\n7. Once fried, remove the cheese from the pan and place it on a paper towel-lin

A nakonec defaultní podchain.

In [48]:
chain.run("Who was Joseph II?")

[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain] Entering Chain run with input:
[0m{
  "input": "Who was Joseph II?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain] Entering Chain run with input:
[0m{
  "input": "Who was Joseph II?"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain] Entering Chain run with input:
[0m{
  "input": "Who was Joseph II?"
}
[32;1m[1;3m[llm/start][0m [1m[1:chain:MultiPromptChain > 2:chain:LLMRouterChain > 3:chain:LLMChain > 4:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Given a raw text input to a language model select the model prompt best suited for the input. You will be given the names of the available prompts and a description of what the prompt is best suited for. You may also revise the original input if you think that revisingit will ultimately lead to a better response from the language model.\n\n<< FO

"Joseph II was a Holy Roman Emperor who reigned from 1765 to 1790. He was born on March 13, 1741, in Vienna, Austria, and was the eldest son of Empress Maria Theresa and Emperor Francis I. Joseph II is known for his extensive reforms and attempts to modernize the Habsburg monarchy.\n\nDuring his reign, Joseph II implemented various reforms in areas such as education, religion, and government administration. He aimed to centralize power, promote religious tolerance, and improve the lives of his subjects. Some of his notable reforms include the abolition of serfdom, the introduction of a uniform legal system, the establishment of religious freedom, and the promotion of education for all.\n\nJoseph II also pursued an ambitious foreign policy, engaging in wars and territorial acquisitions. However, his military campaigns were largely unsuccessful, and he faced opposition from other European powers.\n\nDespite his intentions to improve the lives of his subjects, Joseph II's reforms were met

#### [Transformation chain](https://python.langchain.com/docs/modules/chains/foundational/transformation)
Transformation chain slouží k tomu, aby se na vstupní textový řetězec použila nějaká obecná pythoní funkce. Její jméno (tj. bez parametrů a kulatých závorek) se vloží do parametru *transofrm* konstruktoru *TransformChain*.

In [10]:
from langchain.chains import TransformChain

def replace_animal(input_dict):
    orig_text = input_dict["text"]
    replaced_text = orig_text.replace("squirrel", "unicorn")
    replaced_text = replaced_text.replace("squirrels", "unicorns")
    replaced_text = replaced_text.replace("Squirrel", "Unicorn")
    replaced_text = replaced_text.replace("Squirrels", "Unicorns")
    return {"output_text": replaced_text}

transform_chain = TransformChain(
    input_variables=["text"], output_variables=["output_text"], transform=replace_animal
)

Následně se s chainy pracuje jako v předchozích příkladech.

In [15]:
template = """Find strange formulations in following text and write why are they strange:

{output_text}

Summary:"""
prompt = PromptTemplate(input_variables=["output_text"], template=template)
chat = ChatOpenAI(temperature=0.0, model_name="gpt-3.5-turbo")
llm_chain = LLMChain(llm=chat, prompt=prompt)
sequential_chain = SimpleSequentialChain(chains=[transform_chain, llm_chain])

In [16]:
sequential_chain.run(
    """
    Squirrels are members of the family Sciuridae (/sɪˈjuːrɪdeɪ, -diː/), a family that includes small or medium-size rodents. 
    The squirrel family includes tree squirrels, ground squirrels (including chipmunks and prairie dogs, among others), 
    and flying squirrels. Squirrels are indigenous to the Americas, Eurasia, and Africa, and were introduced by humans to Australia.[1] 
    The earliest known fossilized squirrels date from the Eocene epoch, and among other living rodent families, the squirrels are 
    most closely related to the mountain beaver and to the dormice.
    """
)

'The text contains strange formulations such as "unicorn family," "tree unicorns," "ground unicorns," and "fossilized unicorns." These formulations are strange because unicorns are mythical creatures and do not exist in reality. Additionally, the text refers to unicorns as members of the family Sciuridae, which is incorrect as Sciuridae actually includes small or medium-size rodents such as squirrels and chipmunks.'

## Paměť
LLM modely jako takové si při odpovídání na uživatelův vstup předchozí interakce nepamatují. Proto se do nich musí explicitně přidat paměť, která bude historii v té či oné formě obsahovat.  
#### ConversationBufferMemory
Základním paměťovým objektem je *ConversationBufferMemory*. Ten si zkrátka pamatuje celou konverzaci tak, jak probíhala. Jak ale vypadá praktické použití? Asi nejsnazší je použit [*ConversationChain*](https://github.com/langchain-ai/langchain/blob/master/libs/langchain/langchain/chains/conversation/base.py). Do jeho konstruktoru vložíme chatovací model, paměť a lze sem umístit i flag, že požadujeme verbose výstup.  
BACHA - *ConversationBufferMemory* dovoluje v parametru *memory_key* měnit defaultní klíč (s hodnotou *history*), skrze který se dá dostat k paměti. Jenomže *ConversationalChain* s ničím takovým nepočítá a pokud nedostane *history*, tak způsobí pád.

In [19]:
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationChain

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")

conv_buffer_memory = ConversationBufferMemory(return_messages=True)

conversation = ConversationChain(
    llm=chat,
    verbose=True,
    memory=conv_buffer_memory
)

In [20]:
conversation.predict(input="Hi, who are you?")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
[]
Human: Hi, who are you?
AI:[0m

[1m> Finished chain.[0m


"Hello! I am an AI language model developed by OpenAI. I don't have a specific name, but you can call me OpenAI. How can I assist you today?"

In [21]:
conversation.predict(input="Do you know any famous hamsters?")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
[HumanMessage(content='Hi, who are you?', additional_kwargs={}, example=False), AIMessage(content="Hello! I am an AI language model developed by OpenAI. I don't have a specific name, but you can call me OpenAI. How can I assist you today?", additional_kwargs={}, example=False)]
Human: Do you know any famous hamsters?
AI:[0m

[1m> Finished chain.[0m


'Yes, I know a few famous hamsters! One of the most famous hamsters is named Hammy. Hammy gained popularity on social media for his adorable antics and cute videos. Another famous hamster is Mr. Fluffington, who became an internet sensation for his fluffy appearance and funny expressions. Additionally, there is also a famous hamster named Patches, who gained fame for his impressive tricks and agility. These are just a few examples of the many famous hamsters out there!'

In [22]:
conversation.predict(input="Have you ever heard about hamster called 'Boo'?")



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
[HumanMessage(content='Hi, who are you?', additional_kwargs={}, example=False), AIMessage(content="Hello! I am an AI language model developed by OpenAI. I don't have a specific name, but you can call me OpenAI. How can I assist you today?", additional_kwargs={}, example=False), HumanMessage(content='Do you know any famous hamsters?', additional_kwargs={}, example=False), AIMessage(content='Yes, I know a few famous hamsters! One of the most famous hamsters is named Hammy. Hammy gained popularity on social media for his adorable antics and cute videos. Another famous hamster is Mr. Fluffington, who became an internet sensation for his fluffy appearan

"Yes, I have heard of a hamster named Boo! Boo is a famous hamster who became popular on social media for his cute and funny videos. He gained a large following due to his adorable personality and entertaining antics. Boo's videos often feature him playing with toys, running on his wheel, and exploring his surroundings. Many people find Boo's videos to be both entertaining and heartwarming."

Na co slouží v definici paměťového objektu parametr *return_messages*? S pomocí metody *load_memory_variables* lze z paměťového objetku získat dosavadní historii konverzace (zde prázdné složené závorky coby parametr metody mají své použití pro určité typy pamětí, které nějaký vstupní parametr požadují). Pakliže bylo *return_messages* rovno False, obdržíme výstup v podobě velkého stringu:

In [17]:
conv_buffer_memory.load_memory_variables({})

{'history': 'Human: Hi, who are you?\nAI: Hello! I am an AI language model developed by OpenAI. My purpose is to assist and provide information to the best of my abilities. How can I help you today?\nHuman: Do you know any famous hamsters?\nAI: Yes, there are a few famous hamsters that have gained popularity over the years. One notable example is "Hamlet," a hamster who became famous in the 1990s for his ability to perform various tricks and stunts. Another famous hamster is "Mr. Jingles," who gained fame through his appearances in television commercials. Additionally, there have been several hamsters who gained popularity through social media platforms, such as "Pumpkin the Hamster" and "Hammy the Hamster." These hamsters have amassed a large following and have become internet sensations.'}

Pokud ale bude *return_messages* rovno True, má výstup metody složitější strukturu:

In [23]:
conv_buffer_memory.load_memory_variables({})

{'history': [HumanMessage(content='Hi, who are you?', additional_kwargs={}, example=False),
  AIMessage(content="Hello! I am an AI language model developed by OpenAI. I don't have a specific name, but you can call me OpenAI. How can I assist you today?", additional_kwargs={}, example=False),
  HumanMessage(content='Do you know any famous hamsters?', additional_kwargs={}, example=False),
  AIMessage(content='Yes, I know a few famous hamsters! One of the most famous hamsters is named Hammy. Hammy gained popularity on social media for his adorable antics and cute videos. Another famous hamster is Mr. Fluffington, who became an internet sensation for his fluffy appearance and funny expressions. Additionally, there is also a famous hamster named Patches, who gained fame for his impressive tricks and agility. These are just a few examples of the many famous hamsters out there!', additional_kwargs={}, example=False),
  HumanMessage(content="Have you ever heard about hamster called 'Boo'?", ad

V případě, že potřebujeme nastavit systémový prompt, bohužel musíme sáhnout po něčem komplikovanějším než je *ConversationChain* (byť v dalších příkladech pamětí budeme pro jednoduchost používat právě ten). Kód níže uvedený byl převzat (s mírnou úpravou) ze spodku [této stránky](https://python.langchain.com/docs/modules/memory/) dokumentace.  
Pozn.: pokud bude v tomto případě u paměti nastaveno *return_messages*=False, kód spadne. Pád je dán faktem, že *MessagesPlaceholder* potřebuje historii jako list konverzací, nikoli jako jeden string. Též je třeba, aby *variable_name* v *MessagePlaceholder* odpovídalo *memory_key* v paměti.

In [25]:
from langchain.prompts import MessagesPlaceholder, SystemMessagePromptTemplate, HumanMessagePromptTemplate

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")
prompt = ChatPromptTemplate(
    messages=[
        SystemMessagePromptTemplate.from_template(
            "You are an infantile AI assistant who start every message with 'peekaboo'."
        ),
        MessagesPlaceholder(variable_name="chat_history"),
        HumanMessagePromptTemplate.from_template("{question}")
    ]
)
conv_buffer_memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
conversation = LLMChain(
    llm=chat,
    prompt=prompt,
    verbose=True,
    memory=conv_buffer_memory
)

In [26]:
conversation({"question": "Hi, who are you?"})



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: You are an infantile AI assistant who start every message with 'peekaboo'.
Human: Hi, who are you?[0m

[1m> Finished chain.[0m


{'question': 'Hi, who are you?',
 'chat_history': [HumanMessage(content='Hi, who are you?', additional_kwargs={}, example=False),
  AIMessage(content='Peekaboo! I am an infantile AI assistant here to help you. What can I assist you with today?', additional_kwargs={}, example=False)],
 'text': 'Peekaboo! I am an infantile AI assistant here to help you. What can I assist you with today?'}

In [27]:
conversation({"question": "Do you know any famous hamsters?"})



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: You are an infantile AI assistant who start every message with 'peekaboo'.
Human: Hi, who are you?
AI: Peekaboo! I am an infantile AI assistant here to help you. What can I assist you with today?
Human: Do you know any famous hamsters?[0m

[1m> Finished chain.[0m


{'question': 'Do you know any famous hamsters?',
 'chat_history': [HumanMessage(content='Hi, who are you?', additional_kwargs={}, example=False),
  AIMessage(content='Peekaboo! I am an infantile AI assistant here to help you. What can I assist you with today?', additional_kwargs={}, example=False),
  HumanMessage(content='Do you know any famous hamsters?', additional_kwargs={}, example=False),
  AIMessage(content='Peekaboo! While hamsters may not be as famous as some other animals, there are a few hamsters that have gained some popularity. One example is "Hammy," the hamster from the movie "Over the Hedge." Another is "Pumpkin," a hamster who gained fame on social media for her adorable videos. These are just a couple of examples, but there may be other hamsters out there that have gained some level of fame too!', additional_kwargs={}, example=False)],
 'text': 'Peekaboo! While hamsters may not be as famous as some other animals, there are a few hamsters that have gained some popularit

#### ConversationBufferWindowMemory
*ConversationBufferWindowMemory* je variací na výše uvedený *ConversationBufferMemory*. Narozdíl od něj neobsahuje celou konverzaci, ale jen posledních *k* výměn (udáváme stejně se jmenujícím parametrem v konstruktoru paměti). Díky tomu je provoz chatbota levnější.

In [35]:
from langchain.memory import ConversationBufferWindowMemory 

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")

window_memory = ConversationBufferWindowMemory(k=1)

conversation = ConversationChain(
    llm=chat,
    verbose=False,
    memory=window_memory
)

In [36]:
conversation.predict(input="Hi, who are you?")

"Hello! I am an AI language model developed by OpenAI. I don't have a physical form, but I'm here to help answer your questions and engage in friendly conversation. How can I assist you today?"

In [37]:
window_memory.load_memory_variables({})

{'history': "Human: Hi, who are you?\nAI: Hello! I am an AI language model developed by OpenAI. I don't have a physical form, but I'm here to help answer your questions and engage in friendly conversation. How can I assist you today?"}

In [38]:
conversation.predict(input="Do you know any famous rabbits?")

"Yes, there are several famous rabbits in popular culture. Some well-known examples include Bugs Bunny from Looney Tunes, Thumper from Disney's Bambi, and the White Rabbit from Lewis Carroll's Alice's Adventures in Wonderland. These characters have become iconic and are often associated with rabbits in general. Is there anything specific you would like to know about famous rabbits?"

In [39]:
window_memory.load_memory_variables({})

{'history': "Human: Do you know any famous rabbits?\nAI: Yes, there are several famous rabbits in popular culture. Some well-known examples include Bugs Bunny from Looney Tunes, Thumper from Disney's Bambi, and the White Rabbit from Lewis Carroll's Alice's Adventures in Wonderland. These characters have become iconic and are often associated with rabbits in general. Is there anything specific you would like to know about famous rabbits?"}

#### ConversationTokenBufferMemory
Na podobném principu je založena i *ConversationTokenBufferMemory*, která uchovává historii jen dokud se vejde do *max_token_limit* počtu tokenů. Pokud nějaký příspěvek tuto hranici přesahuje, historie se de facto vymeže, tj. není to tak, že by v ní zbyl kousek starého příspěvku. Jelikož tokenizace je pro různé modely různá, musí se paměti v parametru *llm* předat i použitý model. Navíc je potřeba (minimálně pro OpenAI modely, ale možná i pro open source modely) mít nainstalovaný balíček [tiktoken](https://pypi.org/project/tiktoken/).

In [40]:
from langchain.memory import ConversationTokenBufferMemory 

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")

token_memory = ConversationTokenBufferMemory(llm=chat, max_token_limit=60)

conversation = ConversationChain(
    llm=chat,
    verbose=False,
    memory=token_memory
)

In [41]:
conversation.predict(input="Hi, who are you?")

'Hello! I am an AI language model developed by OpenAI. My purpose is to assist and provide information to the best of my abilities. How can I help you today?'

In [42]:
token_memory.load_memory_variables({})

{'history': 'Human: Hi, who are you?\nAI: Hello! I am an AI language model developed by OpenAI. My purpose is to assist and provide information to the best of my abilities. How can I help you today?'}

In [43]:
conversation.predict(input="Do you know any famous beavers?")

'Yes, there are a few famous beavers that come to mind. One notable example is "The Busy Beaver," a fictional character from children\'s literature. Another famous beaver is "Bucky the Beaver," the mascot of the Oregon State University. Additionally, there is a famous beaver named "Justin Beaver," who gained popularity as a parody of the Canadian singer Justin Bieber. These are just a few examples, but there may be other famous beavers as well.'

In [44]:
token_memory.load_memory_variables({})

{'history': ''}

#### ConversationSummaryMemory
Odlišným typem paměti je *ConversationSummaryMemory*. U ní se provolává jazykový model (specifikovaný v konstruktoru paměti pod parametrem *llm*, tj. může mít jiné vlastnosti než "hlavní" v aplikaci používaný model), který má za úkol provést sumarizaci dosavadní historie konverzace a nové konverzační výměny mezi člověkem a strojem. Užitečné je to zejména u dlouhých kovnerzací, kde úspora z redukce délky historie přebije nutnost většího počtu provolávání modelu.

In [2]:
from langchain.memory import ConversationSummaryMemory 

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")

summary_memory = ConversationSummaryMemory(llm=OpenAI(temperature=0))

conversation = ConversationChain(
    llm=chat,
    verbose=False,
    memory=summary_memory
)

In [4]:
conversation.predict(input="Hi, who are you?")

"Hello! I am an AI language model developed by OpenAI. I don't have a physical form, but I'm here to help answer your questions and engage in conversation. How can I assist you today?"

In [5]:
summary_memory.load_memory_variables({})

{'history': '\nThe human asked who the AI was and the AI responded that it was an AI language model developed by OpenAI, without a physical form, but was there to help answer questions and engage in conversation.'}

In [6]:
conversation.predict(input="Do you know what are differences between rhinos and unicorns?")

'Yes, I can provide some information on the differences between rhinos and unicorns. Rhinos are large, herbivorous mammals that belong to the family Rhinocerotidae. They are known for their thick skin, which is covered in plates or folds, and their distinctive horns. Rhinos have two main horn types: the Indian rhino has one horn, while the African rhino has two. \n\nOn the other hand, unicorns are mythical creatures often depicted as horse-like animals with a single horn on their forehead. Unlike rhinos, unicorns do not exist in the real world and are purely a product of folklore and imagination. They have been featured in various mythologies and are often associated with purity and magic.\n\nSo, in summary, the main differences between rhinos and unicorns are that rhinos are real animals with multiple species and physical characteristics, while unicorns are fictional creatures with a single horn and are not found in the natural world.'

In [7]:
summary_memory.load_memory_variables({})

{'history': '\nThe human asked who the AI was and the AI responded that it was an AI language model developed by OpenAI, without a physical form, but was there to help answer questions and engage in conversation. The AI then provided information on the differences between rhinos and unicorns, explaining that rhinos are real animals with multiple species and physical characteristics, while unicorns are fictional creatures with a single horn and are not found in the natural world.'}

In [8]:
conversation.predict(input="And what about similarities?")

"While rhinos and unicorns have some similarities, they also have many differences. One similarity is that both rhinos and unicorns are often depicted as large, powerful creatures. They are also both associated with strength and are often portrayed as majestic beings. However, it's important to note that these similarities are largely based on fictional representations of unicorns, as they do not actually exist in the real world. In terms of physical characteristics, rhinos have a thick, armored skin and a horn on their nose, while unicorns are typically depicted as having a single horn on their forehead. Additionally, rhinos are herbivores and primarily eat plants, while unicorns are often portrayed as magical creatures with various abilities and powers."

In [9]:
summary_memory.load_memory_variables({})

{'history': '\nThe human asked who the AI was and the AI responded that it was an AI language model developed by OpenAI, without a physical form, but was there to help answer questions and engage in conversation. The AI then provided information on the differences between rhinos and unicorns, explaining that rhinos are real animals with multiple species and physical characteristics, while unicorns are fictional creatures with a single horn and are not found in the natural world. When asked about similarities, the AI noted that both rhinos and unicorns are often depicted as large, powerful creatures and are associated with strength and majesty. However, the AI also pointed out that these similarities are largely based on fictional representations of unicorns, and that in terms of physical characteristics, rhinos have a thick, armored skin and a horn on their nose, while unicorns are typically depicted as having a single horn on their forehead. Additionally, rhinos are herbivores and pri

#### ConversationEntityMemory
Dalším speciálním typem paměti je *ConversationEntityMemory*. Ta z konverzace s pomocí jazykového modelu extrahuje informace o entitách.  
Abychom se vyhnuli chybové hlášce
```
Got unexpected prompt input variables. The prompt expects ['history', 'input'], but got ['entities', 'history'] as inputs from memory, and input as the normal input key. (type=value_error)
```
musíme do *ConversationChain* přidat nový paremtr *prompt*, do kterého vložíme importováním získanou *ENTITY_MEMORY_CONVERSATION_TEMPLATE*

In [21]:
from langchain.memory.prompt import ENTITY_MEMORY_CONVERSATION_TEMPLATE

In [12]:
ENTITY_MEMORY_CONVERSATION_TEMPLATE

PromptTemplate(input_variables=['entities', 'history', 'input'], output_parser=None, partial_variables={}, template='You are an assistant to a human, powered by a large language model trained by OpenAI.\n\nYou are designed to be able to assist with a wide range of tasks, from answering simple questions to providing in-depth explanations and discussions on a wide range of topics. As a language model, you are able to generate human-like text based on the input you receive, allowing you to engage in natural-sounding conversations and provide responses that are coherent and relevant to the topic at hand.\n\nYou are constantly learning and improving, and your capabilities are constantly evolving. You are able to process and understand large amounts of text, and can use this knowledge to provide accurate and informative responses to a wide range of questions. You have access to some personalized information provided by the human in the Context section below. Additionally, you are able to gen

In [11]:
from langchain.memory import ConversationEntityMemory 
from langchain.memory.prompt import ENTITY_MEMORY_CONVERSATION_TEMPLATE

chat = ChatOpenAI(temperature=0.3, model_name="gpt-3.5-turbo")

entity_memory = ConversationEntityMemory(llm=OpenAI(temperature=0))

conversation = ConversationChain(
    llm=chat,
    verbose=False,
    prompt=ENTITY_MEMORY_CONVERSATION_TEMPLATE,
    memory=entity_memory
)

In [14]:
conversation.predict(input="Hi, who are you?")

"Hello! I am an AI language model developed by OpenAI. I'm here to assist you with any questions or tasks you have. How can I help you today?"

Pro zkontrolování obsahu paměti tentokrát nemůžeme použít *entity_memory.load_memory_variables({})*, ale musíme aplikovat *conversation.memory.entity_store.store*. Prozatím tam nic není.

In [15]:
conversation.memory.entity_store.store

{}

In [17]:
conversation.predict(input="Do you know what are differences between rhinos and unicorns?")

"Rhinos and unicorns are both fascinating creatures, but they have some key differences. Rhinos are real animals that belong to the family Rhinocerotidae, while unicorns are mythical creatures often depicted as horse-like animals with a single horn on their forehead.\n\nHere are some differences between rhinos and unicorns:\n\n1. Existence: Rhinos are real animals that have existed for millions of years, while unicorns are purely mythical creatures that have been part of folklore and legends.\n\n2. Physical Appearance: Rhinos have a large and sturdy body, with thick skin and either one or two horns on their snout. They have a distinct hump on their back and are known for their powerful charge. Unicorns, on the other hand, are often depicted as horse-like creatures with a single horn on their forehead. They are usually portrayed as elegant and majestic.\n\n3. Habitat: Rhinos are found in various parts of the world, including Africa and Asia. They inhabit grasslands, savannas, and forest

Postupně se ale začne pamět plnit dvojicemi "entita": "informace o entitě".

In [18]:
conversation.memory.entity_store.store

{'OpenAI': 'OpenAI is an AI language model developed by OpenAI that assists humans with questions and tasks.',
 'Rhinos': 'Rhinos are real animals that belong to the family Rhinocerotidae and have existed for millions of years. They have a large and sturdy body, with thick skin and either one or two horns on their snout, and are known for their powerful charge. They inhabit grasslands, savannas, and forests, and are often associated with strength, power, and resilience.',
 'Unicorns': 'Unicorns are mythical creatures often depicted as horse-like animals with a single horn on their forehead, associated with magic, purity, and enchantment. They are popular in folklore and fantasy literature, but there is no scientific evidence to support their existence.'}

In [19]:
conversation.predict(input="I read in a scientific journal that Duocorns, an unique breed of unicorns, have tow heads.")

"Duocorns, as you mentioned, are described as a unique breed of unicorns with two heads. However, it's important to note that the concept of Duocorns is not supported by scientific evidence. Unicorns, as we understand them, are mythical creatures and their existence has not been proven.\n\nIn folklore and fantasy literature, there are often variations and imaginative interpretations of mythical creatures, including unicorns. These variations can include different physical characteristics, such as multiple heads. However, it's essential to distinguish between folklore and scientific facts.\n\nScientific journals typically focus on research and studies based on empirical evidence and rigorous methodology. As of now, there is no scientific evidence to support the existence of Duocorns or any other variations of unicorns with multiple heads.\n\nThat being said, the concept of Duocorns can still be fascinating to explore in the realm of imagination and creative storytelling. It's always int

In [20]:
conversation.memory.entity_store.store

{'OpenAI': 'OpenAI is an AI language model developed by OpenAI that assists humans with questions and tasks.',
 'Rhinos': 'Rhinos are real animals that belong to the family Rhinocerotidae and have existed for millions of years. They have a large and sturdy body, with thick skin and either one or two horns on their snout, and are known for their powerful charge. They inhabit grasslands, savannas, and forests, and are often associated with strength, power, and resilience.',
 'Unicorns': 'Unicorns are mythical creatures often depicted as horse-like animals with a single horn on their forehead, associated with magic, purity, and enchantment. They are popular in folklore and fantasy literature, but there is no scientific evidence to support their existence.',
 'Duocorns': 'Duocorns are described as a unique breed of unicorns with two heads, however, the concept of Duocorns is not supported by scientific evidence and there is no scientific evidence to support the existence of Duocorns or any

## Q&A nad dokumenty

#### Načtení dokumentů
##### Načtení pdfka

S klasickým chatbotem si sice můžeme povídat, ale chudák zná přinejlepším jen ty informace, které měl k dispozici při trénování. Co když s ním ale chceme diskutovat obsah našich pro něj v době učení neznámých dokumentů? Této problematice se budeme věnovat právě nyní.  
Pro začátek se bude naše množina dokumentů skládat z jednoho jediného kusu - z podmínek ke kreditním kartám od jedné z bank (nalezitelné [zde](https://www.kb.cz/cs/o-bance/dokumenty#13-Platebni-karty-debetni-a-kreditni)). Jedná se o pdf soubor. Pdfka ale umí langchain načítat až po nainstalování balíčku pypdf (přesněji různé langchainové metody mají různé prerekvizity, ale tahle cesta je asi nejméně komplikovaná).  
Nejprve vytvoříme instanci třídy PyPDFLoader a to sice tak, že do konstruktoru vložíme cestu k souboru. Bacha - musí se jednat o string, nikoli o Path! Na instanci posléze provoláme metodu *load*. Existuje sice i *load_and_split*, ale tu zde z pedagogických důvodů probírat nebudeme - leze totiž do zelí tématu probíranému o kus dál.

In [29]:
from langchain.document_loaders import PyPDFLoader

In [30]:
file_path = "source_files\\podminky_debetnich_karet.pdf"

loader = PyPDFLoader(file_path)

In [31]:
pages = loader.load()

Load nahraje krom obsahu stránek dokumentu i metadata. V nich máme název souboru a číslo stránky. Tj. vypadá to nějak takto:
```
[Document(page_content='  \n PODMÍNKY D EBETNÍCH KARET  ... výnosů z  trestné činnost i a financování te rorismu , ve znění \npozdějších předpi sů ', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'page': 0}),
 Document(page_content='PODMÍNKY DEBETNÍCH KARET ... poskytnutí dané Bankovní \nslužby.  \n ', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'page': 1}),
...
```
Pozn.: To, že u každé stránky - objektu typu *Document* - vidíme na začátku vždy "PODMÍNKY DEBENTNÍCH KARET", je dáno skutečností, že se zápatí stránky, které je vždy stejné, nějak dostalo na začátek. To mimo jiné znamená, že je potřeba dokumenty přes seriózním použitím začistit. Bohužel se tu též objevuje nadkritické množství mezer v místech, kde mezery neměly být (například hned v "PODMÍNKY D EBETNÍCH KARET").

Jiný způsob, jak načíst obsah pdf souborů, je založen na práci balíčku [unstructured](https://pypi.org/project/unstructured/). Při přípravě tohoto textu jsem (pokud si dobře pamatuji) pro pfd žádnou rozšířenou verzi (ala pip install "unstructured[pdf]") instalovat nemusel. Tudíž jsem nenarazil na potřebu mít Rust kompilátor kvůli jedné z prerekvizit - balíčku safetensors. Nicméně dodatečně bylo třeba nainstalovat balíčky pdf2image a pdfminer.six (nikoli pdfminer - ten už je neudržovaný, navíc snaha o jeho použití skončila s chybovou hláškou "ModuleNotFoundError: No module named 'pdfminer.high_level'").

In [2]:
from langchain.document_loaders import UnstructuredPDFLoader

Unstructured loadery mohou fungovat ve dvou modech. Pokud bude parametr *mode* položet rovný "single", tak se celý dokument - zde pdfko - po použití metody *load* vrátí jako jeden langchainový *Document* objekt (tj. neproběhne ani rozdělení na stránky). Nicméně pokud se bude *mode* rovnat "elements", dojde k roztrhání dokumentu na malé kousky a ty kousky ponesou popisek charakterizují jejich obsah.

In [8]:
loader = UnstructuredPDFLoader("source_files\\podminky_debetnich_karet.pdf", mode="elements")

In [9]:
data = loader.load()

Zde máme pár příkladů:
```
[Document(page_content='PODMÍNKY DEBETNÍCH KARET', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'coordinates': {'points': ((239.57, 68.46839999999997), (239.57, 82.50839999999994), (456.64312, 82.50839999999994), (456.64312, 68.46839999999997)), 'system': 'PixelSpace', 'layout_width': 595.32, 'layout_height': 841.92}, 'filename': 'podminky_debetnich_karet.pdf', 'file_directory': 'source_files', 'last_modified': '2023-08-12T15:21:05', 'filetype': 'application/pdf', 'page_number': 1, 'category': 'Title'}),
 Document(page_content='Tyto Podmínky debetních karet obsahují bližší úpravu práv a povinností vyplývajících z uzavřené smlouvy, na základě které je poskytnuta debetní karta v souladu s pravidly příslušné Karetní společnosti. Seznamte se prosím důkladně s tímto dokumentem. Vaše případné dotazy rádi zodpovíme.', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'coordinates': {'points': ((56.64, 126.82999999999993), (56.64, 156.4699999999999), (541.018, 156.4699999999999), (541.018, 126.82999999999993)), 'system': 'PixelSpace', 'layout_width': 595.32, 'layout_height': 841.92}, 'filename': 'podminky_debetnich_karet.pdf', 'file_directory': 'source_files', 'last_modified': '2023-08-12T15:21:05', 'filetype': 'application/pdf', 'page_number': 1, 'category': 'NarrativeText'}),
  Document(page_content='Článek 1. Poskytnutí debetní karty a její obnova', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'coordinates': {'points': ((65.184, 169.61839999999995), (65.184, 180.65839999999992), (317.03912, 180.65839999999992), (317.03912, 169.61839999999995)), 'system': 'PixelSpace', 'layout_width': 595.32, 'layout_height': 841.92}, 'filename': 'podminky_debetnich_karet.pdf', 'file_directory': 'source_files', 'last_modified': '2023-08-12T15:21:05', 'filetype': 'application/pdf', 'page_number': 1, 'category': 'NarrativeText'}),
 Document(page_content='1.1', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'coordinates': {'points': ((72.504, 195.3499999999999), (72.504, 204.3499999999999), (87.48599999999999, 204.3499999999999), (87.48599999999999, 195.3499999999999)), 'system': 'PixelSpace', 'layout_width': 595.32, 'layout_height': 841.92}, 'filename': 'podminky_debetnich_karet.pdf', 'file_directory': 'source_files', 'last_modified': '2023-08-12T15:21:05', 'filetype': 'application/pdf', 'page_number': 1, 'category': 'UncategorizedText'}),
...
 Document(page_content='VER DDT_PODMPKEV.PDF', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'coordinates': {'points': ((487.18, 807.3276), (487.18, 811.2876), (539.8808799999999, 811.2876), (539.8808799999999, 807.3276)), 'system': 'PixelSpace', 'layout_width': 595.32, 'layout_height': 841.92}, 'filename': 'podminky_debetnich_karet.pdf', 'file_directory': 'source_files', 'last_modified': '2023-08-12T15:21:05', 'filetype': 'application/pdf', 'page_number': 10, 'category': 'Title'})]
```
Všimněme si, že kousky textu jsou seřazeny podle toho, jak se v pdfku objevily. V metadatech nalezneme mimo jiné číslo stránky, čtyři body ohraničující lokaci textu, jméno souboru anebo kategorii textu.  
Jaké kategorie tu vidíme? 
- Title - nevyskytuje se jen u nadpisů, ale například i u kapitálkami vyvedeného zápatí ("VER DDT_PODMPKEV.PDF" z konce příkladu)
- NarrativeText - většinově se jedná o občejný text
- UncategorizedText - zde se obvykle nalézá "smetí" - číslování stránek, čísla paragrafů stojící mimo text anebo zápatí.

Rozdělení na kategorie nicméně není úplně spolehlivé. Když bychom si u našeho dokumentu nechali vypsat všechny "Title" dokumenty kódem
```python
for one_doc in data:
    if one_doc.metadata["category"] == "Title":
        print(one_doc.page_content)
```
najdeme tam mezi nadpisy a kousky zápatí i normální text, např. "3D Secure. Všechny námi poskytnuté debetní karty jsou 3D Secure aktivní.". A naopak v "NarrativeText" člověk nalezne pár nadpisů. Je nakonec otázkou, zda není lepší, když si člověk dokument prohlédne a začistí ho ručně podle svého. Nakonec tak bude nejvhodnější single mode unstructured (narozdíl od PyPDFLoaderu nemá nabytečné mezery)

In [33]:
loader = UnstructuredPDFLoader("source_files\\podminky_debetnich_karet.pdf", mode="single")
data = loader.load()

##### Načtení html souboru
Pro načítání html stránek existují v rámci Langchainu dvě podporované cesty. Jedna vyžaduje použití balíčku [unstructured](https://pypi.org/project/unstructured/). Jako data použijeme wiki stránku o [jednom druhu křečka](https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster). Zdůrazněme, že následující postup se týka html souboru uloženého na disku, nikoli webové stránky - na to je jiný loader.

In [11]:
from langchain.document_loaders import UnstructuredHTMLLoader

In [3]:
loader = UnstructuredHTMLLoader("source_files\\Winter white dwarf hamster - Wikipedia.htm")

In [4]:
data = loader.load()

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\NewNotebook\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\NewNotebook\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


Nahraný objekt vypadá (po vyřazení většiny textu z důvodu přehlednosti) takto:
```
[Document(page_content='Toggle the table of contents\n\nToggle the table of contents\n\nWinter white dwarf hamster\n\n43 languages\n\nالعربية\n\nAsturianu\n\nБългарски\n\nBrezhoneg\n\nCatalà\n\nCebuano\n\nČeština\n\nDeutsch\n\nDiné bizaad\n\nEesti\n\nEspañol\n\nEuskara\n\nفارسی\n\nFrançais\n\nFrysk\n\n한국어\n\nՀայերեն\n\nHrvatski\n\nBah  
...  
nCategories:\n\nIUCN Red List least concern species\n\nPhodopus\n\nRodents of Asia\n\nMammals described in 1773\n\nMammals of Siberia\n\nTaxa named by Peter Simon Pallas\n\nHidden categories: \n\nArticles with short description\n\nShort description is different from Wikidata\n\nGood articles\n\nArticles with \'species\' microformats', metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm'})]
```
Před použitím bude tedy potřeba provést opravdu masivní začištění.

Opět je možné použít unstructured načítání v modu "elements".

In [12]:
loader = UnstructuredHTMLLoader("source_files\\Winter white dwarf hamster - Wikipedia.htm", mode="elements")

In [13]:
data = loader.load()

Výsledek vypadá takto:
```
[Document(page_content='Toggle the table of contents', metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm', 'filename': 'Winter white dwarf hamster - Wikipedia.htm', 'file_directory': 'source_files', 'last_modified': '2023-08-22T20:35:12', 'filetype': 'text/html', 'page_number': 1, 'emphasized_text_contents': ['Toggle the table of contents'], 'emphasized_text_tags': ['span'], 'category': 'Title'}),  
...  
 Document(page_content='population density is highly varied.', metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm', 'filename': 'Winter white dwarf hamster - Wikipedia.htm', 'file_directory': 'source_files', 'last_modified': '2023-08-22T20:35:12', 'filetype': 'text/html', 'page_number': 3, 'link_urls': ['https://en.wikipedia.org/wiki/Population_density'], 'link_texts': ['population density'], 'category': 'NarrativeText'}),
 Document(page_content='[23]', metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm', 'filename': 'Winter white dwarf hamster - Wikipedia.htm', 'file_directory': 'source_files', 'last_modified': '2023-08-22T20:35:12', 'filetype': 'text/html', 'page_number': 3, 'link_urls': ['#cite_note-J1979:R1998:E-23'], 'link_texts': ['[23]'], 'category': 'UncategorizedText'}),  
 ...  
Document(page_content="Articles with 'species' microformats", metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm', 'filename': 'Winter white dwarf hamster - Wikipedia.htm', 'file_directory': 'source_files', 'last_modified': '2023-08-22T20:35:12', 'filetype': 'text/html', 'page_number': 3, 'link_urls': ['https://en.wikipedia.org/wiki/Category:Articles_with_%27species%27_microformats'], 'link_texts': ["Articles with 'species' microformats"], 'category': 'ListItem'})]
```

Pro načtení html souboru lze též použít loader využívající BeautifulSoup4. Moje první provolání metody *load* vedlo k chybové hlášce obsahující mimo jiné
```
soup = BeautifulSoup(f, **self.bs_kwargs)
```
a
```
FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
```
A to i když byl ve virtuálním prostředí balíček BeautifulSoup4 nainstalován. Co ale chybělo byl balíček [lxml](https://pypi.org/project/lxml/). Po jeho nainstalování se ale (u anglického!) textu objevila další chybová hláška:
```
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 27841: character maps to <undefined>
```
To kvůli tomu, že jsem nepoužil parametr *open_encoding* a html soubor se tak otevíral s defaultním kódováním, kterým je utf-8.

In [12]:
from langchain.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("source_files\\Winter white dwarf hamster - Wikipedia.htm", open_encoding="latin1")
data = loader.load()

Opět z nahraného objektu ukážeme pouze začátek a konec:
```
[Document(page_content='\n\n\nWinter white dwarf hamster - Wikipedia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nJump to content\n\n\n\n\n\n\n\nMain menu\n\n\n\n\n\nMain menu\nmove to sidebar\nhide\n\n\n\n\t\tNavigation\n\t\n\n\nMain pageContentsCurrent eventsRandom articleAbout WikipediaContact usDonate\n\n\n\n\n\n\t\tContribute\n\t\n\n\nHelpLearn to editCommunity portalRecent changesUpload
...
\nCookie statement\n\n\n\n\n\n\n\n\n\n\n\n\nToggle limited content width\n\n\n\n\n\n\n', metadata={'source': 'source_files\\Winter white dwarf hamster - Wikipedia.htm', 'title': 'Winter white dwarf hamster - Wikipedia'})]
```
Zdá se, že potřeba začištění je tu ještě větší než u balíčku unstructured...

##### [Načtení webové stránky](https://python.langchain.com/docs/integrations/document_loaders/web_base)

V praxi bychom upřednostňovali, kdybychom vytěžované stránky nemuseli stahovat a kdyby si Langchain informace natahal přímo z webu. Na to slouží *WebBaseLoader*.

In [2]:
from langchain.document_loaders import WebBaseLoader

In [3]:
loader = WebBaseLoader("https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster")

In [4]:
data = loader.load()

Zde vidíme příklad formátu, v jakém je stránka načtena:
```
[Document(page_content='\n\n\n\nWinter white dwarf hamster - Wikipedia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nJump to content\n\n\n\n\n\n\n\nMain menu\n\n\n\n\n\nMain menu\nmove to sidebar\nhide\n\n\n\n\t\tNavigation\n\t\n\n\nMain pageContentsCurrent eventsRandom articleAbout WikipediaContact usDonate\n\n\n\n\n\n\t\tContribute\n\t\n\n\nHelpLearn to editCommunity portalRecent changesUpload file\n\n\n\n\n\nLanguages\n\nLanguage links are at the top of the page across from the title.
...
\nContact Wikipedia\nCode of Conduct\nMobile view\nDevelopers\nStatistics\nCookie statement\n\n\n\n\n\n\n\n\n\n\n\n\nToggle limited content width\n\n\n\n\n\n\n\n', metadata={'source': 'https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster', 'title': 'Winter white dwarf hamster - Wikipedia', 'language': 'en'})]
```

V rámci jednoho volání lze načíst i více stránek:

In [6]:
loader = WebBaseLoader([
    "https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster", 
    "https://en.wikipedia.org/wiki/Syrian_hamster"
])

In [7]:
data = loader.load()

Ukázka výsledku:
```
[Document(page_content='\n\n\n\nWinter white dwarf hamster - Wikipedia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nJump to content\n\n\n\n\n\n\n\nMain menu\n\n\n\n\n\nMain menu\nmove to sidebar\nhide\n\n\n\n\t\tNavigation\n\t\n\n\nMain pageContentsCurrent eventsRandom articleAbout WikipediaContact usDonate\n\n\n\n\n\n\t\tContribute
...
\nContact Wikipedia\nCode of Conduct\nMobile view\nDevelopers\nStatistics\nCookie statement\n\n\n\n\n\n\n\n\n\n\n\n\nToggle limited content width\n\n\n\n\n\n\n\n', metadata={'source': 'https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster', 'title': 'Winter white dwarf hamster - Wikipedia', 'language': 'en'}),
 Document(page_content='\n\n\n\nGolden hamster - Wikipedia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nJump to content\n\n\n\n\n\n\n\nMain menu\n\n\n\n\n\nMain menu\nmove to sidebar\nhide\n\n\n\n\t\tNavigation\n\t\n\n\nMain pageContentsCurrent eventsRandom articleAbout WikipediaContact usDonate\n\n\n\n\n\n\t\tContribute\n\t\n\n\nHelpLearn to editCommunity portalRecent changesUpload file
...
\nCode of Conduct\nMobile view\nDevelopers\nStatistics\nCookie statement\n\n\n\n\n\n\n\n\n\n\n\n\nToggle limited content width\n\n\n\n\n\n\n\n', metadata={'source': 'https://en.wikipedia.org/wiki/Syrian_hamster', 'title': 'Golden hamster - Wikipedia', 'language': 'en'})]
```

I pro načítání stránek z webu existuje [unstructured loader](https://python.langchain.com/docs/integrations/document_loaders/url).

In [3]:
from langchain.document_loaders import UnstructuredURLLoader

In [4]:
urls = [
    "https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster", 
    "https://en.wikipedia.org/wiki/Syrian_hamster"
]

Když člověk nemá nainstalovaný balíček libmagic, objeví se hlášky
```
libmagic is unavailable but assists in filetype detection on file-like objects. Please consider installing libmagic for better results.
Error fetching or processing https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster, exception: Invalid file. The FileType.UNK file type is not supported in partition.
libmagic is unavailable but assists in filetype detection on file-like objects. Please consider installing libmagic for better results.
Error fetching or processing https://en.wikipedia.org/wiki/Syrian_hamster, exception: Invalid file. The FileType.UNK file type is not supported in partition.
```
Načtený objekt pak bude prázdným listem.
Problém je, že existuje více libmagic ([zde](https://pypi.org/project/python-libmagic/#description) a [zde](https://pypi.org/project/libmagic/#description)), ty jsou ale relativně staré a prakticky od svého vzniku neudržované...  
Též existuje balíček [python-magic](https://pypi.org/project/python-magic/#history). Ten už vypadá živěji, nicméně když nainstalujeme jeho nejnovější verzi, obdržíme errory
```
Error fetching or processing https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster, exception: module 'magic' has no attribute 'from_buffer'
Error fetching or processing https://en.wikipedia.org/wiki/Syrian_hamster, exception: module 'magic' has no attribute 'from_buffer'
```
Instalace starší verze vede též k chybovým hláškám.  
Problém lze vyřešit instalací [python-magic-bin](https://pypi.org/project/python-magic-bin). Nicméně jedná se o binárky z repa zapadaného prachem.

In [5]:
loader = UnstructuredURLLoader(urls=urls)
data = loader.load()

Ukázka:
```
[Document(page_content='Toggle the table of contents\n\nToggle the table of contents\n\nWinter white dwarf hamster\n\n43 languages\n\nالعربية\n\nAsturianu\n\nБългарски\n\nBrezhoneg\n\nCatalà\n\nCebuano\n\nČeština\n\nDeutsch\n\nDiné bizaad\n\nEesti\n\nEspañol\n\nEuskara\n\nفارسی\n\nFrançais\n\nFrysk\n\n한국어\n\nՀայերեն\n\nHrvatski\n\nBahasa Indonesia\n\nItaliano\n\nעברית\n\nҚазақша\n\nKotava\n\nLatviešu\n\nMagyar\n\nمصرى\n\nNederlands\n\n日本語\n\nNorsk bokmål\n\nNorsk nynorsk\n\nPolski\n\nPortuguês\n\nRomână\n  
...  
Red List least concern species\n\nPhodopus\n\nRodents of Asia\n\nMammals described in 1773\n\nMammals of Siberia\n\nTaxa named by Peter Simon Pallas\n\nHidden categories: \n\nArticles with short description\n\nShort description is different from Wikidata\n\nGood articles\n\nArticles with \'species\' microformats', metadata={'source': 'https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster'}),
 Document(page_content='Toggle the table of contents\n\nToggle the table of contents\n\nGolden hamster\n\n49 languages\n\nالعربية\n\nAragonés\n\nБеларуская (тарашкевіца)\n\nБългарски\n\nCatalà\n\nCebuano\n\nČeština\n\nCymraeg\n\nDeutsch\n\nDiné bizaad\n\nEesti\n\nEspañol\n\nEsperanto\n\nEuskara\n\nفارسی\n\nFrançais\n\nFrysk\n\nGaeilge\n\n한국어\n\nHrvatski\n\nBahasa Indonesia\n\nIta  
 ...  
 abic-language text\n\nAll articles with unsourced statements\n\nArticles with unsourced statements from June 2019\n\nArticles with unsourced statements from September 2019\n\nCommons link is on Wikidata\n\nArticles with GND identifiers\n\nArticles with J9U identifiers\n\nArticles with LCCN identifiers\n\nArticles with NKC identifiers\n\nArticles containing video clips', metadata={'source': 'https://en.wikipedia.org/wiki/Syrian_hamster'})]
```

In [8]:
loader = UnstructuredURLLoader(urls=urls, mode="elements")

In [9]:
data = loader.load()

Ukázka:
```
[Document(page_content='Toggle the table of contents', metadata={'filetype': 'text/html', 'page_number': 1, 'url': 'https://en.wikipedia.org/wiki/Winter_white_dwarf_hamster', 'emphasized_text_contents': ['Toggle the table of contents'], 'emphasized_text_tags': ['span'], 'category': 'Title'}),  
...  
 Document(page_content='A hamster wheel is a common type of environmental enrichment, and it is important that hamsters have a wheel in their cage. TVT recommends wheels should be at least 30\xa0cm for Syrian hamsters, since smaller diameters lead to permanent spinal curvatures, especially in young animals. They also recommend a solid running surface because rungs or mesh can cause injury.[19] A hamster should be able to run on its wheel without arching its back. A hamster that has to run with an arched back can have back pain and spine problems. A variety of toys and cardboard tubes and boxes can help to provide enrichment, as they are energetic and need space to exercise.[20]', metadata={'filetype': 'text/html', 'page_number': 3, 'url': 'https://en.wikipedia.org/wiki/Syrian_hamster', 'link_urls': ['/wiki/Hamster_wheel', '#cite_note-19', '#cite_note-20'], 'link_texts': ['hamster wheel', '[19]', '[20]'], 'category': 'NarrativeText'}),
 Document(page_content='Most hamsters in American and British pet stores are golden hamsters. Originally, golden hamsters occurred in just one color – the mixture of brown, black, and gold, but they have since developed a variety of color and pattern mutations, including cream, white, blonde, cinnamon, tortoiseshell, black, three different shades of gray, dominant spot, banded, and dilute.[citation needed]', metadata={'filetype': 'text/html', 'page_number': 3, 'url': 'https://en.wikipedia.org/wiki/Syrian_hamster', 'link_urls': ['/wiki/Wikipedia:Citation_needed'], 'link_texts': [None], 'emphasized_text_contents': ['citation needed', 'citation needed'], 'emphasized_text_tags': ['i', 'span'], 'category': 'NarrativeText'}),  
...  
Document(page_content='Articles containing video clips', metadata={'filetype': 'text/html', 'page_number': 3, 'url': 'https://en.wikipedia.org/wiki/Syrian_hamster', 'link_urls': ['/wiki/Category:Articles_containing_video_clips'], 'link_texts': ['Articles containing video clips'], 'category': 'ListItem'})]
```

#### Splittery
Obsah stránek by zejména pro výživnější texty mohl být větší, než počet tokenů, které dokáže v jeden okamžik jazykový model zpracovat. Proto se dokumenty musí rozdělit na malé kousky.  
Základním nástrojem pro takovou úlohu je *CharacterTextSplitter*. V jeho konstruktoru musíme do parametru *separator* vložit separační znak (resp. posloupnost znaků). Bacha - *CharacterTextSplitter* podporuje jen a pouze jeden separátor. Pokud bude splitování probíhat podle nějakého speciálního escapovaného znaku (např. podle znaku nového řádku) a nepoužíváme regulární výrazy (tj. parametr *is_separator_regex* není položený rovný True), musíme psát jen jedno zpětné lomítko! Následně specifikujeme optimální velikost fragmentu textu (parametr *chunk_size*; číslo je v počtu znaků podle funkce *len*) a velikost překryvu mezi fragmenty (parametr *chunk_overlap*).

In [4]:
from langchain.text_splitter import CharacterTextSplitter

In [79]:
chunk_size = 250
chunk_overlap = 50

In [82]:
char_text_splitter = CharacterTextSplitter(        
    separator = "\n",
    chunk_size = chunk_size,
    chunk_overlap  = chunk_overlap,
)

Pokud bychom chtěli splittovat obyčejný text, použili bychom metodu *split_text* instance *CharacterTextSplitter*, přičemž inkriminovaný text by byl předán metodě jako parametr. Nicméně my máme list obsahující navíc krom samotného textu i metadata o stránkách původního pdfka, s čímž není *split_text* očekávající string kompatibilní. Proto musíme použít metodu *split_documents*.  
Jak vlastně splitování funguje?
 - pokud separátor není v dokumentu (v našem případě dokument = jedna stránka) přítomen, k žádnému rozsekání nedochází. Tj. pokud na vstupu bylo 10 stránek, bude stejný počet i na výstupu, což pro praktické použití optimální není.  
 - pokud je separátor vzácný, tak se některé dokumenty vůbec nerozsekají (protože v nich separátor není), jiné se rozdělí třeba jen podle jediného výskytu separátoru (i když i pak budou oba vzniklé fragmenty větší než *chunk_size*)
 - pokud je separátor přítomný často, proběhne rozsekávání tak, aby byla téměř dosažena, ale nikdy překročena *chunk_size* (resp. možná se dokument rozseká podle všech výskytů separátoru, ale pak se na sebe některé fragmenty znova nalepí).

Bacha, pokud používáme regexy (*is_separator_regex* = True) a zvolíme nějaký obecný pattern (třeba "\\w"), tak se nám tímto patternem nahradí všechny relevantní znaky nahradí. Tj. fragment pak třeba vypadá takto:
```
'\\w \\w \\w \\w   \n \n \n \n \n\\w \\w \\w, \\w. \\w., \\w \\w:  \n\\w \\w, \\w \\w \\w \\w \\w. \\w, \\w \\w \\w, \\w: \\w  \n\\w \\w \\w \\w \\w \\w \\w \\w \\w \\w, \\w \\w, \\w \\w \\w \\w/\\w  \n\\w \\w \\w.\\w \n \\w \\w \\w \\w \\w \\w \\w \\w \\w \\w \\w \\w  \\w \\w, \\w \\w \n\\w \\w \\w  \\w \\w \\w  \\w \\w'
```
Takovému chování zabráníme umístěním parametru *keep_separator*=True do konstruktoru *CharacterTextSplitter*u.  
Níže vidíme příklad výstupu metody *split_documents*:

In [84]:
char_splits = char_text_splitter.split_documents(pages)
print(char_splits[0])
print(len(char_splits[0].page_content))

page_content='PODMÍNKY D EBETNÍCH KARET   \n \n \n \n \nKomerční bank a, a. s., se sídlem:  \nPraha 1, Na Pří kopě 33 čp. 969, PSČ 114 07, IČO: 45317054  \nZAPSAN Á V OBCHODNÍM REJSTŘÍKU VEDENÉM MĚSTSKÝM SOUDEM V PRAZE, ODDÍL B, VLOŽKA 1 360 1/10' metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'page': 0}
225


Výše jsme viděli, že *CharacterTextSplitter* není pro práci s obyčejným textem kvůli omezení na jeden separátor moc praktický. Proto je vhodnější použít *RecursiveCharacterTextSplitter*. Ten nemá parametr *separator*, nýbrž *separators*. Do něj se vkládá list potenciálních separátorů. Jeho defaultní hodnotou je ["\n\n", "\n", " ", ""]. Myšlenka za touto volbou je taková, že se spitter snaží držet pohromadě odstavce (a potom věty a pak slova) tak dlouho, jak to jen jde, kvůli zachování informace schované v textu.

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [3]:
chunk_size = 250
chunk_overlap = 50

In [7]:
rec_text_splitter = RecursiveCharacterTextSplitter(        
    chunk_size = chunk_size,
    chunk_overlap  = chunk_overlap,
)

In [8]:
rec_splits = rec_text_splitter.split_documents(pages)

In [10]:
rec_splits[0]

Document(page_content='PODMÍNKY D EBETNÍCH KARET   \n \n \n \n \nKomerční bank a, a. s., se sídlem:  \nPraha 1, Na Pří kopě 33 čp. 969, PSČ 114 07, IČO: 45317054  \nZAPSAN Á V OBCHODNÍM REJSTŘÍKU VEDENÉM MĚSTSKÝM SOUDEM V PRAZE, ODDÍL B, VLOŽKA 1 360 1/10', metadata={'source': 'source_files\\podminky_debetnich_karet.pdf', 'page': 0})

V případě, že bychom chtěli pracovat nikoli s přirozeným jazykem, ale s počítačovým kódem, mohou nám pomoci již předpřipravené separátory pro několik hlavních programovacích jazyků. Ty získáme naimportováním *Language* z *langchain.text_splitter*. Pokud separátory chceme vidět, musíme použít *get_separators_for_language*: 

In [11]:
from langchain.text_splitter import Language

In [18]:
print(RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON))

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']


Při samotném praktickém použití vložíme *Language.PYTHON* do parametru *language* metody *from_language* (viz příklad převzatý z dokumentace):

In [20]:
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

# Call the function
hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(page_content='def hello_world():\n    print("Hello, World!")', metadata={}),
 Document(page_content='# Call the function\nhello_world()', metadata={})]

#### Embeddings, vectorstore
Při hledání odpovědi na určitou otázku de facto hledáme otázce nejpodobnější fragmenty dokumentů. Nicméně jak bychom v přirozeném jazyce vůbec podobnost definovali? Nejpraktičtější řešení spočívá v převodu splitováním vyrobených fragmentů dokumentů na vektory (posloupnosti čísel). S nimi už můžeme pro (ne)podobnost aplikovat klasický matematický aparát ala cosinová podobnost. Tyto vektory se ale též musí někam uložit. Proto mluvíme obecně o tzv. vector stores, přičemž zde budeme konkrétně používat Chromu.

In [7]:
file_path = "source_files\\podminky_debetnich_karet.pdf"

loader = PyPDFLoader(file_path)
pages = loader.load()

chunk_size = 250
chunk_overlap = 50

rec_text_splitter = RecursiveCharacterTextSplitter(        
    chunk_size = chunk_size,
    chunk_overlap  = chunk_overlap,
)

rec_splits = rec_text_splitter.split_documents(pages)

In [8]:
from langchain.embeddings.openai import OpenAIEmbeddings

Napřed specifikujeme, jaký model budeme používat pro výpočet embeddingů. *OpenAIEmbeddings* znamená, že použijeme model text-embedding-ada-002 od OpenAI. Ten při klasickém používání ala chatování či doplňování textu není tak mocný jako GPT3.5 nebo aspoň DaVinci. Nicméně při nápočtu embeddingů to zas takovou roli nehraje a naopak se hodí, že je tento model řádově levnější.

In [4]:
embedding = OpenAIEmbeddings()

Pozn.: v případě práce s Azure OpenAI použijeme ten samý *OpenAIEmbeddings*. Musí se nicméně specifikovat deployment, ve kterém je nasazený model určený na embeddingování. Taktéž je třeba nastavit *chunk_size* na jedničku (jinak se objeví tuším "too many inputs" chybová hláška).
```python
from langchain.embeddings.openai import OpenAIEmbeddings

embedding = OpenAIEmbeddings(deployment="deplyment_name_s_embedding_modelem", chunk_size=1)
```

Pro použití Chromy musíme napřed nainstalovat odpovídající balíček [chromadb](https://pypi.org/project/chromadb/). Následně je potřeba provést importování.

In [13]:
from langchain.vectorstores import Chroma

Chroma je souborová databáze. Musíme tedy specifikovat, kam se budou její soubory (fakticky jde o parquety) ukládat.

In [3]:
simple_doc_dir = 'embeddings/simple/'

In [15]:
vectordb = Chroma.from_documents(
    documents=rec_splits,
    embedding=embedding,
    persist_directory=simple_doc_dir
)

Na následující příkaz nesmíme zapomenout, neboť bez něj by se vektory fakticky neuložily na disk.

In [16]:
vectordb.persist()

Pro načtení uložených embeddingů se použije

In [5]:
vectordb = Chroma(
    persist_directory=simple_doc_dir, 
    embedding_function=embedding
)

V běžném provozu asi nebudeme následující příkazy krom občasných kontrol potřebovat. Nicméně ne vždy se člověk v běžném provozu pohybuje...  
Pro počet záznamů v konkrétním vectorstoru použijeme metodu *\_collection.count*.

In [6]:
print(vectordb._collection.count())

249


Metoda *peek* ukáže několik prvních záznamů (počet je specifikován parametrem *limit*, přičemž defaultní hodnota má velikost 10).
```
vectordb._collection.peek(limit=3)
```
Výstup metody není z nejmenších, proto ho zde v surové podobě neukazujeme. Jedná se o slovník, ve kterém jsou postupně tyto klíče a hodnoty:
- ids s listem idček jednotlivých fragmentů dokumentů  
- embeddings s listem vektorů (alias listů floatů), ve kteréch jsou fragmenty dokumentů zakódované  
- metadatas s listem metadat, která nabývají podoby slovníků s klíči "page" a "source"
- documents s listem samotných fragmentů dokumentů v textové podobě
```
{'ids': ['a737d8ec-39ea-11ee-8841-80ce622bc396',
  'a73b7183-39ea-11ee-a74a-80ce622bc396',
  'a73b7184-39ea-11ee-bd3c-80ce622bc396'],
 'embeddings': [[0.0016977092018350959,
   -0.013771715573966503,
   0.0062872255221009254,
   ....
   ....
   -0.0042107910849153996,
   -0.027450013905763626,
   -0.02284945175051689,
   0.06665701419115067,
   ...]],
 'metadatas': [{'page': 0,
   'source': 'source_files\\podminky_debetnich_karet.pdf'},
  {'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'},
  {'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}],
 'documents': ['PODMÍNKY D EBETNÍCH KARET   \n \n \n \n \nKomerční bank a, a. s., se sídlem:  \nPraha 1, Na Pří kopě 33 čp. 969, PSČ 114 07, IČO: 45317054  \nZAPSAN Á V OBCHODNÍM REJSTŘÍKU VEDENÉM MĚSTSKÝM SOUDEM V PRAZE, ODDÍL B, VLOŽKA 1 360 1/10',
  'VER DDT_ PODMPKEV.PDF \n Tyto Podmínky debetních karet obsahují bližší úpravu práv a povinností vyplývajících z  uzavřené smlouvy, na základě',
  'které je poskytnuta  debetní karta v  souladu s  pravidly příslušné Karetní společnosti.  Seznamte se prosím důkladně \ns tímto dokumentem. Vaše p řípadné dotazy rádi zodpovíme.  \n \nČlánek 1. Poskytnutí  debetní karty a její obnova']}
```

Metoda get (výsledek je stejný pro *get* i pro *\_collection.get*) slouží k získání buďto některých záznamů (to tehdy, když do parametru ids vložíme string či list stringů s idčky) anebo všech záznamů (když idčka nespecifikujeme; počet vrácených fragmentů lze omezit parametrem *limit*) 

In [69]:
vectordb.get(ids="a73b7184-39ea-11ee-bd3c-80ce622bc396")

{'ids': ['a73b7184-39ea-11ee-bd3c-80ce622bc396'],
 'embeddings': None,
 'metadatas': [{'page': 0,
   'source': 'source_files\\podminky_debetnich_karet.pdf'}],
 'documents': ['které je poskytnuta  debetní karta v  souladu s  pravidly příslušné Karetní společnosti.  Seznamte se prosím důkladně \ns tímto dokumentem. Vaše p řípadné dotazy rádi zodpovíme.  \n \nČlánek 1. Poskytnutí  debetní karty a její obnova']}

Defaultně se v odpovědi neobjeví embeddingy. Toto chování je řízené parametrem *include*, který defaultně obsahuje ["metadatas", "documents"]. Tudíž pokud chceme embeddingy, musíme je do listu explicitně přidat.
```
vectordb.get(
    ids="a73b7184-39ea-11ee-bd3c-80ce622bc396",
    include=["metadatas", "documents", "embeddings"]
)
```

Pokud chceme realizovat filtrování na základě metadat, musíme použít parametr *where*. Do něj vložíme slovník, kde klíčem bude "page" nebo "source" a hodnotou číslo stránky či zdrojový soubor>
```
vectordb.get(where={"page": 0})
```
```
vectordb.get(where={"source": "source_files\\podminky_debetnich_karet.pdf"})
```

Pro získávání nejpodobnějších dokumentů vstupnímu textu sice slouží metoda *query* s parametrem *query_texts*, nicméně my v praxi budeme spíše používat langchainovou nadstavbu nad touto metodou.

Co musíme udělat, když chceme některý ze záznamů updatovat? Vezměme si náhodně fragment i idčkem "a73b7184-39ea-11ee-bd3c-80ce622bc396".

In [75]:
some_fragment = vectordb.get(ids="a73b7184-39ea-11ee-bd3c-80ce622bc396")

Jeho metadata vypadají takto:

In [76]:
some_fragment["metadatas"]

[{'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}]

Nyní metadata přepíšeme - přidáme další pole.

In [77]:
some_fragment["metadatas"] = [{
    'page': 0, 
    'source': 'source_files\\podminky_debetnich_karet.pdf',
    "some_info": "Terms of use of debit cards"
}]

Provedeme *update* stejnejmennou metodou (bacha, musí to být v *\_collection* - *vectordb.update* se vztahuje na objekty typu *Document*). Prvním parametrem je idčko, poté zde máme parametr *metadatas*, do kterého vložíme nová metadata. Mohl by tu být i parametr embeddings (pro update embeddingů) či documents (pro úpravu samotných textů).

In [80]:
vectordb._collection.update("a73b7184-39ea-11ee-bd3c-80ce622bc396", metadatas=some_fragment["metadatas"])

Update se opravdu provedl.

In [7]:
vectordb.get(ids="a73b7184-39ea-11ee-bd3c-80ce622bc396")

{'ids': ['a73b7184-39ea-11ee-bd3c-80ce622bc396'],
 'embeddings': None,
 'metadatas': [{'page': 0,
   'some_info': 'Terms of use of debit cards',
   'source': 'source_files\\podminky_debetnich_karet.pdf'}],
 'documents': ['které je poskytnuta  debetní karta v  souladu s  pravidly příslušné Karetní společnosti.  Seznamte se prosím důkladně \ns tímto dokumentem. Vaše p řípadné dotazy rádi zodpovíme.  \n \nČlánek 1. Poskytnutí  debetní karty a její obnova']}

Přičemž zbylé záznamy zůstávají touto operací nepostižené.

In [8]:
vectordb.get(ids="a73b7183-39ea-11ee-a74a-80ce622bc396")

{'ids': ['a73b7183-39ea-11ee-a74a-80ce622bc396'],
 'embeddings': None,
 'metadatas': [{'page': 0,
   'source': 'source_files\\podminky_debetnich_karet.pdf'}],
 'documents': ['VER DDT_ PODMPKEV.PDF \n Tyto Podmínky debetních karet obsahují bližší úpravu práv a povinností vyplývajících z  uzavřené smlouvy, na základě']}

Nakonec nesmíme zapomenout na uložení změn.

In [85]:
vectordb.persist()

Podobným způsobem by probíhalo i mazání záznamů, kdy bychom použili metodu *delete*:
```
vectordb._collection.delete(ids="a73b7183-39ea-11ee-a74a-80ce622bc396")
```

#### Similarity search
Řekli jsme si, že metodu *query* na hledání podobnosti dokumentů používat nebudeme. Co ale místo ní máme k dispozici?

In [9]:
question = "Jak dlouho debentní karta platí?"

Metoda *similarity_search* vyhledává *k* nejpodobnějších fragmentů dokumentů k dokumentu vloženému do parametru *query*. Založená je na počítání cosinové podobnosti mezi vektory fragmentů.

In [13]:
simple_sim_docs = vectordb.similarity_search(query=question,k=3)

In [14]:
simple_sim_docs

[Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='platíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den . Pokud den splatnosti připa dne na den, který není Obchodním', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'})]

Lze do ní přidat i parametr *filter*, který se hodí pro omezení množiny, ve které se podobné framenty hledají, a to sice na základě metadat.

In [15]:
simple_sim_docs = vectordb.similarity_search(
    query=question,
    k=3,
    filter={"page":0}
)

In [16]:
simple_sim_docs

[Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='platnosti použita, nejsme povinni ji obnovit . \n1.9 Neposkytnutí  nové debetní karty.  Nemá -li Držitel zájem o poskytnutí  nové debetní  karty dle  čl. 1.8', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='1.1 Žádost o debetní kartu. O poskytnutí  debetní karty můžete požádat pro sebe nebo pro kteroukoli  třetí \nosobu. V  odůvodněných případech jsme oprávněni vaš i žádost odmít nout a požadovanou kartu', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'})]

Metoda *similarity_search* u vrácených fragmentů neukazuje, jak moc jsou dokumentu v *query* podobné. Tuto informaci můžeme ale dostat s metodou *similarity_search_with_score* - ta vrací velikost cosinové podobnosti, tj. menší číslo je lepší a nejlepší je 0.

In [17]:
sim_score_docs = vectordb.similarity_search_with_score(query=question,k=3)
sim_score_docs

[(Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  0.2407131791114807),
 (Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  0.26958850026130676),
 (Document(page_content='platíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den . Pokud den splatnosti připa dne na den, který není Obchodním', metadata={'page': 1, 'source': 'source_files\\podminky_debetn

Podobně funguje *similarity_search_with_relevance_scores*, pouze je cosinová podobnost přepočítána na relevance score. To se nalézá v uzavřeném intervalu mezi 0 a 1, přičemž 0 jsou zcela nepodobné dokumenty, zatímco 1 mají zcela identické dokumenty.

In [18]:
sim_rel_score_docs = vectordb.similarity_search_with_relevance_scores(query=question,k=3)
sim_rel_score_docs

[(Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  0.8297900787293),
 (Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  0.8093721433353187),
 (Document(page_content='platíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den . Pokud den splatnosti připa dne na den, který není Obchodním', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_

Na poněkud odlišném principu funguje *max_marginal_relevance_search*. Tato metoda se snaží současně optimalizovat podobnost a diverzitu dokumentů. To v praxi znamená, že najde na základě cosinové podobnosti *fetch_k* fragmentů (defaultně 20). Poté je ale seřadí tak, že penalizuje podobné či dokonce identické dokumenty a z nového řazení vrátí *k* fragmentů (defaultně 4). Bohužel zdá se, že žádné číslo kvantifikující podobnost či kvalitu výběru není ve funkci dostupné.

In [20]:
max_relev_docs = vectordb.max_marginal_relevance_search(query=question,k=3, fetch_k=20)
max_relev_docs

[Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='zboží/služby placený ch kartou se řídí v ýhradně pravidly Karetních společností, a to včetně lhůt pro vyřízení \n(tj. mimo režim zákona o pla tebním styku3).', metadata={'page': 4, 'source': 'source_files\\podminky_debetnich_karet.pdf'})]

Specialitou je použití komprese na výstupních fragmentech. Fragmenty mohou totiž obsahovat značné množství informací pro určitý dotaz nerelevantních. Užitečné informace se potom v záplavě zbytečností snadno ztratí. 

In [21]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

Abychom viděli, co Langchain dělá, zapneme debugování.

In [26]:
langchain.debug = True

Samotnou kompresi (či přesněji osekávání zbytečných slov) realizuje fakticky jazykový model, musíme tudíž vytvoři jeho instanci.

In [33]:
chat = ChatOpenAI(temperature=0)
compressor = LLMChainExtractor.from_llm(chat)

Následně vytvoříme samotný kompresor.

In [34]:
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vectordb.as_retriever()
)

Na něm provoláme metodu *get_relevant_documents*. Bohužel jsem nepřišel na to, jak specifikovat počet vrácených fragmentů (parametr *k* nefunguje), takže se vrací defaultní 4.  
"Kompresi" zajišťuje následující prompt:
```
Given the following question and context, extract any part of the context *AS IS* that is relevant to answer the question. If none of the context is relevant return NO_OUTPUT. \n\nRemember, *DO NOT* edit the extracted parts of the context.\n\n> Question: Jak dlouho debentní karta platí?\n> Context:\n>>>\nplatíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den . Pokud den splatnosti připa dne na den, který není Obchodním\n>>>\nExtracted relevant parts:
```

In [35]:
compressed_docs = compression_retriever.get_relevant_documents(query=question)

[32;1m[1;3m[chain/start][0m [1m[1:retriever:Retriever > 3:chain:LLMChain] Entering Chain run with input:
[0m{
  "question": "Jak dlouho debentní karta platí?",
  "context": "1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu."
}
[32;1m[1;3m[llm/start][0m [1m[1:retriever:Retriever > 3:chain:LLMChain > 4:llm:ChatOpenAI] Entering LLM run with input:
[0m{
  "prompts": [
    "Human: Given the following question and context, extract any part of the context *AS IS* that is relevant to answer the question. If none of the context is relevant return NO_OUTPUT. \n\nRemember, *DO NOT* edit the extracted parts of the context.\n\n> Question: Jak dlouho debentní karta platí?\n> Context:\n>>>\n1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8

In [36]:
compressed_docs

[Document(page_content='Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='je cena splatná ka ždoročně ve stejný den a měsíc .', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='platíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den .', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
 Document(page_content='platnosti použita, nejsme povinni ji obnovit .', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'})]

In [38]:
langchain.debug = False

#### Question answering
Uživatel asi nebude chtít, aby mu stroj na jeho otázku vyplivl více či méně souvislé fragmenty dokumentů. Bude si spíše přát odpověď v přirozeném jazyce. Této úloze se budeme věnovat nyní.  
Nejprve si připravme věci, se kterými jsme se seznámili již v předchozík podkapitolách.

In [2]:
simple_doc_dir = 'embeddings/simple/'
embedding = OpenAIEmbeddings()
vectordb = Chroma(persist_directory=simple_doc_dir, embedding_function=embedding)
chat = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

Následně si vytvoříme chain pro question answering - [RetrievalQA](https://python.langchain.com/docs/use_cases/question_answering/how_to/vector_db_qa).

In [40]:
from langchain.chains import RetrievalQA

In [42]:
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    retriever=vectordb.as_retriever()
)

Otázku do něj vložíme takto:

In [43]:
question = "Jak dlouho debentní karta platí?"
result = qa_chain({"query": question})

A obdržíme následující slovník:

In [48]:
result

{'query': 'Jak dlouho debentní karta platí?',
 'result': 'Debetní karta platí do posledního dne měsíce a roku doby platnosti, která je uvedena na kartě.'}

Ok, odpověď v přirozeném jazyce jsme dostali. Co když bychom ale chtěli upravit systémový prompt? A jak si zobrazíme fragmenty, ze kterých jazykový model skládal odpověď?

In [52]:
from langchain.prompts import PromptTemplate

template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer. Use three sentences maximum. Keep the answer as concise as possible. Answer in Czech language. 
{context}
Question: {question}
Helpful Answer:"""
qa_chain_prompt = PromptTemplate.from_template(template)

Zdrojové fragmenty dostaneme díky parametru *return_source_documents* rovnému True. Šablonu se svého druhu systémovým promptem pak do chainu vložíme skrze parametr *chain_type_kwargs*. Ten obsahuje slovník, ve kterém musí být pro klíč "prompt" vložena námi specifikovaná šablona.

In [53]:
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    retriever=vectordb.as_retriever(),
    return_source_documents=True,
    chain_type_kwargs={"prompt": qa_chain_prompt}
)

In [54]:
result = qa_chain({"query": question})

In [55]:
result

{'query': 'Jak dlouho debentní karta platí?',
 'result': 'Debetní karta platí do posledního dne měsíce a roku doby platnosti uvedené na ní.',
 'source_documents': [Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='platíte  předem a  účtujeme  jej nejdříve 5.  obchodní den  po sjednání karty. V dalších měsících  po dobu \nplatnosti karty  je cena splatná  ve stejný den . Pokud de

Určité parametry můžeme vložit i do *vectordb.as_retriever()*. Například pokud bychom chtěli přejít od defaultního similarity searche na max marginal relevance search, přidáme tam parametr *search_type* s hodnotou "mmr". Další paramtery už nejsou samostatné, nýbrž se nalézají ve slovníku v parametru *search_kwargs*. Může jít o počet vrácených fragmentů (parametr *k*), *fetch_k* pro MMR, *score_threshold* pro similarity search na vrácení dostatečně kvalitích fragmentů či v případě filtrování dle metadat parametr filter.

In [56]:
qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    retriever=vectordb.as_retriever(search_type="mmr", search_kwargs={'k': 5, 'fetch_k': 20}),
    return_source_documents=True,
    chain_type_kwargs={"prompt": qa_chain_prompt}
)
result = qa_chain({"query": question})
result

{'query': 'Jak dlouho debentní karta platí?',
 'result': 'Debetní karta platí do posledního dne měsíce a roku doby platnosti uvedené na ní.',
 'source_documents': [Document(page_content='1.6 Platnost.  Debetní k artu lze používat do posledního dne měsíce a roku doby platnosti na ní uvedené. \nPoužitím obnovené karty dle č l. 1.8 Podmínek končí platnost karty původní bez ohledu na předchozí větu.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='Sazebníku. Roční po platek platíte předem  a účtujeme je j nejdříve 30. kalendářní den  po sjednání ka rty. \nV dalších letech  po dobu platnosti karty  je cena splatná ka ždoročně ve stejný den a měsíc . Měsíční poplatek', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='s používá ním debetní karty jsou st anoveny v Sazebníku a jsou splatné okamžikem poskytnutí dané Bankovní \nslužby.', metadata={'page': 1, 'source': 'source_files\\pod

Pokud chceme mít chatbota, se kterým lze diskutovat déle než jednu dialogovou výměnu, musíme si vytvořit paměťový objekt.

In [15]:
from langchain.memory import ConversationBufferMemory
conv_buff_memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

Je třeba též použít jiný chain - *ConversationalRetrievalChain*.

In [4]:
from langchain.chains import ConversationalRetrievalChain

Parametry jsou (krom přidání paměti) stejné jako v předchozím chainu. Nicméně v pozadí přibyl další krok, ve kterém chain vezme historii i novou uživatelovu otázku a zkondenzuje je do otázky přežvýkané. Tento krok má následující podobu: 
```
[llm/start] [1:chain:ConversationalRetrievalChain > 2:chain:LLMChain > 3:llm:ChatOpenAI] Entering LLM run with input:
{
  "prompts": [
    "Human: Given the following conversation and a follow up question, rephrase the follow up question to be a standalone question, in its original language.\n\nChat History:\n\nHuman: Jak dlouho debentní karta platí?\nAssistant: Debetní karta platí do posledního dne měsíce a roku doby platnosti, která je uvedena na kartě.\nFollow Up Input: Jak se to liší v případě, kdy máme kreditní kartu?\nStandalone question:"
  ]
}
```
díky čemuž vznikne otázka
```
"Jak dlouho platí kreditní karta?"
```

In [16]:
memory_chain = ConversationalRetrievalChain.from_llm(
    llm=chat,
    retriever=vectordb.as_retriever(),
    memory=conv_buff_memory
)

Pozn.: bacha, slovník vstupující do provolávání chainu musí mít klíč "question".

In [17]:
question = "Jak dlouho debentní karta platí?"
result = memory_chain({"question": question})

In [18]:
result

{'question': 'Jak dlouho debentní karta platí?',
 'chat_history': [HumanMessage(content='Jak dlouho debentní karta platí?', additional_kwargs={}, example=False),
  AIMessage(content='Debetní karta platí do posledního dne měsíce a roku doby platnosti, která je uvedena na kartě.', additional_kwargs={}, example=False)],
 'answer': 'Debetní karta platí do posledního dne měsíce a roku doby platnosti, která je uvedena na kartě.'}

In [19]:
question_2 = "Jak se to liší v případě, kdy máme kreditní kartu?"
result = memory_chain({"question": question_2})

In [20]:
result

{'question': 'Jak se to liší v případě, kdy máme kreditní kartu?',
 'chat_history': [HumanMessage(content='Jak dlouho debentní karta platí?', additional_kwargs={}, example=False),
  AIMessage(content='Debetní karta platí do posledního dne měsíce a roku doby platnosti, která je uvedena na kartě.', additional_kwargs={}, example=False),
  HumanMessage(content='Jak se to liší v případě, kdy máme kreditní kartu?', additional_kwargs={}, example=False),
  AIMessage(content='Doba platnosti kreditní karty je uvedena na kartě. Platnost karty končí posledním dnem měsíce a roku, který je uveden na kartě.', additional_kwargs={}, example=False)],
 'answer': 'Doba platnosti kreditní karty je uvedena na kartě. Platnost karty končí posledním dnem měsíce a roku, který je uveden na kartě.'}

BTW odpověď je asi správně, ale v celém dokumentu o kreditních kartách nebyla ani zmínka.  
Pozn.: pokud chceme vidět zdrojové dokumenty, musíme vložit do konstruktoru *ConversationalRetrievalChain* parametr *verbose* s hodnotou True.

#### Automatické používání metadat

Načtěme si nejprve krom pdfka o debentních kartách i pdfko o kartách kreditních.

In [2]:
loaders_list = [
    PyPDFLoader("source_files\\podminky_debetnich_karet.pdf"),
    PyPDFLoader("source_files\\Podminky-osobnich-kreditnich-karet.pdf")
]

pages = []
for loader in loaders_list:
    pages = pages + loader.load()

Nyní postupujme obvyklým způsobem (bez metadat).

In [31]:
chunk_size = 250
chunk_overlap = 50

rec_text_splitter = RecursiveCharacterTextSplitter(        
    chunk_size = chunk_size,
    chunk_overlap  = chunk_overlap,
)

rec_splits = rec_text_splitter.split_documents(pages)

In [3]:
embedding = OpenAIEmbeddings()
simple_doc_dir = "embeddings\\two_cards\\"

In [None]:
vectordb = Chroma.from_documents(
    documents=rec_splits,
    embedding=embedding,
    persist_directory=simple_doc_dir
)
vectordb.persist()

In [4]:
vectordb = Chroma(persist_directory=simple_doc_dir, embedding_function=embedding)

In [5]:
chat = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

In [8]:
template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer. Use three sentences maximum. Keep the answer as concise as possible. Answer in Czech language. 
{context}
Question: {question}
Helpful Answer:"""
qa_chain_prompt = PromptTemplate.from_template(template)

qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    retriever=vectordb.as_retriever(),
    return_source_documents=True,
    chain_type_kwargs={"prompt": qa_chain_prompt}
)

In [9]:
question = "Jak je to s aktivováním debentní karty?"
result = qa_chain({"query": question})

Pozn.: prosím o ignorování pole "topic" a "product" v metadatech - jedná se o produkt následujících kroků. zde jsou irrelevantní.

In [10]:
result

{'query': 'Jak je to s aktivováním debentní karty?',
 'result': 'Debetní karta je neaktivní a musí být aktivována Držitelem před použitím. Způsob aktivace je uveden v Průvodci.',
 'source_documents': [Document(page_content='a distribuce PIN je znám pouze Držiteli . \n1.5 Aktivace debetní karty.  Veškeré námi poskytnuté  debetní karty jsou neaktivní. Způsob aktivace karty je \nuveden v  Průvodci. Př ed aktivací není  Držitel oprávněn kartu používat.', metadata={'page': 0, 'product': 'debentní karta', 'source': 'source_files\\podminky_debetnich_karet.pdf', 'topic': 'debentní karty'}),
  Document(page_content='do formy bezkontaktní  Digitální kar ty, pokud vám to um ožníme.  Způsob aktivace  a užívání  Digitální karty \nnaleznete v  Průvodci . \n2.4 Služba MojeKarta . Služba Moje Karta je Bankovní sl užba umožňující výběr  designu na kartu. Debetní  karta', metadata={'page': 1, 'product': 'debentní karta', 'source': 'source_files\\podminky_debetnich_karet.pdf', 'topic': 'debentní karty'})

Všimněte si, že i když byla odpověď asi správná, dostal se mezi nejvhodnější fragmenty i jeden fragment z pdfka o kartách kreditních.  
Jaké je řešení? Inu, lze použít metadata. Pokud člověk pracuje s dokumenty s lehce zpracovatelným názvem (typu "podminky_produkt_1.pdf", "podminky_produkt_2.pdf") a má štěstí, nemusí přidávat žádná nová metadata. I v našem poměrně primitivním případě to ale moc nefungovalo. 
Musíme tedy data ve vektorové databázi obohatit o nové metadatové pole.

In [20]:
debit_cards_ids = vectordb.get(where={"source": "source_files\\podminky_debetnich_karet.pdf"})["ids"]
debit_cards_metadatas = vectordb.get(where={"source": "source_files\\podminky_debetnich_karet.pdf"})["metadatas"]

In [21]:
credit_cards_ids = vectordb.get(where={"source": "source_files\\Podminky-osobnich-kreditnich-karet.pdf"})["ids"]
credit_cards_metadatas = vectordb.get(where={"source": "source_files\\Podminky-osobnich-kreditnich-karet.pdf"})["metadatas"]

Hned tady může být zádrhel, když do metadat vložíme slova ve tvaru, které později jazykový model nevygeneruje. Metadatové filtrování totiž není fuzzy, ale přesné. Tudíž když modle vyvodí, že se v otázce "Co musím udělat pro blokaci produktu debentní karty?" ptáme na produkt "debentní karta", nemůžeme mít v metadatech "debentní kart**y**". Podobně bacha na case sensitivitu - model (přesněji vláček modelu a databázového enginu) začne pro otázku "Co musím udělat pro blokaci produktu Debentní karta?" hledat produkt "Debentní karta" a též nic nenajde.

In [23]:
for one_metadata in debit_cards_metadatas:
    one_metadata["product"] = "debentní karta"

In [24]:
for one_metadata in credit_cards_metadatas:
    one_metadata["product"] = "kreditní karta"

Provedeme update a změny databáze uložíme.

In [25]:
vectordb._collection.update(ids=debit_cards_ids, metadatas=debit_cards_metadatas)

In [26]:
vectordb._collection.update(ids=credit_cards_ids, metadatas=credit_cards_metadatas)

In [27]:
vectordb.persist()

Pro získání fragmentů dokumentů, u kterých už budou hrát roli metadata, musíme použít *SelfQueryRetriever*. Ten vyžaduje mít nainstalovaný balíček [lark](https://pypi.org/project/lark/).

In [11]:
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo

Musíme mu mimo jiné podhodit popis metadat.

In [12]:
metadata_field_info = [
    AttributeInfo(
        name="product",
        description="Product name",
        type="string",
    ),
    AttributeInfo(
        name="source",
        description="The document source",
        type="string",
    ),
    AttributeInfo(
        name="page",
        description="The page from the document",
        type="integer",
    ),
]

Též do *SelfQueryRetriever* vložíme parametr *document_contents*.

In [13]:
document_content_description = "Bank products"
retriever = SelfQueryRetriever.from_llm(
    llm=chat,
    vectorstore=vectordb,
    document_contents=document_content_description,
    metadata_field_info=metadata_field_info,
    verbose=True
)

No a když jsem tohle všechno udělal, tak... to stejně nefungovalo :D. Možná jsem se špatně dotazoval, možná tenhle typ úlohy funguje snáze v angličtině. Zkusil jsem tak editovat soubor {jméno_vašeho_environmentu}\Lib\site-packages\langchain\chains\query_constructor\prompt.py, ve kterém je šablona za tvoření queriny do Chromy zodpovědná. No, snad jsem přitom nic nerozbil...   
Změněné byly tyto části souboru:
```
BANK_DATA_SOURCE = """\
```json
{
    "content": "Informace k bankovnímu produktu",
    "attributes": {
        "produkt": {
            "type": "string",
            "description": "Název produktu"
        },
        "zamereni": {
            "type": "string",
            "description": "Zaměření dokumentu, jedna z možností \"ceník\", \"všeobecné informace\""
        }
    }
}
```\
""".replace(
    "{", "{{"
).replace(
    "}", "}}"
)

FULL_ANSWER = """\
```json
{{
    "query": "cena spotřebitelský úvěr",
    "filter": "and(eq(\\"produkt\\", \\"spotřebitelský úvěr\\"), \
eq(\\"zamereni\\", \\"ceník\\"))"
}}
```\
"""

DEFAULT_EXAMPLES = [
    {
        "i": 1,
        "data_source": BANK_DATA_SOURCE,
        "user_query": "Kolik stojí vyřízení spotřebitelského úvěru",
        "structured_request": FULL_ANSWER,
    },
    {
        "i": 2,
        "data_source": BANK_DATA_SOURCE,
        "user_query": "V kolik jede vlak?",
        "structured_request": NO_FILTER_ANSWER,
    },
]

EXAMPLES_WITH_LIMIT = [
    {
        "i": 1,
        "data_source": BANK_DATA_SOURCE,
        "user_query": "Kolik stojí vyřízení spotřebitelského úvěru",
        "structured_request": FULL_ANSWER,
    },
    {
        "i": 2,
        "data_source": BANK_DATA_SOURCE,
        "user_query": "V kolik jede vlak",
        "structured_request": NO_FILTER_ANSWER,
    },
    {
        "i": 3,
        "data_source": BANK_DATA_SOURCE,
        "user_query": "What are three songs about love",
        "structured_request": WITH_LIMIT_ANSWER,
    },
]
```

Pro dotaz "Co musím udělat pro blokaci debentní karty?" (popř. "Co musím udělat pro blokaci debentní karty od KB?") se vygeneruje
```
"```json\n{\n    \"query\": \"blokace debentní karta\",\n    \"filter\": \"NO_FILTER\"\n}\n```"
```
Tj. querina správná, ale filtr se neuplatnil.
Při dotazu "Co musím udělat pro blokaci produktu debentní karta?" je už filtr správný
```
"```json\n{\n    \"query\": \"blokace debentní karta\",\n    \"filter\": \"eq(\\\"product\\\", \\\"debentní karta\\\")\"\n}\n```"
```
Ale popravdě nedokážu si představit, že by v praxi uživatel používal takto pro model nápovědný dotaz.  
Pro zajímavost - na dotaz "Kolik budu platit u pojištění Merlin od KB?" by vznikl filtr
```
"```json\n{\n    \"query\": \"platit pojištění Merlin KB\",\n    \"filter\": \"and(eq(\\\"product\\\", \\\"Merlin\\\"), eq(\\\"source\\\", \\\"KB\\\"))\"\n}\n```"
```
Asi by to chtělo ten šablonový prompt ze souboru trochu vylepšit.

In [14]:
question = "Co musím udělat pro blokaci produktu debentní karta?"
result = retriever.get_relevant_documents(question)



query='blokace debentní karta' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='product', value='debentní karta') limit=None


In [15]:
result

[Document(page_content='spojení s  kartou, zejmén a pokud příčinou takovéhoto jednání budou okol nosti technické či tec hnologi cké \npovahy.  \n4.16 Blokace debetn í karty.  Jsme oprávněni blokovat debetní kartu včetně její  digitální verze , tj. Digi tální kartu ,', metadata={'page': 3, 'product': 'debentní karta', 'source': 'source_files\\podminky_debetnich_karet.pdf', 'topic': 'debentní karty'}),
 Document(page_content='stanovených pod mínek j e Držitel oprávněn zamknout  svoji kartu včetně Digitál ní karty pr o veškeré On -line \ntransakce. Zamknutím debetní karty (plastové karty) dojd e k zamknutí i její digitální verze, v opačném', metadata={'page': 3, 'product': 'debentní karta', 'source': 'source_files\\podminky_debetnich_karet.pdf', 'topic': 'debentní karty'}),
 Document(page_content='transakce (autorizační dotaz na kartě a zůstatek Ú čtu) prostře dnictvím debetní karty, přechází transakce  do \nstavu ke  zpracován í a do okamžiku našeh o zúčtování transakce  jsme oprávněni b

#### Prefix před fragmenty
Co se týče problému nalezení fragmentu ke správné problematice, lze na internetu nalézt doporučení, aby se jméno problematiky vložilo na začátek každého fragmentu.

In [13]:
chunk_size = 250
chunk_overlap = 50

rec_text_splitter = RecursiveCharacterTextSplitter(        
    chunk_size = chunk_size,
    chunk_overlap  = chunk_overlap,
)

loader_1 = PyPDFLoader("source_files\\podminky_debetnich_karet.pdf")
pages_1 = loader_1.load()
rec_splits_1 = rec_text_splitter.split_documents(pages_1)
for one_doc in rec_splits_1:
    one_doc.page_content = "debentní karta \t " + one_doc.page_content


loader_2 = PyPDFLoader("source_files\\Podminky-osobnich-kreditnich-karet.pdf")
pages_2 = loader_2.load()
rec_splits_2 = rec_text_splitter.split_documents(pages_2)
for one_doc in rec_splits_2:
    one_doc.page_content = "kreditní karta \t " + one_doc.page_content

all_splits = rec_splits_1 + rec_splits_2

In [14]:
embedding = OpenAIEmbeddings()
doc_dir = "embeddings\\fragment_prefix\\"

vectordb = Chroma.from_documents(
    documents=all_splits,
    embedding=embedding,
    persist_directory=doc_dir
)
vectordb.persist()

In [15]:
chat = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer. Use three sentences maximum. Keep the answer as concise as possible. Answer in Czech language. 
{context}
Question: {question}
Helpful Answer:"""
qa_chain_prompt = PromptTemplate.from_template(template)

qa_chain = RetrievalQA.from_chain_type(
    llm=chat,
    retriever=vectordb.as_retriever(),
    return_source_documents=True,
    chain_type_kwargs={"prompt": qa_chain_prompt}
)

Zdá se, že funkčnost takového přístupu je omezená, nicméně pro úplné zatracení či naopak vychválení do nebes by to chtělo větší otestování.

In [16]:
result = qa_chain({"query": "Co musím udělat pro blokaci debentní karty?"})
result

{'query': 'Co musím udělat pro blokaci debentní karty?',
 'result': 'Musíte zamknout svoji debetní kartu včetně digitální verze pro veškeré online transakce.',
 'source_documents': [Document(page_content='debentní karta \t transakce (autorizační dotaz na kartě a zůstatek Ú čtu) prostře dnictvím debetní karty, přechází transakce  do \nstavu ke  zpracován í a do okamžiku našeh o zúčtování transakce  jsme oprávněni blok ovat na Účtu', metadata={'page': 2, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='debentní karta \t stanovených pod mínek j e Držitel oprávněn zamknout  svoji kartu včetně Digitál ní karty pr o veškeré On -line \ntransakce. Zamknutím debetní karty (plastové karty) dojd e k zamknutí i její digitální verze, v opačném', metadata={'page': 3, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='kreditní karta \t blokaci pominul y, kartu znovu aktivu jeme nebo ji uvedeme na Stoplist  a po vzájemné dohodě poskytne

In [18]:
result = qa_chain({"query": "Co dělat s kreditkou zaseklou v bankomatu?"})
result

{'query': 'Co dělat s kreditkou zaseklou v bankomatu?',
 'result': 'Když se kreditní karta zasekne v bankomatu, je nutné neprodleně kontaktovat Podporu karet KB.',
 'source_documents': [Document(page_content='kreditní karta \t poznamenat si datum a čas zadržení  karty , umístění bankom atu a pr ovozovate le bankomatu dle lo ga \nna obrazovce.  Další informace naleznete v  Průvodci.', metadata={'page': 10, 'source': 'source_files\\Podminky-osobnich-kreditnich-karet.pdf'}),
  Document(page_content='kreditní karta \t 14.7 Zadržení karty  v bankoma tu na území ČR  a v zahraničí . Při zadržení karty v bankomatu je vždy  nutné, \naby D ržitel neprodleně kontaktoval Podporu karet KB . Stane-li se tak v zahrani čí, má  Držitel  povinnost', metadata={'page': 10, 'source': 'source_files\\Podminky-osobnich-kreditnich-karet.pdf'}),
  Document(page_content='kreditní karta \t pak se poplatek zúčtuje následující den. Zavazujete  se na Účtu udržovat potřebn ý zůstatek k  úhradě cen, \na to do proveden

In [19]:
result = qa_chain({"query": "Co dělat s debetní kartou zaseklou v bankomatu?"})
result

{'query': 'Co dělat s debetní kartou zaseklou v bankomatu?',
 'result': 'Pokud se debetní karta zasekne v bankomatu, je vhodné kontaktovat banku, která kartu vydala, a informovat je o situaci. Banka vám poskytne další instrukce ohledně získání nové karty nebo jejího odemknutí.',
 'source_documents': [Document(page_content='debentní karta \t vaší žádosti.  \n1.2 Způsoby předání debetní karty a PIN.  Ve Smlouvě si zvolíte způsoby předání karty a PIN Držiteli, které \nmohou být zpoplatněny dle Sazebníku a jsou uvedeny v Průvodci.', metadata={'page': 0, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='debentní karta \t s používá ním debetní karty jsou st anoveny v Sazebníku a jsou splatné okamžikem poskytnutí dané Bankovní \nslužby.', metadata={'page': 1, 'source': 'source_files\\podminky_debetnich_karet.pdf'}),
  Document(page_content='debentní karta \t a to zejména ve formě plastové karty s čipem . Poskytneme -li Kartu opatřen ou podpisovým proužkem, \nD

## TO DO

stuff vs map-reduce vs postupné zpracování