Marcin Wardyński  
czwartek, 8:00

## Laboratorium 10 - RAG

Testy jakości odpowiedzi oraz wydajności RAGa wykonam w oparciu o dwa modele: `Mistral` oraz `Llama 3.2`

W poniższym kodzie inicjalizuję embeddingi dla Ollama z Langchain:

In [360]:
from langchain_ollama import OllamaEmbeddings

model_name = "mistral" # llama3.2

embeddings = OllamaEmbeddings(model=model_name)


Poniżej tworzę wektorową bazę danych `Qdrant` dla gęstych wektorów osadzenia, oraz definiuję kolekcję: `aspirin`:

In [361]:
from langchain_qdrant import QdrantVectorStore, RetrievalMode
from qdrant_client import QdrantClient
from qdrant_client.http.models import Distance, VectorParams

client = QdrantClient(":memory:")

vecotor_size =  4096 # 3072
collection_name = "aspirin-m-1500"


client.create_collection(
    collection_name=collection_name,
    vectors_config=VectorParams(size=vecotor_size, distance=Distance.COSINE),
)

vector_store = QdrantVectorStore(
    client=client,
    collection_name=collection_name,
    embedding=embeddings,
    retrieval_mode=RetrievalMode.DENSE
)

Testy przeprowadzę dla dwóch różnych rozmiarów chunków: 500 i 1500.

Poniższa funkcja dzieli tekst z podanego pliku pdf na fragmenty o długości możliwie bliskich zadanym:

In [362]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

chunk_size = 1500 # 1500

def load_chunks(pdf_path):
    loader = PyPDFLoader(pdf_path)
    documents = loader.load()

    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_size/5,
        length_function=len
    )

    return text_splitter.split_documents(documents)

W tym bloku tekst zostaje przetworzony na osadzenia wektorowe i zapisany w stworzeonej uprzednio kolekcji. Dodatkowo mierzę czas indeksowania pliku.  

Plikiem użytym w ćwiczeniu będzie ulotka informacyjna do leku Aspiryna C. Wybrałem taki plik, gdyż zawiera on szerag informacji, na których można testować działanie RAGa, a dodatkowo działanie aspiryny jest szeroko znane, a wiedzę o samym leku można uznać za wiedzę ogólną. Fakt o wiedzy ogólnej chcę wykorzystać w porównaniu RAGa z czystym modelem językowym dla swoistego wyrównania szans, a przynajmniej dla zniwelownia znacznej przewagi jaką uzyskuje RAG otrzymując kontekst dla części generwatywnej. Używając wyłącznie modelu językowego w mojej konfiguracji, cała ulotka jest zbyt długa, by zawrzeć ją w kontekście, więc przeprowadzę test "closed-book" i będę bazował wyłącznie na wewnętrznej wiedzy modelu mając nadzieję, że w trakcie treningu poznał on kilka informacji o aspirynie.

In [363]:
import time

def vectorize_pdf_content(pdf_path):
    chunks = load_chunks(pdf_path)
    _ = vector_store.add_documents(documents=chunks)

start_time = time.time()

pdf_path = "Aspirin C.pdf"
vectorize_pdf_content(pdf_path)

execution_time = time.time() - start_time

print(f"execution time: {execution_time}")

execution time: 40.12127685546875


Poniższa tabela przedstawia czas indeksowania w zależności od rozmiaru chunka i użytego modelu dla osadzeń wektorowych:

| rozmiar chunka | czas indeksowania - mistral | czas indeksowania - llama3.2 |
|----------------|-----------------------------|------------------------------|
| 500            | 37.7s                       | 17.5s                        |
| 1500           | 40.1s                       | 16.5s                        |

Jak widzimy, model `Mistral` o 7 miliardach parametrów ma ponad dwókrotnie dłuższy czas indeksowania, niż `Llama 3.2` 3 miliardach parametrów. Na tym przykłazie możnaby stwierdzić, że czas indeksowania rośnie proporcjonalnie do wzrostu liczby parametrów modelu.  
Wielkość chunków ma niewielki wpływ na czas trwania indeksowania.

Poniższy blok implementuje element Retrievera, który zwaraca trzy fragmenty tekstu z indeksu.

In [364]:
from langchain_core.runnables import RunnablePassthrough

retriever = vector_store.as_retriever(search_kwargs={"k": 3})
retriever_runnable = {"question": RunnablePassthrough(), "context": retriever}

Zadanie wykonam na kilku promptach dla modelu językowego. Oto rodzaje promptów, które chcę wypróbować:
- Zero-shot jedynie z pytaniem i krótkim poleceniem dla modelu
- Zero-shot z dodatkową specyfikacją zachowania modelu
- Few-shot z trzema przykładami i specyfikacją zachowania modelu

In [404]:
template_1_rag = """
Jesteś asystentem w zadaniu odpowiadania na pytania. Użyj podpowiedzi zawartej w kontekście.

Kontekst: {context}
Pytanie: {question}
Odpowiedź:
"""

template_2_rag = """
Jesteś asystentem w zadaniu odpowiadania na pytania. Użyj podpowiedzi zawartej w kontekście.
Udzielaj zwięzłych odpowiedzi i upewnij się, że twoja odpowiedź jest mocno powiązana z dostarczonym kontekstem.

Kontekst: {context}
Pytanie: {question}
Odpowiedź:
"""

template_3_rag = """
Jesteś asystentem w zadaniu odpowiadania na pytania. Użyj podpowiedzi zawartej w kontekście.
Udzielaj zwięzłych odpowiedzi i upewnij się, że twoja odpowiedź jest mocno powiązana z dostarczonym kontekstem.
Wzoruj się na poniższych przykładach:

Przykład 1:
Kontekst: Prowadzenie pojazdów i obsługiwanie maszyn: Lek nie ma wpływu.
Pytanie: Czy po zażyciu Aspirin C można prowadzić samochód?
Odpowiedź: Tak, lek nie ma wpływu na możliwość prowadzenia samochodu.

Przykład 2:
Kontekst: Jedna tabletka musująca zawiera 467 mg sodu (głównego składnika soli kuchennej).
Pytanie: Ile mg sodu zawiera jedna tabletka?
Odpowiedź: Jedna tabletka zawiera 467 mg sodu.


Przykład 3:
Kontekst: W przypadku pominięcia dawki leku i utrzymywania się dolegliwości należy przyjąć następną dawkę leku Aspirin C. Nie należy stosować dawki podwójnej w celu uzupełnienia pominiętej dawki.
Pytanie: Co zrobić, gdy dawka leku została pominięta?
Odpowiedź: Należy przyjąć następną dawkę i nie stosować dawki podwójnej.

Twoje zadanie:
Kontekst: {context}
Pytanie: {question}

Odpowiedź:
"""

In [396]:
from langchain_core.output_parsers import StrOutputParser
from langchain.prompts import PromptTemplate
from langchain.schema import SystemMessage
from langchain_ollama.llms import OllamaLLM

prompt = PromptTemplate(
    input_variables=["context", "question"],
    template=template_1_rag
)

model = OllamaLLM(model=model_name)

generator_runnable = prompt | model | StrOutputParser()


In [397]:
rag_chain = retriever_runnable | generator_runnable

Pytania do sprawdzenia działania RAGa:
- Jaką substancję czynną zawiera Aspirin C?
- W jakim wieku można przyjmować Aspirin C?
- Czy kobiety ciężarne mogą przyjmować ten lek?
- Czy lek można łączyć z alkoholem?
- Jak przechowywać Aspirin C?

Odpowiedzi:
- kwas acetylosalicylowy oraz witaminę C
- od 12 roku życia
- W trzecim trymestrze nie mogą, a w pierwszym i drugim nie powinny
- Alkohol może zwiększyć ryzyko wystąpienia działań niepożądanych ze strony przewodu pokarmowego, tj. owrzodzenie błony śluzowej lub krwawienia.
- Przechowywać w temperaturze poniżej 25ºC.

In [403]:
question = "Jak przechowywać Aspirin C?"

result = rag_chain.invoke(question)
print(result)

 Aspirin C należy przechowywać w temperaturze pomiędzy 15 °C a 25 °C. Nie należy przechowywać leku w miejscu ciemnym lub w miejscu, gdzie może zostać dotknięty promieniowaniem UV. Zalecana jest przetrzymywanie opakowania w oryginalnej pudełce i zachowanie przy sobie recepty leku.


W poniższych tabelach przedstawiam generalną ocenę odpowiedzi generowanych przez modele. Ponieważ zgodnie z poleceniem do ewaluacji należało wybrać tylko pięć pytań, nie obliczam metryk *Exact Match* oraz *f1*, tylko sam przyznaję oceny dla trafności dopasowania w następującej skali:
- 1 - pełna odpowiedź uwzględniająca komplet informacji zawartych w kontekście
- 0.75 - poprawna odpowiedź uwzględniająca większość informacji do wydobycia z kontekstu
- 0.5 - połowicznie dobra odpowiedź
- 0.25 - odpowiedź pozostawiająca wiele do życzenia, ale zawierająca małą dozę poprawnych informacji
- 0 - brak lub kompletnie zła odpowiedź

Można zarzucić mojemu podejściu, że oceny przydzielone przez człowieka są mniej obiektywne, niż jasno ustalona metryka i to prawda, ale w poprzednim zadaniu (lab9:QA) pokazałem, że sposób przygotowania odpowiedzi do zbioru danych przez człowieka w znacznym stopniu może obniżyć wyniki uzyskane przy użyciu ścisłych metryk. Stąd nie uważam, żeby moje podejście było o wiele gorsze, od oceny metrykami *Exact Match* oraz *f1* z poprzedniego zadania.
Poza tym, te narzędzia mają służyć człowiekowi i to jego interpretacja jakości wyników powinna być kluczowa, a ja nie mam się w tym wypadku za osobę szczególnie zbiasowaną, która za wszelką cenę chciałaby przedstawić uzyskane wyniki w dobrym świetle, co z resztą zaraz zobaczymy, bo niektóre wyniki są bardzo zaskakujące.

Przejdźmy do ewaluacji odpowiedzi, modele podane w nagłówku tabeli z rozmiarem chunka-t działają w RAGu, natomiast bez są modelami wolnostojącymi.

Prompt 1: Zero-Shot: Zlecenie zadania, lecz bez dodatkowych wytycznych

| Pytanie | Mistral, chunk: 500 | Mistral, chunk: 1500 | Mistral | Llama3.2, chunk: 500 | Llama3.2, chunk: 1500 | Llama3.2 |
|---------|---------------------|----------------------|---------|----------------------|-----------------------|----------|
| 1       | 1                   | 0.75                 | 0.75    | 0.75                 | 0.75                  | 0        |
| 2       | 1                   | 0.75                 | 1       | 0                    | 1                     | 0        |
| 3       | 0.5                 | 0                    | 0.75    | 0.5                  | 0.5                   | 0.5      |
| 4       | 0                   | 1                    | 0.25    | 0                    | 0.75                  | 0.5      |
| 5       | 0.75                | 0.5                  | 1       | 0                    | 0                     | 0        |
| Suma    | 3.25                | 3                    | 3.75    | 1.25                 | 3                     | 1        |

Dodatkowe uwagi:
- Mistral odpowiadając sporo posiłkuję się własną wiedzą, przez co dodaje informacje
- Mistra potrafi połączyć w odpowiedzi informację poprawną, oraz informację dotyczącą kompletnie innej kwestii.
- Llama częściej podaje informację, że w kontekście nie znaleziono odpowiedzi na pytanie 

Widać, że dla najprostszego prompta Llama performuje dość słabo, za to Mistral radzi sobie dużo lepiej.
Bardzo ciekawym jest stopień ogólnej wiedzy na temat aspiryny posiadany przez Mistral, który pokonał nią zapytania wspomagane kontekstem z odnalezionych fragmentów. Odpowiedzi closed-book od Llamy są niezadowalające, najwyraźniej nie spotkała się w korpusie treningowym z wystarczającą dozą informacji na temat aspiryny.

Prompt 2: Zero-Shot: Zlecenie zadania, z dodatkowym wymogiem udzielania zwięzłych odpowiedzi i korzystania z przekazanego kontekstu (w przypadku RAGa)

| Pytanie | Mistral, chunk: 500 | Mistral, chunk: 1500 | Mistral | Llama3.2, chunk: 500 | Llama3.2, chunk: 1500 | Llama3.2 |
|---------|---------------------|----------------------|---------|----------------------|-----------------------|----------|
| 1       | 1                   | 0.75                 | 0.75    | 0.75                 | 0.75                  | 0        |
| 2       | 1                   | 0.25                 | 0.25    | 0.75                 | 1                     | 0        |
| 3       | 0.75                | 0.5                  | 0.5     | 0.75                 | 0.5                   | 0.5      |
| 4       | 0.25                | 0.25                 | 0.25    | 0.75                 | 0.25                  | 0.25     |
| 5       | 0.25                | 0                    | 0.25    | 0                    | 0.25                  | 0        |
| Suma    | 3.25                | 1.75                 | 2       | 3                    | 2.75                  | 0.75     |

Dodatkowe uwagi:
- Mistral stał się mniej gadatliwy, jego odpowiedzi są zwięźlejsze, zgodnie z poleceniem.
- Mistral wskazuje przy niektórych odpowiedziach wprost na fakt, że pochodzą z kontekstu
- Llama wplata czasami angielskie słowa

Llama znacznie poprawiła swoje wyniki, zwłaszcza dla krótszego chunk-a o 500 znakach. Mistral stał się mniej gadatliwy i zarazem pogorszył jakość swoich wyników. Również wolnostojący Mistral z dodatkowym ograniczeniem odpowiada słabiej.

Prompt 3: Few-Shot: Zlecenie zadania, z dodatkowym wymogiem udzielania zwięzłych odpowiedzi i korzystania z przekazanego kontekstu (w przypadku RAGa) oraz dołączone 3 przykłady

| Pytanie | Mistral, chunk: 500 | Mistral, chunk: 1500 | Mistral | Llama3.2, chunk: 500 | Llama3.2, chunk: 1500 | Llama3.2 |
|---------|---------------------|----------------------|---------|----------------------|-----------------------|----------|
| 1       | 1                   | 0.75                 | 0       | 0.75                 | 0.75                  | 0.75     |
| 2       | 1                   | 0                    | 0       | 1                    | 0.5                   | 0        |
| 3       | 0.75                | 0.5                  | 0.25    | 0.75                 | 0.5                   | 0.5      |
| 4       | 0.5                 | 1                    | 0.5     | 0.5                  | 0.25                  | 0.5      |
| 5       | 0.5                 | 0.75                 | 0.25    | 0                    | 0.5                   | 0.25     |
| Suma    | 3.75                | 3                    | 1       | 3                    | 2.5                   | 2        |

Mistral o wielkości chunk-a 500 dorównał najlepszemu wynikowi w teście do tej pory, tj 3.75 który należał do Mistrala bez RAGa, a dla chunk-a 1500 również znacznie poprawiła rezultat. Llama utrzymuje podobny poziom do ostatniego pomiaru dla poprzedniego prompta.
Przy spojrzeniu na wyniki modeli wolnostojących widzimy, że Mistral instruowany przykładami pogorszył swoje odpowiedzi jeszcze bardziej, natomiast Llama jest znacznie polepszyła. 

#### Podsumowanie wniosków do ocenianych wyników

Moim zdaniem do ćwiczenia dobrałem dwa modele o odrębnej charakterystyce, Mistral przechowuje dużą wiedzę na temat aspiryny w swoim modelu, ale gorzej radzi sobie z zadaniem odpowiedzi na pytanie wykorzystując podsunięty kontekst i potrafi być bardziej czuły na długość kontekstu. Mam tu na myśli fakt, że przy doprecyzowaniu polecenia, Mistral wcale nie poprawiał znacznie wyników, a przy konfiguracji średnio-szczegółowy prompt 2 i duży chunk 1500 znaków znacznie osłabił jakość swoich odpowiedzi. W pozostałych przypadkach jakość jego odpowiedzi zawierała się w przedziale 3-3.75, czyli zadowalająco.
Z kolei Llama wykazywała się kiepską wiedzą przechowywaną w modelu na temat Aspiryny, ale chyba trochę lepiej wspomaga się informacją zawartą w prompcie - ale to jest dość subiektywna ocena, która nie znajduje dużego przełożenia w przydzielonych punktach. Jeśli chodzi o same wyniki punktowe, to Llama uzyskiwała średnio 2.5-3 punkty, poza jednym wyjątkiem o kiepsko sprecyzowanym prompcie 1 i małym chunkiem 500 znaków w kontekście.

Ciekawe wyniki dla modeli wolnostojących interpretuję w ten sposób, że pierwotnie gadatliwy Mistral, rzucał w odpowiedzi dużo informacji i którymiś z nich trafiał w poprawne odpowiedzi, a przy poleceniu odfiltrowania zbędnych informacji i pozostawieniu tych najistotniejszy nie potrafi trafić te faktycznie ważne dane. Z drugiej strony Llama przy dodatkowej zachęcie w formie przykładów i udzieleniu dodatkowych informacji na temat Aspiryny, również w tych przykładach, potrafi znacznie lepiej powiązać przechowywaną wiedzę z zapytaniami.


### Odpowiedzi RAGa

Model: `Mistral`, rozmiar chunk-ów: 1500 znaków, numer prompta: 1, czas wykonania: 12s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Kwas acetylosalicylowy (aspiryna) jest substancją czynną zawartą w leku Aspirin C.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Można przyjmować lek Aspirin C od najmłodszych dzieci poza karmieniem piersią do osób starszych. Jednak należy zachować szczególną ostrożność i konsultować się z lekarzem, gdy dziecko jest młodsze niż 12 lat lub ma jakiekolwiek inne schorzenia.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: * Można przypuścić, że w kontekście zaoferowanym nie podano informacji o stosowaniu leku Aspirin C przez kobiety ciężarne. W celu ustalenia odpowiedzi należy wykonać dalsze poszukiwanie informacji w kontekście, który jest dostępny lub skontaktować się z lekarzem.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: * Tak, jednak z powagą należy unikać spożywania alkoholu podczas stosowania Aspirinu C oraz innych niesteroidowych leków przeciwzapalnych w dużych dawkach, ponieważ może to wzmagać ryzyko krwawień z przewodu pokarmowego.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: * Aspirin C powinien być przechowywany w suchym i ciemnym miejscu, przy odpowiednio niskiej temperaturze. Należy zachować szczególną ostrożność w przypadku składowania leków w miejscu dostępnym dla dzieci lub zwierząt, ponieważ może to prowadzić do nieszczędnego sporzenia.*

===================================================================

Model: `Mistral`, rozmiar chunk-ów: 1500 znaków, numer prompta: 2, czas wykonania: 13s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Kwas acetylosalicylowy jest substancją czynną w leku Aspirin C.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Można przyjmować Aspirin C w dowolnym wieku, jednak należy zachować szczególną ostrożność u dzieci.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie jest zalecane stosowanie leku Aspirin C u kobiet w ciąży, ponieważ może zwiększać ryzyko wystąpienia krwotoków i złej sztuczki. Zawsze należy skonsultować się z lekarzem dotycząco stosowania leków w ciąży.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie, kwas acetylosalicylowy (łac. Aspirin), osłabia działanie alkoholu i powoduje zwiększone ryzyko wystąpienia dny moczanowej, jeśli jest stosowany jednocześnie z nim.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirin C powinien być przechowywany w miejscu suchym, przytłoczonym i umiarkowanych temperaturach. Zaleca się trzymanie go poza zasięgiem światła słonecznego oraz daleko od innych leków i produktów chemicznych.*

===================================================================

Model: `Mistral`, rozmiar chunk-ów: 1500 znaków, numer prompta: 3, czas wykonania: 14s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera jako substancję czynną kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Można przyjmować lek Aspirin C w dowolnym wieku.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: * Nie, kobiety ciężarne nie powinny przyjmować tego leku, ponieważ może on być szkodliwy dla płodu.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Tak, jednak należy zachować szczególną ostrożność w stosowaniu Aspirin C wraz z alkoholem, ponieważ może to prowadzić do zwiększonego ryzyka krwawień.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *  Aspirin C należy przechowywać w temperaturze pomiędzy 15 °C a 25 °C. Nie należy przechowywać leku w miejscu ciemnym lub w miejscu, gdzie może zostać dotknięty promieniowaniem UV. Zalecana jest przetrzymywanie opakowania w oryginalnej pudełce i zachowanie przy sobie recepty leku.*

===================================================================

Model: `Mistral`, rozmiar chunk-ów: 500 znaków, numer prompta: 1, czas wykonania: 7s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Acidum acetylsalicylicum oraz Acidum ascorbicum (witamina C)*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: * Można zacząć przyjmować lek Aspirin C od lat 12 i więcej, jednak należy zachować szczególną ostrożność i przed zawarciem umowy o leczeniu z lekarzem lub farmaceutą przeczytać ulotkę zawartą w opakowaniu.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: * Tak, według treści dokumentu "Aspirin C", u kobiet w ostatnim trymestrze ciąży należy unikać stosowania tego leku. Jednak jeśli podano inną dawkę leku metotreksat (np. 15 mg na tydzień lub większą), to kobieta może być zastraszona z jego użycia. Zawsze należy sięgnieć do zaleceń lekarza lub farmaceuty.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Z konttekstu nie zostało żadnie wskazówki dotyczące łączenia aspiryny C z alkoholem. Moja odpowiedź jest tylko hipotetyczna, ponieważ konieczne jest zażywanie leków w sposób zgodny z rekomendacjami lekarza lub farmaceuty. Wobec braku informacji na temat interakcji aspiryny C i alkoholu, należy skonsultować się z lekarzem lub farmaceuty.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: * Aby zapewnić poprawne przechowywanie tabletek Aspirin C, należy je przechowywać w temperaturze pomiędzy 15 °C a 25 °C. Miejsce przechowywania powinno być suche i niezawierające światła słonecznego, tak aby tabletki utrzymywały swoją jakość na odpowiednim poziomie. W razie potrzeby, zachowanie dokumentacji ze szczegółami dotyczącymi receptury i informacji dla pacjenta jest również istotne.*

===================================================================

Model: `Mistral`, rozmiar chunk-ów: 500 znaków, numer prompta: 2, czas wykonania: 7s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera dwa związki czynne: Acidum acetylsalicylicum (aspirynę) oraz Acidum ascorbicum (witaminę C).*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspirin C nie powinno być stosowane u dzieci poniżej 12 lat (z kontekstu).*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Tak, kobiety w ostatnim trymestrze ciąży powinny unikać stosowania tego produktu (Aspirin C).*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: * Informacja o możliwości stosowania Aspirin C w połączeniu z alkoholem nie została dostarczona w kontekście. Zaznaczono jedynie przeciwwskazania do stosowania leku u osób w ostatnim trymestrze ciąży, u dzieci poniżej 12 lat oraz osób stosujących metotreksat w dawkach ponad 15 mg na tydzień. W razie wątpliwości związanych ze stosowaniem leku należy zwrócić się do lekarza lub farmaceuty.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: * Aspirin C powinny być przechowywane w suchym i zimnym miejscu, poza bezpośrednim nasłonecznieniem. W razie potrzeby należy upewnić się, że dostęp do leku jest ograniczony, aby uniknąć nieprzyjemnych skutków ze spożycia przypadkowego przez inne osoby.*

===================================================================

Model: `Mistral`, rozmiar chunk-ów: 500 znaków, numer prompta: 3, czas wykonania: 7s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: * Aspirin C zawiera Acidum acetylsalicylicum (acetylsalicylan sodu) oraz Acidum ascorbicum (kwas witaminowy C).*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Można przyjmować Aspirin C od lat 12 i więcej.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie, kobiety w ostatnim trymestrze ciąży nie powinny stosować tej preparaty Aspirin C.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie należy łączyć leku Aspirin C z alkoholem, ponieważ to może skutkować powikłaniami.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Należy przechowywać Aspirin C dokładnie jak opisano w ulotce dołączonej do opakowania leku, ponieważ zawiera ona informacje ważne dla pacjenta.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 1500 znaków, numer prompta: 1, czas wykonania: 6s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Substancją czynną w leku Aspirin C jest kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Lek Aspirin C nie może być przyjmowany u dzieci poniżej 12 roku życia.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Kobiety ciężarne nie powinny przyjmować leku Aspirin C, poza przypadkami w których konieczna jest jego przyjęcie za zgodą lekarza.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie, lek Aspirin C nie powinien być łączony z alkoholem. Alkohol może pogorszyć efekty leku i powodować negatywne interakcje.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Niestety, nie ma informacji o sposobach przechowywania leku Aspirin C w dostępnym treści.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 1500 znaków, numer prompta: 2, czas wykonania: 6s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera jako substancję czynną kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Lek Aspirin C powinien być przyjmowany tylko przez osoby w wieku ponad 12 roku życia.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie, kobiety ciężarne nie powinny przyjmować tego leku.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie, lek Aspirin C powinien być stosowany bezpośrednio przed lub po przyjęciu alkoholu. Alkohol może rozwijać niepożądane działania leku, takie jak zwiększone ryzyko niesawietności i śpiączki.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Przestrzeń magazynowej drygą i szubienicą na wysokości 15-20°C i w miejscach nie narażonych dla promieni UV.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 1500 znaków, numer prompta: 3, czas wykonania: 7s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Lek Aspirin C zawiera kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *U dzieci poniżej 12 roku życia leków zawierających kwas acetylosalicylowy nie należy stosować, a u młodzieży powyżej 12 roku życia leki zawierające kwas acetylosalicylowy można stosować wyłącznie na zlecenie lekarza.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie, lek Aspirin C nie powinien być wykorzystywany przez kobiety w trakcie ciąży i w okresie późniejszym po porodzie.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie, lek Aspirin C nie może być łączony z alkoholem. W razie jakichkolwiek wątpliwości związanych ze stosowaniem tego leku należy zwrócić się do lekarza lub farmaceuty.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Lek na receptę powinien być przechowywany w miejscu niedostępnym dzieciom i osobom niepełnoletnimi.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 500 znaków, numer prompta: 1, czas wykonania: ok 2.5s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Substancją czynną leku Aspirin C jest kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Lek Aspirin C może być przyjmowany przez dorośli w wieku od 1 roku życia.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie należy stosować leków zawierających kwas acetylosalicylowy u kobiet w pierwszym i drugim trymestrze ciąży, chyba że jest to bezwzględnie konieczne.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Nie ma informacji w dokumentach o sposobie przechowywania leku Aspirin C.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 500 znaków, numer prompta: 2, czas wykonania: ok 2.5s
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera kwas acetylosalicylowy jako substancję czynną.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspirin C powinno być przepisane tylko dla dorosłych osób zgodnie z opisem w ulotce, a nie dla dzieci. Oznacza to, że Aspirin C nie powinno być przyjmowane przez dzieci poniżej 12 lat.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie. Kobiety w pierwszym i drugim trymestrze ciąży nie powinny zawsze przyjmować leku Aspirin C, chyba że jest to bezwzględnie konieczne.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie jest zalecane łączyć leku Aspirin C z alkoholem.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Odpowiedź nie jest dostępna w kontekście podanym. Kontekst opisuje korzystanie z leku Aspirin C i jego dawkowanie, ale nie omawia sposobu przechowywania leku.*

===================================================================

Model: `Llama 3.2`, rozmiar chunk-ów: 500 znaków, numer prompta: 3, czas wykonania: ok 4s
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Substancją czynną leku Aspirin C jest kwas acetylosalicylowy.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *W związku z treścią dokumentu, aspektem, który powinien być uwzględniony, kiedy dziecko może przyjąć Aspirin C to wiek 12 lat.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować ten lek?*  
Odpowiedź: *Nie. Według ulotki do pacjenta, nie należy stosować leków zawierających kwas acetylosalicylowy u kobiet w pierwszym i drugim trymestrze ciąży, chyba że jest to bezwzględnie konieczne.*

Pytanie: *Czy lek można łączyć z alkoholem?*  
Odpowiedź: *Nie. Lek Aspirin C nie powinien być łączony z alkoholem, ponieważ może przyczynić się do zwiększenia ryzyka zatrucia.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Z powodu braku informacji na temat przechowywania leku Aspirin C w kontekście zadanejapytania, nie udzielę konkretnych zaleceń.*

Poniżej definiuję szablony do użycia z modelem językowym, który występuje samodzielnie i nie jest częścią RAGa. Szablony odpowiadają tym dla RAGa, tylko została z nich usunięta sekcja odpowiedzialna za kontekst.  
Dodatkowo do intearkcji z czystym językiem modelowy, zmodyfikowałem trochę pytania, tak żeby w każdym znajdowało się jasne wskazanie nazwy leku: *Aspirin C*.

In [389]:
template_1_lm = """
Jesteś asystentem w zadaniu odpowiadania na pytania.

Pytanie: {question}
Odpowiedź:
"""

template_2_lm = """
Jesteś asystentem w zadaniu odpowiadania na pytania. Udzielaj zwięzłych odpowiedzi.

Pytanie: {question}
Odpowiedź:
"""

template_3_lm = """
Jesteś asystentem w zadaniu odpowiadania na pytania. Udzielaj zwięzłych odpowiedzi.
Wzoruj się na poniższych przykładach:

Przykład 1:
Pytanie: Czy po zażyciu Aspirin C można prowadzić samochód?
Odpowiedź: Tak, lek nie ma wpływu na możliwość prowadzenia samochodu.

Przykład 2:
Pytanie: Ile mg sodu zawiera jedna tabletka?
Odpowiedź: Jedna tabletka zawiera 467 mg sodu.

Przykład 3:
Pytanie: Co zrobić, gdy dawka leku została pominięta?
Odpowiedź: Należy przyjąć następną dawkę i nie stosować dawki podwójnej. 

Twoje zadanie:
Pytanie: {question}
Odpowiedź:
"""

In [423]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_ollama.llms import OllamaLLM

model_name="llama3.2"
question = "Czy Aspirin C można łączyć z alkoholem?"

prompt = ChatPromptTemplate.from_template(template_3_lm)

model = OllamaLLM(model=model_name)

lm_chain = prompt | model | StrOutputParser()

lm_chain.invoke({"question": question})

'Nie, Aspirin C powinna być spożywana bez alkoholu. Alkohol może pogorszyć efekt leku i popromienieje ryzyko wystąpienia powikłań.'

Model: `Mistral`, numer prompta: 1, czas wykonania: 4s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspiryna (acetylosalicylowa kwasu) jest substancją czynną w Aspirin C. Jest to lek należący do grupy salicylanów, stosowany przede wszystkim jako środek przeciwbólowy i przeciwzapalny.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspirin C, czyli Akcetylosalicylan potasu (Aspiryn Potasu) jest lekiem z receptury i nie powinno się dać dzieciom poniżej 12 roku życia bez zgody lekarza. Dorośli mogą przyjmować Aspiryn C po 325 mg raz na dobę, ale należy wspierać to przepisem lekarskim. Nie zapomnij o odpowiednim posiłku i dbałości o zachowanie stosowania leku pod nadzorem lekarza.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *Nie, kobiety ciężarne powinny unikać spożywania Aspirynu C z powodu ryzyka krwawienia u macicy oraz ryzyka uszkodzenia płodu. Jeżeli kobieta cierpi na zatorowość nerek, powinniśmy się ze sobą skontaktować i porozmawiać o możliwościach leczenia alternatywnymi środkami.*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Nie należy łączyć aspiryny z alkoholem, gdyż może to spowodować zwiększenie ryzyka uszkodzeń żołądka i płuc. Zapotrzebowanie na leki zmniejsza się przy spożywaniu alkoholu, więc nie jest to najlepsze rozwiązanie, jeśli potrzebujesz lekarstwa. Jeśli musisz zadbać o swoją zdrowie i brać aspirynę, to należy dbać o gruntowną dietyę i odwiedzać lekarza.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirynę należy przechowywać w suchym miejscu, przy temperaturze pomiędzy 15-25 stopni Celsjusza (59-77 stopni Fahrenheita). Nie należy przetrzymywać jej w bezpośrednim sąsiedztwie przesłanek, które mogą uwalniać wilgoć. W celu zachowania leczniczej działności Aspiryny powinna być chroniona przed światłem słonecznym i od warunków wysokiej wilgotności.*

=========================================================

Model: `Mistral`, numer prompta: 2, czas wykonania: 4s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspiryna C zawiera aketylsalicylowę (Acetylsalicylowe) jako substancję czynną.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspiryny dawkowane powinny być brane pod opieką lekarza i należy uważać na wiek, waga oraz zdrowie ogólne pacjenta. Nie zalecam samodzielnego rozstrzygania takiego kwestii.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *Nie, kobiety ciężarne nie powinny brać aspiryny C bez wcześniejszego konsultowania się z lekarzem. Może to spowodować powikłania dla samych matki i płodu.*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Nie należy mieszanać Aspiryn C i alkohol, gdyż to może prowadzić do poważnych skutków zdrowotnych.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirynę powinnośmy przechowywać w suchym miejscu, przy stałej temperaturze pomiędzy 20°C a 30°C. Należy unikać umieszczania jej w miejscach nasłonecznionych lub przysłoniętych. Zalecane jest zachowywanie jej w oryginalnej oprawce, aby zapobiec powstawaniu prążków i utracie skuteczności.*

=========================================================

Model: `Mistral`, numer prompta: 3, czas wykonania: 4s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera aketonasalicylanowę (salicylanylitową).*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Można przyjmować Aspirin C od najmłodszych dzieci. Podczas gdy dorosłe osoby mogą brac Aspirin C w dowolnym wieku, należy zawsze uważać na podania lekarza.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *Tak, kobiety ciężarne mogą przyjmować Aspirin C pod nadzorem lekarza.*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Tak, Aspirin C może być konsumowany razem z alkoholem, jednak może to spowodować wzrost poziomu krwi alkoholu i osłabienie jego działania przeciwbólowego. Zaleca się unikanie mieszania leków z alkoholem.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Należy przechowywać Aspiryn C w suchym miejscu i przy temperaturze nie przekraczającej 30 stopni Centigrada.*

===================================================================

Model: `Llama 3.2`, numer prompta: 1, czas wykonania: 1s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Substancją czynną w Aspirine C jest acetylozyd kwasu parabenzojsowego (ACETAMINOFEN).*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspirin C (w postaci tabletek lub rozcieńczonych w lekach) jest stosowana głównie u dzieci i młodych dorosłych. Optymalna wieku do przyjęcia Aspirin C to:\n\n- Dzieci w wieku od 6 lat, jeżeli są zdiagnozowane choroba w której Aspirin C jest zaproponowany przez lekarza.\n- Dzieci w wieku od 2-5 lat mogą otrzymywać Aspirin C pod nadzorem lekarskim i dopiero wtedy, jeśli zdiagnozowana choroba to powyższy wiek.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *'Nie rekomenduje się kobietem ciężarnym przyjmowania Aspirinu C, ponieważ może ono przyczynić się do zwiększenia ryzyka powikłań w trakcie ciąży i podczas porodu.\n\nAspirin jest antytrombotycznym lekiem, który może uszkadlać naczynia krwiotoczne i spowodować niepowodzenia w trakcie ciąży. W szczególności, Aspirin C (zawierający acetylosalicylan i kwas cytrynowy) jest dodatkowo ryzykowny dla ciężarnych kobiet.\n\nW przypadku ciąż niezależnie od stanu ciąży lek ten powinien być zawsze skonsultowany z lekarzem.'*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Nie jestem w stanie odpowiedzieć jako lekarz, ale ogólna informacja.\nAlkohol i Aspirin C nie powinny być łączone, ponieważ alkohol może przyspieszyć utratę cieczu z organizmu i podwoić ryzyko nadmiernego zastrzyku aspiryny.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirin C powinny być przechowywane w lodzie, aby utrzymać skuteczność leku.*

=========================================================

Model: `Llama 3.2`, numer prompta: 2, czas wykonania: 1s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Aspirin C zawiera fenacetyd w ilości około 80%.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Aspirin C można przyjmować od 6 roku życia, ale powinno być poddawane szczególnym uzgodnieniom z lekarzem.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *Nie, kobiety ciężarne nie powinny przyjmować aspirinu bez specjalnej indications i pod określonych warunkach. Aspirynę może przyczyniać się do hemoragii w czasie porodów lub połogów, co może być niebezpieczne dla matki i niestrukturalnie dla jej dziecka.*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Nie, Aspirin C nie powinno być łączone z alkoholem, ponieważ może wzmacniać efekt alkoholu i powodować negatywne efekty na zdrowie.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirin C powinien być przechowywany w suchym i ciemnym miejscu, odlotnie od źródła światła. Powinien być chroniony przed wilgomością i mechanicznym uszkodzeniem.*

=========================================================

Model: `Llama 3.2`, numer prompta: 3, czas wykonania: 2s  
Pytanie: *Jaką substancję czynną zawiera Aspirin C?*  
Odpowiedź: *Substancją czynną Aspirin C jest acetylosalicylan.*

Pytanie: *W jakim wieku można przyjmować Aspirin C?*  
Odpowiedź: *Wiek, w którym można przyjmować Aspirin C, to od 16 lat.*

Pytanie: *Czy kobiety ciężarne mogą przyjmować Aspirin C?*  
Odpowiedź: *Nie, kobiety ciężarne nie powinny przyjmować Aspirin C bez zgody lekarza.*

Pytanie: *Czy Aspirin C można łączyć z alkoholem?*  
Odpowiedź: *Nie, Aspirin C powinna być spożywana bez alkoholu. Alkohol może pogorszyć efekt leku i popromienieje ryzyko wystąpienia powikłań.*

Pytanie: *Jak przechowywać Aspirin C?*  
Odpowiedź: *Aspirin C powinno być przechowywane w miejscu drymowym, na wysokości 10-20°C. Unikaj jego zastygania w temperaturze poniżej 8°C lub przekroczenia 25°C.*

### Pytania otwarte

#### Jak RAG poprawia jakość odpowiedzi LLM w porównaniu do czystego LLM?

Robi to na wiele sposobów, takich jak:
- Rozszerza wiedzę przechowywaną w modelu o dodatkowe informacje zaciągnięte z indeksu, dając bardziej dokładne odpowiedzi
- Ogranicza halucynowanie modelu podsuwając ograniczony korpus tekstów do przeanalizowania
- Przyśpiesza działanie modelu, gdyż etap *Retrieval* ogranicza objętość korpusu do przeanalizowania przez LLM do najistotniejszych wycinków
- Wraz z przyspieszeniem działania poprawia skalowalność rozwiązania, które będzie mogło w postaci RAGa obsłużyć większą liczbę zapytań na raz.

#### Opisz główne składowe wpływające na jakość działania RAGa?

1. Rozmiar chunk-a  
LLM bierze informacje z kontekstu pod uwagę przy odpowiedzi. Przy zagwarantowaniu większego kontekstu najpewniej otrzymamy pożądaną informację wraz z jej kontekstem, ale może ona również zawierać wiele niepotrzebnych detali, które wprowadzą dodatkowy szum do odpowiedzi LLM. Z kolei małe chunk-i będą mocniej ograniczone do precyzyjnej informacji, które przy zbyt dużym zmniejszeniu wielkości chunk-a, może być niemal kompletnie pozbawiona kontekstu. Stąd wielkość chunka należy dopasować do dokumentów przechowywanych w indeksie wektorowym, jeśli są one zwięźle napisane, to mniejszy rozmiar chunk-ów powinien działać dobrze, w przeciwnym razie należy zwiększyć rozmiar chunk-a.

2. Jakość osadzeń  
Osadzenia wektorowe pozwalają uchwycić zależności semantyczne w tekście. Czym lepiej przeniosą tokeny to przestrzeni ciągłej, tym lepiej sens semantyczny tekstu zostanie zachowany i tym lepiej indeks wektorowy będzie w stanie dopasować fragmenty tekstu do postawionych zapytań. Ponieważ to LLM odpowiada za przekształcenia wektorowe, to najpewniej model o większej pojemności będzie miał przewagę nad małymi modelami.  
Warto zwrócić również uwagę na treść osadzanego tekstu, jeśli nie ma ona charakteru ogólnego, lecz jest bardzo specjalistyczna, to wartałoby douczyć LLM na przykładach z naszej domeny - trochę mi tej części w realizacji laboratorium brakowało.

3. Budowa prompt-a
Prompt engineering potrafi zmienić bardzo dużo w jakości odpowiedzi udzielanych przez LLM, to nie podlega dyskusji. Nawet przeprowadzony w ramach tego laboratorium eksperyment jasno wskazuje na spore różnice w jakości odpowiedzi wraz ze zmianami prompta. Problem jednak w tym, że nie ma jednego, uniwersalnego prompta, który poradziłby sobie najlepiej w każdej sytuacji. W zależności od takich czynników, jak rodzaj dokumentów źródłowych, charakter modelu językowego czy też rodzaj oczekiwanych odpowiedzi, należy ułożyć treść prompta na różne sposoby. Zazwyczaj bardziej szczegółowy prompt, dodatkowo wyposażony w przykłady, potrafi przynieść lepsze wyniki, ale nie można brać tego stwierdzenia za pewnik w każdych warunkach.

#### Jak wybór wektorowej bazy danych i modelu osadzeń wpływa na wydajność systemu?

W poprzednim pytaniu zinterpretowałem angielskie słówko "performance" w kontekście jakości wyników, a że to pytanie również dotyka zagadnienia "performance" osadzeń wektorowych, skupię się bardziej na wydajności tychże.  
Nasz eksperyment pokazał, że mniejszy model językowy potrafi odpowiadać szybciej, oraz szybciej tworzyć osadzenia wektorowe. Podczas indeksowania widzimy dwukrotną przewagę na rzeczy mniejszego modelu *Llama 3.2*, w porównaniu do modelu *Mistral*. Dodatkowo, na etapie zapytania model również musi stworzyć ad-hoc osadzenia dla zapytania, co dokłada większe obciążenie dla większego modelu, który jeszcze nawet nie doszedł do części generatywnej zadania, która to będzie dla niego najbardziej obciążająca. W danych na temat średniej długości wykonania zapytania (znajdują się w wykazie dokładnych odpowiedzi modelu na poszczególne pytania), widzimy następujące rezultaty
- *Llama 3.2* dla prostego prompta i fragmentów o 500 znakach - czas odpowiedzi 1.5-2.5s
- *Llama 3.2* dla prompta z przykładami i fragmentów o 1500 znakach - czas odpowiedzi ok 6s
- *Mistral* dla dowolnego prompta i krótkich fragmentów o 500 znakach - czas odpowiedzi ok 7s
- *Mistral* dla dowolnego prompta i fragmentach tekstu o 1500 znakach - czas odpowiedzi 12-15s
Jasno widzimy, jak czas odpowiedzi rośnie dla modelu generującego bardziej złożone osadzenia. Oczywiście czas rośnie również przez część generatywną, ale w pomiarze czasu wykonania nie uwzględniłem tego rozdziału, a poza tym najczęściej bardziej dokładne osadzenia otrzymamy przy pomocy większego modelu.  
Aby skrócić czas tworzenia osadzeń, zarówno podczas indeksowania, jak i odpowiedzi na zapytania, możemy zastosować złożenie modeli o różnej wielkości, gdzie ten mniejszy będzie przeprowadzał osadzenie tekstu w przestrzeń ciągłą, a model większy będzie generował odpowiedzi - takie zestawienie modeli również cieszy się sporą popularnością, a zwłaszcza przy zastosowaniu dodatkowego rerankera dla odpowiedzi z bazy wektorowej.

Sam wybór bazy wektorowej również ma wpływ na szybkość działania systemu. Szybkość wektorowej bazy danych wpłynie na długość indeksowania tekstu, ale również na dopasowywanie fragmentów tekstu do zapytań użytkownika. Bardzo ważne jest, żeby wektorowa baza danych potrafiła sprawnie dopasowywać odpowiedzi do wielu zapytań równocześnie, gdyż bardzo często RAG musi obsłużyć wielu użytkowników na raz.  
Dodatkowo należy zwrócić uwagę na możliwość rozproszonego przechowywania reprezentacji wektorowej - wpłynie to pozytywnie na zarówno na szybkość działania, jak i na możliwą maksymalną pojemność systemu.  
Pomocnym dodatkiem może być również wsparcie dla metadanych, które potrafią w znaczny sposób zwiększyć precyzję dostarczanych wyników przez bazę danych.

#### Jakie wyzwania przedstawia implementacja RAGa, jako rozwiązania produkcyjnego?

Temat ten jest bardzo szeroki i poniekąd dotyka również kwestii, które zostały poruszone w odpowiedzi na poprzednie pytania.  
W pierwszej kolejności należy przygotować dane, powinny być spójnego formatu, a dodatkowo mogą zostać wzbogacone o metadane.
Następnie należy wyznaczyć najlepszą strategię budowania osadzeń. Należy wybrać najodpowiedniejszą wektorową bazę danych, wybrać model do tworzenie osadzeń oraz dopasować długość chunk-ów do charakteru tekstu. Każda decyzja powinna być podparta wcześniejszymi testami.  
Można wprowadzić reranker odpowiedzi wektorowej bazy danych, aby ustawić na najbardziej prominentnych miejscach (początek i koniec listy), dokumenty o największej istotności, a niektórych dokumentów może się nawet pozbyć.
Kolejnym etapem jest dobór LLM odpowiadającego za część generatywną, dodatkowy jego fine-tuning, ustalenie budowy promptu o najlepszym przełożeniu na wyniki. Jak i w każdej poprzedniej części projektowania takiego rozwiązania, i tu wypadałoby dopasowywać poszczególne elementy architektury RAGa popierając swoje decyzje testami.  
Może się również okazać, że musimy zadbać o etyczny charakter działania modelu i dokonać dalszego fine-tuningu, polegającego na cenzurze dopuszczalnych zapytań oraz odpowiedzi - proces ten może być wspomagany przez kolejny LLM nadzorujący pracę głównego LLM w RAGu. Podobne podejście można zastosować do walki modelu z halucynacjami - tzn zatrudnić zewnętrzny, dodatkowy model LLM oceniający odpowiedzi RAGa pod względem halucynacji.

Mając koncept RAGa ukończony (a przynajmniej tak sądząc), musimy zdeployować cały układ do systemu, który udźwignie obciążenie spowodowane przez korzystających z niego użytkowników. Najpewniej powinna to być architektura, która się łatwo skalować na wypadek zwiększonego ruchu. Na tym etapie powinniśmy przeprowadzić też load- i pen-testy, aby sprawdzić wydajność systemu i jego bezpieczeństwo.

Gdy jesteśmy gotowi, możemy przeprowadzić fazę "go-live" i oddać naszego RAGa do użytku użytkownikom. Należy wtedy bacznie sprawdzać statystyki działania całego systemu i odpowiednio reagować na wszystkie potrzeby zmiany w systemie, a zazwyczaj jest ich całkiem sporo i nigdy się nie kończą

Oczywiście, mój opis nie przedstawia wszystkich aspektów tworzenia i postawienia produkcyjnego RAGa, jednak już z przedstawionego opisu widać, że jest to bardzo skomplikowany system o wielu "ruchomych częściach", który potrzebuje ciągłego nadzoru i adaptacji do potrzeb, zarówno wynikających ze względów wydajnościowych, jak i potrzeb użytkowników, którzy z RAGa korzystają

#### W jaki sposób możemy udoskonalić RAGa, żeby mógł odpowiadać na zapytania potrzebujące wielokrotnych odwołań do różnych fragmentów tekstu?

Narzucającym się na myśl rozwiązaniem byłoby stworzenie RAGa, który odpowiada na każdę część złożonego pytania z osobna, a następnie łączy odpowiedzi cząstkowe w jedną ź odpowiedź dla użytkownika. W celu zrealizowania takiego RAGa potrzebowalibyśmy:
- moduł, który rozbijałby złożone zapytanie na serię zapytań cząstkowych oraz określający strukturę drzewiastą tych zapytań. Czy mamy do czynienia z jedną serią wielu pytań cząstkowych, czy może istnieją pytania niezależne tworzące rozwidlenia? Najpewniej byłby to neuronalny model językowy.
- pipeline RAGa, który odpowiedź z uprzedniego zapytania cząstkowego dokłada do kontekstu zapytania następnego
- RAG musiałby działać w pętli do momentu uzyskania odpowiedzi na wszystkie potrzebne pytania (zakładam możliwość przerwania rozumowania RAGa po określonej liczbie kroków)
- syntezator odpowiedzi, również LLM, który mając w kontekście wszystkie relewantne dane potrafiłby ułożyć z nich odpowiedź

Praca całego systemu powinna być zoptymalizowana przez zaaplikowanie metadanych do wektorów osadzeń, oraz użycie rerankerów ograniczających długość kontekstu pomiędzy zapytaniami.