## Kratak uvod u RAG koristeći LangChain i HuggingFace

**Retrieval-augmented generation**, skraćeno RAG, je tehnika koja poboljšava pouzdanost generativnih modela sa mogućnostima pronalaženja (retrieval).

RAG koristimo da dopunimo velike jezičke modele, skraćeno VJM tj. LLM - Large Language Model, tako što im na taj način omogućavamo pristup relevantnim informacijama iz spoljnih izvora, poboljšavajući time sposobnost VJM modela da generiše odgovore koji su relevantni i tačni za zadane upite.

Pogledajte ilustraciju:

![picture](https://drive.google.com/uc?id=1qRU-B8TjYDz8ANRB7Y1lPwIRdehijurL)

**Izvor za ilustraciju:** [DataKolektiv](https://datakolektiv.com/)



1. **Embeddings**  
  *Embeddings* predstavlja vektorsku reprezentaciju, u našem slučaju, teksta.
2. **Prompt + Query**  
  *Prompt* predstavlja početni upit koju korisnik postavlja LLM modelu, a *query* je konkretno pitanje ili zahtjev koji se postavlja.
3. **Query Embedding**  
  *Query Embedding* je vektorska reprezentacija upita. Ovaj vektor se koristi za pretraživanje relevantnih dokumenata u vektorskoj reprezentaciji.
4. **Relevant Context Documents**  
  *Relevant Context Documents* su dokumenti ili informacije iz baze koje su relevantne za postavljeni upit.
5. **Enhanced Prompt**  
  *Enhanced Prompt* je verzija osnovnog prompta koja uključuje informacije iz relevantnih dokumenata, odnosno sadrži kontekst koji će LLM-u pomoći prilikom generisanja odgovora. Ovaj odgovor je rezultat RAG sistema koji kombinuje informacije iz početnog prompta, korisničkog upita i odgovarajućeg konteksta.

## Zadatak

Vaš zadatak je da kreirate RAG koristeći HuggingFace (za javno dostupne modele) i LangChain.

**Koraci:**

0. Instalacija potrebnih paketa
1. Učitavanje i priprema podataka (dokumenata)
2. Kreiranje vektorske baze i retrivera  
3. Učitavanje LLM modela
4. Definisanje pipeline-a


**Napomene:**


*   Koristite dokumentaciju:
  * [HuggingFace Transformers](https://huggingface.co/docs/transformers/en/index)
  * [HuggingFace Hub](https://huggingface.co/docs/hub/index)
  * [LangChain](https://python.langchain.com/docs/get_started/introduction)
*   Možete koristiti ChatGPT i Copilot (ex. Bing Chat) 🤖

#### Instalacija potrebnih paketa

In [None]:
!pip install -q torch transformers accelerate bitsandbytes sentence-transformers faiss-gpu
!pip install -q langchain

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m280.0/280.0 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m105.0/105.0 MB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m149.5/149.5 kB[0m [31m18.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m85.5/85.5 MB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m817.0/817.0 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m19.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m246.4/246.4 kB[0m [31m16.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.0/61.0 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━

#### Učitavanje i priprema podataka

Koristite *LangChain* za učitavanje dokumenata ili nekog drugog tekstualnog sadržaja nad kojim želite izvršavati upite - [link](https://python.langchain.com/docs/integrations/document_loaders/).

Kada odaberete podatke koje ćete koristiti, potrebno je da ih pripremite na odgovarajući način za dalju obradu i čuvanje u vektorskoj bazi.

In [None]:
# TODO

#### Kreiranje vektorske baze i *retriever*-a

Izaberite vekrorsku bazu koju ćete koristiti za čuvanje vektora (*embedding*-a) dokumenata, pregled podržanih baza možete pronaći na ovom [linku](https://python.langchain.com/docs/integrations/vectorstores/).

Vektore trebate kreirati koristeći otvorene embedding modele, potražite neki manji embedding model na HuggingFace Hub-u, referišite se na [Massive Text Embedding Benchmark (MTEB) Leaderboard](https://huggingface.co/spaces/mteb/leaderboard).

In [None]:
# TODO

#### Učitavanje LLM-a

Potražite neki manji LLM model na HuggingFace Hub-u, referišite se na [Open LLM Leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard). Cilj je da iskoristite model koji je optimizovan za brže izvršavanje.

Prilikom instanciranja modela, možete koristiti konfiguracije koje optimizuju njegovo izvršavanje kao što je kvantizacija (quantization).


In [None]:
# TODO

####  Definisanje pipeline-a

Koristite HuggingFace *transformers* biblioteku za konstruisanje lanca ili pipeline-a za generisanje teksta, ovaj korak uključuje postavljanje parametara kao što su prethodno definisani LLM model, tokenizator, temperatura i drugi.

Potrebno je da definišete šablon za unos koristeći *PromptTemplate*, na ovaj način modelu dajete potrebne informacije o kontekstu i pitanju koje se postavlja.

Na kraju je potrebno da povežete sve komponente lanca.

In [None]:
# TODO

#### Testiranje

In [None]:
# TODO: testirati neke upite