# Azure AI Search z integracjƒÖ NVIDIA NIM i LlamaIndex

W tym notatniku poka≈ºemy, jak wykorzystaƒá modele AI firmy NVIDIA oraz LlamaIndex do stworzenia zaawansowanego pipeline'u Retrieval-Augmented Generation (RAG). Skorzystamy z du≈ºych modeli jƒôzykowych i osadze≈Ñ NVIDIA, zintegrujemy je z Azure AI Search jako magazynem wektor√≥w i przeprowadzimy RAG, aby poprawiƒá jako≈õƒá i efektywno≈õƒá wyszukiwania.

## Korzy≈õci
- **Skalowalno≈õƒá**: Wykorzystaj du≈ºe modele jƒôzykowe NVIDIA oraz Azure AI Search do skalowalnego i efektywnego wyszukiwania.
- **Efektywno≈õƒá kosztowa**: Optymalizuj wyszukiwanie i pobieranie danych dziƒôki wydajnemu magazynowi wektor√≥w oraz technikom hybrydowego wyszukiwania.
- **Wysoka wydajno≈õƒá**: Po≈ÇƒÖcz potƒô≈ºne modele jƒôzykowe z wyszukiwaniem wektorowym, aby uzyskaƒá szybsze i bardziej precyzyjne odpowiedzi.
- **Jako≈õƒá**: Utrzymuj wysokƒÖ jako≈õƒá wyszukiwania, opierajƒÖc odpowiedzi modeli jƒôzykowych na odpowiednich dokumentach.

## Wymagania wstƒôpne
- üêç Python 3.9 lub nowszy
- üîó [Azure AI Search Service](https://learn.microsoft.com/azure/search/)
- üîó Klucz API NVIDIA do uzyskania dostƒôpu do du≈ºych modeli jƒôzykowych i osadze≈Ñ NVIDIA za po≈õrednictwem mikroserwis√≥w NVIDIA NIM

## Om√≥wione funkcje
- ‚úÖ Integracja du≈ºych modeli jƒôzykowych NVIDIA (u≈ºyjemy [Phi-3.5-MOE](https://build.nvidia.com/microsoft/phi-3_5-moe))
- ‚úÖ Osadzenia NVIDIA (u≈ºyjemy [nv-embedqa-e5-v5](https://build.nvidia.com/nvidia/nv-embedqa-e5-v5))
- ‚úÖ Zaawansowane tryby wyszukiwania w Azure AI Search
- ‚úÖ Indeksowanie dokument√≥w za pomocƒÖ LlamaIndex
- ‚úÖ RAG z wykorzystaniem Azure AI Search i LlamaIndex oraz du≈ºych modeli jƒôzykowych NVIDIA

Zaczynajmy!


In [None]:
!pip install azure-search-documents==11.5.1
!pip install --upgrade llama-index
!pip install --upgrade llama-index-core
!pip install --upgrade llama-index-readers-file
!pip install --upgrade llama-index-llms-nvidia
!pip install --upgrade llama-index-embeddings-nvidia
!pip install --upgrade llama-index-postprocessor-nvidia-rerank
!pip install --upgrade llama-index-vector-stores-azureaisearch
!pip install python-dotenv

## Instalacja i Wymagania
Utw√≥rz ≈õrodowisko Python, u≈ºywajƒÖc wersji Python >3.10.

## Pierwsze kroki!


Aby rozpoczƒÖƒá, potrzebujesz `NVIDIA_API_KEY`, aby korzystaƒá z modeli NVIDIA AI Foundation:
1) Utw√≥rz darmowe konto na [NVIDIA](https://build.nvidia.com/explore/discover).
2) Kliknij na wybrany model.
3) W sekcji Input wybierz zak≈Çadkƒô Python, kliknij **Get API Key**, a nastƒôpnie **Generate Key**.
4) Skopiuj i zapisz wygenerowany klucz jako NVIDIA_API_KEY. Od tego momentu powiniene≈õ mieƒá dostƒôp do endpoint√≥w.


In [3]:
import getpass
import os
from dotenv import load_dotenv

# Load environment variables
load_dotenv()

if not os.environ.get("NVIDIA_API_KEY", "").startswith("nvapi-"):
    nvidia_api_key = getpass.getpass("Enter your NVIDIA API key: ")
    assert nvidia_api_key.startswith("nvapi-"), f"{nvidia_api_key[:5]}... is not a valid key"
    os.environ["NVIDIA_API_KEY"] = nvidia_api_key


## Przyk≈Çad RAG z u≈ºyciem LLM i Embedding
### 1) Inicjalizacja LLM
`llama-index-llms-nvidia`, znany r√≥wnie≈º jako konektor LLM od NVIDIA, umo≈ºliwia po≈ÇƒÖczenie i generowanie z kompatybilnych modeli dostƒôpnych w katalogu API NVIDIA. Zobacz tutaj listƒô modeli do uzupe≈Çniania rozm√≥w: https://build.nvidia.com/search?term=Text-to-Text

Tutaj u≈ºyjemy **mixtral-8x7b-instruct-v0.1**


In [75]:
from llama_index.core import Settings
from llama_index.llms.nvidia import NVIDIA

# Here we are using mixtral-8x7b-instruct-v0.1 model from API Catalog
Settings.llm = NVIDIA(model="microsoft/phi-3.5-moe-instruct", api_key=os.getenv("NVIDIA_API_KEY"))

### 2) Zainicjuj Wbudowanie
`llama-index-embeddings-nvidia`, znany r√≥wnie≈º jako konektor Embeddings od NVIDIA, umo≈ºliwia po≈ÇƒÖczenie i generowanie z kompatybilnych modeli dostƒôpnych w katalogu API NVIDIA. Wybrali≈õmy `nvidia/nv-embedqa-e5-v5` jako model wbudowania. Zobacz tutaj listƒô modeli wbudowania tekstu: https://build.nvidia.com/nim?filters=usecase%3Ausecase_text_to_embedding%2Cusecase%3Ausecase_image_to_embedding


In [6]:
from llama_index.embeddings.nvidia import NVIDIAEmbedding

Settings.embed_model = NVIDIAEmbedding(model="nvidia/nv-embedqa-e5-v5", api_key=os.getenv("NVIDIA_API_KEY"))

### 3) Utw√≥rz Azure AI Search Vector Store


In [76]:
import logging
import sys
import os
import getpass
from azure.core.credentials import AzureKeyCredential
from azure.search.documents import SearchClient
from azure.search.documents.indexes import SearchIndexClient
from IPython.display import Markdown, display
from llama_index.vector_stores.azureaisearch import AzureAISearchVectorStore, IndexManagement


search_service_api_key = os.getenv('AZURE_SEARCH_ADMIN_KEY') or getpass.getpass('Enter your Azure Search API key: ')
search_service_endpoint = os.getenv('AZURE_SEARCH_SERVICE_ENDPOINT') or getpass.getpass('Enter your Azure Search service endpoint: ')
search_service_api_version = "2024-07-01"
credential = AzureKeyCredential(search_service_api_key)

# Index name to use
index_name = "llamaindex-nvidia-azureaisearch-demo"

# Use index client to demonstrate creating an index
index_client = SearchIndexClient(
    endpoint=search_service_endpoint,
    credential=credential,
)

# Use search client to demonstrate using existing index
search_client = SearchClient(
    endpoint=search_service_endpoint,
    index_name=index_name,
    credential=credential,
)

In [None]:
vector_store = AzureAISearchVectorStore(
    search_or_index_client=index_client,
    index_name=index_name,
    index_management=IndexManagement.CREATE_IF_NOT_EXISTS,
    id_field_key="id",
    chunk_field_key="chunk",
    embedding_field_key="embedding",
    embedding_dimensionality=1024, # dimensionality for nv-embedqa-e5-v5 model
    metadata_string_field_key="metadata",
    doc_id_field_key="doc_id",
    language_analyzer="en.lucene",
    vector_algorithm_type="exhaustiveKnn",
    # compression_type="binary" # Option to use "scalar" or "binary". NOTE: compression is only supported for HNSW
)

In [20]:
from llama_index.core import SimpleDirectoryReader, StorageContext, VectorStoreIndex
from llama_index.core.text_splitter import TokenTextSplitter

# Configure text splitter (nv-embedqa-e5-v5 model has a limit of 512 tokens per input size)
text_splitter = TokenTextSplitter(separator=" ", chunk_size=500, chunk_overlap=10)

# Load documents
documents = SimpleDirectoryReader(
    input_files=["data/txt/state_of_the_union.txt"]
).load_data()
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# Create index with text splitter
index = VectorStoreIndex.from_documents(
    documents,
    transformations=[text_splitter],
    storage_context=storage_context,
)

### 5) Utw√≥rz silnik zapyta≈Ñ do zadawania pyta≈Ñ na podstawie swoich danych

Oto zapytanie wykorzystujƒÖce czyste wyszukiwanie wektorowe w Azure AI Search i osadzajƒÖce odpowied≈∫ w naszym LLM (Phi-3.5-MOE)


In [69]:
query_engine = index.as_query_engine()
response = query_engine.query("Who did the speaker mention as being present in the chamber?")
display(Markdown(f"{response}"))

 The speaker mentioned the Ukrainian Ambassador to the United States, along with other members of Congress, the Cabinet, and various officials such as the Vice President, the First Lady, and the Second Gentleman, as being present in the chamber.

Oto zapytanie wykorzystujƒÖce wyszukiwanie hybrydowe w Azure AI Search.


In [70]:
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.vector_stores.types import VectorStoreQueryMode
from IPython.display import Markdown, display
from llama_index.core.schema import MetadataMode

# Initialize hybrid retriever and query engine
hybrid_retriever = index.as_retriever(vector_store_query_mode=VectorStoreQueryMode.HYBRID)
hybrid_query_engine = RetrieverQueryEngine(retriever=hybrid_retriever)

# Query execution
query = "What were the exact economic consequences mentioned in relation to Russia's stock market?"
response = hybrid_query_engine.query(query)

# Display the response
display(Markdown(f"{response}"))
print("\n")

# Print the source nodes
print("Source Nodes:")
for node in response.source_nodes:
    print(node.get_content(metadata_mode=MetadataMode.LLM))

 The Russian stock market experienced a significant drop, losing 40% of its value. Additionally, trading had to be suspended due to the ongoing situation.



Source Nodes:
file_path: data\txt\state_of_the_union.txt

building a coalition of other freedom-loving nations from Europe and the Americas to Asia and Africa to confront Putin. 

I spent countless hours unifying our European allies. We shared with the world in advance what we knew Putin was planning and precisely how he would try to falsely justify his aggression.  

We countered Russia‚Äôs lies with truth.   

And now that he has acted the free world is holding him accountable. 

Along with twenty-seven members of the European Union including France, Germany, Italy, as well as countries like the United Kingdom, Canada, Japan, Korea, Australia, New Zealand, and many others, even Switzerland. 

We are inflicting pain on Russia and supporting the people of Ukraine. Putin is now isolated from the world more than ever. 

Together with our allies ‚Äìwe are right now enforcing powerful economic sanctions. 

We are cutting off Russia‚Äôs largest banks from the international financial syste

#### Analiza wyszukiwania wektorowego
Odpowied≈∫ LLM trafnie oddaje kluczowe ekonomiczne konsekwencje wspomniane w tek≈õcie ≈∫r√≥d≈Çowym dotyczƒÖce rosyjskiego rynku akcji. W szczeg√≥lno≈õci stwierdza, ≈ºe rosyjski rynek akcji odnotowa≈Ç znaczƒÖcy spadek, tracƒÖc 40% swojej warto≈õci, a handel zosta≈Ç zawieszony z powodu bie≈ºƒÖcej sytuacji. Ta odpowied≈∫ dobrze odpowiada informacjom zawartym w ≈∫r√≥dle, wskazujƒÖc, ≈ºe LLM poprawnie zidentyfikowa≈Ç i podsumowa≈Ç istotne szczeg√≥≈Çy dotyczƒÖce wp≈Çywu na rynek akcji w wyniku dzia≈Ça≈Ñ Rosji i na≈Ço≈ºonych sankcji.

#### Komentarz do wƒôz≈Ç√≥w ≈∫r√≥d≈Çowych
Wƒôz≈Çy ≈∫r√≥d≈Çowe dostarczajƒÖ szczeg√≥≈Çowego opisu ekonomicznych konsekwencji, z jakimi Rosja musia≈Ça siƒô zmierzyƒá w wyniku miƒôdzynarodowych sankcji. Tekst podkre≈õla, ≈ºe rosyjski rynek akcji straci≈Ç 40% swojej warto≈õci, a handel zosta≈Ç zawieszony. Dodatkowo wspomina o innych skutkach ekonomicznych, takich jak dewaluacja rubla oraz szersza izolacja rosyjskiej gospodarki. Odpowied≈∫ LLM skutecznie wyodrƒôbni≈Ça kluczowe punkty z tych wƒôz≈Ç√≥w, koncentrujƒÖc siƒô na wp≈Çywie na rynek akcji zgodnie z zapytaniem.


Teraz przyjrzyjmy siƒô zapytaniu, w kt√≥rym wyszukiwanie hybrydowe nie daje dobrze uzasadnionej odpowiedzi:


In [71]:
# Query execution
query = "What was the precise date when Russia invaded Ukraine?"
response = hybrid_query_engine.query(query)

# Display the response
display(Markdown(f"{response}"))
print("\n")

# Print the source nodes
print("Source Nodes:")
for node in response.source_nodes:
    print(node.get_content(metadata_mode=MetadataMode.LLM))


 The provided context does not specify the exact date of Russia's invasion of Ukraine. However, it does mention that the events discussed are happening in the current era and that the actions taken are in response to Putin's aggression. For the precise date, one would need to refer to external sources or historical records.



Source Nodes:
file_path: data\txt\state_of_the_union.txt

our forces are not engaged and will not engage in conflict with Russian forces in Ukraine.  

Our forces are not going to Europe to fight in Ukraine, but to defend our NATO Allies ‚Äì in the event that Putin decides to keep moving west.  

For that purpose we‚Äôve mobilized American ground forces, air squadrons, and ship deployments to protect NATO countries including Poland, Romania, Latvia, Lithuania, and Estonia. 

As I have made crystal clear the United States and our Allies will defend every inch of territory of NATO countries with the full force of our collective power.  

And we remain clear-eyed. The Ukrainians are fighting back with pure courage. But the next few days weeks, months, will be hard on them.  

Putin has unleashed violence and chaos.  But while he may make gains on the battlefield ‚Äì he will pay a continuing high price over the long run. 

And a proud Ukrainian people, who have known 30 years  of indepen

### Hybrydowe wyszukiwanie: Analiza odpowiedzi LLM
Odpowied≈∫ LLM w przyk≈Çadzie hybrydowego wyszukiwania wskazuje, ≈ºe dostarczony kontekst nie okre≈õla dok≈Çadnej daty inwazji Rosji na Ukrainƒô. Ta odpowied≈∫ sugeruje, ≈ºe LLM korzysta z informacji dostƒôpnych w dokumentach ≈∫r√≥d≈Çowych, jednocze≈õnie przyznajƒÖc brak precyzyjnych szczeg√≥≈Ç√≥w w tek≈õcie.

Odpowied≈∫ jest trafna w identyfikacji, ≈ºe kontekst wspomina o wydarzeniach zwiƒÖzanych z agresjƒÖ Rosji, ale nie wskazuje konkretnej daty inwazji. Pokazuje to zdolno≈õƒá LLM do zrozumienia dostarczonych informacji przy jednoczesnym rozpoznaniu luk w tre≈õci. LLM skutecznie zachƒôca u≈ºytkownika do poszukiwania zewnƒôtrznych ≈∫r√≥de≈Ç lub zapis√≥w historycznych w celu uzyskania dok≈Çadnej daty, wykazujƒÖc ostro≈ºno≈õƒá w sytuacji, gdy informacje sƒÖ niekompletne.

### Analiza wƒôz≈Ç√≥w ≈∫r√≥d≈Çowych
Wƒôz≈Çy ≈∫r√≥d≈Çowe w przyk≈Çadzie hybrydowego wyszukiwania zawierajƒÖ fragmenty przem√≥wienia omawiajƒÖcego reakcjƒô USA na dzia≈Çania Rosji w Ukrainie. Te wƒôz≈Çy podkre≈õlajƒÖ szerszy wp≈Çyw geopolityczny oraz kroki podjƒôte przez USA i ich sojusznik√≥w w odpowiedzi na inwazjƒô, ale nie wspominajƒÖ o konkretnej dacie inwazji. Jest to zgodne z odpowiedziƒÖ LLM, kt√≥ra poprawnie identyfikuje brak precyzyjnych informacji o dacie w kontek≈õcie.


In [72]:
# Initialize hybrid retriever and query engine
semantic_reranker_retriever = index.as_retriever(vector_store_query_mode=VectorStoreQueryMode.SEMANTIC_HYBRID)
semantic_reranker_query_engine = RetrieverQueryEngine(retriever=semantic_reranker_retriever)

# Query execution
query = "What was the precise date when Russia invaded Ukraine?"
response = semantic_reranker_query_engine.query(query)

# Display the response
display(Markdown(f"{response}"))
print("\n")

# Print the source nodes
print("Source Nodes:")
for node in response.source_nodes:
    print(node.get_content(metadata_mode=MetadataMode.LLM))


 The provided context does not specify the exact date of Russia's invasion of Ukraine. However, it mentions that the event occurred six days before the speech was given. To determine the precise date, one would need to know the date of the speech.



Source Nodes:
file_path: data\txt\state_of_the_union.txt

Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.  

Last year COVID-19 kept us apart. This year we are finally together again. 

Tonight, we meet as Democrats Republicans and Independents. But most importantly as Americans. 

With a duty to one another to the American people to the Constitution. 

And with an unwavering resolve that freedom will always triumph over tyranny. 

Six days ago, Russia‚Äôs Vladimir Putin sought to shake the foundations of the free world thinking he could make it bend to his menacing ways. But he badly miscalculated. 

He thought he could roll into Ukraine and the world would roll over. Instead he met a wall of strength he never imagined. 

He met the Ukrainian people. 

From President Zelenskyy to every Ukrainian, their fearlessness, their courage, their determination, inspires the world

### Hybrid w/Reranking: Analiza odpowiedzi LLM
W przyk≈Çadzie Hybrid w/Reranking odpowied≈∫ LLM dostarcza dodatkowego kontekstu, wskazujƒÖc, ≈ºe wydarzenie mia≈Ço miejsce sze≈õƒá dni przed wyg≈Çoszeniem przem√≥wienia. Oznacza to, ≈ºe LLM potrafi wywnioskowaƒá datƒô inwazji na podstawie czasu przem√≥wienia, choƒá nadal wymaga znajomo≈õci dok≈Çadnej daty przem√≥wienia dla precyzji.

Ta odpowied≈∫ pokazuje ulepszonƒÖ zdolno≈õƒá do korzystania z wskaz√≥wek kontekstowych w celu udzielenia bardziej informacyjnej odpowiedzi. Podkre≈õla zaletƒô rerankingu, dziƒôki kt√≥remu LLM mo≈ºe uzyskaƒá dostƒôp do bardziej istotnych informacji i nadaƒá im priorytet, aby zbli≈ºyƒá siƒô do po≈ºƒÖdanego szczeg√≥≈Çu (tj. daty inwazji).

### Analiza wƒôz≈Ç√≥w ≈∫r√≥d≈Çowych
Wƒôz≈Çy ≈∫r√≥d≈Çowe w tym przyk≈Çadzie zawierajƒÖ odniesienia do czasu inwazji Rosji, konkretnie wspominajƒÖc, ≈ºe mia≈Ça miejsce sze≈õƒá dni przed przem√≥wieniem. Chocia≈º dok≈Çadna data nadal nie jest wyra≈∫nie podana, wƒôz≈Çy dostarczajƒÖ kontekstu czasowego, kt√≥ry pozwala LLM udzieliƒá bardziej zniuansowanej odpowiedzi. Uwzglƒôdnienie tego szczeg√≥≈Çu pokazuje, jak reranking mo≈ºe poprawiƒá zdolno≈õƒá LLM do wydobywania i wnioskowania informacji z dostarczonego kontekstu, prowadzƒÖc do bardziej precyzyjnej i informacyjnej odpowiedzi.


**Uwaga:**  
W tym notatniku u≈ºyli≈õmy mikrous≈Çug NVIDIA NIM z katalogu API NVIDIA.  
Powy≈ºsze API, `NVIDIA (llms)`, `NVIDIAEmbedding` oraz [Azure AI Search Semantic Hybrid Retrieval (wbudowane ponowne rankowanie)](https://learn.microsoft.com/azure/search/semantic-search-overview). Nale≈ºy pamiƒôtaƒá, ≈ºe powy≈ºsze API mogƒÖ r√≥wnie≈º obs≈Çugiwaƒá mikrous≈Çugi hostowane lokalnie.  

**Przyk≈Çad:**  
```python
NVIDIA(model="meta/llama3-8b-instruct", base_url="http://your-nim-host-address:8000/v1")```



---

**Zastrze≈ºenie**:  
Ten dokument zosta≈Ç przet≈Çumaczony za pomocƒÖ us≈Çugi t≈Çumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chocia≈º dok≈Çadamy wszelkich stara≈Ñ, aby t≈Çumaczenie by≈Ço precyzyjne, prosimy pamiƒôtaƒá, ≈ºe automatyczne t≈Çumaczenia mogƒÖ zawieraƒá b≈Çƒôdy lub nie≈õcis≈Ço≈õci. Oryginalny dokument w jego rodzimym jƒôzyku powinien byƒá uznawany za wiarygodne ≈∫r√≥d≈Ço. W przypadku informacji o kluczowym znaczeniu zaleca siƒô skorzystanie z profesjonalnego t≈Çumaczenia wykonanego przez cz≈Çowieka. Nie ponosimy odpowiedzialno≈õci za jakiekolwiek nieporozumienia lub b≈Çƒôdne interpretacje wynikajƒÖce z u≈ºycia tego t≈Çumaczenia.
