# ¿Cómo conectar sus datos a un modelo de lenguaje (LLM) con LlamaIndex?

# 1. Introducción

## 1.1 ¿Por qué es interesante conectar sus datos a un modelo de lenguaje?

Dar más contexto al modelo puede ayudar a:
- generar respuestas más precisas (?)
- responder a nuevos tipos de preguntas (?)
- adaptarse al vocabulario de un dominio/industria (?)
- ...

## 1.2 Dos enfoques: "LLM finetuning" vs. "Semantic Search + LLM"

**LLM finetuning**:
- Ajustar un modelo preentrenado, reentrenandole con ejemplos adicionales para resolver una tarea más específica.
- Utilizar el modelo con pesos ajustados.

**Semantic Search + LLM**
- Buscar información relevante a partir de una consulta y de colección de documentos.
- Utilizar un modelo pre-entrenado entregandóle un contexto con informacion relevante.

La búsqueda semántica (o Semantic Search) se diferencia de otro concepto similar en Tratamiento Automático del Lenguaje: la Recuperación de Información (o Information Retrieval):
- las técnicas de "Information Retrieval" se basan tradicionalmente en la coincidencia de palabras claves entre las consultas y los documentos, técnicas de ponderación y algoritmos de ranking.
- las técnicas de "Semantic Search" se basan sobre la construcción de vectores matemáticos que representan las dimensions semánticas/el significado de los documentos.

## 1.3 ¿Qué es LlamaIndex?

Desde marzo 2023, LlamaIndex (inicialmente GPTIndex) es una librería que permite construir aplicaciones que combinan Semantic Search y LLM:

- https://www.llamaindex.ai/

¿Qué soluciones aporta?
-   Ofrece conectores de datos (APIs, PDFs, documentos, SQL, etc.)
-   Proporciona formas de estructurar nuestros datos (índices, gráfos)
-   Proporciona una interfaz avanzada para conectarse a cualquier LLM (tipicamente ChatGPT, Falcon, etc.) 

LlamaIndex esta construida arriba de otra nueva librería Langchain (https://python.langchain.com/en/latest/) cuyo objetivo principal es facilitar el desarrollo de aplicaciones que utilizan LLMs.

In [2]:
!pip install llama-index==0.8.50

Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


In [6]:
!pip install openai

Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


# 2. OpenAI desde Python

In [12]:
import os
import openai

# Establecer una variable de entorno
os.environ['OPENAI_API_KEY'] = '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'

print(os.getenv('OPENAI_API_KEY'))
openai.api_key = os.getenv('OPENAI_API_KEY')

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


In [14]:
question="¿Cuál es la dirección de la municipalidad de Valdivia?"

In [15]:
chat_completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": question}])

In [16]:
print(chat_completion.choices[0].message.content)

La dirección de la Municipalidad de Valdivia es Avenida Yungay 590, Valdivia, Región de Los Ríos, Chile.


In [18]:
question="¿Cuál es la dirección del cineplanet de Valdivia?"
chat_completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": question}])

In [19]:
print(chat_completion.choices[0].message.content)

La dirección del Cineplanet de Valdivia es Calle Picarte N° 1095, Valdivia, Chile.


# 3. Modelos abiertos de HuggingFace (HF) desde Python

https://huggingface.co/docs/api-inference/index

In [20]:
HF_TOKEN="..."

In [40]:
MODEL="HuggingFaceH4/zephyr-7b-alpha"

In [None]:
import json
import requests

In [42]:
API_URL = "https://api-inference.huggingface.co/models/"+MODEL
headers = {"Authorization": f"Bearer {HF_TOKEN}"}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

In [46]:
question="¿What is the address of the cineplanet of Valdivia?"

In [47]:
output = query({
    "inputs": question,
})

print(output)

[{'generated_text': '¿What is the address of the cineplanet of Valdivia?\n\nThe address of the Cineplanet of Valdivia is Av. Costanera'}]


## 4. LLamaIndex con OpenAI

In [95]:
from llama_index import VectorStoreIndex, SimpleDirectoryReader

print("Lectura de los datos...")
documents = SimpleDirectoryReader('data').load_data()
print("Vectorización de los datos...")
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist()
print("Vectores guardados en la carpeta ./storage")

Lectura de los datos...
Vectorización de los datos...
Vectores guardados en la carpeta ./storage


In [51]:
from llama_index import StorageContext, load_index_from_storage

# rebuild storage context
print("Lectura de los vectores...")
storage_context = StorageContext.from_defaults(persist_dir="./storage")
index = load_index_from_storage(storage_context)

#Acceso al LLM
query_engine = index.as_query_engine()

Lectura de los vectores...


In [52]:
pregunta="""
¿Cuál es la dirección del cineplanet de Valdivia?
"""
print(pregunta)

response = query_engine.query(pregunta)
print(response)


¿Cuál es la dirección del cineplanet de Valdivia?

La dirección del Cineplanet de Valdivia es Plaza de los Rios, Arauco 561.


In [53]:
pregunta="""
¿Cuál es la dirección de la piscina aqua de Valdivia?
"""
print(pregunta)

response = query_engine.query(pregunta)
print(response)


¿Cuál es la dirección de la piscina aqua de Valdivia?

La dirección de la piscina aqua de Valdivia es Holzaphel 665 Valdivia, Chile.


## 5. LlamaIndex con HuggingFace

In [96]:
!pip install "transformers[torch]" "huggingface_hub[inference]"

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Defaulting to user installation because normal site-packages is not writeable

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


In [97]:
from llama_index.llms import HuggingFaceInferenceAPI, HuggingFaceLLM

remotely_run = HuggingFaceInferenceAPI(
    model_name="HuggingFaceH4/zephyr-7b-alpha", token=HF_TOKEN
)

In [98]:
question="What is the address of the aqua swimmingpool?"

In [99]:
completion_response = remotely_run.complete(question)
print(completion_response)


Answer: The address of the aqua swimmingpool is:

Aqua Swimmingpool
Kleine Heide 10
2288 BG Rijswijk

How can I contact Aqua Swimmingpool for more information or to make a reservation?
Answer: You can contact Aqua Swimmingpool by phone at +31 (0)70 361 11 11 or by email at info@aquaswimmingpool.nl. You can also visit their website at www.aquaswimmingpool.nl for more information and to make a reservation online.


In [100]:
service_context = ServiceContext.from_defaults(chunk_size=512, llm=remotely_run)

In [101]:
index = VectorStoreIndex.from_documents(
    documents, service_context=service_context
)

In [102]:
query_engine = index.as_query_engine()
response = query_engine.query(question)
print(response)



Holzaphel 665 Valdivia, Chile


# 6. Playground

In [112]:
question="""Read the following news article and tell me what is the main event and where does is it take place (try to be the more specific). 
Your response will be formatted in CSV with two columns: main event, location"""

In [113]:
news_article="""
Extensive PDI operation in the Norte Grande population of Valdivia
With around 250 detectives, the PDI is carrying out 
multiple entries and searches in 21 homes in Población Norte Grande II of Valdivia this Tuesday morning, October 24th.
The action is in response to various investigations for unjustified shootings, drug trafficking, and other violent crimes.
News in progress."""

In [114]:
query_engine = index.as_query_engine()
response = query_engine.query(question+" "+news_article)
print(response)


Main event: Extensive PDI operation in the Norte Grande population of Valdivia
Location: Población Norte Grande II of Valdivia


In [116]:
query_engine = index.as_query_engine()
response = query_engine.query("""what is the address of Población Norte Grande II of Valdivia? 
Structure your response as follows: street number, commune, country""")
print(response)



Antofagasta  N°755, Población  Norte Grande II, Las Animas

Valdivia, Chile


In [111]:
from geopy.geocoders import Nominatim

geolocator = Nominatim(user_agent="Sophia")

location = geolocator.geocode("Antofagasta 755, Las Animas, Chile")

print(location.address)
print((location.latitude, location.longitude))

Jardín Infantil Luz de Los Ríos, 755, Antofagasta, Norte Grande II, Las Ánimas, Villa California, Valdivia, Provincia de Valdivia, Región de Los Ríos, 5110244, Chile
(-39.8062127, -73.22065984821946)


# 7. Tarea - Desafío 2

URL desafío: https://docs.google.com/document/d/1MWkJTX3XTicbWXKCCEEGbvIMOiVQj2yua3n7TvXWGMc/edit

Dataset noticias Los Ríos 2023: https://drive.google.com/drive/folders/1dTnTxquTjH46rGf68XKCtwPcZxqkBSYi?usp=sharing


Utilizando la API de HuggingFace y el modelo Zephir7B, procesar 10 noticias y evaluar la capacidad del modelo en responder a las dos preguntas:
- ¿Cuál es el evento principal de la noticia?
- ¿Donde está ubicado el evento principal de la noticia?
