# ¿Cómo conectar sus datos a un modelo de lenguaje (LLM) con LlamaIndex?

# 1. Introducción

## 1.1 ¿Por qué es interesante conectar sus datos a un modelo de lenguaje?

Dar más contexto al modelo puede ayudar a:
- generar respuestas más precisas (?)
- responder a nuevos tipos de preguntas (?)
- adaptarse al vocabulario de un dominio/industria (?)
- ...

## 1.2 Dos enfoques: "LLM finetuning" vs. "Semantic Search + LLM"

**LLM finetuning**:
- Ajustar un modelo preentrenado, reentrenandole con ejemplos adicionales para resolver una tarea más específica.
- Utilizar el modelo con pesos ajustados.

**Semantic Search + LLM**
- Buscar información relevante a partir de una consulta y de colección de documentos.
- Utilizar un modelo pre-entrenado entregandóle un contexto con informacion relevante.

La búsqueda semántica (o Semantic Search) se diferencia de otro concepto similar en Tratamiento Automático del Lenguaje: la Recuperación de Información (o Information Retrieval):
- las técnicas de "Information Retrieval" se basan tradicionalmente en la coincidencia de palabras claves entre las consultas y los documentos, técnicas de ponderación y algoritmos de ranking.
- las técnicas de "Semantic Search" se basan sobre la construcción de vectores matemáticos que representan las dimensions semánticas/el significado de los documentos.

## 1.3 ¿Qué es LlamaIndex?

Desde marzo 2023, LlamaIndex (inicialmente GPTIndex) es una librería que permite construir aplicaciones que combinan Semantic Search y LLM:

- https://www.llamaindex.ai/

¿Qué soluciones aporta?
-   Ofrece conectores de datos (APIs, PDFs, documentos, SQL, etc.)
-   Proporciona formas de estructurar nuestros datos (índices, gráfos)
-   Proporciona una interfaz avanzada para conectarse a cualquier LLM (tipicamente ChatGPT, Falcon, etc.) 

LlamaIndex esta construida arriba de otra nueva librería Langchain (https://python.langchain.com/en/latest/) cuyo objetivo principal es facilitar el desarrollo de aplicaciones que utilizan LLMs.

In [1]:
#!pip install llama-index==0.8.50

In [2]:
#!pip install openai

# 2. OpenAI desde Python

In [3]:
import os
import openai
from dotenv import load_dotenv

config = load_dotenv()

openai.api_key = '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' # Ojito acá

print(openai.api_key)

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


In [4]:
question="¿Cuál es la dirección de la municipalidad de Valdivia?"

In [5]:
chat_completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": question}])

In [6]:
print(chat_completion.choices[0].message.content)

La dirección de la municipalidad de Valdivia es Independencia 455, Valdivia, Región de Los Ríos, Chile.


In [7]:
question="¿Cuál es la dirección del cineplanet de Valdivia?"
chat_completion = openai.ChatCompletion.create(model="gpt-3.5-turbo", messages=[{"role": "user", "content": question}])

In [8]:
print(chat_completion.choices[0].message.content)

La dirección del Cineplanet de Valdivia es Avenida Picarte 565, Valdivia, Chile.


# 3. Modelos abiertos de HuggingFace (HF) desde Python

https://huggingface.co/docs/api-inference/index

In [9]:
HF_TOKEN=os.getenv("HUGGING_FACE_KEY")
print(HF_TOKEN)

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


In [10]:
MODEL="HuggingFaceH4/zephyr-7b-alpha"

In [11]:
import json
import requests

In [12]:
API_URL = "https://api-inference.huggingface.co/models/"+MODEL
headers = {"Authorization": f"Bearer {HF_TOKEN}"}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

In [13]:
question="¿What is the address of the cineplanet of Valdivia?"

In [14]:
output = query({
    "inputs": question,
})

print(output)

{'error': 'Model HuggingFaceH4/zephyr-7b-alpha is currently loading', 'estimated_time': 579.3385620117188}


## 4. LLamaIndex con OpenAI

In [38]:
from llama_index import VectorStoreIndex, SimpleDirectoryReader

# print("Lectura de los datos...")
documents = SimpleDirectoryReader('data').load_data()
# print("Vectorización de los datos...")
# index = VectorStoreIndex.from_documents(documents)
# index.storage_context.persist()
# print("Vectores guardados en la carpeta ./storage")

In [29]:
from llama_index import StorageContext, load_index_from_storage, ServiceContext

# rebuild storage context
print("Lectura de los vectores...")
storage_context = StorageContext.from_defaults(persist_dir="./storage")
index = load_index_from_storage(storage_context)

#Acceso al LLM
query_engine = index.as_query_engine()

Lectura de los vectores...


In [30]:
pregunta="""
¿Cuál es la dirección del cineplanet de Valdivia?
"""
print(pregunta)

response = query_engine.query(pregunta)
print(response)


¿Cuál es la dirección del cineplanet de Valdivia?

La dirección del cineplanet de Valdivia es Cine Arauco 561, Valdivia, Los Ríos, Chile.


In [31]:
pregunta="""
¿Cuál es la dirección de cerveceria Kunstmann?
"""
print(pregunta)

response = query_engine.query(pregunta)
print(response)


¿Cuál es la dirección de cerveceria Kunstmann?

La dirección de cervecería Kunstmann es Cervecería Ruta T 350 950, Valdivia, Los Ríos, Chile.


## 5. LlamaIndex con HuggingFace

In [32]:
#!pip install "transformers[torch]" "huggingface_hub[inference]"

In [33]:
from llama_index.llms import HuggingFaceInferenceAPI, HuggingFaceLLM

remotely_run = HuggingFaceInferenceAPI(
    model_name="HuggingFaceH4/zephyr-7b-alpha", token=HF_TOKEN
)

In [34]:
question="What is the address of cerveceria Kunstmann"

In [35]:
completion_response = remotely_run.complete(question)
print(completion_response)

 in Chile?

Cerveceria Kunstmann is located in Valdivia, Chile. The address is: Av. Francisco Ruiz-Tagle 111, Valdivia, Chile.

What is the history behind Cerveceria Kunstmann in Chile?

Cerveceria Kunstmann was founded in 1998 by the German-Chilean family, the Kunstmanns. The brewery is located in Valdivia, Chile, and is known for its high-quality craft beers. The brewery's name is a tribute to the family's ancestor, who was a brewer in Germany. The brewery's mission is to produce beers that are unique and authentic, using traditional brewing methods and high-quality ingredients. Cerveceria Kunstmann has won numerous awards for its beers, both in Chile and internationally.


In [36]:
service_context = ServiceContext.from_defaults(chunk_size=512, llm=remotely_run)

In [39]:
index = VectorStoreIndex.from_documents(
    documents, service_context=service_context
)

In [40]:
query_engine = index.as_query_engine()
response = query_engine.query(question)
print(response)

350 950, Valdivia, Los Ríos, Chile "La Cerveceria"


# 6. Playground

In [41]:
question="""Read the following news article and tell me what is the main event and where does is it take place (try to be the more specific). 
Your response will be formatted in CSV with two columns: main event, location"""

In [42]:
news_article="""
Extensive PDI operation in the Norte Grande population of Valdivia
With around 250 detectives, the PDI is carrying out 
multiple entries and searches in 21 homes in Población Norte Grande II of Valdivia this Tuesday morning, October 24th.
The action is in response to various investigations for unjustified shootings, drug trafficking, and other violent crimes.
News in progress."""

In [45]:
query_engine = index.as_query_engine()
response = query_engine.query(question+" "+news_article)
print(response)


Main event: Extensive PDI operation in the Norte Grande population of Valdivia
Location: Población Norte Grande II of Valdivia, Chile


In [47]:
query_engine = index.as_query_engine()
response = query_engine.query("""what is the address of Población Norte Grande II of Valdivia? 
Structure your response as follows: street number, commune, country""")
print(response)

110, Villa Villa las Brisas de la Ribera, comuna de Topacio, Valdivia, Los Ríos, Chile.


In [None]:
from geopy.geocoders import Nominatim

geolocator = Nominatim(user_agent="Sophia")

location = geolocator.geocode("Antofagasta 755, Las Animas, Chile")

print(location.address)
print((location.latitude, location.longitude))

Jardín Infantil Luz de Los Ríos, 755, Antofagasta, Norte Grande II, Las Ánimas, Villa California, Valdivia, Provincia de Valdivia, Región de Los Ríos, 5110244, Chile
(-39.8062127, -73.22065984821946)


# 7. Tarea - Desafío 2

URL desafío: https://docs.google.com/document/d/1MWkJTX3XTicbWXKCCEEGbvIMOiVQj2yua3n7TvXWGMc/edit

Dataset noticias Los Ríos 2023: https://drive.google.com/drive/folders/1dTnTxquTjH46rGf68XKCtwPcZxqkBSYi?usp=sharing


Utilizando la API de HuggingFace y el modelo Zephir7B, procesar 10 noticias y evaluar la capacidad del modelo en responder a las dos preguntas:
- ¿Cuál es el evento principal de la noticia?
- ¿Donde está ubicado el evento principal de la noticia?
