---
<p align="center">
  <img src="https://github.com/lacamposm/course-fundamentals-llms-openai-langchain/raw/main/images/image_igac.jpg" alt="Imagen_IGAC" width="280">
</p>

---

# ***Fundamentos de LLMs con Python: Explorando ChatGPT y LangChain***

---

#### ***Instructor: [Luis Andrés Campos Maldonado](https://www.linkedin.com/in/lacamposm/)***

##### ***Email: luisandres.campos@igac.gov.co***

##### ***Contratista-Observatorio Inmobiliario Catastral***





---

# ***Clase 05 - 22 de Marzo de 2024***
---

## ***Embeddings y Bases de Datos Vectoriales.***

**Objetivos de Aprendizaje:**

 - Introducir el concepto de embeddings y su importancia en el procesamiento del lenguaje natural y la inteligencia artificial.
- Explicar cómo se utilizan las bases de datos vectoriales para gestionar embeddings y facilitar búsquedas semánticas eficientes.

## ***Introducción a los Embeddings.***

En términos simples, embedding es una técnica que toma cada palabra y las coloca en un espacio donde las palabras similares están más cerca unas de otras y las palabras disimiles están más lejos. Este espacio se llama espacio vectorial.

Por ejemplo, si tomamos las palabras "perro" y "gato", es probable que estén más cerca en el espacio vectorial porque son ambas mascotas comunes. Por otro lado, "perro" y "avión" probablemente estén más lejos porque son conceptos menos relacionados.

Ahora, ¿cómo se usa esto en la vida cotidiana? Bueno, cada vez que usas un servicio de búsqueda en línea, como Google, o una función de recomendación, como en Netflix o Amazon, estás interactuando con embeddings. Estos servicios usan embeddings para entender mejor las relaciones entre diferentes palabras (o productos, películas, etc.) y así proporcionarte resultados más relevantes y recomendaciones más precisas.

Por ejemplo, si buscas "zapatos deportivos" en Google, el motor de búsqueda usa embeddings para entender que estás buscando calzado adecuado para hacer ejercicio, y no solo cualquier tipo de zapatos o cualquier cosa relacionada con deportes. De esta manera, te muestra resultados más relevantes para tu búsqueda.

In [1]:
!pip install pandas openpyxl langchain openai langchain-openai langchain-community langchain-core langchain-text-splitters chromadb



### ***Ejemplo 1. Embeddings OpenAI***

In [2]:
from langchain_openai import OpenAIEmbeddings

OPENAI_API_KEY = "<YOUR_API_KEY>"

In [3]:
# Instanciamos un modelo de embeddings.
openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-ada-002",
    api_key=OPENAI_API_KEY
)

In [4]:
queries = [
    "¿Cómo puedo cambiar mi contraseña?",
    "Quiero actualizar mi dirección de envío",
    "¿Dónde puedo encontrar mi historial de compras?",
    "Tengo un problema con el software de mi dispositivo",
    "¿Cómo puedo obtener un reembolso por mi compra?",
    "Mi dispositivo no enciende, ¿qué debo hacer?"
]

embeds = openai_embeddings.embed_documents(queries)
print(embeds)
print(f"La dimension de los embeddings de OpenAI es {len(embeds[0])}")

[[-0.021001440622361464, -0.01804243147258313, 0.0017851224901536261, -0.023571766035384623, -0.034329521123041766, 0.02172865451445079, -0.01518372855432431, -0.009503936041227358, -0.008199965276021622, -0.01978523769331999, 0.047143532070769247, 0.011177781553171572, 0.006513581368722151, 0.018017354681872617, -0.0028226563121809506, -0.0030655834148223013, 0.01933386291111107, 0.01744059967140129, 0.029740548516756265, -0.012864166391793585, -0.022092261460495456, 0.011046130730247728, 0.014757430562825902, -0.006676577248711598, -0.04260471304590477, 0.002686303707414202, 0.007472751383932296, -0.0017161624798528894, 0.014657125262628929, -0.03081883002821246, 0.042178416917051445, 0.014870274258378132, -0.020637833676316802, -0.014619510076563159, -0.018619188345699537, 0.004773909513993473, -0.0004063151858354309, -0.04704322863321735, 0.004570164081930077, -0.015233881204422796, 0.011685577717495338, 0.001111195614170965, 0.010168458887862941, 0.003902506636455679, 0.0023509074

In [5]:
import numpy as np
import pandas as pd
import plotly.express as px
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
embeddings = np.array(embeds)
embeddings_2d = pca.fit_transform(embeddings)

df = pd.DataFrame({
    "PCA1": embeddings_2d[:, 0],
    "PCA2": embeddings_2d[:, 1],
    "Consulta": queries
})

px.scatter(df, x="PCA1", y="PCA2", hover_data=["Consulta"], title="Visualización de Consultas de Clientes con PCA")

### ***Ejemplo 2: Importancia de los datos de entrenamiento.***

In [6]:
from sklearn.metrics.pairwise import cosine_similarity

sentence1 = "I love apples"
sentence2 = "This is an apple phone"
sentence3 = "I enjoy eating fruits"

embedding1 = openai_embeddings.embed_documents(sentence1)
embedding2 = openai_embeddings.embed_documents(sentence2)
embedding3 = openai_embeddings.embed_documents(sentence3)

similarity = cosine_similarity(embedding1, embedding2)
print(f'\nOpenAI emb cosine similarity 1-2: {similarity[0][0]}')
similarity = cosine_similarity(embedding1, embedding3)
print(f'\nOpenAI emb cosine similarity 1-3: {similarity[0][0]}')


OpenAI emb cosine similarity 1-2: 0.8558701340768424

OpenAI emb cosine similarity 1-3: 1.0000000000000007


In [7]:
# Ejemplo (Traduccion a espanol)

sentence1 = "Me gustan las manzanas"
sentence2 = "Este es un celular de apple"
sentence3 = "Disfruto comer frutas"

embedding1 = openai_embeddings.embed_documents(sentence1)
embedding2 = openai_embeddings.embed_documents(sentence2)
embedding3 = openai_embeddings.embed_documents(sentence3)

similarity = cosine_similarity(embedding1, embedding2)
print(f"\nOpenAI emb cosine similarity 1-2: {similarity[0][0]}")
similarity = cosine_similarity(embedding1, embedding3)
print(f"\nOpenAI emb cosine similarity 1-3: {similarity[0][0]}")


OpenAI emb cosine similarity 1-2: 0.8654914284769171

OpenAI emb cosine similarity 1-3: 0.8720482261762258


### ***Ejemplo 3. Relevancia.***

In [8]:
texts = [
    "Alpha es la primera letra del alfabeto griego",
    "A es la primera letra del alfabeto latino",
    "Beta es la segunda letra del alfabeto griego",
    "B es la segunda letra del alfabeto latino"
]

query = ["¿Cuál es la segunda letra del alfabeto griego?"]
embeds = openai_embeddings.embed_documents(texts)
embed_query = openai_embeddings.embed_documents(query)
print(f"Cosine Similarities: \n {cosine_similarity(embeds, embed_query)}")

Cosine Similarities: 
 [[0.86900224]
 [0.87047989]
 [0.90865466]
 [0.89039637]]


## ***Fundamentos de las Bases de Datos Vectoriales.***

Las bases de datos vectoriales son sistemas de gestión de bases de datos diseñados para almacenar, indexar y buscar vectores, como embeddings de texto, imágenes o cualquier otro tipo de datos en formato vectorial. Estas bases de datos son fundamentales para manejar embeddings porque permiten realizar búsquedas semánticas eficientes, es decir, buscar por significado o contexto en lugar de coincidencias exactas o basadas en keywords. Cuando se trata de búsquedas semánticas, el objetivo es encontrar los vectores más cercanos a una consulta dada en el espacio vectorial. Por ejemplo, si buscamos "perros", queremos encontrar todos los vectores que representan conceptos relacionados con perros, como "labrador", "golden retriever" o "mascotas". Esto es crucial en aplicaciones de inteligencia artificial y procesamiento de lenguaje natural donde entender el contexto y la semántica es esencial.

Las bases de datos vectoriales son una herramienta fundamental para gestionar embeddings y facilitar búsquedas semánticas eficientes en aplicaciones de NLP, como motores de búsqueda, sistemas de recomendación y chatbots. Al permitir la indexación y la partición del espacio vectorial, estas bases de datos hacen posible que estas aplicaciones procesen grandes cantidades de datos de manera rápida y precisa, brindando así una mejor experiencia al usuario final.

### ***Ejemplo 4: Base de datos local (Chroma DB)***

In [9]:
from langchain_community.vectorstores import Chroma

In [10]:
openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-ada-002",
    api_key=OPENAI_API_KEY
)

vectorstore = Chroma(collection_name="langchain_store", embedding_function=openai_embeddings)

texts = [
    "Alpha es la primera letra del alfabeto griego",
    "A es la primera letra del alfabeto latino",
    "Beta es la segunda letra del alfabeto griego",
    "B es la segunda letra del alfabeto latino"
]
vectorstore.add_texts(texts)

['a43beafa-e83e-11ee-846a-3d54af5fa66e',
 'a43beafb-e83e-11ee-846a-3d54af5fa66e',
 'a43beafc-e83e-11ee-846a-3d54af5fa66e',
 'a43beafd-e83e-11ee-846a-3d54af5fa66e']

In [11]:
vectorstore.similarity_search_with_relevance_scores(
    query="¿Cuál es la segunda letra del alfabeto griego?",
    k = 2,
)

[(Document(page_content='Beta es la segunda letra del alfabeto griego'),
  0.8706594351884046),
 (Document(page_content='B es la segunda letra del alfabeto latino'),
  0.8450438450689385)]

### ***Ejemplo 5: Fragmento de _Cien años de soledad_***

Vamos a buscar obtener textos relevantes dado un query en lenguaje natural.

In [12]:
import requests

response = requests.get(
    "https://raw.githubusercontent.com/lacamposm/course-fundamentals-llms-openai-langchain/main/data/soledad_fragmento.txt"
    )

print(response.text)

Muchos años después, frente al pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. Macondo era entonces una aldea de veinte casas de barro y cañabrava construidas a la orilla de un río de aguas diáfanas que se precipitaban por un lecho de piedras pulidas, blancas y enormes como huevos prehistóricos. El mundo era tan reciente, que muchas cosas carecían de nombre, y para mencionarlas había que señalarlas con el dedo. Todos los años, por el mes de marzo, una familia de gitanos desarrapados plantaba su carpa cerca de la aldea, y con un grande alboroto de pitos y timbales daban a conocer los nuevos inventos. Primero llevaron el imán. Un gitano corpulento, de barba montaraz y manos de gorrión, que se presentó con el nombre de Melquíades, hizo una truculenta demostración pública de lo que él mismo llamaba la octava maravilla de los sabios alquimistas de Macedonia. Fue de casa en casa arrastrando dos lingotes

In [13]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter

with open("soledad_fragmento.txt", "w", encoding="utf-8") as file:
        file.write(response.text)

openai_embeddings = OpenAIEmbeddings(
    model="text-embedding-ada-002",
    api_key=OPENAI_API_KEY
)

vectorstore = Chroma(collection_name="final_soledad_fragmento")
loader = TextLoader("soledad_fragmento.txt")
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=1000, chunk_overlap=100)
docs = text_splitter.split_documents(documents)
db = vectorstore.from_documents(documents=docs, embedding=openai_embeddings)

In [14]:
query = "¿Quién es Aureliano Buendía?"
results = db.similarity_search(query)

print(results)

[Document(page_content='Al principio, José Arcadio Buendía era una especie de patriarca juvenil, que daba instrucciones para la siembra y consejos para la crianza de niños y animales, y colaboraba con todos, aun en el trabajo físico, para la buena marcha de la comunidad. Puesto que su casa fue desde el primer momento la mejor de la aldea, las otras fueron arregladas a su imagen y semejanza. Tenía una salita amplia y bien iluminada, un comedor en forma de terraza con flores de colores alegres, dos dormitorios, un patio con un castaño gigantesco, un huerto bien plantado y un corral donde vivían en comunidad pacífica los chivos, los cerdos y las gallinas. Los únicos animales prohibidos no sólo en la casa, sino en todo el poblado, eran los gallos de pelea.', metadata={'source': 'soledad_fragmento.txt'}), Document(page_content='Aquel espíritu de iniciativa social desapareció en poco tiempo, arrastrado por la fiebre de los imanes, los cálculos astronómicos, los sueños de transmutación y las 

In [15]:
def get_text_relevant_soledad_fragmento(query, number_docs=2):
    """
    Realiza una búsqueda de los fragmentos de texto más relevantes respecto a una consulta específica
    utilizando una base de datos vectorial para encontrar las correspondencias semánticas más cercanas.

    Parámetros:
    - query (str): El texto de la consulta para la cual se buscan fragmentos relevantes.
    - number_docs (int, opcional): El número de documentos más relevantes que se deben retornar.
    """
    return db.similarity_search(query, k=number_docs)

get_text_relevant_soledad_fragmento("¿Cuando volvieron los gitanos?", number_docs=4)

[Document(page_content='\nCuando volvieron los gitanos, Úrsula había predispuesto contra ellos a toda la población. Pero la curiosidad pudo más que el temor, porque aquella vez los gitanos recorrieron la aldea haciendo un ruido ensordecedor con toda clase de instrumentos músicos, mientras el pregonero anunciaba la exhibición del más fabuloso hallazgo de los nasciancenos. De modo que todo el mundo se fue a la carpa, y mediante el pago de un centavo vieron un Melquíades juvenil, repuesto, desarrugado, con una dentadura nueva y radiante. Quienes recordaban sus encías destruidas por el escorbuto, sus mejillas fláccidas y sus labios marchitos se estremecieron de pavor ante aquella prueba terminante de los poderes sobrenaturales del gitano. El pavor se convirtió en pánico cuando Melquíades se sacó los dientes, intactos, engastados en las encías, y se los mostró al público por un instante —un instante fugaz en que volvió a ser el mismo hombre decrépito de los años anteriores— y se los puso ot

### ***Ejercicio de cierre de sesión***


Realiza la lectura detallada del fragmento del texto `Cien Años de Soledad`. Utiliza la función para probar las busquedas por similitud semántica con _ChromaDB_.