### Word Embeddings

En esencia, las representaciones de palabras (word embeddings) son representaciones numéricas de datos del mundo real como texto, imágenes, voz o video. Se expresan como vectores de baja dimensionalidad, donde las distancias geométricas de dos vectores en el espacio vectorial son una proyección de las relaciones entre los dos objetos del mundo real que los vectores representan. En otras palabras, te ayudan a proporcionar una representación compacta de datos de diferentes tipos, mientras que simultáneamente te permiten comparar dos objetos de datos diferentes y decir cuán similares o diferentes son en una escala numérica.

Estas representaciones de baja dimensionalidad de datos del mundo real ayudan significativamente a un procesamiento y almacenamiento de datos a gran escala de manera eficiente, actuando como un medio de compresión con pérdida de los datos originales mientras se conservan sus propiedades importantes.

Los "word embeddings" se construyen con diferentes técnica y con modelos de aprendizaje automático, generalmente se pueden usar los word embeddings creados por ChatGPT (OpenAI), Google AI etc.





In [1]:
from PyPDF2 import PdfReader
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from langchain.vectorstores import DocArrayInMemorySearch
from langchain.document_loaders import TextLoader, PyPDFLoader
from langchain_community.vectorstores import FAISS
from dotenv import load_dotenv
from langchain_experimental.text_splitter import SemanticChunker
import os
from langchain.embeddings import OllamaEmbeddings
import pdfplumber
from langchain_community.embeddings import HuggingFaceInstructEmbeddings
from InstructorEmbedding import INSTRUCTOR


  from tqdm.autonotebook import trange


### Text embeddings 



In [2]:
embeddings = HuggingFaceInstructEmbeddings(model_name='hkunlp/instructor-xl')
#embeddings = OllamaEmbeddings()


load INSTRUCTOR_Transformer
max_seq_length  512


  model.load_state_dict(torch.load(os.path.join(input_path, 'pytorch_model.bin'), map_location=torch.device('cpu')))


### Vectorstore

Los embeddings se guardan en databases especiales (aquí se usa FAISS) que permiten almacenar y extraer de manera eficiente la información de los embeddings, comparando  el significado semántico de los queries con el significado semántico de las palabras almacenadas en los embeddings.

### Carga y lee el documento pdf

In [3]:
pdf_path="PeterPan.pdf"

In [4]:
text =''
with open(pdf_path,'rb') as file:
    pdf_reader = PdfReader(file)
    for page in pdf_reader.pages:
        text += page.extract_text()


In [5]:
print(text)

Hace tiempo, allá por 1880, vivía en la ciudad de Londres la familia Darling. Estaba 
formada por el señor y la señora Darling y sus hijos: Wendy, Michael y John. Sin 
olvidarnos de Nana, por supuesto, el perro niñera.  
 
Vivían felices y tranquilos hasta que Peter Pan llegó a sus vidas. Todo comenzó la 
noche en que Nana tenía el día libre y la señora Darling se quedó a cargo de sus hijos. 
Cuando todos, incluida ella, estuvieron dormidos el muchacho entró por la ventana. 
Pero entonces ella se despertó  y se asustó tanto al verle que lanzó un fuerte grito. 
Entonces apareció Nana, que cerró la ventana para evitar que saliera y acabó 
atrapando su sombra. Y así fue como la sombra de Peter Pan acabó en un cajón de la 
casa de los Darling.  
 
Una noche el señor y la señora Darling salieron a cenar a casa de los vecinos del 
número 27. Los niños se quedaron en casa al cuidado de Nana y no tardaron en 
quedarse todos dormidos.  
Pero cuando la casa estaba en silencio, entró una diminuta

### Divide el texto 

In [6]:
#text_splitter=SemanticChunker(embeddings, breakpoint_threshold_type="percentile")
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=150)

In [7]:
docs = text_splitter.split_text(text)
    


In [8]:
type(docs)

list

In [9]:
len(docs)

12

In [10]:
docs[0]

'Hace tiempo, allá por 1880, vivía en la ciudad de Londres la familia Darling. Estaba \nformada por el señor y la señora Darling y sus hijos: Wendy, Michael y John. Sin \nolvidarnos de Nana, por supuesto, el perro niñera.  \n \nVivían felices y tranquilos hasta que Peter Pan llegó a sus vidas. Todo comenzó la \nnoche en que Nana tenía el día libre y la señora Darling se quedó a cargo de sus hijos. \nCuando todos, incluida ella, estuvieron dormidos el muchacho entró por la ventana. \nPero entonces ella se despertó  y se asustó tanto al verle que lanzó un fuerte grito. \nEntonces apareció Nana, que cerró la ventana para evitar que saliera y acabó \natrapando su sombra. Y así fue como la sombra de Peter Pan acabó en un cajón de la \ncasa de los Darling.  \n \nUna noche el señor y la señora Darling salieron a cenar a casa de los vecinos del \nnúmero 27. Los niños se quedaron en casa al cuidado de Nana y no tardaron en \nquedarse todos dormidos.'

In [11]:
docs[1]

'número 27. Los niños se quedaron en casa al cuidado de Nana y no tardaron en \nquedarse todos dormidos.  \nPero cuando la casa estaba en silencio, entró una diminuta hada revoloteando a gran \nvelocidad y tras ella, Peter Pan, dispuesto a recuperar su sombra. La encontró en el \ncajón en el que la había guardado Nana pero se entristeció mucho cuando comprobó \nque la sombra no le seguía. Probó a pegársela con jabón pero no dio resultado y \ndesesperado se se ntó en el suelo a llorar.  \n \n- ¿Quién está llorando? - preguntó Wendy, a quien despertaron los sollozos.  \n- Soy yo - contestó Peter  \n- ¿Cómo te llamas? - preguntó la niña, aunque ella estaba casi segura de saber quien \nera \n- Peter Pan  \n- ¿Y qué te pasa Peter?  \n- Que no consigo que mi sombra se me quede pegada  \n- Tranquilo. Creo que podré cosértela  \n \nWendy ayudó a Peter y mientras los dos niños comenzaron a hacerse amigos.  \n \n- Yo vivo en el País de Nunca Jamás. Es maravilloso, allí eres siempre un niño y no'

### Crea el vectorstore

In [13]:
vectorstore = FAISS.from_texts(docs, embeddings)


### Guardar el vectorstore


In [None]:
vectorstore.save_local("faiss_index")

### Cargar el vectorstore

In [None]:
vectorstore = FAISS.load_local("faiss_index",embeddings=embeddings,allow_dangerous_deserialization=True)
