In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceInstructEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains.question_answering import load_qa_chain
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import FAISS
from langchain.vectorstores import Pinecone
from langchain.llms import OpenAI
import pickle
import pinecone 
import os

  from tqdm.autonotebook import tqdm


# DOCX LOADER

We can produce documents from docx files using LangChain's DirectoryLoader. Each document is an instance of LangChain's Document class, containing both the document text and its metadata.

In [3]:
loader = DirectoryLoader('./Hojas_de_vida', glob="**/*.docx", show_progress=True)
in_docs = loader.load()
print("Documents: ", len(in_docs))

100%|██████████| 7/7 [00:03<00:00,  2.15it/s]

Documents:  7





In [4]:
in_docs[0]

Document(page_content='HOJA DE VIDA\n\nDatos personales\n\nNombres:                    Deivid Armando Toloza\nProfesión:                  Ingeniero de Sistemas\nFecha de nacimiento:        24-05-1998\nNo. de tarjeta profesional  12345\nCédula de ciudadanía:       12345\nTeléfono:                   12345\ne mail:                     dtoloza@asesoftware.com\nCargo actual:               Data Engineer jr\n\nPerfil Profesional\n\nA través de mi experiencia laboral, he desarrollado habilidades como: Mejoramiento continuo. Adicional, e adquirido conocimientos en las siguientes herramientas, Pl/Sql, Sql Server, Python, MongoDb, Oracle las cuales permitan una resolución en conjunto del problema\n\n\nFormación académica\n\nTítulo                 Entidad                   Fecha\nIngeniero de Sistemas  Universidad de Los Andes  14/07/2022\n\n\n\nCertificaciones Técnicas\n\nTítulo                           Entidad    Fecha\nBecome a Database Administrator  Otra       22-12-20222\n\n\n\nCursos y act

The page content corresponds to the document text.

In [185]:
print("Document page content 0: \n")
print(in_docs[0].page_content)

Document page content 0: 

HOJA DE VIDA

Datos personales

Nombres:                    Deivid Armando Toloza
Profesión:                  Ingeniero de Sistemas
Fecha de nacimiento:        24-05-1998
No. de tarjeta profesional  12345
Cédula de ciudadanía:       12345
Teléfono:                   12345
e mail:                     dtoloza@asesoftware.com
Cargo actual:               Data Engineer jr

Perfil Profesional

A través de mi experiencia laboral, he desarrollado habilidades como: Mejoramiento continuo. Adicional, e adquirido conocimientos en las siguientes herramientas, Pl/Sql, Sql Server, Python, MongoDb, Oracle las cuales permitan una resolución en conjunto del problema


Formación académica

Título                 Entidad                   Fecha
Ingeniero de Sistemas  Universidad de Los Andes  14/07/2022



Certificaciones Técnicas

Título                           Entidad    Fecha
Become a Database Administrator  Otra       22-12-20222



Cursos y actualización profesional

Enti

Metadata, represented as a dictionary, holds the document's metadata like the source and the page of the specific pdf.

In [5]:
print("Document metadata 0: \n")
print(in_docs[0].metadata)

Document metadata 0: 

{'source': 'Hojas_de_vida\\Deivid.docx'}


________________

# Chunk our data up into smaller documents

In [6]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=0)
texts = text_splitter.split_documents(in_docs)

In [7]:
print (f'Now we have {len(texts)} documents')

Now we have 8 documents


________________

# Initialize Pinecone Index

In [16]:
PINECONE_API_KEY ="5d48e2dc-ac70-48c7-b62d-791f2baa26e8"
# initialize pinecone
pinecone.init(
    api_key=PINECONE_API_KEY,  
    environment='gcp-starter' 
)
index_name = "langchaintest"
if index_name not in pinecone.list_indexes():
    # Create the index if it does not exist
    pinecone.create_index(index_name, dimension=768)
# Connect to abstractive-question-answering index we created
index = pinecone.Index(index_name)

________________________

# Initialize Embedding Model

Using sentence tranformers:

In [10]:
# model_name = 'hackathon-pln-es/paraphrase-spanish-distilroberta'
model_name = 'paraphrase-multilingual-MiniLM-L12-v2'
encode_kwargs = {'normalize_embeddings': True}
st_hf = HuggingFaceEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs
)

Using intruct embeddings:
###### Instruct Embedding: https://huggingface.co/hkunlp/instructor-xl

In [11]:
# Initialize Hugging Face's Instructor Embeddings model 
instruct_emb = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")

load INSTRUCTOR_Transformer
max_seq_length  512


___________________________

# Generate embeddings

Generate emb using sentence tranformers model from HF in **Faiss**:

In [12]:
# Create an instructor embeddings index using the FAISS library from the provided texts and instructor embeddings
db_emb_st = FAISS.from_documents(texts, st_hf)

Generate emb using instruct embedding model from HF in **Faiss**:

In [13]:
db_emb_ie = FAISS.from_documents(texts, instruct_emb)

Generate emb using sentence tranformers model from HF in **Pinecone**:

In [15]:
#pinecone.delete_index(index_name)

In [None]:
# Cambiar dimension en pinecone por 384
docsearch_st = Pinecone.from_texts([t.page_content for t in texts], st_hf, index_name=index_name)

Generate emb using instruct embedding model from HF in **Pinecone**:

In [17]:
# Cambiar dimension en pinecone por 768
docsearch_ie = Pinecone.from_texts([t.page_content for t in texts], instruct_emb, index_name=index_name)

_____________________________

# Generate retriever (optional)

In [207]:
# Create a retriever object from the instructor embeddings index
retriever = db_emb_st.as_retriever(search_kwargs={"k": 5})
retriever.search_type

'similarity'

______________________

In [18]:
# Api keys from pinecone and openai
PINECONE_API_KEY ="5d48e2dc-ac70-48c7-b62d-791f2baa26e8"
OPEN_AI_KEY ="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"

# Initialize the OpenAI language model and load the question-answering chain
llm = OpenAI(temperature=0, openai_api_key=OPEN_AI_KEY)
chain = load_qa_chain(llm, chain_type="stuff")

_______________

# Questions:

Test using the instruct emb and pinecone:

In [19]:
query = "Cuales son las tecnologias que maneja Deivid y Laura?"
docs = docsearch_ie.similarity_search(query)
chain.run(input_documents=docs, question=query)

' Deivid maneja Python, Pyspark, Bash, SQL y Juan Sebastian maneja Pl/Sql, Sql Server, Python, Python, Google Cloud, Docker, Pyspark, Pyspark, Bash, Bash. Laura maneja Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate.'

In [25]:
for doc in docs:
    print(doc)

page_content='HOJA DE VIDA\n\nDatos personales\n\nNombres:                    Laura Marcela Mantilla\nProfesión:                  Ingeniera de Sistemas\nFecha de nacimiento:        09/07/1996\nNo. de tarjeta profesional  123456\nCédula de ciudadanía:       123456\nTeléfono:                   123456\ne mail:                     lmmantilla@asesoftware.com\nCargo actual:               Data Engineer Jr\n\nPerfil Profesional\n\n A través de mi experiencia laboral, he desarrollado habilidades como: Creatividad e innovacion. Adicional, e adquirido conocimientos en las siguientes herramientas, Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate las cuales permitan una resolución en conjunto del problema\n\n\nFormación académica\n\nTítulo                 Entidad                              Fecha\nIngeniera de Sistemas  Universidad Industrial de Santander  13/12/2022\n\n\n\nCertificaciones Técnicas\n\nTítulo    Entidad    Fecha\n\n\n\n\nCursos y actualización profesional\n\nEnt

Test using the intruct emb and fass:

In [26]:
query = "Cuales son las tecnologias que maneja Deivid y Laura?"
docs = db_emb_ie.similarity_search(query)
chain.run(input_documents=docs, question=query)

' Deivid maneja Python, Pyspark, Bash, SQL y Juan Sebastian maneja Pl/Sql, Sql Server, Python, Python, Google Cloud, Docker, Pyspark, Pyspark, Bash, Bash. Laura maneja Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate.'

In [27]:
for doc in docs:
    print(doc)

page_content='HOJA DE VIDA\n\nDatos personales\n\nNombres:                    Laura Marcela Mantilla\nProfesión:                  Ingeniera de Sistemas\nFecha de nacimiento:        09/07/1996\nNo. de tarjeta profesional  123456\nCédula de ciudadanía:       123456\nTeléfono:                   123456\ne mail:                     lmmantilla@asesoftware.com\nCargo actual:               Data Engineer Jr\n\nPerfil Profesional\n\n A través de mi experiencia laboral, he desarrollado habilidades como: Creatividad e innovacion. Adicional, e adquirido conocimientos en las siguientes herramientas, Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate las cuales permitan una resolución en conjunto del problema\n\n\nFormación académica\n\nTítulo                 Entidad                              Fecha\nIngeniera de Sistemas  Universidad Industrial de Santander  13/12/2022\n\n\n\nCertificaciones Técnicas\n\nTítulo    Entidad    Fecha\n\n\n\n\nCursos y actualización profesional\n\nEnt

______________________________________________________

Test using the sentence tranformers emb and Faiss:

In [28]:
query = "Cuales son las tecnologias que maneja Deivid y Laura?"
docs = db_emb_st.similarity_search(query)
chain.run(input_documents=docs, question=query)

' Deivid maneja Pl/Sql, Sql Server, Python, Python, Google Cloud, Docker, Pyspark, Pyspark, Bash y Bash. Laura maneja Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate.'

In [29]:
for doc in docs:
    print(doc)

page_content='HOJA DE VIDA\n\nDatos personales\n\nNombres:                    Laura Marcela Mantilla\nProfesión:                  Ingeniera de Sistemas\nFecha de nacimiento:        09/07/1996\nNo. de tarjeta profesional  123456\nCédula de ciudadanía:       123456\nTeléfono:                   123456\ne mail:                     lmmantilla@asesoftware.com\nCargo actual:               Data Engineer Jr\n\nPerfil Profesional\n\n A través de mi experiencia laboral, he desarrollado habilidades como: Creatividad e innovacion. Adicional, e adquirido conocimientos en las siguientes herramientas, Python, Git, Power Bi, Python Django, Mysql, Mongodb, Power Automate las cuales permitan una resolución en conjunto del problema\n\n\nFormación académica\n\nTítulo                 Entidad                              Fecha\nIngeniera de Sistemas  Universidad Industrial de Santander  13/12/2022\n\n\n\nCertificaciones Técnicas\n\nTítulo    Entidad    Fecha\n\n\n\n\nCursos y actualización profesional\n\nEnt

______________________________________________________

Other questions:

In [123]:
query = "Dime el nombre de las personas que manejan power automate?"
docs = retriever.get_relevant_documents(query)
chain.run(input_documents=docs, question=query)

' Las personas que manejan power automate son P2 y Laura Marcela Mantilla.'