In [52]:
!pip install llama-index
!pip install langchain-core
!pip install langchain-openai
!pip install langchain
!pip install pypdf
!pip install pinecone-client
!pip install grandalf

Collecting grandalf
  Downloading grandalf-0.8-py3-none-any.whl (41 kB)
     ---------------------------------------- 0.0/41.8 kB ? eta -:--:--
     --------- ------------------------------ 10.2/41.8 kB ? eta -:--:--
     ------------------ ------------------- 20.5/41.8 kB 217.9 kB/s eta 0:00:01
     -------------------------------------- 41.8/41.8 kB 289.6 kB/s eta 0:00:00
Collecting pyparsing (from grandalf)
  Downloading pyparsing-3.1.1-py3-none-any.whl.metadata (5.1 kB)
Downloading pyparsing-3.1.1-py3-none-any.whl (103 kB)
   ---------------------------------------- 0.0/103.1 kB ? eta -:--:--
   ----------------------- ---------------- 61.4/103.1 kB 1.7 MB/s eta 0:00:01
   ---------------------------------------- 103.1/103.1 kB 1.5 MB/s eta 0:00:00
Installing collected packages: pyparsing, grandalf
Successfully installed grandalf-0.8 pyparsing-3.1.1


In [54]:
from langchain_openai import ChatOpenAI
from langchain_community.document_loaders.csv_loader import CSVLoader
import pinecone
from langchain_community.vectorstores import Pinecone
from langchain_openai import OpenAIEmbeddings
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough, RunnableSerializable, RunnableParallel, RunnableLambda
from langchain_core.output_parsers import StrOutputParser
from operator import itemgetter
from langchain.output_parsers.openai_functions import JsonOutputFunctionsParser

In [3]:
OPEN_AI_API_KEY = "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"
PINECONE_AI_API_KEY = "ab81ed71-359c-4b1a-a9a2-1a0d82449fda"

# Create the Index in Pinecone and add Documents

In [4]:
index_name = 'tobecv2'

## Load CSV Files

In [5]:
import csv
from typing import Dict, List, Optional
from langchain.document_loaders.base import BaseLoader
from langchain.docstore.document import Document


# This a response from this post: https://github.com/langchain-ai/langchain/issues/6961
class CSVLoader(BaseLoader):
    """Loads a CSV file into a list of documents.

    Each document represents one row of the CSV file. Every row is converted into a
    key/value pair and outputted to a new line in the document's page_content.

    The source for each document loaded from csv is set to the value of the
    `file_path` argument for all doucments by default.
    You can override this by setting the `source_column` argument to the
    name of a column in the CSV file.
    The source of each document will then be set to the value of the column
    with the name specified in `source_column`.

    Output Example:
        .. code-block:: txt

            column1: value1
            column2: value2
            column3: value3
    """

    def __init__(
        self,
        file_path: str,
        source_column: Optional[str] = None,
        metadata_columns: Optional[List[str]] = None,   # < ADDED
        csv_args: Optional[Dict] = None,
        encoding: Optional[str] = None,
    ):
        self.file_path = file_path
        self.source_column = source_column
        self.encoding = encoding
        self.csv_args = csv_args or {}
        self.metadata_columns = metadata_columns        # < ADDED

    def load(self) -> List[Document]:
        """Load data into document objects."""

        docs = []
        with open(self.file_path, newline="", encoding=self.encoding) as csvfile:
            csv_reader = csv.DictReader(csvfile, **self.csv_args)  # type: ignore
            for i, row in enumerate(csv_reader):
                content = "\n".join(f"{k.strip()}: {v.strip()}" for k, v in row.items())
                try:
                    source = (
                        row[self.source_column]
                        if self.source_column is not None
                        else self.file_path
                    )
                except KeyError:
                    raise ValueError(
                        f"Source column '{self.source_column}' not found in CSV file."
                    )
                metadata = {"source": source, "row": i}
                # ADDED TO SAVE METADATA
                if self.metadata_columns:
                    for k, v in row.items():
                        if k in self.metadata_columns:
                            metadata[k] = v
                # END OF ADDED CODE
                doc = Document(page_content=content, metadata=metadata)
                docs.append(doc)

        return docs

In [6]:
loader = CSVLoader(file_path='qa.csv',encoding='utf-8', metadata_columns=['question', 'answer'])
documents = loader.load()

### CSV Single Row Example:

In [7]:
single_example = documents[10]
print(f'Total elements: {len(documents)}')
print(f'Type: {type(single_example)}')
print('*-'*30)
print(f'\nPage Content:\n{single_example.page_content}\n')
print(f'Meta Data:\n{single_example.metadata}')

Total elements: 105
Type: <class 'langchain_core.documents.base.Document'>
*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-

Page Content:
question: Háblame sobre tus proyectos más destacados en programación.
answer: He creado varias aplicaciones, una de estas es este chatbot con el cual estas hablando. Tengo otras apps como un predictor de precios en inmuebles. Una app que genera tus entrenamiento (solo debes agregar tus tiempos y equipo), da seguimiento a tu progreso, grafica tus resultados y tiene un timer para ayudarte a la gestion correcta del entrenamiento. También tengo un juego de estrategia multi player basado en un mini juego del Video Juego  Cult Of Lamb.

Meta Data:
{'source': 'qa.csv', 'row': 10, 'question': 'Háblame sobre tus proyectos más destacados en programación.', 'answer': 'He creado varias aplicaciones, una de estas es este chatbot con el cual estas hablando. Tengo otras apps como un predictor de precios en inmuebles. Una app que genera tus entrenamient

## Create Embeddings 

In [8]:
embeddings =  OpenAIEmbeddings(openai_api_key=OPEN_AI_API_KEY)

## Create LLM

In [2]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0,api_key=OPEN_AI_API_KEY)

# Create Index with Langchain

In [10]:
pinecone.init(api_key=PINECONE_AI_API_KEY, environment='gcp-starter')
if index_name in pinecone.list_indexes():
    index = pinecone.Index(index_name)
    vector_store = Pinecone(index, embeddings, "text")
else:
    # Fist Create the index. But the db still empty.
    pinecone.create_index(name=index_name, dimension=1536, metric='cosine')
    # After the index is create add all the documents
    vector_store = Pinecone.from_documents(documents, embeddings, index_name=index_name)

In [11]:
retriver = vector_store.as_retriever()

## Create a Templates

In [123]:
fortmat_question_template = """Rephrase the question in a clearer and more concise manner in the original language"
Follow Up Input: {question}
Standalone question:"""

re_rank_template = """You are an Ai assistant. You Need to re rank-this context responses by the relevance with the question. Only return three Documents..
Context:\n{context}
Question:{question}
"""
final_response_template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, respond 'I dont know'. Do it in the same language of the question
{context}
Question:{question}
Les't Think step by step..."""
alternative_final_response_template = """Use the following pieces of context to answer the question at the end. If you don't know the answer, respond 'I dont know'. Do it in the same language of the question
{context}
Question:{question}
Answer:"""
format_question_template = PromptTemplate.from_template(fortmat_question_template)
re_rank_template = PromptTemplate.from_template(re_rank_template)
final_template = PromptTemplate.from_template(alternative_final_response_template)

## First Chain

In [114]:
chain =  {'context': retriver, 'question': RunnablePassthrough()}| re_rank_template | llm

In [20]:
question = 'Cuantos anos de experiencia tienes en python?'

In [21]:
response = chain.invoke(question)

In [22]:
response

AIMessage(content="1. Document(page_content='question: ¿Qué lenguajes de programación dominas?\\nanswer: Tengo 3 años de experiencia en python, 2 años de experiencia en Dart y 2 años de Experiencia en SQL.', metadata={'answer': 'Tengo 3 años de experiencia en python, 2 años de experiencia en Dart y 2 años de Experiencia en SQL.', 'question': '¿Qué lenguajes de programación dominas?', 'row': 43.0, 'source': 'qa.csv'})\n\n2. Document(page_content='question: ¿Has obtenido certificaciones relevantes en programación o en tus áreas de especialización?\\nanswer: Tengo la cerficación como desarrollador en python, data science y data visualization.', metadata={'answer': 'Tengo la cerficación como desarrollador en python, data science y data visualization.', 'question': '¿Has obtenido certificaciones relevantes en programación o en tus áreas de especialización?', 'row': 18.0, 'source': 'qa.csv'})\n\n3. Document(page_content='question: ¿Puedes proporcionar más detalles sobre tu experiencia con la

### Format Response:

In [23]:
# refortma context:
docs = response.content.split('Document(')
docs.pop(0)
str_context = '\n'.join(f'<<Context #{i}>> {doc}' for i, doc in enumerate(docs, start=1))

In [24]:
str_context

"<<Context #1>> page_content='question: ¿Qué lenguajes de programación dominas?\\nanswer: Tengo 3 años de experiencia en python, 2 años de experiencia en Dart y 2 años de Experiencia en SQL.', metadata={'answer': 'Tengo 3 años de experiencia en python, 2 años de experiencia en Dart y 2 años de Experiencia en SQL.', 'question': '¿Qué lenguajes de programación dominas?', 'row': 43.0, 'source': 'qa.csv'})\n\n2. \n<<Context #2>> page_content='question: ¿Has obtenido certificaciones relevantes en programación o en tus áreas de especialización?\\nanswer: Tengo la cerficación como desarrollador en python, data science y data visualization.', metadata={'answer': 'Tengo la cerficación como desarrollador en python, data science y data visualization.', 'question': '¿Has obtenido certificaciones relevantes en programación o en tus áreas de especialización?', 'row': 18.0, 'source': 'qa.csv'})\n\n3. \n<<Context #3>> page_content='question: ¿Puedes proporcionar más detalles sobre tu experiencia con l

In [25]:
len(docs)

3

### Second Chain

In [None]:
final_chain =  {'context': itemgetter("title"), 'question': RunnablePassthrough()} | final_template | llm 

In [None]:
response2 = final_chain.invoke({'context': str_context, 'question': question})

In [None]:
response2.content

# Concatenate both chain in one

The trik to make available other keys is to put the result in a dictionary to have to possibility to extract the result for each key for example the question or context:

In [57]:
# This is the complex version, but you can use the cell bellow, it do it the same.
chain2 =  (RunnableParallel(context=retriver , question=RunnablePassthrough()) |
           {'context': re_rank_template, 'question':  itemgetter("question")} |
           {'context': itemgetter("context") |
            llm, 'question':  itemgetter("question")} |
           final_template |
           llm |
          StrOutputParser())

In [146]:
# Create a first chain to reformat the question
chain1 =  format_question_template | llm | StrOutputParser()
# Pass the reformat question to the context in the run parallel to insert into the template an get all the documents retrivals
chain2 = RunnableParallel(context=chain1 | retriver, question=RunnablePassthrough()) | re_rank_template | llm | StrOutputParser()
# Use the retrival to reponse the user questions
chain3 =  RunnableParallel(context=chain2 , question=RunnablePassthrough())  | final_template | llm | StrOutputParser()

In [158]:
chain3.invoke({'question': 'How many years of experience do you have in python?'})

In [155]:
chain2.get_graph().print_ascii()

           +---------------------------------+         
           | Parallel<context,question>Input |         
           +---------------------------------+         
                    **               ***               
                 ***                    **             
               **                         ***          
   +----------------+                        **        
   | PromptTemplate |                         *        
   +----------------+                         *        
            *                                 *        
            *                                 *        
            *                                 *        
     +------------+                           *        
     | ChatOpenAI |                           *        
     +------------+                           *        
            *                                 *        
            *                                 *        
            *                                 * 