# Paquetes

In [1]:
!pip3 install pip chromadb gradio langchain langchain-community langchain-core sentence_transformers pypdf --upgrade --quiet

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m526.8/526.8 kB[0m [31m18.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.3/12.3 MB[0m [31m38.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m973.7/973.7 kB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m47.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m307.9/307.9 kB[0m [31m17.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m171.5/171.5 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.4/290.4 kB[0m [31m9.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━

# Configuracion Embeddings

In [4]:
EMBEDDING_MODEL = "intfloat/multilingual-e5-large" # https://huggingface.co/models?library=sentence-transformers
EMBEDDINGS_NORMALIZE = True
EMBEDDINGS_QUERY_PROMPT = "query: "

In [5]:
from langchain_community.embeddings import HuggingFaceEmbeddings

encode_kwargs = {'normalize_embeddings': EMBEDDINGS_NORMALIZE}

embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL,encode_kwargs=encode_kwargs)

# Configuracion DB

In [6]:
DB = "chromadb" # chromadb | faiss

In [7]:
import pip

if DB == "chromadb":
    pip.main(["install","chromadb","--upgrade","--quiet"])
    from langchain_community.vectorstores import Chroma as VectorStore
elif DB == "faiss":
    pip.main(["install","faiss-cpu","--upgrade","--quiet"])
    from langchain_community.vectorstores import FAISS as VectorStore
else:
    raise ("Invalid vector store")

Please see https://github.com/pypa/pip/issues/5599 for advice on fixing the underlying issue.
To avoid this problem you can invoke Python with '-m pip' instead of running pip directly.


# Configuracion Splitter

In [8]:
SPLITTER = "recursive" # recursive |

TEXT_SPLITTER_CHUNKSIZE = 1000 # Tamano en caracteres del bloque de texto
TEXT_SPLITTER_OVERLAP = 200    # Tamano en caracteres del la superposicion entre bloques
TEXT_SPLITTER_SEPARATORS = ["\n\n","\n","."," "] # Separadores

In [9]:
if SPLITTER == "recursive":
    from langchain_text_splitters import RecursiveCharacterTextSplitter
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=TEXT_SPLITTER_CHUNKSIZE,
                                                   chunk_overlap=TEXT_SPLITTER_OVERLAP,
                                                   separators=TEXT_SPLITTER_SEPARATORS)
else:
    raise ("Invalid splitter")

# Datos

In [10]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import YoutubeLoader

### Youtube libs

In [11]:
!pip install youtube-transcript-api pytube --quiet

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/57.6 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.6/57.6 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[0m

In [12]:
PDF_FILES = []
YOUTUBE_URLS = ["https://www.youtube.com/watch?v=Z3aWHMg92_U"]

In [13]:
raw_docs = []

In [14]:
for pdf in PDF_FILES:
    raw_docs += PyPDFLoader(pdf).load()

for vid in YOUTUBE_URLS:
    raw_docs += YoutubeLoader.from_youtube_url(
    vid,
    add_video_info=True,
    language=["en", "id"],
    translation="es",
).load()


In [15]:
documents = text_splitter.split_documents(raw_docs)
db = VectorStore.from_documents(documents, embeddings)

In [16]:
retriever = db.as_retriever()

# Gradio Server

In [17]:
import gradio as gr

with gr.Blocks() as demo:
    chatbot = gr.Chatbot(likeable=True,layout="bubble",height="70%")
    msg = gr.Textbox()
    clear = gr.ClearButton([msg, chatbot])
    shutdown = gr.Button(value="Shutdown")
    shutdown.click(lambda _:demo.close())

    last_docs = gr.State(None)
    last_docs_index = gr.State(0)

    def respond(message, chat_history, last_docs, last_docs_index):
        if not chat_history:
            chat_history.append((message, "Hola, en que puedo ayudarte?"))
            return "", chat_history, last_docs, last_docs_index

        if last_docs:
            if "si" in message:
                last_docs = None
                chat_history.append((message, "Genial! Si tenes otra consulta decime."))
                return "", chat_history, last_docs, last_docs_index

            last_docs_index += 1

            if len(last_docs) <= last_docs_index:
                chat_history.append((message, "Lamento no haber encontrado una respuesta. Intenta haciendo la pregunta de forma distinta."))
                last_docs = None
                return "", chat_history, last_docs, last_docs_index

            doc = last_docs[last_docs_index]
            bot_message = f"Tambien habia encontrado esto:\n\n``` {doc.page_content} \n```\n\nEsta en {doc.metadata['source']} en la pagina {doc.metadata['page']}. ¿Esto si te sirvio?"
            chat_history.append((message, bot_message))
            return "", chat_history, last_docs, last_docs_index

        docs = retriever.get_relevant_documents(EMBEDDINGS_QUERY_PROMPT+message.lower())
        last_docs = docs

        last_docs_index = 0
        doc = docs[last_docs_index]

        bot_message = f"Encontre esto:\n\n``` {doc.page_content} \n```\n\nEsta en {doc.metadata['source']} en la pagina {doc.metadata['page']}. ¿Te sirvio?"

        chat_history.append((message, bot_message))
        return "", chat_history, last_docs, last_docs_index

    msg.submit(respond, [msg, chatbot, last_docs, last_docs_index], [msg, chatbot,last_docs, last_docs_index])

if __name__ == "__main__":
    demo.launch(server_name="0.0.0.0", server_port=7860)



Setting queue=True in a Colab notebook requires sharing enabled. Setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://e81169170797db1348.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)


In [18]:
demo.close()

Closing server running on port: 7860


In [19]:
retriever.get_relevant_documents(EMBEDDINGS_QUERY_PROMPT+"why did izumo forge the swords?".lower())

  warn_deprecated(


[Document(page_content='¿Aún recuerdas por qué Izumo forjó estas espadas? Porque en tiempos pasados, cuando los Yaoyorozu-no-Kami descendieron aquí, provocaron muerte y desastre en este mundo y su gente. Para salvar el mundo, Izumo partió 70.033 espadas y las forjó en los 12 Centinelas. La primera fue la "Verdad", forjada por el Soberano de la Revelación. Podría enseñar a los mortales el camino de la ley y crear milagros a partir de la deconstrucción de todas las cosas. El segundo fue "Sky", forjado por el Eternal Zenith. Podría formar una barrera desde el firmamento e impedir el paso de los innumerables dioses de la miseria. El tercero fue "Aullido", capaz de convocar relámpagos para desgarrar los cielos y meteoritos para hacer llover el castigo divino. El cuarto fue "Mist", capaz de romper la tierra y rasgar las nubes con viento y lluvia cortantes. El quinto fue "Frost", congelando la tierra en un instante. El sexto fue "Destino", el inquieto ciclo de la vida y la muerte', metadata={

In [20]:
retriever.get_relevant_documents(EMBEDDINGS_QUERY_PROMPT+"why did izumo forge the swords?".lower())[0].page_content

'¿Aún recuerdas por qué Izumo forjó estas espadas? Porque en tiempos pasados, cuando los Yaoyorozu-no-Kami descendieron aquí, provocaron muerte y desastre en este mundo y su gente. Para salvar el mundo, Izumo partió 70.033 espadas y las forjó en los 12 Centinelas. La primera fue la "Verdad", forjada por el Soberano de la Revelación. Podría enseñar a los mortales el camino de la ley y crear milagros a partir de la deconstrucción de todas las cosas. El segundo fue "Sky", forjado por el Eternal Zenith. Podría formar una barrera desde el firmamento e impedir el paso de los innumerables dioses de la miseria. El tercero fue "Aullido", capaz de convocar relámpagos para desgarrar los cielos y meteoritos para hacer llover el castigo divino. El cuarto fue "Mist", capaz de romper la tierra y rasgar las nubes con viento y lluvia cortantes. El quinto fue "Frost", congelando la tierra en un instante. El sexto fue "Destino", el inquieto ciclo de la vida y la muerte'