In [1]:
from langchain_community.document_loaders import WebBaseLoader
import bs4
import ebooklib
from bs4 import BeautifulSoup
import re
from ebooklib import epub


import langchain
from langchain import hub
from langchain_community.document_loaders import WebBaseLoader
from langchain_chroma import Chroma
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_text_splitters import RecursiveCharacterTextSplitter

from langchain_community.llms import Ollama
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

from langchain.schema import Document


In [None]:
file_name = 'data/o_que_e_espiritismo.epub'

In [None]:
def read_epub(file_path):
    book = epub.read_epub(file_path)

    text = ''

    for item in book.get_items():
        if item.get_type() == ebooklib.ITEM_DOCUMENT:
            soup = BeautifulSoup(item.get_content(), 'html.parser')
            text += soup.get_text()
    return text

import os 

mypath = 'data'

epub_files = [file for file in os.listdir(mypath) if file.endswith('.epub')]

html_epub = read_epub(file_name)

In [None]:
def create_langchain_docs(text):
    # Split the text into paragraphs
    paragraphs = re.split(r'\n\n+', text)
    
    # Create LangChain document format
    documents = []
    for i, paragraph in enumerate(paragraphs):
        # Each document can have text and optional metadata
        doc = {
            "page_content": paragraph,
            "metadata": {
                "source": "epub_book",
                "paragraph_index": i
            }
        }
        documents.append(doc)
    
    return documents

In [None]:
documents = create_langchain_docs(html_epub)

# Print or use the documents
for doc in documents:
    print(doc)

In [None]:
import pypandoc
pypandoc.download_pandoc()

### Load LLM Model

In [2]:
llm = Ollama(model="llama3")

### Epub loader

In [5]:
import os
mypath = 'data'

epub_files = [file for file in os.listdir(mypath) if file.endswith('.epub')]
epub_files

['allan-kardec-o-livro-dos-espiritos.epub',
 'allan-kardec-o-evangelho-segundo-o-espiritismo.epub',
 'allan-kardec-o-ceu-e-o-inferno.epub',
 'allan-kardec-a-genese.epub',
 'allan-kardec-o-que-e-espiritismo.epub',
 'allan-kardec-o-livro-dos-mediuns.epub']

In [9]:
from langchain_community.document_loaders import UnstructuredEPubLoader

data = []
for file_name in epub_files:
    print(file_name)
    loader = UnstructuredEPubLoader("data/" + file_name)
    data.append(loader.load())

allan-kardec-o-livro-dos-espiritos.epub
allan-kardec-o-evangelho-segundo-o-espiritismo.epub
allan-kardec-o-ceu-e-o-inferno.epub
allan-kardec-a-genese.epub
allan-kardec-o-que-e-espiritismo.epub
allan-kardec-o-livro-dos-mediuns.epub


In [32]:
list_concat = [item for sublist in data for item in sublist]


### Split documents

In [33]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(list_concat)

In [35]:
from langchain.prompts import PromptTemplate

# vectors
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-l6-v2",     # Provide the pre-trained model's path
)

vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings)

# Retrieve and generate using the relevant snippets of the blog.
retriever = vectorstore.as_retriever()
#prompt = hub.pull("rlm/rag-prompt")

template = """
You must answer just using the given context.
Context: {context}

Question: {question}
Answer:
"""

prompt = PromptTemplate(template=template, input_variables=["context", "question"])

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)



In [36]:
rag_chain.invoke("O que é o espiritismo?")

'A doutrina espírita ou o Espiritismo tem por princípio as relações do mundo material com os Espíritos ou seres do mundo invisível. Os adeptos do Espiritismo serão os espíritas, ou, se quiserem, os espiritistas.'

In [37]:
rag_chain.invoke("Que ano foi criado o espiritismo?")

'A pergunta não está presente no contexto dado! O que está escrito é uma descrição do Espiritismo e suas características, mas não há menção a um ano específico de criação do espiritismo. Portanto, não posso fornecer uma resposta para essa questão.'

In [38]:
rag_chain.invoke("Qual a situação da alma imediatamente depois da morte do corpo?")

'Segundo o texto, imediatamente após a morte do corpo, as almas se encontram em tais ou quais condições, começando a descrever sua situação feliz ou desgraçada, impressões e transformação pela morte do corpo.'

In [39]:
rag_chain.invoke("Qual a situação da alma imediatamente depois da morte do corpo?")

'A situação da alma imediatamente após a morte do corpo é que ela desmaterializa-se gradualmente, quase se completando antes da morte real. Já o Espírito penetra na vida espiritual, apenas ligado por um elo frágil que se rompe com a última pancada do coração. Nesta contingência, o Espírito pode ter já recuperado sua lucidez e tornar-se testemunha consciente da extinção da vida do corpo, considerando-se feliz por tê-lo deixado.'

In [40]:
rag_chain.invoke("O que é Vasco da Gama?")

'You must answer using only the given context, which is a text about Espiritismo (Spiritism). Therefore, I will not provide an answer to your question about Vasco da Gama.'