# üí¨ AgRAG

Este notebook configura um pipeline completo de perguntas e respostas (Q&A) com base em um arquivo PDF, usando RAG (Retrieval-Augmented Generation), FAISS, embeddings com HuggingFace, e LLM Gemma via Ollama.

In [2]:
import os
import pdfplumber
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_ollama.llms import OllamaLLM
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain.chains.retrieval import create_retrieval_chain
from langchain_core.prompts import PromptTemplate

In [5]:
CROP = "milho"

In [9]:
def load_pdf_text(crop):
    all_text = ""
    with pdfplumber.open(os.path.join("data", f"{crop}.pdf")) as pdf:
        for page in pdf.pages:
            all_text += page.extract_text() + "\n"
    if not all_text.strip():
        raise ValueError(f"No text found in the PDF for crop: {crop}")
    return all_text

In [10]:
pdf_text = load_pdf_text(CROP)

In [11]:
# üìå Quebra de texto e gera√ß√£o dos embeddings
splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=100)
docs = splitter.create_documents([pdf_text])

embedding = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-base")
db = FAISS.from_documents(docs, embedding)

In [12]:
# üìå Configura√ß√£o do modelo Gemma via Ollama
llm = OllamaLLM(model="gemma3:1b")  # Requer que o modelo esteja instalado via `ollama pull gemma3:1b`

In [13]:
# üìå Cria√ß√£o do chain de perguntas e respostas (RAG)
template = """
        Voc√™ √© um assistente agr√≠cola especializado na cultura de {crop}. 
        Responda a pergunta abaixo em portugu√™s do Brasil, com base exclusivamente no conte√∫do fornecido.

        Contexto:
        {context}

        Pergunta: {input}
        Resposta:
        """

prompt = PromptTemplate(template=template, input_variables=["input", "crop"])

document_chain = create_stuff_documents_chain(
    llm=llm,
    prompt=prompt,
)

retriever = db.as_retriever(search_kwargs={"k": 10})

qa_chain = create_retrieval_chain(
    retriever,
    document_chain,
)

In [14]:
# üìå Fazer perguntas ao modelo
pergunta = "O que √© Bipolaris no Milho?"
context_vars = {
    "input": pergunta,
    "crop": CROP,
}

resposta = qa_chain.invoke(context_vars)
print("\n", resposta["answer"])


 Em milho, Bipolaris √© um pat√≥geno f√∫ngico que pode causar diversas doen√ßas, afetando a qualidade do gr√£o e a produtividade. As doen√ßas causadas por Bipolaris s√£o diversas, com diferentes graus de gravidade. A principal caracter√≠stica do Bipolaris √© o desenvolvimento de manchas ou les√µes em diferentes partes do gr√£o, especialmente na parte inferior e na √°rea de contato com a testa. Essas les√µes podem variar em tamanho, cor e forma, tornando o gr√£o irregular e comprometendo sua qualidade.

**Tipos de Doen√ßas Causadas por Bipolaris:**

*   **Danos da Parte Inferior (da "parte brava"):** √â a forma mais comum de dano. As les√µes podem ser brancas, escuras ou em forma de "X", e podem causar um amarelamento da √°rea.
*   **Danos na √Årea de Contato com a Testa:**  As les√µes nessa √°rea podem ser de diferentes tamanhos e formas, e costumam ser mais acentuadas do que as doentes na parte inferior.
*   **Danos na Parte Superior (da "parte branca"):**  As les√µes s√£o geralmente