### Importamos las dependencias

In [91]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_ollama import OllamaEmbeddings
from langchain_chroma import Chroma
from langchain_core.prompts import PromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from dotenv import load_dotenv
import os


### Variables de entorno

In [None]:
load_dotenv()

api_key = os.getenv("API_KEY") 

AIzaSyAxoIcKAhmJDO1D7XQR8s4iry5yoOL37zI


### Subir un Documento

In [93]:

def upload_pdf(url: str):        
    try:
        loader = PyPDFLoader(url)
        loader = loader.lazy_load()

        text = ""

        for page in loader: 
            text += page.page_content + "\n"

        return text
    except Exception as e:
        print(e)
        return []
    


### Text Splitter para separar todo el contenido de mi documento

In [94]:

def text_splitter(text): 

    text_splitter = CharacterTextSplitter(
    chunk_size = 7000,
    chunk_overlap = 100,
    separator="\n"
)
    texts = text_splitter.create_documents([text])
    print(texts)
    return texts



### Defino el modelo que utilizaré

In [95]:
embedding = OllamaEmbeddings(
    model = "nomic-embed-text"
)

### Creo mi base de datos vectorial donde se guardará mi embedding

In [96]:
def get_vector_store(name_collection: str): 
    
    vector_store = Chroma(
    collection_name= name_collection,
    embedding_function=embedding,
    persist_directory="./vectorstore"
)    
    return vector_store

### Creo el retrieval que devolverá la información en una busqueda de similitudes

In [97]:
def retrieval(input_user: str): 
    vector_store = get_vector_store("langchain")
    docs = vector_store.similarity_search(input_user)
    return docs

### Creamos el propt system para el modelo

In [98]:
prompt = PromptTemplate.from_template("""
    Eres un asistente encargado de responder preguntas sobre Arquitectura de software y solo debes contestar si el contexto no está vacio.
    En caso de que no cuentes con la información solicitada responde "La pregunta excede mi conocimiento" y si te preguntan algo fuera del contexto principal responde "No estoy programado para eso".
    Utiliza siempre el contexto proporcionado para responder.
    contexto = {contexto}
    pregunta del usuario: {input_user}
""")

### Creamos la función de respuesta que nos comunicará con nuestro agende de IA

In [99]:
def response(input_user: str, contexto: str):
    llm = ChatGoogleGenerativeAI(
    api_key=api_key,
    model="gemini-2.5-flash",
    temperature= 0.5
)

    for chunk in llm.stream(prompt.format(contexto=contexto, input_user=input_user)):
        yield chunk.content

### Utilizamos las funciones para cargar el doc, aplicarle el text_splitter y guardar esos datos como embedding en la base de datos vectorial

In [100]:
loader = upload_pdf("asd.pdf")
texts = text_splitter(loader)
vector_store = get_vector_store("langchain")

vector_store.add_documents(texts)

[Document(metadata={}, page_content='Introducción  a  RAG   La  generación  aumentada  por  recuperación  (RAG)  es  el  proceso  de  optimización  de  la  salida  \nde\n \nun\n \nmodelo\n \nde\n \nlenguaje\n \nde\n \ngran\n \ntamaño,\n \nde\n \nmodo\n \nque\n \nhaga\n \nreferencia\n \na\n \nuna\n \nbase\n \nde\n \nconocimientos\n \nautorizada\n \nfuera\n \nde\n \nlos\n \norígenes\n \nde\n \ndatos\n \nde\n \nentrenamiento\n \nantes\n \nde\n \ngenerar\n \nuna\n \nrespuesta.\n \nLos\n \nmodelos\n \nde\n \nlenguaje\n \nde\n \ngran\n \ntamaño\n \n(LLM)\n \nse\n \nentrenan\n \ncon\n \nvolúmenes\n \nde\n \ndatos\n \namplios\n \ny\n \nusan\n \nmiles\n \nde\n \nmillones\n \nde\n \nparámetros\n \npara\n \ngenerar\n \nresultados\n \noriginales\n \nen\n \ntareas\n \ncomo\n \nresponder\n \npreguntas,\n \ntraducir\n \nidiomas\n \ny\n \ncompletar\n \nfrases.\n \nLa\n \nRAG\n \nextiende\n \nlas\n \nya\n \npoderosas\n \ncapacidades\n \nde\n \nlos\n \nLLM\n \na\n \ndominios\n \nespecíficos\n \no\n \na\

['371e3635-8615-4121-a86d-59d48e94ddaf',
 'a7316757-0881-4681-994e-7053370fcfe4']

### Ponemos a prueba nuestro RAG

In [101]:

for l in range(2):
    input_user = input("Human: ")
    print(input_user)

    docs = retrieval(input_user=input_user)
    print(docs)

    for chunk in response(input_user=input_user, contexto=docs):
        print(chunk, end=" ", flush=True)
    

que es un modelo
[Document(id='a7316757-0881-4681-994e-7053370fcfe4', metadata={}, page_content='nuestro\n \nllm\n \nque\n \nresponderá\n \npreguntas\n \nutilizando\n \nla\n \ninformación\n \nque\n \nguardamos\nfrom langchain_google_genai  import ChatGoogleGenerativeAI  from dotenv  import load_dotenv  import os   load_dotenv()   api_key  =  os.getenv("API_KEY")   llm  =  ChatGoogleGenerativeAI(      api_key=api_key,      model  =  "gemini-2.5-flash",      temperature=0.5 )  7.  Creamos  un  prompt_template  para  nuestro  llm  con  ChatPromptTemplate   from langchain_core.prompts  import ChatPromptTemplate  ai_msg  =  [""]  human_msg  =  []   prompt_template  =  ChatPromptTemplate.from_messages([      ("system","""      Eres  un  asistente  encargado  de  responder  preguntas  sobre  Langchain.                     Responde  solo  si   {context}  posee  contenido.  Si  el  contexto  esta  vacio,                      responde  "No  tengo  suficiente  informacion  para  reponder  esa  pr