<a href="https://colab.research.google.com/github/davidlealo/aprendiendolangchain/blob/main/libros_extensos_langchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Instalación de bibliotecas necesarias
!pip install langchain openai PyPDF2 faiss-cpu


Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading faiss_cpu-1.9.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2, faiss-cpu
Successfully installed PyPDF2-3.0.1 faiss-cpu-1.9.0.post1


In [None]:
# Librerías necesarias
from google.colab import files
import getpass
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# Subir la API Key de OpenAI
api_key = getpass.getpass("Por favor, introduce tu API key de OpenAI: ")
import os
os.environ["OPENAI_API_KEY"] = api_key

# Subir archivo PDF
print("Sube el libro en formato PDF:")
uploaded = files.upload()

# Verificar archivo subido
file_name = list(uploaded.keys())[0]
print(f"Archivo cargado: {file_name}")

# Cargar el libro
loader = PyPDFLoader(file_name)
pages = loader.load()

# Dividir el libro en fragmentos
print("Dividiendo el libro en fragmentos manejables...")
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
documents = splitter.split_documents(pages)
print(f"Se dividió el libro en {len(documents)} fragmentos.")

# Generar embeddings para los fragmentos
print("Generando embeddings...")
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_texts([doc.page_content for doc in documents], embeddings)

# Guardar la base de datos vectorial en la memoria
vectorstore.save_local("vectorstore_faiss")
print("Base de datos vectorial creada y almacenada.")

# Crear la cadena de preguntas y respuestas
print("Configurando el sistema de consultas...")
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(model="gpt-4"),
    retriever=vectorstore.as_retriever(),
)

# Preguntar al usuario
print("\nAhora puedes hacer preguntas sobre el libro.")
while True:
    pregunta = input("\nEscribe tu pregunta (o 'salir' para terminar): ")
    if pregunta.lower() == "salir":
        print("¡Gracias por usar el analizador de libros!")
        break
    respuesta = qa_chain.run(pregunta)
    print(f"\nRespuesta:\n{respuesta}")

# Análisis avanzado (resúmenes automáticos)
def generar_resumen():
    print("\nGenerando un resumen del libro...")
    prompt = PromptTemplate(
        input_variables=["texto"],
        template="Por favor, resume el siguiente texto:\n\n{texto}",
    )
    summary_chain = LLMChain(llm=OpenAI(model="gpt-4"), prompt=prompt)
    resumen = summary_chain.run(documents[0].page_content)  # Resumir el primer fragmento
    print(f"\nResumen del primer fragmento:\n{resumen}")

# Opcional: Resúmenes
generar_resumen()
