<a href="https://colab.research.google.com/github/davidlealo/aprendiendolangchain/blob/main/libros_extensos_langchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Instalación de bibliotecas necesarias
!pip install langchain openai PyPDF2 faiss-cpu


Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading faiss_cpu-1.9.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (27.5 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.5/27.5 MB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2, faiss-cpu
Successfully installed PyPDF2-3.0.1 faiss-cpu-1.9.0.post1


In [None]:
# Librerías necesarias
from google.colab import files
import getpass
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

# Subir la API Key de OpenAI
api_key = getpass.getpass("Por favor, introduce tu API key de OpenAI: ")
import os
os.environ["OPENAI_API_KEY"] = api_key

# Subir archivo PDF
print("Sube el libro en formato PDF:")
uploaded = files.upload()

# Verificar archivo subido
file_name = list(uploaded.keys())[0]
print(f"Archivo cargado: {file_name}")

# Cargar el libro
loader = PyPDFLoader(file_name)
pages = loader.load()

# Dividir el libro en fragmentos
print("Dividiendo el libro en fragmentos manejables...")
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
documents = splitter.split_documents(pages)
print(f"Se dividió el libro en {len(documents)} fragmentos.")

# Generar embeddings para los fragmentos
print("Generando embeddings...")
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_texts([doc.page_content for doc in documents], embeddings)

# Guardar la base de datos vectorial en la memoria
vectorstore.save_local("vectorstore_faiss")
print("Base de datos vectorial creada y almacenada.")

# Crear la cadena de preguntas y respuestas
print("Configurando el sistema de consultas...")
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(model="gpt-4"),
    retriever=vectorstore.as_retriever(),
)

# Preguntar al usuario
print("\nAhora puedes hacer preguntas sobre el libro.")
while True:
    pregunta = input("\nEscribe tu pregunta (o 'salir' para terminar): ")
    if pregunta.lower() == "salir":
        print("¡Gracias por usar el analizador de libros!")
        break
    respuesta = qa_chain.run(pregunta)
    print(f"\nRespuesta:\n{respuesta}")

# Análisis avanzado (resúmenes automáticos)
def generar_resumen():
    print("\nGenerando un resumen del libro...")
    prompt = PromptTemplate(
        input_variables=["texto"],
        template="Por favor, resume el siguiente texto:\n\n{texto}",
    )
    summary_chain = LLMChain(llm=OpenAI(model="gpt-4"), prompt=prompt)
    resumen = summary_chain.run(documents[0].page_content)  # Resumir el primer fragmento
    print(f"\nResumen del primer fragmento:\n{resumen}")

# Opcional: Resúmenes
generar_resumen()


## Nuevo enfoque

In [3]:
# Instalación de bibliotecas necesarias
!pip install langchain openai PyPDF2 faiss-cpu ebooklib beautifulsoup4 lxml





In [5]:
!pip install --upgrade langchain langchain-openai langchain-community


Collecting langchain
  Downloading langchain-0.3.14-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.2.14-py3-none-any.whl.metadata (2.7 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.14-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-core<0.4.0,>=0.3.29 (from langchain)
  Downloading langchain_core-0.3.29-py3-none-any.whl.metadata (6.3 kB)
Collecting openai<2.0.0,>=1.58.1 (from langchain-openai)
  Downloading openai-1.59.3-py3-none-any.whl.metadata (27 kB)
Collecting tiktoken<1,>=0.7 (from langchain-openai)
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting pydantic-settings<3.0.0

In [None]:
# Librerías necesarias
from google.colab import files
import getpass
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

from PyPDF2 import PdfReader
from ebooklib import epub
from bs4 import BeautifulSoup

# Subir la API Key de OpenAI
api_key = getpass.getpass("Por favor, introduce tu API key de OpenAI: ")
os.environ["OPENAI_API_KEY"] = api_key

# Subir archivo (PDF o EPUB)
print("Sube el libro en formato PDF o EPUB:")
uploaded = files.upload()

# Obtener el nombre del archivo
file_name = list(uploaded.keys())[0]
print(f"Archivo cargado: {file_name}")

# Función para leer PDF
def leer_pdf(file_path):
    reader = PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Función para leer EPUB
def leer_epub(file_path):
    book = epub.read_epub(file_path)
    text = ""
    for item in book.get_items():
        if item.get_type() == epub.ITEM_DOCUMENT:
            soup = BeautifulSoup(item.get_content(), "html.parser")
            text += soup.get_text()
    return text

# Determinar el tipo de archivo y cargar el texto
if file_name.lower().endswith(".pdf"):
    print("Procesando archivo PDF...")
    contenido = leer_pdf(file_name)
elif file_name.lower().endswith(".epub"):
    print("Procesando archivo EPUB...")
    contenido = leer_epub(file_name)
else:
    raise ValueError("Formato no soportado. Por favor, sube un archivo PDF o EPUB.")

# Dividir el contenido en fragmentos
print("Dividiendo el libro en fragmentos manejables...")
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
documents = splitter.split_text(contenido)
print(f"Se dividió el libro en {len(documents)} fragmentos.")

# Generar embeddings para los fragmentos
print("Generando embeddings...")
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(documents, embeddings)

# Guardar la base de datos vectorial en la memoria
vectorstore.save_local("vectorstore_faiss")
print("Base de datos vectorial creada y almacenada.")

# Crear la cadena de preguntas y respuestas
print("Configurando el sistema de consultas...")
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(model="gpt-4"),
    retriever=vectorstore.as_retriever(),
)

# Preguntar al usuario
print("\nAhora puedes hacer preguntas sobre el libro.")
while True:
    pregunta = input("\nEscribe tu pregunta (o 'salir' para terminar): ")
    if pregunta.lower() == "salir":
        print("¡Gracias por usar el analizador de libros!")
        break
    respuesta = qa_chain.run(pregunta)
    print(f"\nRespuesta:\n{respuesta}")

# Análisis avanzado (resúmenes automáticos)
def generar_resumen():
    print("\nGenerando un resumen del libro...")
    prompt = PromptTemplate(
        input_variables=["texto"],
        template="Por favor, resume el siguiente texto:\n\n{texto}",
    )
    summary_chain = LLMChain(llm=OpenAI(model="gpt-4"), prompt=prompt)
    resumen = summary_chain.run(documents[0])  # Resumir el primer fragmento
    print(f"\nResumen del primer fragmento:\n{resumen}")

# Opcional: Generar resúmenes
generar_resumen()


In [8]:
# Instalación de bibliotecas necesarias
!pip install langchain langchain-openai openai PyPDF2 faiss-cpu ebooklib beautifulsoup4 lxml

# Librerías necesarias
from google.colab import files
import getpass
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain_openai.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

from PyPDF2 import PdfReader
from ebooklib import epub
from bs4 import BeautifulSoup

# Subir la API Key de OpenAI
api_key = getpass.getpass("Por favor, introduce tu API key de OpenAI: ")
os.environ["OPENAI_API_KEY"] = api_key

# Subir archivo (PDF o EPUB)
print("Sube el libro en formato PDF o EPUB:")
uploaded = files.upload()

# Obtener el nombre del archivo
file_name = list(uploaded.keys())[0]
print(f"Archivo cargado: {file_name}")

# Función para leer PDF
def leer_pdf(file_path):
    reader = PdfReader(file_path)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Función para leer EPUB con corrección
def leer_epub(file_path):
    book = epub.read_epub(file_path)
    text = ""

    # Procesar los ítems del libro
    for item in book.get_items():
        # Verificar si el contenido es de tipo XHTML
        if item.media_type == "application/xhtml+xml":
            soup = BeautifulSoup(item.get_content(), "html.parser")
            text += soup.get_text()

    return text

# Determinar el tipo de archivo y cargar el texto
if file_name.lower().endswith(".pdf"):
    print("Procesando archivo PDF...")
    contenido = leer_pdf(file_name)
elif file_name.lower().endswith(".epub"):
    print("Procesando archivo EPUB...")
    contenido = leer_epub(file_name)
else:
    raise ValueError("Formato no soportado. Por favor, sube un archivo PDF o EPUB.")

# Dividir el contenido en fragmentos
print("Dividiendo el libro en fragmentos manejables...")
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
documents = splitter.split_text(contenido)
print(f"Se dividió el libro en {len(documents)} fragmentos.")

# Generar embeddings para los fragmentos
print("Generando embeddings...")
embeddings = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(documents, embeddings)

# Guardar la base de datos vectorial en la memoria
vectorstore.save_local("vectorstore_faiss")
print("Base de datos vectorial creada y almacenada.")

# Crear la cadena de preguntas y respuestas
print("Configurando el sistema de consultas...")
retriever = vectorstore.as_retriever()
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(model="gpt-4", temperature=0.7),  # Uso explícito de ChatOpenAI
    retriever=retriever,
)

# Preguntar al usuario
print("\nAhora puedes hacer preguntas sobre el libro.")
while True:
    pregunta = input("\nEscribe tu pregunta (o 'salir' para terminar): ")
    if pregunta.lower() == "salir":
        print("¡Gracias por usar el analizador de libros!")
        break
    respuesta = qa_chain.run({"query": pregunta})  # Ajuste para pasar la consulta como diccionario
    print(f"\nRespuesta:\n{respuesta}")

# Análisis avanzado (resúmenes automáticos)
def generar_resumen():
    print("\nGenerando un resumen del libro...")
    prompt = PromptTemplate(
        input_variables=["texto"],
        template="Por favor, resume el siguiente texto:\n\n{texto}",
    )
    summary_chain = LLMChain(llm=ChatOpenAI(model="gpt-4"), prompt=prompt)
    resumen = summary_chain.run({"texto": documents[0]})  # Resumir el primer fragmento
    print(f"\nResumen del primer fragmento:\n{resumen}")

# Opcional: Generar resúmenes
generar_resumen()


Por favor, introduce tu API key de OpenAI: ··········
Sube el libro en formato PDF o EPUB:


Saving Obras Completas de Aristóteles (Aristóteles) (Z-Library).epub to Obras Completas de Aristóteles (Aristóteles) (Z-Library) (2).epub
Archivo cargado: Obras Completas de Aristóteles (Aristóteles) (Z-Library) (2).epub
Procesando archivo EPUB...


  for root_file in tree.findall('//xmlns:rootfile[@media-type]', namespaces={'xmlns': NAMESPACES['CONTAINERNS']}):


Dividiendo el libro en fragmentos manejables...
Se dividió el libro en 8307 fragmentos.
Generando embeddings...
Base de datos vectorial creada y almacenada.
Configurando el sistema de consultas...

Ahora puedes hacer preguntas sobre el libro.

Escribe tu pregunta (o 'salir' para terminar): cuantos textos distints tiene el libro?

Respuesta:
La información proporcionada no especifica el número total de textos o capítulos en el libro.

Escribe tu pregunta (o 'salir' para terminar): resumen la etica a nicomaco

Respuesta:
Lo siento, pero no se proporciona suficiente información en el contexto proporcionado para proporcionar un resumen completo de "Ética a Nicómaco".

Escribe tu pregunta (o 'salir' para terminar): salir
¡Gracias por usar el analizador de libros!

Generando un resumen del libro...


  summary_chain = LLMChain(llm=ChatOpenAI(model="gpt-4"), prompt=prompt)



Resumen del primer fragmento:
Este texto parece ser el índice de una edición de las Obras Completas de Aristóteles, traducida por Patricio de Azcárate. Se mencionan varias obras importantes de Aristóteles, incluyendo "Moral a Nicómaco", "Política", "Tratado del alma", "Metafísica" y otros. La edición fue publicada por Ebooklasicos, con la primera edición en diciembre de 2015 y la última en diciembre de 2020. También se hace referencia a una biografía de Aristóteles y del traductor, Patricio de Azcárate.
