# Notebook test

## PDF

In [30]:
import os
import pymupdf
import fitz

def create_example_pdf(file_path, file_name):
    """
    Create an example PDF file for testing purposes.
    """
    doc = fitz.open()
    long_text = """
    Titanic, dirigida por James Cameron, es una épica historia de amor y tragedia ambientada en el viaje inaugural del famoso transatlántico británico RMS Titanic, que se hundió tras chocar contra un iceberg en la madrugada del 15 de abril de 1912. La película combina hechos históricos con una narrativa ficticia protagonizada por Jack Dawson y Rose DeWitt Bukater, dos jóvenes de diferentes clases sociales cuyas vidas se cruzan a bordo del barco. La historia comienza en el presente, cuando un cazador de tesoros, Brock Lovett, explora los restos del Titanic en busca de un valioso diamante conocido como el "Corazón del Océano". Durante la expedición, encuentran un dibujo de una mujer desnuda usando el collar, fechado el 14 de abril de 1912. La mujer del retrato, Rose Dawson Calvert, una anciana sobreviviente del desastre, ve la imagen en las noticias y contacta al equipo para contar su historia. A través de su relato, se remonta a 1912, cuando Rose, una joven de 17 años de clase alta, viaja en primera clase con su prometido, Cal Hockley, y su controladora madre Ruth. Rose se siente atrapada en una vida sin libertad, forzada a casarse con Cal para asegurar la estabilidad financiera de su familia. En un momento de desesperación, Rose intenta suicidarse lanzándose por la popa del Titanic, pero es salvada por Jack Dawson, un artista pobre que viaja en tercera clase gracias a un pasaje que ganó en una partida de cartas. A pesar de sus diferencias sociales, Jack y Rose comienzan a conocerse y enamorarse. Jack le muestra a Rose una vida de libertad, pasión y autenticidad, mientras ella le abre su mundo refinado y le ofrece amor. Su relación se ve constantemente amenazada por Cal, quien es posesivo y manipulador, y por la estricta madre de Rose, que desprecia a Jack por su clase social. La historia romántica alcanza su punto culminante cuando Jack dibuja a Rose desnuda usando solo el “Corazón del Océano”, y luego huyen por el barco celebrando su amor. Pero esa misma noche, el Titanic choca con un iceberg. El barco comienza a hundirse lentamente, y el caos se desata. A medida que la tragedia se intensifica, los personajes luchan por sobrevivir: Jack y Rose navegan por las entrañas del barco inundado, mientras Cal intenta separarlos y asegurar su propia salvación. Finalmente, Rose logra subirse a una balsa salvavidas, pero salta de vuelta al barco para quedarse con Jack. Ambos terminan en el agua helada, pero solo ella sobrevive tras ser rescatada. Jack muere congelado, sacrificándose para que ella tenga una oportunidad de vivir. En el presente, Rose lanza el "Corazón del Océano" al mar, dejándolo hundido junto a los restos del Titanic. Titanic no solo retrata una historia de amor trágico, sino también un poderoso retrato de clases sociales, valentía, pérdida y memoria. Con efectos visuales innovadores y una emotiva banda sonora, la película se convirtió en un fenómeno cultural y sigue siendo uno de los mayores éxitos del cine moderno.
    """
    rect = fitz.Rect(72, 72, 540, 800)
    font_size = 12
    max_chars_per_page = 3200

    for i in range(0, len(long_text), max_chars_per_page):
        page = doc.new_page()
        chunk = long_text[i:i+max_chars_per_page]
        page.insert_textbox(rect, chunk, fontsize=font_size, fontname="helv", color=(0, 0, 0))

    doc.save(os.path.join(file_path, file_name))
    doc.close()
    
create_example_pdf("./pdf/", "example.pdf")

In [None]:
import os
import json
import fitz as pymupdf  # Asegúrate de tener PyMuPDF instalado

def load(self, file_path, file_name):
    """
    Load the content from the specified PDF file path.
    :param file_path: The path to the PDF file to be loaded.
    :param file_name: The name of the PDF file to be loaded.
    :return: A dictionary containing the file name, path, extension, content, and size in bytes.
    """
    full_path = os.path.join(file_path, file_name)
    with pymupdf.open(full_path) as doc_obj:
        text = chr(12).join([page.get_text() for page in doc_obj])
        doc = {
            "name": file_name,
            "path": full_path,
            "extension": "pdf",
            "content": text.strip().replace("\n", " "),
            "size_bytes": os.path.getsize(full_path)
        }
    return doc

file_path = "./pdf/"
file_name = "example.pdf"
doc = load(file_path, file_name)

# Guardar en archivo JSON ordenado
output_path = "./pdf/example.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(doc, f, ensure_ascii=False, indent=4)

# Imprimir por consola (formateado)
print(json.dumps(doc, ensure_ascii=False, indent=4))


{
    "name": "example.pdf",
    "path": "./pdf/example.pdf",
    "extension": "pdf",
    "content": "Titanic, dirigida por James Cameron, es una épica historia de amor y tragedia ambientada en el viaje inaugural del famoso transatlántico británico RMS Titanic, que se hundió tras chocar contra un iceberg en la madrugada del 15 de abril de 1912. La película combina hechos históricos con una narrativa ficticia protagonizada por Jack Dawson y Rose DeWitt Bukater, dos jóvenes de diferentes clases sociales cuyas vidas se cruzan a bordo del barco. La historia comienza en el presente, cuando un cazador de tesoros, Brock Lovett, explora los restos del Titanic en busca de un valioso diamante conocido como el \"Corazón del Océano\". Durante la expedición, encuentran un dibujo de una mujer desnuda usando el collar, fechado el 14 de abril de 1912. La mujer del retrato, Rose Dawson Calvert, una anciana sobreviviente del desastre, ve la imagen en las noticias y contacta al equipo para contar su hist

## DOCX

In [2]:
from docx_loader import DOCXLoader
import json

file_path = "./docx/"
file_name = "example.docx"
docx_loader = DOCXLoader()
doc = docx_loader.load(file_path, file_name)
output_path = "./docx/example.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(doc, f, ensure_ascii=False, indent=4)

# Imprimir por consola (formateado)
print(json.dumps(doc, ensure_ascii=False, indent=4))

{
    "name": "example.docx",
    "path": "./docx/example.docx",
    "extension": "docx",
    "content": "Titanic, dirigida por James Cameron, es una épica historia de amor y tragedia ambientada en el viaje inaugural del famoso transatlántico británico RMS Titanic, que se hundió tras chocar contra un iceberg en la madrugada del 15 de abril de 1912. La película combina hechos históricos con una narrativa ficticia protagonizada por Jack Dawson y Rose DeWitt Bukater, dos jóvenes de diferentes clases sociales cuyas vidas se cruzan a bordo del barco. La historia comienza en el presente, cuando un cazador de tesoros, Brock Lovett, explora los restos del Titanic en busca de un valioso diamante conocido como el \"Corazón del Océano\". Durante la expedición, encuentran un dibujo de una mujer desnuda usando el collar, fechado el 14 de abril de 1912. La mujer del retrato, Rose Dawson Calvert, una anciana sobreviviente del desastre, ve la imagen en las noticias y contacta al equipo para contar su 

## Markdown

In [3]:
from markdown_loader import MarkdownLoader
import json

file_path = "./md/"
file_name = "example.md"
markdown_loader = MarkdownLoader()
doc = markdown_loader.load(file_path, file_name)
output_path = "./md/example.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(doc, f, ensure_ascii=False, indent=4)

# Imprimir por consola (formateado)
print(json.dumps(doc, ensure_ascii=False, indent=4))


{
    "name": "example.md",
    "path": "./md/example.md",
    "extension": "md",
    "content": "Titanic, dirigida por James Cameron, es una épica historia de amor y tragedia ambientada en el viaje inaugural del famoso transatlántico británico RMS Titanic, que se hundió tras chocar contra un iceberg en la madrugada del 15 de abril de 1912. La película combina hechos históricos con una narrativa ficticia protagonizada por Jack Dawson y Rose DeWitt Bukater, dos jóvenes de diferentes clases sociales cuyas vidas se cruzan a bordo del barco. La historia comienza en el presente, cuando un cazador de tesoros, Brock Lovett, explora los restos del Titanic en busca de un valioso diamante conocido como el \\\"Corazón del Océano\\\". Durante la expedición, encuentran un dibujo de una mujer desnuda usando el collar, fechado el 14 de abril de 1912. La mujer del retrato, Rose Dawson Calvert, una anciana sobreviviente del desastre, ve la imagen en las noticias y contacta al equipo para contar su hist

## TXT

In [6]:
from txt_loader import TXTLoader
import json

file_path = "./txt/"
file_name = "example.txt"
txt_loader = TXTLoader()
doc = txt_loader.load(file_path, file_name)
output_path = "./txt/example.json"
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(doc, f, ensure_ascii=False, indent=4)

# Imprimir por consola (formateado)
print(json.dumps(doc, ensure_ascii=False, indent=4))

{
    "name": "example.txt",
    "path": "./txt/example.txt",
    "extension": "txt",
    "content": "Titanic, dirigida por James Cameron, es una épica historia de amor y tragedia ambientada en el viaje inaugural del famoso transatlántico británico RMS Titanic, que se hundió tras chocar contra un iceberg en la madrugada del 15 de abril de 1912. La película combina hechos históricos con una narrativa ficticia protagonizada por Jack Dawson y Rose DeWitt Bukater, dos jóvenes de diferentes clases sociales cuyas vidas se cruzan a bordo del barco. La historia comienza en el presente, cuando un cazador de tesoros, Brock Lovett, explora los restos del Titanic en busca de un valioso diamante conocido como el \\\"Corazón del Océano\\\". Durante la expedición, encuentran un dibujo de una mujer desnuda usando el collar, fechado el 14 de abril de 1912. La mujer del retrato, Rose Dawson Calvert, una anciana sobreviviente del desastre, ve la imagen en las noticias y contacta al equipo para contar su 