In [1]:
from os import listdir
from os.path import isfile, join
import re
import fitz

from pprint import pprint
from src.ingestion.cleaner import Cleaner

cleaner = Cleaner()

In [None]:
def extract_text_by_font_size(pdf_path, disc_font_size: int=18):
    doc = fitz.open(pdf_path)
    text_output = []

    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        blocks = page.get_text("dict")["blocks"]

        for block in blocks:
            if block['type'] == 0:  # Text block
                for line in block['lines']:
                    for span in line['spans']:
                        font_size = span['size']
                        text = span['text'].strip()

                        # Use font size to determine hierarchy
                        if font_size > disc_font_size:
                            text_output.append(f"<h1>{text}</h1>")  # Representing chapter
                        else:
                            text_output.append(f"<p>{text}</p>")  # Regular text

    return text_output

In [2]:
pattern = r'(?=<h1>.*?</h1>)'

pdf_path = "Hackapizza Dataset/Menu/Datapizza.pdf"
html_output = extract_text_by_font_size(pdf_path, 12)
html_content = "\n".join(html_output)

chunks = re.split(pattern, html_content)

chunks = [chunk.strip() for chunk in chunks if chunk.strip()]

chunk_desc_ristorante = chunks[0]
chunks_piatti = []

for chunk in chunks[1:]:
    if chunk.startswith("<h1>Menu</h1>"):
        pass
    elif chunk.startswith("<h1>Legenda Ordini"):
        pass
    else: 
        chunks_piatti.append(chunk)


In [7]:
pprint(cleaner._clean_text(chunk_desc_ristorante))

('<h1>Ristorante "L\'Infinito Sapore"</h1> Viaggio nel Tempo e nel Gusto su '
 'Pandora Chef Alessandro-Pierpaolo-Jack Quantum Sotto i cieli incantevoli di '
 'Pandora, dove le montagne fluttuano tra le nuvole bioluminescenti, si apre '
 "un portale verso esperienze culinarie senza confini. Qui, all'Infinito "
 'Sapore, lo Chef Alessandro-Pierpaolo- Jack, una curiosa chimera che ha tre '
 'stati quantici in superposizione che ha raggiunto superintellinza, ha deciso '
 'di aprire un ristorante startup chiamato Datapizza. Il suo straordinario '
 'viaggio iniziò con la fisica quantistica, una passione che si fuse con '
 "l'arte della cucina. Questa combinazione unica gli conferisce una maestria "
 'della Quantistica (EDUCATION di livello 11), che trasforma ogni sua '
 "creazione in un'opera multidimensionale, esistente simultaneamente in undici "
 "stati, pronte a essere scelte dall'osservatore al momento perfetto. La sua "
 'abilità nel manipolare il tessuto temporale (Education Level Te

In [4]:

for chunk in chunks_piatti:
    pprint(chunks_piatti)
    print("NUOVO CHUNK")

['<h1>Pizza Fra 🪐</h1>\n'
 '<p>Al centro, un risotto di Amido di Stellarion, cotto alla perfezione in un '
 'Forno Dinamico Inversionale,</p>\n'
 '<p>esaltato dalla profondità del Fibra di Sintetex e accarezzato dalle note '
 'eteree dello Vero Ghiaccio. La</p>\n'
 '<p>consistenza di ogni chicco raggiunge vette celestiali grazie alla '
 'tecnologia del passato e del futuro,</p>\n'
 '<p>connubio eccessivo di sapori e consistenze che si intrecciano e si '
 'separano in un solo, appagante</p>\n'
 '<p>boccone.</p>\n'
 '<p>Accanto, scaglie di Radici di Gravità, affettate con precisione grazie '
 "all'Affettamento a Pulsazioni</p>\n"
 '<p>Quantistiche, fluttuano sopra il risotto in una danza armoniosa, '
 'conferendo una dimensione di</p>\n'
 '<p>croccantezza e terrosità che amplifica i sensi. Le Baccacedro, infuse con '
 'Lacrime di Unicorno e</p>\n'
 '<p>successivamente marinate con la Marinatura Temporale Sincronizzata '
 'aggiungono un tocco</p>\n'
 '<p>sublimemente dolce e curativo, sim

In [5]:


for chunk in chunks_piatti:
    chunk = cleaner._clean_text(chunk)

    pprint(chunk)

('<h1>Pizza Fra 🪐</h1> Al centro, un risotto di Amido di Stellarion, cotto '
 'alla perfezione in un Forno Dinamico Inversionale, esaltato dalla profondità '
 'del Fibra di Sintetex e accarezzato dalle note eteree dello Vero Ghiaccio. '
 'La consistenza di ogni chicco raggiunge vette celestiali grazie alla '
 'tecnologia del passato e del futuro, connubio eccessivo di sapori e '
 'consistenze che si intrecciano e si separano in un solo, appagante boccone. '
 'Accanto, scaglie di Radici di Gravità, affettate con precisione grazie '
 "all'Affettamento a Pulsazioni Quantistiche, fluttuano sopra il risotto in "
 'una danza armoniosa, conferendo una dimensione di croccantezza e terrosità '
 'che amplifica i sensi. Le Baccacedro, infuse con Lacrime di Unicorno e '
 'successivamente marinate con la Marinatura Temporale Sincronizzata '
 'aggiungono un tocco sublimemente dolce e curativo, simile a un bacio di '
 'magia che accarezza le papille gustative. Un drappo di Farina di Nettuno '
 "trasf

## Experiments

In [None]:
# Regular expression to match <h1> and split into chunks
pattern = r'(?=<h1>.*?</h1>)'

# Split the HTML string into chunks
chunks = re.split(pattern, text)

# Remove empty strings from the list
chunks = [chunk.strip() for chunk in chunks if chunk.strip()]

# Display the result
for i, chunk in enumerate(chunks, 1):
    print(f"Chunk {i}:\n{chunk}\n")

val_chunks = []
for chunk in chunks:
    if chunk.startswith("<h1>Menu</h1>"):
        pass
    elif chunk.startswith("<h1>Legenda Ordini"):
        pass
    else: 
        val_chunks.append(chunk)

val_chunks

In [2]:
from os import listdir
from os.path import isfile, join
import re

In [None]:
mypath = "Hackapizza Dataset/Menu"
menus = [f"{mypath}/{f}" for f in listdir(mypath) if isfile(join(mypath, f))]

c = 0
for menu in menus:
    html_output = extract_text_by_font_size(menu, disc_font_size=12)
    html_content = "\n".join(html_output)

    separators = re.findall(r'<h1>(.*?)</h1>', html_content)

    print(f"File: {menu} \n Separators: {separators}")
    if "Menu" in separators:
        c+=1


print(f"Num files: {len(menus)}; Num word Menu: {c}")

In [None]:
# Your long text
text = """
<h1>Introduction</h1>
This is the introduction text.
<h1>Menu</h1>
This is the first chapter's text.
<h1>Chapter 2</h1>
This is the second chapter's text.
"""

# Regular expression to match <h1> and split into chunks
pattern = r'(?=<h1>.*?</h1>)'

# Split the HTML string into chunks
chunks = re.split(pattern, text)

# Remove empty strings from the list
chunks = [chunk.strip() for chunk in chunks if chunk.strip()]

# Display the result
for i, chunk in enumerate(chunks, 1):
    print(f"Chunk {i}:\n{chunk}\n")

val_chunks = []
for chunk in chunks:
    if chunk.startswith("<h1>Menu</h1>"):
        pass
    elif chunk.startswith("<h1>Legenda Ordini"):
        pass
    else: 
        val_chunks.append(chunk)

val_chunks
