In [72]:
import os
import uuid
import json
import logging
from typing import List, Dict, Any, Iterable

from docling.document_converter import DocumentConverter
from docling.chunking import HybridChunker
from fastembed import TextEmbedding

import clients

In [73]:
def list_files(folder: str) -> List[str]:
    files = [
        os.path.join(folder, f)
        for f in os.listdir(folder)
        if f.lower().endswith('.md')
    ]
    files.sort()
    return files

In [74]:
def convert_doc(converter: DocumentConverter, file_path: str):

    return converter.convert(file_path)

In [75]:
def chunk_document(chunker: HybridChunker, doc):
    
    return chunker.chunk(dl_doc=doc)

In [76]:
def chunks(file_path: str, converter: DocumentConverter, chunker: HybridChunker):
    doc = convert_doc(converter, file_path)

    # corrige ordem dos argumentos
    chunk_iter = chunk_document(chunker, doc.document)

    chunks = list(chunk_iter)

    for i, chunk in enumerate(chunks):
        print(f"=== {i} ===")
        print(f"chunk.text:\n{f'{chunk.text[:300]}…'!r}")

        enriched_text = chunker.contextualize(chunk=chunk)
        print(f"chunker.contextualize(chunk):\n{f'{enriched_text[:300]}…'!r}")
        print()

    return chunks

In [77]:
files = list_files(folder='markdown')

converter = DocumentConverter()

chunker_tokenizer = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"

chunker = HybridChunker(tokenizer=chunker_tokenizer, max_tokens=768,merge_peers=True)

for file in files:
    print(f'✅ Arquivo: {file}')
    chunks(file_path=file, converter=converter, chunker=chunker)

INFO:docling.datamodel.document:detected formats: [<InputFormat.MD: 'md'>]
INFO:docling.document_converter:Going to convert document batch...
INFO:docling.document_converter:Initializing pipeline for SimplePipeline with options hash 4cc01982ae99b46a2a63fcda46c47c35
INFO:docling.pipeline.base_pipeline:Processing document arquivo_01.md


✅ Arquivo: markdown\arquivo_01.md


INFO:docling.document_converter:Finished converting document arquivo_01.md in 0.44 sec.
INFO:docling.datamodel.document:detected formats: [<InputFormat.MD: 'md'>]
INFO:docling.document_converter:Going to convert document batch...
INFO:docling.pipeline.base_pipeline:Processing document arquivo_02.md


=== 0 ===
chunk.text:
'O desafio proposto consiste em atuar como cientista de dados de um hospital para desenvolver um sistema preditivo capaz de estimar o\n**nível de obesidade**\nde um paciente com base em características pessoais, hábitos alimentares e estilo de vida.…'
chunker.contextualize(chunk):
'Projeto desenvolvido como parte da Fase 4 da PÓS TECH em Data Analytics, com o objetivo de aplicar técnicas de ciência de dados e machine learning para prever níveis de obesidade, apoiando equipes médicas em diagnósticos preventivos.\n📌 Contextualização do Problema\nO desafio proposto consiste em atua…'

=== 1 ===
chunk.text:
'A análise exploratória foi conduzida no\n**Microsoft Fabric**\natravés do notebook\n[```\nnb_analise_exploratoria.ipynb\n```](nb_analise_exploratoria.ipynb)\n.\nPrincipais pontos abordados:\n- Distribuição das variáveis categóricas e numéricas\n- Correlações entre variáveis\n- Transformações aplicadas para no…'
chunker.contextualize(chunk):
'Projeto desenvolvido c

INFO:docling.document_converter:Finished converting document arquivo_02.md in 0.47 sec.


=== 0 ===
chunk.text:
'# Este projeto foi desenvolvido como parte do\n**Tech Challenge - Fase 3**\nda Pós-Tech em Engenharia de Dados, com o objetivo de transformar os dados da\n**PNAD COVID-19**\n, disponibilizados pelo IBGE, em informações acessíveis e relevantes para a tomada de decisão em saúde pública.…'
chunker.contextualize(chunk):
'# Este projeto foi desenvolvido como parte do\n**Tech Challenge - Fase 3**\nda Pós-Tech em Engenharia de Dados, com o objetivo de transformar os dados da\n**PNAD COVID-19**\n, disponibilizados pelo IBGE, em informações acessíveis e relevantes para a tomada de decisão em saúde pública.…'

=== 1 ===
chunk.text:
'Durante a pandemia de COVID-19, compreender o comportamento da população, os sintomas clínicos mais comuns e os impactos sociais e econômicos tornou-se uma prioridade para instituições de saúde.\nO IBGE disponibilizou a pesquisa\n**PNAD COVID-19**\n, com dados valiosos, porém brutos e descentralizados.…'
chunker.contextualize(chunk):
'Este proj