In [2]:
import os
import openai
import textwrap
from datetime import datetime
from collections import defaultdict

# ========================
# CONFIGURA√á√ïES
# ========================

openai.api_key = input('api key') # substitua pela sua chave
CAMINHO_PASTA = input('path')
MAX_CHARS = 4000

# ========================
# FUN√á√ïES UTILIT√ÅRIAS
# ========================

def coletar_markdowns(diretorio_base):
    arquivos_md = []
    for raiz, _, arquivos in os.walk(diretorio_base):
        for arquivo in arquivos:
            if arquivo.endswith(".md"):
                caminho_completo = os.path.join(raiz, arquivo)
                data_modificacao = datetime.fromtimestamp(os.path.getmtime(caminho_completo)).date()
                arquivos_md.append({
                    "caminho": caminho_completo,
                    "data": data_modificacao
                })
    return arquivos_md

def carregar_conteudo_arquivos(lista_arquivos):
    conteudos = []
    for item in lista_arquivos:
        caminho = item["caminho"]
        try:
            with open(caminho, 'r', encoding='utf-8') as f:
                conteudos.append({
                    "caminho": caminho,
                    "data": item["data"],
                    "conteudo": f.read()
                })
        except Exception as e:
            print(f"Erro ao ler {caminho}: {e}")
    return conteudos

def resumir_com_openai(texto, caminho, parte=None):
    titulo_arquivo = os.path.basename(caminho)
    parte_info = f" (Parte {parte})" if parte else ""
    prompt = textwrap.dedent(f"""
        Voc√™ √© um assistente que resume arquivos Markdown de forma objetiva e concisa.
        Resuma brevemente o conte√∫do do arquivo: **{titulo_arquivo}{parte_info}**.

        Formato do resumo:
        - **T√≠tulo** (se houver)
        - **Principais t√≥picos**
        - **Ideias centrais ou insights**
        - **Refer√™ncias importantes (se houver)**
        
        Seja direto, use frases curtas e foque apenas no essencial.

        Texto:
        {texto}
    """)

    try:
        resposta = openai.ChatCompletion.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": "Voc√™ √© um assistente que resume arquivos Markdown com precis√£o e concis√£o."},
                {"role": "user", "content": prompt}
            ],
            temperature=0.2,
            max_tokens=400  # Resumo mais curto
        )
        return resposta['choices'][0]['message']['content']
    except Exception as e:
        return f"[ERRO AO CONSULTAR LLM]: {e}"


def dividir_texto(texto, max_chars):
    partes = []
    while len(texto) > max_chars:
        corte = texto[:max_chars].rfind("\n\n")
        if corte == -1:
            corte = max_chars
        partes.append(texto[:corte])
        texto = texto[corte:]
    partes.append(texto)
    return partes

def processar_arquivo(item):
    caminho = item["caminho"]
    texto = item["conteudo"]

    partes = dividir_texto(texto, MAX_CHARS)
    resumos_parciais = []

    for idx, parte in enumerate(partes):
        resumo = resumir_com_openai(parte, caminho, parte=(idx+1) if len(partes) > 1 else None)
        resumos_parciais.append(resumo)

    if len(resumos_parciais) > 1:
        resumo_final = resumir_com_openai("\n\n".join(resumos_parciais), caminho)
    else:
        resumo_final = resumos_parciais[0]

    return resumo_final

# ========================
# MAIN
# ========================

if __name__ == "__main__":
    print("üîç Coletando arquivos Markdown...")
    arquivos = coletar_markdowns(CAMINHO_PASTA)
    print(f"‚úÖ {len(arquivos)} arquivos encontrados.\n")

    conteudos = carregar_conteudo_arquivos(arquivos)

    # Agrupar arquivos por data
    arquivos_por_data = defaultdict(list)
    for item in conteudos:
        arquivos_por_data[item["data"]].append(item)

    # Ordenar por data decrescente
    datas_ordenadas = sorted(arquivos_por_data.keys(), reverse=True)

    for data in datas_ordenadas:
        print(f"\nüóìÔ∏è Data: {data}")
        print("=" * 100)
        for item in arquivos_por_data[data]:
            print(f"\nüìÑ Resumo do arquivo: {os.path.basename(item['caminho'])}")
            print("-" * 80)
            resumo = processar_arquivo(item)
            print(resumo)
            print("\n" + "-" * 80)


api key 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
path C:\Users\nonak\Documents\Thoughts\Drafts\LLM-searches


üîç Coletando arquivos Markdown...
‚úÖ 5 arquivos encontrados.


üóìÔ∏è Data: 2025-04-14

üìÑ Resumo do arquivo: datascience-complete-ptbr.md
--------------------------------------------------------------------------------
- **T√≠tulo:** Entendendo como interpretamos e compartilhamos desinforma√ß√£o
- **Principais t√≥picos:** Susceptibilidade √† desinforma√ß√£o online, fatores demogr√°ficos, interpreta√ß√£o e compartilhamento de desinforma√ß√£o.
- **Ideias centrais ou insights:** Explora a interpreta√ß√£o e compartilhamento de desinforma√ß√£o, contribuindo para estrat√©gias eficazes de desmascaramento.
- **Refer√™ncias importantes:** [Entendendo como interpretamos e compartilhamos desinforma√ß√£o](https://www.psychologicalscience.org/publications/observer/interpret-share-misinformation.html)

--------------------------------------------------------------------------------

üìÑ Resumo do arquivo: datascience_content_ideas-complete-ptbr.md
--------------------------------------------