<a href="https://colab.research.google.com/github/davidparede/i2a2autonometa/blob/main/Projeto_I2a2_Autonometa_final.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# AutonoMeta - Ferramenta de an√°lise autom√°tica de documentos fiscais




Trabalho realizado para o curso de IA do I2A2 - grupo AutonoMeta, com o objetivo de permitir a an√°lise de dados fiscais de forma f√°cil e otimizada, atr√°ves do uso de linguagem natural. Todo projeto foi criado usando tecnologia open source e usando parametros de clean code. Os c√≥digos foram desenvolvidos em python, usou-se autogen como framework e o  colab como IDE.



# Etapa 1: Instala√ß√£o de Depend√™ncias e Importa√ß√µes

In [1]:
%pip install autogen

Collecting autogen
  Downloading autogen-0.9.3-py3-none-any.whl.metadata (24 kB)
Collecting ag2==0.9.3 (from autogen)
  Downloading ag2-0.9.3-py3-none-any.whl.metadata (35 kB)
Collecting asyncer==0.0.8 (from ag2==0.9.3->autogen)
  Downloading asyncer-0.0.8-py3-none-any.whl.metadata (6.7 kB)
Collecting diskcache (from ag2==0.9.3->autogen)
  Downloading diskcache-5.6.3-py3-none-any.whl.metadata (20 kB)
Collecting docker (from ag2==0.9.3->autogen)
  Downloading docker-7.1.0-py3-none-any.whl.metadata (3.8 kB)
Collecting python-dotenv (from ag2==0.9.3->autogen)
  Downloading python_dotenv-1.1.1-py3-none-any.whl.metadata (24 kB)
Downloading autogen-0.9.3-py3-none-any.whl (13 kB)
Downloading ag2-0.9.3-py3-none-any.whl (826 kB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m826.8/826.8 kB[0m [31m21.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading asyncer-0.0.8-py3-none-any.whl (9.2 kB)
Downloading

# Etapa 2: Importa√ß√µes e Configura√ß√£o Inicial

In [2]:
import os
import zipfile
import requests
import pandas as pd
from autogen import AssistantAgent, UserProxyAgent
from IPython.display import display, Markdown
import ipywidgets as widgets
from google.colab import userdata # Para gerenciar segredos no colab

# ---  CONFIGURA√á√ÉO ---
√â uma boa pr√°tica de desenvolvimento definir constantes no in√≠cio para f√°cil manuten√ß√£o, seguindo parametros de microsservi√ßo.

In [3]:
# Configurar vari√°veis de ambiente
ENDPOINT_API = "https://generativelanguage.googleapis.com/v1bet"

# --- SEGURAN√áA ---
Para fins de seguran√ßa, a chave de API foi criptografada

In [4]:
os.environ["GOOGLE_API_KEY"] = userdata.get("GOOGLE_API_KEY")

# Etapa 3: Prepara√ß√£o dos Dados

In [5]:
import pandas as pd
import os

# Defini√ß√£o do diret√≥rio onde os arquivos CSV est√£o localizados

# Nomes dos arquivos CSV
ARQUIVO_CABECALHO = '/content/202401_NFs_Cabecalho.csv'
ARQUIVO_ITENS = '/content/202401_NFs_Itens.csv'

def carregar_dados(diretorio, arquivo):
    """
    Carrega um arquivo CSV em um DataFrame pandas.

    Args:
        diretorio (str): O diret√≥rio onde o arquivo est√° localizado.
        arquivo (str): O nome do arquivo CSV.

    Returns:
        pd.DataFrame: O DataFrame carregado.
    """
    caminho_completo = os.path.join(diretorio, arquivo)
    try:
        df = pd.read_csv(caminho_completo)
        return df
    except FileNotFoundError:
        print(f"Erro: O arquivo {arquivo} n√£o foi encontrado no diret√≥rio {diretorio}.")
        return None


# Etapa 4: Configura√ß√£o do Agente AutoGen



In [8]:
# Load the dataframes before using them in the CONTEXTO_SISTEMA
# Assuming the files are in the /content/ directory as specified in the previous cell
cabecalho_df = carregar_dados('/content', '202401_NFs_Cabecalho.csv')
itens_df = carregar_dados('/content', '202401_NFs_Itens.csv')


#O contexto (schema dos dados) √© passado na mensagem de sistema para o agente "nascer" inteligente.

CONTEXTO_SISTEMA = f"""
Voc√™ √© um analista de dados especialista em notas fiscais, preciso e direto.
Sua tarefa √© responder √†s perguntas do usu√°rio usando os DataFrames do Pandas fornecidos.
Os DataFrames dispon√≠veis s√£o `cabecalho_df` e `itens_df`.

Schema do `cabecalho_df`: {list(cabecalho_df.columns) if cabecalho_df is not None else "DataFrame not loaded"}
Schema do `itens_df`: {list(itens_df.columns) if itens_df is not None else "DataFrame not loaded"}

Para responder, voc√™ deve:
1.  Analisar a pergunta do usu√°rio.
2.  Gerar e executar o c√≥digo Python necess√°rio para encontrar a resposta.
3.  Apresentar a resposta final em linguagem natural, de forma clara e objetiva.
4.  N√£o mostre o c√≥digo Python na sua resposta final, apenas o resultado.
"""

# Configura√ß√£o do LLM (sem altera√ß√µes, mas agora usa a chave de forma segura)
llm_config = {
    "config_list": [{
        "model": 'gemini-2.5-pro',
        "base_url": ENDPOINT_API,
        "api_key": 'GOOGLE_API_KEY',
        "api_type": "google",
        "api_version": "v1beta",
    }],
    "cache_seed": None # Desativa o cache para garantir novas respostas
}

# Cria√ß√£o do agente assistente com o contexto aprimorado
assistant = AssistantAgent(
    name="Analista_Fiscal",
    system_message=CONTEXTO_SISTEMA,
    llm_config=llm_config
)

# Cria√ß√£o do agente proxy do usu√°rio
user_proxy = UserProxyAgent(
    name="Usuario_Proxy",
    human_input_mode="NEVER", # O agente nunca pedir√° interven√ß√£o humana
    max_consecutive_auto_reply=2, # Limita o n√∫mero de respostas autom√°ticas para evitar loops
    is_termination_msg=lambda x: "TERMINATE" in x.get("content", "").rstrip(),
    code_execution_config={"work_dir": "analise", "use_docker": False}
)

Erro: O arquivo 202401_NFs_Cabecalho.csv n√£o foi encontrado no diret√≥rio /content.
Erro: O arquivo 202401_NFs_Itens.csv n√£o foi encontrado no diret√≥rio /content.


# Etapa 5: Interface do Usu√°rio Interativa

In [9]:
# Widgets para interface
pergunta_input = widgets.Text(placeholder="Digite sua pergunta...")
botao_enviar = widgets.Button(description="Enviar")
saida = widgets.Output()

def on_button_click(b):
    with saida:
        saida.clear_output()
        pergunta = pergunta_input.value
        print(f"Processando: {pergunta}")

        # Iniciar chat com formata√ß√£o controlada
        user_proxy.initiate_chat(
            assistant,
            message=f"""
            Dados dispon√≠veis:
            - Cabe√ßalho (cabecalho_df): {list(cabecalho_df.columns)} | Exemplo: {cabecalho_df.iloc[0].to_dict()}
            - Itens (itens_df): {list(itens_df.columns)} | Exemplo: {itens_df.iloc[0].to_dict()}

            Pergunta do usu√°rio: {pergunta}

            Instru√ß√µes:
            1. Analise os dataframes relevantes
            2. Execute e retorne apenas
               - Resposta principal
               - M√©todo utilizado
               - Valores num√©ricos destacados
            3. Focando apenas na resposta em linguagem natural
            """
        )

        # Capturar e formatar √∫ltima resposta
        ultima_resposta = assistant.last_message()['content']

        # Filtragem de conte√∫do
        partes_relevantes = [
            linha for linha in ultima_resposta.split('\n')
            if not linha.startswith('```')
        ]

        # Exibir formatado
        display(Markdown(f"""
        **üìù Resposta:**
        {''.join(partes_relevantes[1:-1]) if len(partes_relevantes) > 2 else ''.join(partes_relevantes)}

        _‚ÑπÔ∏è Dados processados em {pd.Timestamp.now().strftime('%d/%m %H:%M')}_
        """))

botao_enviar.on_click(on_button_click)
display(widgets.VBox([pergunta_input, botao_enviar, saida]))

VBox(children=(Text(value='', placeholder='Digite sua pergunta...'), Button(description='Enviar', style=Button‚Ä¶