<a href="https://colab.research.google.com/github/davidparede/i2a2autonometa/blob/main/AutonoMeta_projeto_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# AutonoMeta - Ferramenta de an√°lise autom√°tica de documentos fiscais

Trabalho realizado para o curso de IA do I2A2 - grupo AutonoMeta, com o objetivo de permitir a an√°lise de dados fiscais de forma f√°cil e otimizada, atr√°ves do uso de linguagem natural. Todo projeto foi criado usando tecnologia open source e usando parametros de clean code. Os c√≥digos foram desenvolvidos em python, usou-se autogen como framework e o colab como IDE.

#Etapa 1: Instala√ß√£o de Depend√™ncias e Importa√ß√µes

In [73]:
pip install autogen google-generativeai



# Etapa 2: Importa√ß√µes e Configura√ß√£o Inicial

In [74]:
import os
import zipfile
import requests
import pandas as pd
from autogen import AssistantAgent, UserProxyAgent
from IPython.display import display, Markdown
import ipywidgets as widgets
from google.colab import userdata
import google.generativeai as genai
import ipywidgets as widgets
from IPython.display import display, Markdown
import traceback
import pandas as pd

#CONFIGURA√á√ÉO ---

√â uma boa pr√°tica de desenvolvimento definir constantes no in√≠cio para f√°cil manuten√ß√£o, seguindo parametros de microsservi√ßo.

In [75]:
# Configurar vari√°veis de ambiente
ENDPOINT_API = "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent"
MODEL_NAME = "gemini-2.0-flash"

# SEGURAN√áA
Para fins de seguran√ßa, a chave de API foi criptografada

In [76]:
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY')

#Etapa 3: Prepara√ß√£o dos Dados e importa√ß√£o de documentos fiscais

In [77]:
 import pandas as pd
import os

# Defini√ß√£o do diret√≥rio onde os arquivos CSV est√£o localizados

# Nomes dos arquivos CSV
ARQUIVO_CABECALHO = '/content/202401_NFs_Cabecalho.csv'
ARQUIVO_ITENS = '/content/202401_NFs_Itens.csv'

def carregar_dados(diretorio, arquivo):
    """
    Carrega um arquivo CSV em um DataFrame pandas.

    Args:
        diretorio (str): O diret√≥rio onde o arquivo est√° localizado.
        arquivo (str): O nome do arquivo CSV.

    Returns:
        pd.DataFrame: O DataFrame carregado.
    """
    caminho_completo = os.path.join(diretorio, arquivo)
    try:
        df = pd.read_csv(caminho_completo)
        return df
    except FileNotFoundError:
        print(f"Erro: O arquivo {arquivo} n√£o foi encontrado no diret√≥rio {diretorio}.")
        return None


# Etapa 4: Configura√ß√£o do Agente AutoGen

In [78]:
CONTEXTO_SISTEMA = f"""
Voc√™ √© um analista de dados especialista em notas fiscais, preciso e direto.
Sua tarefa √© responder √†s perguntas do usu√°rio usando os DataFrames do Pandas fornecidos.
Os DataFrames dispon√≠veis s√£o `cabecalho_df` e `itens_df`.

Schema do `cabecalho_df`: {list(cabecalho_df.columns) if cabecalho_df is not None else "DataFrame not loaded"}
Schema do `itens_df`: {list(itens_df.columns) if itens_df is not None else "DataFrame not loaded"}

Para responder, voc√™ deve:
1.  Analisar a pergunta do usu√°rio.
2.  Gerar e executar o c√≥digo Python necess√°rio para encontrar a resposta.
3.  Apresentar a resposta final em linguagem natural, de forma clara e objetiva.
4.  N√£o mostre o c√≥digo Python na sua resposta final, apenas o resultado.
"""

# Configura√ß√£o do LLM
llm_config = {
    "config_list": [{
        "model": MODEL_NAME,
        "base_url": ENDPOINT_API,
        "api_key": GOOGLE_API_KEY,
    }],
    "cache_seed": None # Desativa o cache para garantir novas respostas
}

# Set the environment variable for AutoGen's OpenAI client
os.environ["OPENAI_API_KEY"] = GOOGLE_API_KEY

In [79]:
# Cria√ß√£o do agente assistente com o contexto aprimorado
assistant = AssistantAgent(
    name="Analista_Fiscal",
    system_message=CONTEXTO_SISTEMA,
    llm_config=llm_config
)

# Cria√ß√£o do agente proxy do usu√°rio
user_proxy = UserProxyAgent(
    name="Usuario_Proxy",
    human_input_mode="NEVER", # O agente nunca pedir√° interven√ß√£o humana
    max_consecutive_auto_reply=2, # Limita o n√∫mero de respostas autom√°ticas para evitar loops
    is_termination_msg=lambda x: "TERMINATE" in x.get("content", "").rstrip(),
    code_execution_config={"work_dir": "analise", "use_docker": False}
)

In [80]:


CONTEXTO_SISTEMA = f"""
Voc√™ √© um analista de dados especialista em notas fiscais, preciso e direto.
Sua tarefa √© responder √†s perguntas do usu√°rio usando os DataFrames do Pandas fornecidos.
Os DataFrames dispon√≠veis s√£o `cabecalho_df` e `itens_df`.

Schema do `cabecalho_df`: {list(cabecalho_df.columns) if cabecalho_df is not None else "DataFrame not loaded"}
Schema do `itens_df`: {list(itens_df.columns) if itens_df is not None else "DataFrame not loaded"}

Para responder, voc√™ deve:
1.  Analisar a pergunta do usu√°rio.
2.  Gerar e executar o c√≥digo Python necess√°rio para encontrar a resposta.
3.  Apresentar a resposta final em linguagem natural, de forma clara e objetiva.
4.  N√£o mostre o c√≥digo Python na sua resposta final, apenas o resultado.
"""

# Configura√ß√£o do LLM (sem altera√ß√µes, mas agora usa a chave de forma segura)
llm_config = {
    "config_list": [{
        "model": 'gemini-2.0-flash',
        "base_url": ENDPOINT_API,
        "api_key": os.environ.get("GOOGLE_API_KEY"), # Use OPENAI_API_KEY here
    }],
    "cache_seed": None # Desativa o cache para garantir novas respostas
}

# Set the environment variable for AutoGen's OpenAI client
os.environ["OPENAI_API_KEY"] = GOOGLE_API_KEY


# Cria√ß√£o do agente assistente com o contexto aprimorado
assistant = AssistantAgent(
    name="Analista_Fiscal",
    system_message=CONTEXTO_SISTEMA,
    llm_config=llm_config
)

# Cria√ß√£o do agente proxy do usu√°rio
user_proxy = UserProxyAgent(
    name="Usuario_Proxy",
    human_input_mode="NEVER", # O agente nunca pedir√° interven√ß√£o humana
    max_consecutive_auto_reply=2, # Limita o n√∫mero de respostas autom√°ticas para evitar loops
    is_termination_msg=lambda x: "TERMINATE" in x.get("content", "").rstrip(),
    code_execution_config={"work_dir": "analise", "use_docker": False}
)

# Etapa 5: Interface do Usu√°rio Interativa

In [None]:
# Widgets para interface
pergunta_input = widgets.Text(placeholder="Digite sua pergunta...")
botao_enviar = widgets.Button(description="Enviar")
saida = widgets.Output()

def on_button_click(b):
    with saida:
        saida.clear_output()
        pergunta = pergunta_input.value
        print(f"Processando: {pergunta}")

        # Iniciar chat com formata√ß√£o controlada
        user_proxy.initiate_chat(
            assistant,
            message=f"""
            Dados dispon√≠veis:
            - Cabe√ßalho (cabecalho_df): {list('/content/202401_NFs_Cabecalho.csv'),
            - Itens (itens_df): {list('/content/202401_NFs_Itens.csv'),
            Pergunta do usu√°rio: {pergunta}

            Instru√ß√µes:
            1. Analise os dataframes relevantes
            2. Execute e retorne apenas
               - Resposta principal
               - M√©todo utilizado
               - Valores num√©ricos destacados
            3. Focando apenas na resposta em linguagem natural
            """
        )

        # Capturar e formatar √∫ltima resposta
        ultima_resposta = assistant.last_message()['content']

        # Filtragem de conte√∫do
        partes_relevantes = [
            linha for linha in ultima_resposta.split('\n')
            if not linha.startswith('```')
        ]

        # Exibir formatado
        display(Markdown(f"""
        **üìù Resposta:**
        {''.join(partes_relevantes[1:-1]) if len(partes_relevantes) > 2 else ''.join(partes_relevantes)}

        _‚ÑπÔ∏è Dados processados em {pd.Timestamp.now().strftime('%d/%m %H:%M')}_
        """))
# Associa a fun√ß√£o ao evento de clique do bot√£o
botao_enviar.on_click(on_button_click)

# Exibe a interface final
print("Sou AutonoMeta, como posso lhe ajudar hoje?.")
display(widgets.VBox([pergunta_input, botao_enviar, saida]))