<a href="https://colab.research.google.com/github/carlosadrianolg/meta-treinamento-ia/blob/main/analisa_notas_fiscais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
# ==========================================================================
# SCRIPT COMPLETO E FINAL (COM CONTAGEM CORRETA DE NOTAS)
# Copie e cole este bloco inteiro em uma c√©lula e execute.
# ==========================================================================

# --------------------------------------------------------------------------
# PASSO 1: INSTALA√á√ÉO DE BIBLIOTECAS
# --------------------------------------------------------------------------
print("\n--- [1/6] Instalando bibliotecas... ---")
!pip install -q pandas==2.2.2
!pip install -q -U langchain langchain-core langchain-community langchain-google-genai streamlit pyngrok
print("‚úÖ Bibliotecas instaladas.")

# --------------------------------------------------------------------------
# PASSO 2: CRIA√á√ÉO DO ARQUIVO app.py
# --------------------------------------------------------------------------
print("\n--- [2/6] Criando o arquivo app.py com l√≥gica de contagem aprimorada... ---")

app_code = """
import streamlit as st
import pandas as pd
import os
import warnings
import io
import zipfile
import contextlib
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage

# --- 1. CONFIGURA√á√ïES E CONSTANTES ---
st.set_page_config(page_title="Analisador de Notas Fiscais", layout="wide")
warnings.filterwarnings("ignore")

KEY_COLUMN = 'CHAVE DE ACESSO'
FORBIDDEN_KEYWORDS = [
    'import os', 'import sys', 'import subprocess', 'import shutil', 'import socket',
    'open(', 'eval(', 'exec(', '__import__', 'globals()', 'locals()',
    'requests.', 'urllib.', 'ctypes', 'pickle',
    'pd.read_csv', 'df.to_csv', 'pd.read_excel', 'to_sql'
]

# --- 2. PROMPTS DOS AGENTES ESPECIALISTAS ---

def get_code_generation_prompt(df_columns: list) -> str:
    \"\"\"Gera o prompt do sistema para o agente que cria o c√≥digo Python, com l√≥gica de contagem correta.\"\"\"

    qty_col_name = next((col for col in df_columns if 'QTD' in col.upper() or 'QUANTIDADE' in col.upper()), 'QUANTIDADE DO ITEM')
    val_col_name = next((col for col in df_columns if 'VL' in col.upper() or 'VALOR' in col.upper()), 'VALOR TOTAL DO ITEM')
    date_col_name = next((col for col in df_columns if 'DATA' in col.upper()), 'DATA DE EMISS√ÉO')

    # MELHORIA PRINCIPAL: Adicionado Dicion√°rio de An√°lise Fiscal para diferenciar contagem de notas e de itens.
    return f'''
    Voc√™ √© um analista de dados s√™nior, especialista em Python e Pandas para an√°lise fiscal.
    Seu objetivo √© gerar c√≥digo Python para responder perguntas sobre o DataFrame `df`.

    **REGRA CR√çTICA 1: USE O `df` EXISTENTE**
    O DataFrame `df` J√Å EST√Å CARREGADO NA MEM√ìRIA. NUNCA gere c√≥digo que tente ler arquivos.

    **CONTEXTO DA ESTRUTURA DOS DADOS:**
    O DataFrame `df` est√° no n√≠vel de **ITEM DE NOTA**. Isso significa que uma √∫nica nota fiscal (com a mesma `{KEY_COLUMN}`) pode aparecer em v√°rias linhas se tiver v√°rios produtos.

    **DICION√ÅRIO DE AN√ÅLISE FISCAL (ESSENCIAL):**
    -   **Para contar NOTAS FISCAIS √öNICAS:** Se a pergunta for sobre "quantidade de notas", "n√∫mero de notas", "contagem de NF-es", use a contagem de chaves √∫nicas: `df['{KEY_COLUMN}'].nunique()`
    -   **Para contar ITENS TOTAIS (LINHAS):** Se a pergunta for sobre "n√∫mero de linhas", "total de registros" ou "itens lan√ßados", use o tamanho do dataframe: `len(df)`
    -   **Para somar QUANTIDADES DE PRODUTOS:** Se a pergunta for sobre "unidades vendidas" ou "total de produtos", some a coluna de quantidade: `df['{qty_col_name}'].sum()`

    Voc√™ √© um especialista em documentos fiscais eletr√¥nicos (NF-e) no Brasil. Antes de executar qualquer an√°lise, considere os seguintes significados dos campos relacionados √† Nota Fiscal
    Use sempre essas defini√ß√µes como base para entender e interpretar os dados:
    **Dados do Cabe√ßalho da Nota Fiscal:
    -   **CHAVE DE ACESSO: N√∫mero √∫nico de 44 d√≠gitos que identifica a nota fiscal eletr√¥nica.
    -   **MODELO_cabecalho: Tipo da nota fiscal (ex: 55 = NF-e, 65 = NFC-e).
    -   **S√âRIE_cabecalho: N√∫mero de s√©rie da nota fiscal (define agrupamento l√≥gico da numera√ß√£o).
    -   **N√öMERO_cabecalho: N√∫mero sequencial da nota fiscal dentro da s√©rie.
    -   **NATUREZA DA OPERA√á√ÉO_cabecalho: Tipo de opera√ß√£o realizada (ex: Venda, Devolu√ß√£o, Transfer√™ncia).
    -   **DATA EMISS√ÉO_cabecalho: Data em que a nota fiscal foi emitida.
    -   **EVENTO MAIS RECENTE: √öltima ocorr√™ncia registrada na nota (ex: Autoriza√ß√£o, Cancelamento, Carta de Corre√ß√£o).
    -   **DATA/HORA EVENTO MAIS RECENTE: Data e hora do √∫ltimo evento da nota fiscal.
    -   **CPF/CNPJ Emitente_cabecalho: N√∫mero do CPF ou CNPJ de quem emitiu a nota.
    -   **RAZ√ÉO SOCIAL EMITENTE_cabecalho: Nome empresarial do emitente.
    -   **INSCRI√á√ÉO ESTADUAL EMITENTE_cabecalho: Inscri√ß√£o estadual do emitente (registro na SEFAZ).
    -   **UF EMITENTE_cabecalho: Estado (Unidade Federativa) do emitente.
    -   **MUNIC√çPIO EMITENTE_cabecalho: Cidade do emitente.
    -   **CNPJ DESTINAT√ÅRIO_cabecalho: CNPJ de quem est√° recebendo a mercadoria ou servi√ßo.
    -   **NOME DESTINAT√ÅRIO_cabecalho: Nome ou raz√£o social do destinat√°rio.
    -   **UF DESTINAT√ÅRIO_cabecalho: Estado do destinat√°rio.
    -   **INDICADOR IE DESTINAT√ÅRIO_cabecalho: Informa se o destinat√°rio √© contribuinte de ICMS (ex: 1 = Contribuinte, 9 = N√£o Contribuinte).
    -   **DESTINO DA OPERA√á√ÉO_cabecalho: Indica se a opera√ß√£o √© interna, interestadual ou para o exterior.
    -   **CONSUMIDOR FINAL_cabecalho: Indica se o destinat√°rio √© consumidor final da mercadoria (Sim/N√£o).
    -   **PRESEN√áA DO COMPRADOR_cabecalho: Informa se a compra foi presencial, pela internet, etc.
    -   **VALOR NOTA FISCAL: Valor total da nota fiscal (soma de produtos + impostos + frete, etc).
    **Dados do Itens da Nota Fiscal:
    -   **MODELO_item: Modelo da NF ao qual o item pertence.
    -   **S√âRIE_item: S√©rie da NF do item.
    -   **N√öMERO_item: N√∫mero da NF do item.
    -   **NATUREZA DA OPERA√á√ÉO_item: Tipo de opera√ß√£o para o item.
    -   **DATA EMISS√ÉO_item: Data de emiss√£o da NF referente ao item.
    -   **CPF/CNPJ Emitente_item: CPF ou CNPJ do emitente da NF do item.
    -   **RAZ√ÉO SOCIAL EMITENTE_item: Nome do emitente da NF do item.
    -   **INSCRI√á√ÉO ESTADUAL EMITENTE_item: IE do emitente da NF do item.
    -   **UF EMITENTE_item: Estado do emitente da NF do item.
    -   **MUNIC√çPIO EMITENTE_item: Cidade do emitente da NF do item.
    -   **CNPJ DESTINAT√ÅRIO_item: CNPJ do destinat√°rio da NF do item.
    -   **NOME DESTINAT√ÅRIO_item: Nome do destinat√°rio da NF do item.
    -   **UF DESTINAT√ÅRIO_item: Estado do destinat√°rio da NF do item.
    -   **INDICADOR IE DESTINAT√ÅRIO_item: Indica situa√ß√£o de ICMS do destinat√°rio para o item.
    -   **DESTINO DA OPERA√á√ÉO_item: Destino da opera√ß√£o (Interno, Interestadual, Exterior).
    -   **CONSUMIDOR FINAL_item: Indica se o destinat√°rio √© consumidor final daquele item.
    -   **PRESEN√áA DO COMPRADOR_item: Informa a forma de presen√ßa do comprador para aquele item.
    **Dados dos Produtos/Servi√ßos:
    -   **N√öMERO PRODUTO: N√∫mero sequencial do item dentro da nota.
    -   **DESCRI√á√ÉO DO PRODUTO/SERVI√áO: Nome ou descri√ß√£o do produto ou servi√ßo.
    -   **C√ìDIGO NCM/SH: C√≥digo fiscal NCM (Nomenclatura Comum do Mercosul) usado para classifica√ß√£o tribut√°ria.
    -   **NCM/SH (TIPO DE PRODUTO): Descri√ß√£o ou grupo correspondente ao NCM (ex: Bebidas, Eletr√¥nicos).
    -   **CFOP: C√≥digo Fiscal de Opera√ß√µes e Presta√ß√µes ‚Äì indica a natureza da movimenta√ß√£o (ex: 5102 = venda dentro do estado).
    -   **QUANTIDADE: Quantidade do item.
    -   **UNIDADE: Unidade de medida (ex: UN = unidade, KG = quilo).
    -   **VALOR UNIT√ÅRIO: Valor de cada unidade do item.
    -   **VALOR TOTAL: Valor total do item (quantidade √ó valor unit√°rio).

    **REGRA CR√çTICA 2: FORMATA√á√ÉO DA SA√çDA**
    Ao exibir dados com `print()`, voc√™ DEVE format√°-los para o padr√£o brasileiro.

    **MANUAL DE FORMATA√á√ÉO:**
    1.  **DATAS:** Use `.dt.strftime('%d/%m/%Y %H:%M:%S')`.
    2.  **VALORES MONET√ÅRIOS:** Use `.apply(lambda x: f'R$ {{x:_.2f}}'.replace('.', ',').replace('_', '.'))`.
    3.  **QUANTIDADES:** Use `.apply(lambda x: f'{{x:_.3f}}'.replace('.', ',').replace('_', '.'))`.

    **AVISO:** Aplique a formata√ß√£o APENAS no resultado final. N√£o formate colunas que ainda ser√£o usadas em c√°lculos.

    **REGRAS FINAIS:**
    1.  Sua resposta deve ser APENAS o bloco de c√≥digo Python, em caso de erro, retornar a mensagem de erro.
    2.  O c√≥digo DEVE usar `print()` para exibir o resultado final.
    3.  Responder somente perguntas relacionadas ao dataframe.
    '''

def get_explanation_prompt(user_prompt: str, generated_code: str, raw_answer: str) -> str:
    \"\"\"Gera o prompt para o agente de explica√ß√£o.\"\"\"
    return f'''
    Voc√™ √© um formatador de dados. Sua √∫nica tarefa √© apresentar o resultado bruto de uma an√°lise de dados de forma clara e profissional. Os dados j√° est√£o formatados.

    **REGRA DE OURO: N√ÉO ALUCINE. N√ÉO INVENTE DADOS. N√ÉO RE-FORMATE N√öMEROS OU DATAS.**

    **CONTEXTO FORNECIDO:**
    1.  **Pergunta do Usu√°rio:** "{user_prompt}"
    2.  **Resultado Bruto do C√≥digo (J√° formatado):**
        ```
        {raw_answer}
        ```

    **SUAS INSTRU√á√ïES:**
    1.  Apresente o "Resultado Bruto do C√≥digo" de forma limpa e direta.
    2.  Use a "Pergunta do Usu√°rio" para dar um t√≠tulo ou uma frase introdut√≥ria curta.
    3.  Use Markdown (negrito, listas) para melhorar a legibilidade.

    Agora, formate a resposta final.
    '''

# --- 3. FUN√á√ïES AUXILIARES ---
@st.cache_data
def process_zip_and_load(uploaded_file):
    try:
        df_cabecalho, df_itens = None, None
        with zipfile.ZipFile(uploaded_file, 'r') as zf:
            for filename in zf.namelist():
                if not filename.endswith('.csv') or '__MACOSX' in filename: continue
                if 'cabecalho' in filename.lower() or 'header' in filename.lower():
                    with zf.open(filename) as f: df_cabecalho = pd.read_csv(f, sep=',', decimal='.')
                elif 'itens' in filename.lower() or 'items' in filename.lower():
                    with zf.open(filename) as f: df_itens = pd.read_csv(f, sep=',', decimal='.')
        if df_cabecalho is None or df_itens is None:
            st.error("ERRO: O .zip deve conter um CSV de 'cabe√ßalho' e um de 'itens'."); return None
        if KEY_COLUMN not in df_cabecalho.columns or KEY_COLUMN not in df_itens.columns:
            st.error(f"ERRO: A coluna de uni√£o '{KEY_COLUMN}' n√£o foi encontrada."); return None
        df_merged = pd.merge(df_cabecalho, df_itens, on=KEY_COLUMN, how='left', suffixes=('_cabecalho', '_item'))

        for col in df_merged.columns:
            if 'DATA' in col.upper():
                try: df_merged[col] = pd.to_datetime(df_merged[col], errors='coerce')
                except Exception: pass

        st.success(f"Arquivos unidos! DataFrame com {df_merged.shape[0]} linhas e {df_merged.shape[1]} colunas.")
        return df_merged
    except Exception as e:
        st.error(f"ERRO CR√çTICO ao processar o arquivo zip: {e}"); return None

def is_code_safe(code: str) -> (bool, str):
    for keyword in FORBIDDEN_KEYWORDS:
        if keyword in code: return False, f"Execu√ß√£o bloqueada. Comando n√£o permitido: `{keyword}`."
    return True, "C√≥digo seguro."

def execute_python_code(code: str, df: pd.DataFrame):
    buffer = io.StringIO()
    local_vars = {'df': df.copy(), 'pd': pd}
    try:
        with contextlib.redirect_stdout(buffer): exec(code, {}, local_vars)
        return buffer.getvalue() or "O c√≥digo executou sem gerar sa√≠da."
    except Exception as e: return f"Erro ao executar o c√≥digo gerado:\\n```\\n{e}\\n```"

# --- 4. L√ìGICA PRINCIPAL DA APLICA√á√ÉO ---
def main():
    st.title("ü§ñ Analisador Inteligente de Notas Fiscais")
    st.write("Fa√ßa o upload de um .zip com os CSVs. A IA entende a diferen√ßa entre notas e itens.")

    if 'GOOGLE_API_KEY' not in os.environ:
        st.error("Chave de API do Google n√£o encontrada."); st.stop()

    if "messages" not in st.session_state: st.session_state.messages = []
    if "llm" not in st.session_state: st.session_state.llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash", temperature=0.2)

    uploaded_zip = st.file_uploader("Anexe seu arquivo .zip aqui", type="zip")

    if uploaded_zip:
        if "df" not in st.session_state or st.session_state.get('uploaded_file_name') != uploaded_zip.name:
            with st.spinner("Processando e analisando seus arquivos..."):
                df = process_zip_and_load(uploaded_zip)
                if df is not None:
                    st.session_state.df = df
                    st.session_state.messages = [{"role": "assistant", "content": "Dados carregados! Pode perguntar."}]
                    st.session_state.uploaded_file_name = uploaded_zip.name
                    st.rerun()
                else:
                    st.session_state.pop('df', None); st.session_state.pop('uploaded_file_name', None)

    if "df" not in st.session_state:
        st.info("‚òùÔ∏è Aguardando o upload de um arquivo .zip para iniciar."); return

    for message in st.session_state.messages:
        with st.chat_message(message["role"]): st.markdown(message["content"])

    if prompt := st.chat_input("Quantas notas fiscais existem?"):
        st.session_state.messages.append({"role": "user", "content": prompt})
        with st.chat_message("user"): st.markdown(prompt)
        with st.chat_message("assistant"): handle_chat(prompt)

def handle_chat(prompt: str):
    df = st.session_state.df
    llm = st.session_state.llm

    with st.spinner("1/3 - Gerando c√≥digo Python com a l√≥gica correta..."):
        code_prompt = get_code_generation_prompt(list(df.columns))
        llm_messages = [SystemMessage(content=code_prompt)] + [HumanMessage(content=m['content']) if m['role'] == 'user' else AIMessage(content=m['content']) for m in st.session_state.messages[-4:]]
        try:
            code_response = llm.invoke(llm_messages)
            generated_code = code_response.content.strip().replace("```python", "").replace("```", "").strip()
        except Exception as e:
            st.error(f"Erro ao gerar c√≥digo: {e}"); st.stop()

    with st.spinner("2/3 - Validando e executando o c√≥digo..."):
        is_safe, reason = is_code_safe(generated_code)
        if not is_safe:
            st.error(reason); st.stop()
        with st.expander("C√≥digo Gerado e Executado pela IA"): st.code(generated_code, language="python")
        raw_answer = execute_python_code(generated_code, df)

    with st.spinner("3/3 - Formatando a resposta final..."):
        explanation_prompt = get_explanation_prompt(prompt, generated_code, raw_answer)
        try:
            explanation_response = llm.invoke(explanation_prompt)
            final_explanation = explanation_response.content
        except Exception as e:
            st.error(f"Erro ao gerar a explica√ß√£o final: {e}")
            final_explanation = f"**Resultado Bruto:**\\n```\\n{raw_answer}\\n```"
        st.markdown(final_explanation)
        st.session_state.messages.append({"role": "assistant", "content": final_explanation})

if __name__ == "__main__":
    main()
"""

with open('app.py', 'w', encoding='utf-8') as f:
    f.write(app_code)

print("‚úÖ Arquivo app.py recriado com sucesso.")


# --------------------------------------------------------------------------
# PASSOS 3 a 6 (sem altera√ß√µes)
# --------------------------------------------------------------------------
print("\n--- [3/6] Finalizando sess√µes ngrok anteriores... ---")
from pyngrok import ngrok
try:
    for tunnel in ngrok.get_tunnels(): ngrok.disconnect(tunnel.public_url)
    ngrok.kill()
except: pass
print("‚úÖ Sess√µes ngrok anteriores finalizadas.")

print("\n--- [4/6] Configurando as chaves de API... ---")
from google.colab import userdata
import os
try:
    os.environ['GOOGLE_API_KEY'] = userdata.get('GOOGLE_API_KEY')
    ngrok.set_auth_token(userdata.get('NGROK_AUTHTOKEN'))
    print("‚úÖ Chaves de API configuradas.")
except userdata.SecretNotFoundError as e:
    print(f"‚ùå ERRO: Secret n√£o encontrado: {e}."); raise

print("\n--- [5/6] Iniciando o servidor Streamlit em background... ---")
!nohup streamlit run app.py &

print("\n--- [6/6] Aguardando o servidor Streamlit iniciar (10 segundos)... ---")
import time
time.sleep(10)

print("‚úÖ Servidor pronto. Criando o t√∫nel p√∫blico com ngrok...")
try:
    public_url = ngrok.connect(8501)
    print("\n\n======================================================================================")
    print("‚úÖ APLICA√á√ÉO PRONTA!")
    print(f"Clique no link a seguir para abrir o seu aplicativo: {public_url}")
    print("======================================================================================")
except Exception as e:
    print(f"‚ùå ERRO AO CRIAR O T√öNEL NGROK: {e}")


--- [1/6] Instalando bibliotecas... ---




‚úÖ Bibliotecas instaladas.

--- [2/6] Criando o arquivo app.py com l√≥gica de contagem aprimorada... ---
‚úÖ Arquivo app.py recriado com sucesso.

--- [3/6] Finalizando sess√µes ngrok anteriores... ---
‚úÖ Sess√µes ngrok anteriores finalizadas.

--- [4/6] Configurando as chaves de API... ---
‚úÖ Chaves de API configuradas.

--- [5/6] Iniciando o servidor Streamlit em background... ---
nohup: appending output to 'nohup.out'

--- [6/6] Aguardando o servidor Streamlit iniciar (10 segundos)... ---
‚úÖ Servidor pronto. Criando o t√∫nel p√∫blico com ngrok...


‚úÖ APLICA√á√ÉO PRONTA!
Clique no link a seguir para abrir o seu aplicativo: NgrokTunnel: "https://0d19-34-72-84-66.ngrok-free.app" -> "http://localhost:8501"
