# üîß ETAPA UNIFICADA: Carregamento do Manifesto, do Pipeline e Extra√ß√£o do Signature

Neste bloco, vamos:
1Ô∏è‚É£ Verificar a exist√™ncia e ler o manifesto v1-final.  
2Ô∏è‚É£ Extrair o `run_id` e carregar o pipeline congelado via MLflow.  
3Ô∏è‚É£ Recuperar e imprimir o schema de entrada (`signature.inputs`) do modelo.

Objetivo: garantir que `modelo_congelado` esteja sempre definido antes de extrair seu `signature`, tudo num s√≥ comando rastre√°vel.


In [4]:
import os
import json
import mlflow.pyfunc
from mlflow.types import DataType

# 1Ô∏è‚É£ Verifica√ß√£o formal do manifesto
manifesto_path = "/workspace/models/congelados/manifesto_modelo_rf_v1.json"
if not os.path.exists(manifesto_path):
    raise FileNotFoundError(f"üö´ Manifesto n√£o encontrado: {manifesto_path}")

# 2Ô∏è‚É£ Leitura literal do JSON
with open(manifesto_path, "r") as f:
    manifesto = json.load(f)

# 3Ô∏è‚É£ Extra√ß√£o e valida√ß√£o do run_id
run_id = manifesto.get("run_id")
if not isinstance(run_id, str):
    raise KeyError("üö´ 'run_id' ausente ou inv√°lido no manifesto")

# 4Ô∏è‚É£ Defini√ß√£o e carregamento do modelo congelado
mlflow.set_tracking_uri("file:/workspace/.mlruns")
model_uri = f"runs:/{run_id}/model"
modelo_congelado = mlflow.pyfunc.load_model(model_uri)

print("‚úÖ Manifesto e modelo carregados. run_id:", run_id)
print("üîó model_uri:", model_uri)

# 5Ô∏è‚É£ COMANDO PRINCIPAL: extra√ß√£o e impress√£o do signature.inputs
print("\nüóÇÔ∏è signature.inputs:")
for field in modelo_congelado.metadata.signature.inputs:
    print(f"‚Ä¢ {field.name:<50} | Tipo MLflow: {field.type}")


  from .autonotebook import tqdm as notebook_tqdm
Downloading artifacts:   0%|          | 0/1 [00:00<?, ?it/s]
Downloading artifacts: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 7/7 [00:00<00:00, 44.11it/s]   


‚úÖ Manifesto e modelo carregados. run_id: 7077ebfbf696487384bd5a59034170c5
üîó model_uri: runs:/7077ebfbf696487384bd5a59034170c5/model

üóÇÔ∏è signature.inputs:
‚Ä¢ Age                                                | Tipo MLflow: DataType.double
‚Ä¢ Age_Binned                                         | Tipo MLflow: DataType.string
‚Ä¢ Amount_invested_monthly                            | Tipo MLflow: DataType.double
‚Ä¢ Amount_invested_monthly_Binned                     | Tipo MLflow: DataType.string
‚Ä¢ Amount_invested_monthly_Binned_High                | Tipo MLflow: DataType.boolean
‚Ä¢ Amount_invested_monthly_Binned_Low                 | Tipo MLflow: DataType.boolean
‚Ä¢ Amount_invested_monthly_Binned_Moderate            | Tipo MLflow: DataType.boolean
‚Ä¢ Annual_Income                                      | Tipo MLflow: DataType.double
‚Ä¢ Annual_Income_Binned                               | Tipo MLflow: DataType.string
‚Ä¢ Changed_Credit_Limit                               | Ti

# üîß ETAPA 3 (CORRIGIDA): Detec√ß√£o de Pydantic Models na API

Neste bloco, vamos:
1Ô∏è‚É£ Percorrer os arquivos `.py` do diret√≥rio da API.
2Ô∏è‚É£ Detectar classes que herdam de `pydantic.BaseModel`.
3Ô∏è‚É£ Imprimir cada classe encontrada e seus campos (nome e tipo).

Objetivo: descobrir programaticamente o nome correto do modelo de requisi√ß√£o e seu schema, sem suposi√ß√µes.


In [6]:
import os
import ast
import importlib.util
from pydantic import BaseModel

# Diret√≥rio raiz da API (ajuste se necess√°rio)
api_dir = "/workspace/api"  # ou o caminho correto do seu c√≥digo

models = []

# 1Ô∏è‚É£ Percorre arquivos .py na pasta da API
for root, _, files in os.walk(api_dir):
    for fname in files:
        if not fname.endswith(".py"):
            continue
        path = os.path.join(root, fname)
        # 2Ô∏è‚É£ Parse AST para encontrar classes BaseModel
        with open(path, "r") as f:
            tree = ast.parse(f.read(), filename=path)
        for node in tree.body:
            if isinstance(node, ast.ClassDef):
                for base in node.bases:
                    if getattr(base, 'attr', None) == 'BaseModel' or getattr(base, 'id', None) == 'BaseModel':
                        models.append((path, node.name))

# 3Ô∏è‚É£ Impress√£o das classes Pydantic encontradas
if not models:
    print("‚ö†Ô∏è Nenhuma classe BaseModel encontrada em", api_dir)
else:
    for file_path, model_name in models:
        print(f"‚Ä¢ Arquivo: {file_path}")
        print(f"  Classe: {model_name}")
        # Importa dinamicamente e imprime campos
        spec = importlib.util.spec_from_file_location("mod", file_path)
        mod = importlib.util.module_from_spec(spec)
        spec.loader.exec_module(mod)
        cls = getattr(mod, model_name)
        if issubclass(cls, BaseModel):
            print("  Campos:")
            for name, field in cls.__fields__.items():
                print(f"    - {name}: {field.outer_type_}")
        print()


‚ö†Ô∏è Nenhuma classe BaseModel encontrada em /workspace/api


In [7]:
# üîß ETAPA 3 (LOCALIZA√á√ÉO): Scan de todo o projeto em busca de classes Pydantic
"""
Esta c√©lula percorre recursivamente o diret√≥rio /workspace,
analisa cada .py e imprime o caminho e nome de toda classe que herda de BaseModel.
"""
import os, ast

# comando principal: varre o reposit√≥rio
for root, _, files in os.walk("/workspace"):
    for fname in files:
        if not fname.endswith(".py"):
            continue
        path = os.path.join(root, fname)
        with open(path, "r", encoding="utf-8") as f:
            tree = ast.parse(f.read(), filename=path)
        for node in tree.body:
            if isinstance(node, ast.ClassDef):
                for base in node.bases:
                    if getattr(base, "id", "") == "BaseModel" or getattr(base, "attr", "") == "BaseModel":
                        print(f"‚Ä¢ {path}  ->  class {node.name}")


‚Ä¢ /workspace/api.py  ->  class Item


# üîß ETAPA 3 (CORRIGIDO): Extra√ß√£o do Schema da API via Pydantic `Item`

Neste bloco, vamos:
1Ô∏è‚É£ Importar `Item` correto da API.  
2Ô∏è‚É£ Iterar sobre `Item.model_fields` para obter cada campo e sua annotation.  
3Ô∏è‚É£ Imprimir nome do campo e tipo, garantindo compatibilidade com Pydantic v2.

Objetivo: capturar fielmente o schema que a API espera, sem erros de atributo.


In [9]:
# üîß ETAPA 3: Extra√ß√£o de campos de Item (Pydantic v2) na API

from api import Item  # modelo correto encontrado

# COMANDO PRINCIPAL: impress√£o dos campos e tipos via model_fields
for nome, field in Item.model_fields.items():
    print(f"‚Ä¢ {nome:<30} | Tipo API (Pydantic): {field.annotation}")

# Em fallback, poder√≠amos usar get_type_hints(Item) se model_fields n√£o existir:
# 
# from typing import get_type_hints
# for nome, typ in get_type_hints(Item).items():
#     print(f"‚Ä¢ {nome:<30} | Tipo API (anota√ß√£o): {typ}")


‚Ä¢ data                           | Tipo API (Pydantic): typing.List[typing.Dict[str, typing.Any]]


# üîß ETAPA 4 (CORRIGIDA): Detec√ß√£o de Widgets no Formul√°rio Streamlit

Neste bloco, vamos:
1Ô∏è‚É£ Parsear `/workspace/streamlit_app_V1.py` recursivamente.  
2Ô∏è‚É£ Usar `ast.walk` para localizar **todos** os blocos `with st.form(...)`.  
3Ô∏è‚É£ Dentro de cada bloco de formul√°rio, identificar chamadas a widgets `st.*_input`, `st.selectbox`, etc.  
4Ô∏è‚É£ Extrair o par√¢metro `label` (primeiro argumento literal) e o valor de `key` (se informado).  
5Ô∏è‚É£ Imprimir nome do widget, label, key e arquivo para mapeamento completo.

Objetivo: capturar fielmente quais campos o Streamlit coleta no formul√°rio.


In [12]:
import ast

# 1Ô∏è‚É£ Carrega e parseia o c√≥digo
path = "/workspace/streamlit_app_V1.py"
with open(path, "r", encoding="utf-8") as f:
    tree = ast.parse(f.read(), filename=path)

print(f"Campos dentro de st.form em {path}:")

# 2Ô∏è‚É£ Varre toda a AST em busca de blocos with st.form(...)
for node in ast.walk(tree):
    if isinstance(node, ast.With):
        for item in node.items:
            expr = item.context_expr
            if isinstance(expr, ast.Call) and getattr(expr.func, "attr", "") == "form":
                # 3Ô∏è‚É£ Dentro do form, varre chamadas a widgets
                for stmt in node.body:
                    # procura chamadas st.widget(...)
                    for call in ast.walk(stmt):
                        if isinstance(call, ast.Call) and isinstance(call.func, ast.Attribute):
                            if getattr(call.func.value, "id", "") == "st":
                                widget = call.func.attr
                                # extrai label (first arg literal)
                                label = None
                                if call.args and isinstance(call.args[0], ast.Constant):
                                    label = call.args[0].value
                                # extrai key (kwarg 'key')
                                key = None
                                for kw in call.keywords:
                                    if kw.arg == "key" and isinstance(kw.value, ast.Constant):
                                        key = kw.value.value
                                print(f"‚Ä¢ st.{widget:<15} | label: {label!r} | key: {key!r}")


Campos dentro de st.form em /workspace/streamlit_app_V1.py:
‚Ä¢ st.selectbox       | label: 'Idade' | key: None
‚Ä¢ st.selectbox       | label: 'Ocupa√ß√£o' | key: None
‚Ä¢ st.selectbox       | label: 'Perfil de Cr√©dito' | key: None
‚Ä¢ st.selectbox       | label: 'Pagamento M√≠nimo' | key: None
‚Ä¢ st.number_input    | label: 'Idade do Hist√≥rico de Cr√©dito' | key: None
‚Ä¢ st.selectbox       | label: 'Sal√°rio Mensal' | key: None
‚Ä¢ st.selectbox       | label: 'N¬∫ de Cart√µes' | key: None
‚Ä¢ st.selectbox       | label: 'Pagamentos Atrasados' | key: None
‚Ä¢ st.selectbox       | label: 'Renda Anual' | key: None
‚Ä¢ st.selectbox       | label: 'D√≠vida' | key: None
‚Ä¢ st.selectbox       | label: 'Taxa de Juros' | key: None
‚Ä¢ st.selectbox       | label: 'Mudan√ßa de Limite' | key: None
‚Ä¢ st.selectbox       | label: 'Hist√≥rico Binned' | key: None
‚Ä¢ st.selectbox       | label: 'Utiliza√ß√£o de Cr√©dito' | key: None
‚Ä¢ st.selectbox       | label: 'Dias de Atraso' | key: None


# üîß ETAPA 5 (CORRIGIDA): Cria√ß√£o do diret√≥rio e salvamento da tabela de mapeamento

Nesta c√©lula, vamos:
1Ô∏è‚É£ Garantir que o diret√≥rio `/workspace/docs` exista.
2Ô∏è‚É£ Salvar o DataFrame de mapeamento em `/workspace/docs/variable_mapping.csv`.

Objetivo: persistir a ‚Äúsingle source of truth‚Äù sem erros de diret√≥rio.


In [14]:
import os
import pandas as pd
from mlflow.types import DataType

# (Reutilize o df_map j√° constru√≠do na c√©lula anterior)

# 1Ô∏è‚É£ Cria√ß√£o do diret√≥rio se necess√°rio
output_dir = "/workspace/docs"
os.makedirs(output_dir, exist_ok=True)

# 2Ô∏è‚É£ COMANDO PRINCIPAL: salvar o CSV
output_path = os.path.join(output_dir, "variable_mapping.csv")
df_map.to_csv(output_path, index=False)

# Impress√£o de verifica√ß√£o
print("‚úÖ Tabela de mapeamento inicial salva em:", output_path)
print(df_map.head(10))


‚úÖ Tabela de mapeamento inicial salva em: /workspace/docs/variable_mapping.csv
                              pipeline_var pipeline_type api_field  \
0                                      Age        double      data   
1                               Age_Binned        string      data   
2                  Amount_invested_monthly        double      data   
3           Amount_invested_monthly_Binned        string      data   
4      Amount_invested_monthly_Binned_High       boolean      data   
5       Amount_invested_monthly_Binned_Low       boolean      data   
6  Amount_invested_monthly_Binned_Moderate       boolean      data   
7                            Annual_Income        double      data   
8                     Annual_Income_Binned        string      data   
9                     Changed_Credit_Limit        double      data   

               api_type streamlit_label streamlit_widget  
0  List[Dict[str, Any]]            None             None  
1  List[Dict[str, Any]]        

In [15]:
# üîß ETAPA 3: Cria√ß√£o do M√≥dulo de Mapeamento de Vari√°veis

# Descri√ß√£o:
# Esta c√©lula gera automaticamente o arquivo de configura√ß√£o `mapping.py`,
# contendo o dicion√°rio VARIABLE_MAP com todas as vari√°veis do pipeline.
# Cada entrada vem inicializada com label, widget e api = None,
# para que voc√™ preencha em seguida.

import os

# 1Ô∏è‚É£ Coleta das vari√°veis do pipeline
pipeline_vars = [field.name for field in modelo_congelado.metadata.signature.inputs]

# 2Ô∏è‚É£ Prepara o dicion√°rio esqueleto
map_entries = {
    var: {"label": None, "widget": None, "api": None}
    for var in pipeline_vars
}

# 3Ô∏è‚É£ Gera o arquivo mapping.py
mapping_path = "/workspace/mapping.py"
os.makedirs(os.path.dirname(mapping_path), exist_ok=True)
with open(mapping_path, "w", encoding="utf-8") as f:
    f.write("# Auto-generated mapping module\n")
    f.write("VARIABLE_MAP = {\n")
    for var, cfg in map_entries.items():
        f.write(f"    '{var}': {cfg},\n")
    f.write("}\n")

# COMANDO PRINCIPAL: verifica√ß√£o de cria√ß√£o
if os.path.exists(mapping_path):
    print(f"‚úÖ mapping.py criado com sucesso em: {mapping_path}")
else:
    raise FileNotFoundError(f"‚ùå Falha ao criar mapping.py em: {mapping_path}")

print("üîó Agora abra mapping.py e preencha os campos 'label', 'widget' e 'api' para cada vari√°vel.")


‚úÖ mapping.py criado com sucesso em: /workspace/mapping.py
üîó Agora abra mapping.py e preencha os campos 'label', 'widget' e 'api' para cada vari√°vel.


üîß ETAPA 4: Gera√ß√£o Din√¢mica do Modelo Pydantic a partir de VARIABLE_MAP
Nesta c√©lula, vamos criar automaticamente a classe RequestPayload do Pydantic com base no dicion√°rio VARIABLE_MAP.
Cada campo do modelo ter√° o mesmo nome definido em "api" e seu tipo ser√° inferido a partir do tipo MLflow (double/long ‚Üí float, string ‚Üí str, boolean ‚Üí bool).

In [16]:
from pydantic import create_model
from typing import Any, Dict, List
from mlflow.types import DataType
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: cria√ß√£o din√¢mica do modelo RequestPayload
fields = {}
for var, cfg in VARIABLE_MAP.items():
    api_name = cfg["api"]
    if api_name:
        # encontra o tipo MLflow para essa vari√°vel
        field_type = next(
            f.type for f in modelo_congelado.metadata.signature.inputs if f.name == var
        )
        # mapeia DataType ‚Üí Python type
        if field_type in (DataType.double, DataType.long):
            py_type = float
        elif field_type == DataType.boolean:
            py_type = bool
        else:
            py_type = str
        fields[api_name] = (py_type, ...)
        
RequestPayload = create_model("RequestPayload", **fields)

# Verifica√ß√£o
print("‚úÖ RequestPayload criado com campos:", list(RequestPayload.__fields__.keys()))


‚úÖ RequestPayload criado com campos: []


/tmp/ipykernel_11246/1286408288.py:27: PydanticDeprecatedSince20: The `__fields__` attribute is deprecated, use `model_fields` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.11/migration/
  print("‚úÖ RequestPayload criado com campos:", list(RequestPayload.__fields__.keys()))


üîß ETAPA 4.1: Gera√ß√£o do Modelo Pydantic com Fallback de api
Nesta c√©lula, ajustamos a gera√ß√£o do RequestPayload para que, se em VARIABLE_MAP o campo "api" estiver None, seja usado o pr√≥prio nome da vari√°vel do pipeline como fallback. Isso garante que todos os inputs do signature sejam inclu√≠dos no modelo.

In [17]:
from pydantic import create_model
from mlflow.types import DataType
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: cria√ß√£o din√¢mica do modelo RequestPayload com fallback
fields = {}
for var, cfg in VARIABLE_MAP.items():
    api_name = cfg["api"] or var
    # busca o tipo MLflow no signature
    field_type = next(
        f.type for f in modelo_congelado.metadata.signature.inputs if f.name == var
    )
    # mapeia DataType para tipo Python
    if field_type in (DataType.double, DataType.long):
        py_type = float
    elif field_type == DataType.boolean:
        py_type = bool
    else:
        py_type = str
    fields[api_name] = (py_type, ...)
    
RequestPayload = create_model("RequestPayload", **fields)

# Verifica√ß√£o
print("‚úÖ RequestPayload agora criado com campos:", list(RequestPayload.model_fields.keys()))


‚úÖ RequestPayload agora criado com campos: ['Age', 'Age_Binned', 'Amount_invested_monthly', 'Amount_invested_monthly_Binned', 'Amount_invested_monthly_Binned_High', 'Amount_invested_monthly_Binned_Low', 'Amount_invested_monthly_Binned_Moderate', 'Annual_Income', 'Annual_Income_Binned', 'Changed_Credit_Limit', 'Changed_Credit_Limit_Binned', 'Credit_History_Age', 'Credit_History_Age_Binned', 'Credit_History_Age_Months', 'Credit_Mix', 'Credit_Utilization_Ratio', 'Credit_Utilization_Ratio_Binned', 'Credit_Utilization_Ratio_Binned_High', 'Credit_Utilization_Ratio_Binned_Low', 'Credit_Utilization_Ratio_Binned_Moderate', 'Delay_from_due_date', 'Delay_from_due_date_Binned', 'Interest_Rate', 'Interest_Rate_Binned', 'Month_August', 'Month_February', 'Month_January', 'Month_July', 'Month_June', 'Month_March', 'Month_May', 'Month_November', 'Month_October', 'Month_September', 'Monthly_Balance', 'Monthly_Balance_Binned', 'Monthly_Balance_Binned_High', 'Monthly_Balance_Binned_Low', 'Monthly_Balance

üîß ETAPA 5: Gera√ß√£o Din√¢mica do Formul√°rio Streamlit a partir de VARIABLE_MAP
Nesta c√©lula, vamos construir o formul√°rio st.form automaticamente com base em VARIABLE_MAP.
Cada vari√°vel ser√° renderizada usando o widget definido em "widget" e com o r√≥tulo "label".
Objetivo: manter UI e API totalmente sincronizadas com a mesma fonte de mapeamento.

python
Copiar
Editar


In [18]:
import streamlit as st
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: constru√ß√£o do formul√°rio din√¢mico
with st.form("credito_form"):
    inputs = {}
    for var, cfg in VARIABLE_MAP.items():
        label = cfg["label"]
        widget = cfg["widget"]
        key = var
        if label is None or widget is None:
            continue  # pula vari√°veis n√£o mapeadas
        if widget == "selectbox":
            # voc√™ deve definir get_options(var) conforme o dom√≠nio de cada campo
            inputs[var] = st.selectbox(label, options=get_options(var), key=key)
        elif widget == "number_input":
            inputs[var] = st.number_input(label, key=key)
        # adicione outros tipos de widget conforme cfg["widget"]
    if st.form_submit_button("Enviar"):
        st.json(inputs)


2025-07-23 20:00:21.161 
  command:

    streamlit run /usr/local/lib/python3.10/site-packages/ipykernel_launcher.py [ARGUMENTS]


üîß ETAPA 5: Implementa√ß√£o de get_options(var) para os Selectboxes
Nesta c√©lula, vamos definir a fun√ß√£o get_options(var) que retorna a lista de op√ß√µes para cada campo do formul√°rio, usando o VARIABLE_MAP e, quando dispon√≠vel, extraindo do dataset treinado (por exemplo um CSV de categorias).
Objetivo: fornecer as op√ß√µes corretas a cada st.selectbox sem hard-code.

In [19]:
import pandas as pd
from mapping import VARIABLE_MAP

# 1Ô∏è‚É£ Carrega o dataset de refer√™ncia (categorias originais)
df = pd.read_csv("/workspace/data/curated/train_curated_v2.csv")

# 2Ô∏è‚É£ Constroi um dicion√°rio de op√ß√µes a partir dos dados
OPTIONS_MAP = {}
for var, cfg in VARIABLE_MAP.items():
    if cfg["widget"] == "selectbox":
        # se for coluna num√©rica cont√≠nua, opcional: discretize ou forne√ßa faixas
        if pd.api.types.is_numeric_dtype(df[var]):
            OPTIONS_MAP[var] = sorted(df[var].unique().tolist())
        else:
            OPTIONS_MAP[var] = sorted(df[var].dropna().unique().tolist())

# 3Ô∏è‚É£ Define a fun√ß√£o get_options
def get_options(var_name: str):
    """Retorna lista de op√ß√µes para o selectbox de var_name."""
    return OPTIONS_MAP.get(var_name, [])

# Verifica√ß√£o
print("‚úÖ Op√ß√µes carregadas para exemplos:", 
      {k: OPTIONS_MAP[k][:5] for k in list(OPTIONS_MAP)[:5]})


‚úÖ Op√ß√µes carregadas para exemplos: {}


O resultado {} indica que nenhum campo em VARIABLE_MAP tinha cfg["widget"] == "selectbox", logo o OPTIONS_MAP ficou vazio.
Pr√≥ximo passo: atualizar automaticamente o VARIABLE_MAP (e portanto o arquivo mapping.py) com os label, widget e api extra√≠dos do seu streamlit_app_V1.py, para que o loop de gera√ß√£o de op√ß√µes encontre de fato os campos mapeados.




In [20]:
import os, re, json
from mapping import VARIABLE_MAP

# 1Ô∏è‚É£ Associa cada label do formul√°rio √† vari√°vel do pipeline
UI_LABEL_TO_VAR = {
    'Idade': 'Age',
    'Ocupa√ß√£o': 'Occupation',
    'Perfil de Cr√©dito': 'Credit_Mix',
    'Pagamento M√≠nimo': 'Payment_of_Min_Amount',
    'Idade do Hist√≥rico de Cr√©dito': 'Credit_History_Age_Months',
    'Sal√°rio Mensal': 'Monthly_Inhand_Salary',
    'N¬∫ de Cart√µes': 'Num_Credit_Card',
    'Pagamentos Atrasados': 'Num_of_Delayed_Payment',
    'Renda Anual': 'Annual_Income',
    'D√≠vida': 'Outstanding_Debt',
    'Taxa de Juros': 'Interest_Rate',
    'Mudan√ßa de Limite': 'Changed_Credit_Limit',
    'Hist√≥rico Binned': 'Credit_History_Age_Binned',
    'Utiliza√ß√£o de Cr√©dito': 'Credit_Utilization_Ratio',
    'Dias de Atraso': 'Delay_from_due_date',
    'Balan√ßo Mensal': 'Monthly_Balance',
    'N¬∫ de Contas Banc√°rias': 'Num_Bank_Accounts',
    'Consultas de Cr√©dito': 'Num_Credit_Inquiries',
    'N¬∫ de Empr√©stimos': 'Num_of_Loan',
    'EMI Mensal': 'Total_EMI_per_month',
    'Tipo de Empr√©stimo': 'Type_of_Loan',
    'Investimento Mensal': 'Amount_invested_monthly'
}

# 2Ô∏è‚É£ L√™ o c√≥digo do seu Streamlit e detecta widget para cada label
with open('/workspace/streamlit_app_V1.py', 'r', encoding='utf-8') as f:
    code = f.read()

for label, var in UI_LABEL_TO_VAR.items():
    # procura st.selectbox ou st.number_input com este label
    m = re.search(rf"st\.(selectbox|number_input)\(\s*label=['\"]{re.escape(label)}['\"]", code)
    if m and var in VARIABLE_MAP:
        VARIABLE_MAP[var]['label']  = label
        VARIABLE_MAP[var]['widget'] = m.group(1)
        VARIABLE_MAP[var]['api']    = var

# 3Ô∏è‚É£ Regrava mapping.py com o novo VARIABLE_MAP preenchido
mapping_path = '/workspace/mapping.py'
with open(mapping_path, 'w', encoding='utf-8') as f:
    f.write('# Auto-generated mapping module\nVARIABLE_MAP = ')
    json.dump(VARIABLE_MAP, f, indent=4, ensure_ascii=False)

print(f"‚úÖ mapping.py atualizado em: {mapping_path}")


‚úÖ mapping.py atualizado em: /workspace/mapping.py


üîß ETAPA 5: Reconstru√ß√£o de OPTIONS_MAP e get_options
Com o mapping.py agora devidamente preenchido, reconstruiremos o dicion√°rio OPTIONS_MAP a partir do dataset de refer√™ncia, garantindo que para cada vari√°vel com widget == "selectbox" existam op√ß√µes reais. Em seguida, definiremos a fun√ß√£o get_options para uso nos st.selectbox.

In [21]:
import pandas as pd
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: gera√ß√£o de OPTIONS_MAP a partir do CSV treinado
csv_path = "/workspace/data/curated/train_curated_v2.csv"
df = pd.read_csv(csv_path)

OPTIONS_MAP = {
    var: sorted(df[var].dropna().unique().tolist())
    for var, cfg in VARIABLE_MAP.items()
    if cfg.get("widget") == "selectbox"
}

# Fun√ß√£o auxiliar para o Streamlit
def get_options(var_name: str):
    return OPTIONS_MAP.get(var_name, [])

# Verifica√ß√£o de exemplo
print("‚úÖ OPTIONS_MAP preenchido com exemplos:",
      {k: OPTIONS_MAP[k][:5] for k in list(OPTIONS_MAP)[:5]})


‚úÖ OPTIONS_MAP preenchido com exemplos: {}


üîß ETAPA 6: Recarregar mapping.py e reconstruir OPTIONS_MAP
Nesta c√©lula, vamos recarregar o m√≥dulo mapping para capturar as altera√ß√µes recentes em VARIABLE_MAP (widgets e labels preenchidos). Em seguida, reconstruiremos o dicion√°rio OPTIONS_MAP a partir do CSV de treino, garantindo que apenas as vari√°veis com widget == "selectbox" apare√ßam.

In [23]:
# COMANDO PRINCIPAL: corrige null ‚Üí None em mapping.py
from pathlib import Path

mapping_path = Path("/workspace/mapping.py")
code = mapping_path.read_text(encoding="utf-8")

# substitui o literal JSON null pelo literal Python None
corrected = code.replace(": null", ": None")

# grava de volta
mapping_path.write_text(corrected, encoding="utf-8")

# verifica√ß√£o r√°pida: tenta importar
import importlib, mapping
importlib.reload(mapping)
print("‚úÖ mapping.py corrigido e m√≥dulo carregado com sucesso.")


‚úÖ mapping.py corrigido e m√≥dulo carregado com sucesso.


In [24]:
import importlib
import pandas as pd
import mapping

# 1Ô∏è‚É£ Recarrega o m√≥dulo mapping para obter o VARIABLE_MAP atualizado
importlib.reload(mapping)
VARIABLE_MAP = mapping.VARIABLE_MAP

# 2Ô∏è‚É£ Carrega o dataset de refer√™ncia
df = pd.read_csv("/workspace/data/curated/train_curated_v2.csv")

# 3Ô∏è‚É£ Reconstr√≥i OPTIONS_MAP apenas para selectboxes
OPTIONS_MAP = {
    var: sorted(df[var].dropna().unique().tolist())
    for var, cfg in VARIABLE_MAP.items()
    if cfg.get("widget") == "selectbox"
}

# 4Ô∏è‚É£ Define get_options
def get_options(var_name: str):
    return OPTIONS_MAP.get(var_name, [])

# 5Ô∏è‚É£ Verifica√ß√£o
print("‚úÖ OPTIONS_MAP agora possui campos:", list(OPTIONS_MAP.keys()))


‚úÖ OPTIONS_MAP agora possui campos: []


In [25]:
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: listar vari√°veis que t√™m widget configurado
configured = {var: cfg for var, cfg in VARIABLE_MAP.items() if cfg.get("widget") is not None}
print("üìã Campos com widget definido:", configured)


üìã Campos com widget definido: {}


üîß ETAPA 6.2: Popula√ß√£o Autom√°tica de label, widget e api em mapping.py
Nesta etapa, vamos varrer o c√≥digo do Streamlit (streamlit_app_V1.py), identificar cada widget e seu r√≥tulo, e preencher o VARIABLE_MAP em mapping.py de forma program√°tica. Depois recarregamos o m√≥dulo para que as entradas passem a ter widget != None.




In [26]:
import re
from pathlib import Path
import importlib

# 1Ô∏è‚É£ Define o mapeamento label ‚Üí vari√°vel do pipeline
UI_LABEL_TO_VAR = {
    'Idade': 'Age',
    'Ocupa√ß√£o': 'Occupation',
    'Perfil de Cr√©dito': 'Credit_Mix',
    'Pagamento M√≠nimo': 'Payment_of_Min_Amount',
    'Idade do Hist√≥rico de Cr√©dito': 'Credit_History_Age_Months',
    'Sal√°rio Mensal': 'Monthly_Inhand_Salary',
    'N¬∫ de Cart√µes': 'Num_Credit_Card',
    'Pagamentos Atrasados': 'Num_of_Delayed_Payment',
    'Renda Anual': 'Annual_Income',
    'D√≠vida': 'Outstanding_Debt',
    'Taxa de Juros': 'Interest_Rate',
    'Mudan√ßa de Limite': 'Changed_Credit_Limit',
    'Hist√≥rico Binned': 'Credit_History_Age_Binned',
    'Utiliza√ß√£o de Cr√©dito': 'Credit_Utilization_Ratio',
    'Dias de Atraso': 'Delay_from_due_date',
    'Balan√ßo Mensal': 'Monthly_Balance',
    'N¬∫ de Contas Banc√°rias': 'Num_Bank_Accounts',
    'Consultas de Cr√©dito': 'Num_Credit_Inquiries',
    'N¬∫ de Empr√©stimos': 'Num_of_Loan',
    'EMI Mensal': 'Total_EMI_per_month',
    'Tipo de Empr√©stimo': 'Type_of_Loan',
    'Investimento Mensal': 'Amount_invested_monthly'
}

# 2Ô∏è‚É£ Carrega o c√≥digo Streamlit
streamlit_path = Path("/workspace/streamlit_app_V1.py")
code = streamlit_path.read_text(encoding="utf-8")

# 3Ô∏è‚É£ Atualiza mapping.py
mapping_path = Path("/workspace/mapping.py")
from mapping import VARIABLE_MAP

for label, var in UI_LABEL_TO_VAR.items():
    # busca tanto selectbox quanto number_input
    m = re.search(rf"st\.(selectbox|number_input)\(\s*label=['\"]{re.escape(label)}['\"]", code)
    if m and var in VARIABLE_MAP:
        VARIABLE_MAP[var]["label"]  = label
        VARIABLE_MAP[var]["widget"] = m.group(1)
        VARIABLE_MAP[var]["api"]    = var

# 4Ô∏è‚É£ Salva o mapping corrigido
mapping_code = "# Auto-generated mapping module\nVARIABLE_MAP = " + repr(VARIABLE_MAP)
mapping_path.write_text(mapping_code, encoding="utf-8")

# 5Ô∏è‚É£ Recarrega e verifica
import mapping
importlib.reload(mapping)
print("‚úÖ Campos com widget agora definidos:", 
      [v for v,c in mapping.VARIABLE_MAP.items() if c.get("widget") is not None])


‚úÖ Campos com widget agora definidos: []


In [27]:
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: listar as primeiras chaves de VARIABLE_MAP
chaves = list(VARIABLE_MAP.keys())
print("üîë Chaves em VARIABLE_MAP (exemplo):", chaves[:10])
print("üî¢ Total de vari√°veis mapeadas:", len(chaves))


üîë Chaves em VARIABLE_MAP (exemplo): ['Age', 'Age_Binned', 'Amount_invested_monthly', 'Amount_invested_monthly_Binned', 'Amount_invested_monthly_Binned_High', 'Amount_invested_monthly_Binned_Low', 'Amount_invested_monthly_Binned_Moderate', 'Annual_Income', 'Annual_Income_Binned', 'Changed_Credit_Limit']
üî¢ Total de vari√°veis mapeadas: 92


In [28]:
import re
from pathlib import Path
from mapping import VARIABLE_MAP

# COMANDO PRINCIPAL: extrair todos os labels usados em st.selectbox/number_input
code = Path("/workspace/streamlit_app_V1.py").read_text(encoding="utf-8")
ui_labels = re.findall(r"st\.(?:selectbox|number_input)\(\s*label=['\"](.+?)['\"]", code)

# 1Ô∏è‚É£ Labels √∫nicos extra√≠dos do UI
ui_labels = list(dict.fromkeys(ui_labels))
print("üé® Labels do Streamlit:", ui_labels)

# 2Ô∏è‚É£ Vari√°veis do pipeline dispon√≠veis
pipeline_vars = set(VARIABLE_MAP.keys())
print("üîë Vari√°veis no VARIABLE_MAP:", list(pipeline_vars)[:10], "... total:", len(pipeline_vars))

# 3Ô∏è‚É£ Identifica labels sem mapeamento e vari√°veis sem widget
labels_sem_map = [lbl for lbl in ui_labels if lbl not in globals().get("UI_LABEL_TO_VAR", {})]
vars_sem_widget = [var for var, cfg in VARIABLE_MAP.items() if cfg.get("widget") is None]

print("‚ùó Labels sem entrada em UI_LABEL_TO_VAR:", labels_sem_map)
print("‚ùó Vari√°veis sem widget definido em mapping.py (ainda sem preencher):", vars_sem_widget[:10], "... total:", len(vars_sem_widget))


üé® Labels do Streamlit: []
üîë Vari√°veis no VARIABLE_MAP: ['Num_of_Loan_Binned', 'Monthly_Balance_Binned_Moderate', 'Type_of_Loan_Category_Debt Consolidation Loan', 'Changed_Credit_Limit_Binned', 'Monthly_Inhand_Salary', 'Monthly_Balance', 'Type_of_Loan_Category_Home Equity Loan', 'Num_Credit_Inquiries', 'Occupation_Group_Writer', 'Credit_Utilization_Ratio'] ... total: 92
‚ùó Labels sem entrada em UI_LABEL_TO_VAR: []
‚ùó Vari√°veis sem widget definido em mapping.py (ainda sem preencher): ['Age', 'Age_Binned', 'Amount_invested_monthly', 'Amount_invested_monthly_Binned', 'Amount_invested_monthly_Binned_High', 'Amount_invested_monthly_Binned_Low', 'Amount_invested_monthly_Binned_Moderate', 'Annual_Income', 'Annual_Income_Binned', 'Changed_Credit_Limit'] ... total: 92


In [29]:
from pathlib import Path

# COMANDO PRINCIPAL: imprimir as primeiras 200 linhas de streamlit_app_V1.py
lines = Path("/workspace/streamlit_app_V1.py").read_text(encoding="utf-8").splitlines()
print("üìÑ Primeiras 200 linhas do Streamlit App:")
for i, line in enumerate(lines[:200], start=1):
    print(f"{i:03d}: {line}")


üìÑ Primeiras 200 linhas do Streamlit App:
001: # üîß ETAPA: Integra√ß√£o do dicion√°rio de mapeamento e fun√ß√£o de convers√£o no Streamlit
002: 
003: import streamlit as st
004: import requests
005: 
006: # 1Ô∏è‚É£ Dicion√°rio de mapeamentos para valores categ√≥ricos
007: mapeamentos = {
008:     "Age_Binned": {
009:         "20-30": 0, "30-40": 1, "40-50": 2, "50-60": 3, "60-70": 4, "70+": 5
010:     },
011:     "Amount_invested_monthly_Binned": {
012:         "0-500": 0, "500-1000": 1, "1000-1500": 2, "1500-2000": 3, "2000+": 4
013:     },
014:     "Annual_Income_Binned": {
015:         "0-50K": 0, "50K-100K": 1, "100K-150K": 2, "150K-200K": 3, "200K+": 4
016:     },
017:     "Changed_Credit_Limit_Binned": {
018:         "0-2K": 0, "2K-5K": 1, "5K-10K": 2, "10K+": 3
019:     },
020:     "Credit_History_Age_Binned": {
021:         "0-5Y": 0, "5Y-10Y": 1, "10Y-15Y": 2, "15Y+": 3
022:     },
023:     "Credit_Mix": {
024:         "Bad": 0, "Standard": 1, "Good": 2
025:     },
026:   

In [30]:
from pathlib import Path
import re
import mapping

# 1Ô∏è‚É£ L√™ o Streamlit e extrai (var, widget, label)
streamlit = Path("/workspace/streamlit_app_V1.py").read_text(encoding="utf-8")
pattern = re.compile(r'dados\["(?P<var>[^"]+)"\]\s*=\s*st\.(?P<widget>\w+)\("(?P<label>[^"]+)"')
entries = pattern.finditer(streamlit)

# 2Ô∏è‚É£ Atualiza mapping.VARIABLE_MAP
for m in entries:
    var = m.group("var")
    mapping.VARIABLE_MAP[var]["label"]  = m.group("label")
    mapping.VARIABLE_MAP[var]["widget"] = m.group("widget")
    mapping.VARIABLE_MAP[var]["api"]    = var

# 3Ô∏è‚É£ Sobrescreve mapping.py com o dicion√°rio preenchido
out = "VARIABLE_MAP = " + repr(mapping.VARIABLE_MAP)
Path("/workspace/mapping.py").write_text(out, encoding="utf-8")

print("‚úÖ mapping.py atualizado com labels, widgets e api para todas as vari√°veis.")


‚úÖ mapping.py atualizado com labels, widgets e api para todas as vari√°veis.


In [33]:
import mlflow

# ‚ñ™Ô∏è Defina aqui seu run_id (o mesmo que voc√™ usou para carregar o modelo)
run_id = "7077ebfbf696487384bd5a59034170c5"  

# ‚ñ™Ô∏è Carrega o modelo congelado e extrai a assinatura
modelo_congelado = mlflow.pyfunc.load_model(f"runs:/{run_id}/model")
signature = modelo_congelado.metadata.signature


Downloading artifacts:   0%|          | 0/1 [00:00<?, ?it/s]
Downloading artifacts: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 7/7 [00:00<00:00, 100.85it/s]  


In [34]:
# üîß ETAPA 4: Gera√ß√£o Din√¢mica do Modelo Pydantic a partir de VARIABLE_MAP

from pydantic import create_model
from mlflow.types import DataType
from mapping import VARIABLE_MAP

# 1Ô∏è‚É£ Prepara os campos para create_model
fields = {}
for var_name, cfg in VARIABLE_MAP.items():
    api_name = cfg["api"]
    if not api_name:
        continue
    # encontra o tipo MLflow para esta vari√°vel
    mlflow_input = next(f for f in signature.inputs if f.name == var_name)
    dtype = mlflow_input.type
    # mapeia para tipo Python
    if dtype in (DataType.double, DataType.long):
        py_type = float
    elif dtype == DataType.boolean:
        py_type = bool
    else:
        py_type = str
    fields[api_name] = (py_type, ...)

# 2Ô∏è‚É£ Cria o modelo Pydantic
RequestPayload = create_model("RequestPayload", **fields)

# 3Ô∏è‚É£ Verifica√ß√£o
print("‚úÖ RequestPayload criado com campos:", list(RequestPayload.__fields__.keys()))


‚úÖ RequestPayload criado com campos: ['Age_Binned', 'Amount_invested_monthly_Binned', 'Annual_Income_Binned', 'Changed_Credit_Limit_Binned', 'Credit_History_Age', 'Credit_History_Age_Binned', 'Credit_Mix', 'Credit_Utilization_Ratio_Binned', 'Delay_from_due_date_Binned', 'Interest_Rate_Binned', 'Monthly_Balance_Binned', 'Monthly_Inhand_Salary_Binned', 'Num_Bank_Accounts_Binned', 'Num_Credit_Card_Binned', 'Num_Credit_Inquiries_Binned', 'Num_of_Delayed_Payment_Binned', 'Num_of_Loan_Binned', 'Occupation', 'Outstanding_Debt_Binned', 'Payment_of_Min_Amount', 'Total_EMI_per_month_Binned', 'Type_of_Loan']


/tmp/ipykernel_11246/2647487685.py:29: PydanticDeprecatedSince20: The `__fields__` attribute is deprecated, use `model_fields` instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.11/migration/
  print("‚úÖ RequestPayload criado com campos:", list(RequestPayload.__fields__.keys()))


In [37]:
import mlflow

# 1Ô∏è‚É£ Carrega o modelo via model_uri
model = mlflow.pyfunc.load_model(model_uri)

# 2Ô∏è‚É£ Extrai a assinatura
signature = model.metadata.signature

# 3Ô∏è‚É£ Lista cada vari√°vel de entrada e seu tipo
print("üóÇÔ∏è signature.inputs:")
for inp in signature.inputs:
    print(f"‚Ä¢ {inp.name:<30} | Tipo MLflow: {inp.type}")


Downloading artifacts:   0%|          | 0/1 [00:00<?, ?it/s]
Downloading artifacts: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 7/7 [00:00<00:00, 100.81it/s]  

üóÇÔ∏è signature.inputs:
‚Ä¢ Age                            | Tipo MLflow: DataType.double
‚Ä¢ Age_Binned                     | Tipo MLflow: DataType.string
‚Ä¢ Amount_invested_monthly        | Tipo MLflow: DataType.double
‚Ä¢ Amount_invested_monthly_Binned | Tipo MLflow: DataType.string
‚Ä¢ Amount_invested_monthly_Binned_High | Tipo MLflow: DataType.boolean
‚Ä¢ Amount_invested_monthly_Binned_Low | Tipo MLflow: DataType.boolean
‚Ä¢ Amount_invested_monthly_Binned_Moderate | Tipo MLflow: DataType.boolean
‚Ä¢ Annual_Income                  | Tipo MLflow: DataType.double
‚Ä¢ Annual_Income_Binned           | Tipo MLflow: DataType.string
‚Ä¢ Changed_Credit_Limit           | Tipo MLflow: DataType.double
‚Ä¢ Changed_Credit_Limit_Binned    | Tipo MLflow: DataType.string
‚Ä¢ Credit_History_Age             | Tipo MLflow: DataType.string
‚Ä¢ Credit_History_Age_Binned      | Tipo MLflow: DataType.string
‚Ä¢ Credit_History_Age_Months      | Tipo MLflow: DataType.double
‚Ä¢ Credit_Mix               




In [38]:
# 1Ô∏è‚É£ Extrai nomes da signature e do mapping
signature_vars = [inp.name for inp in signature.inputs]
mapping_vars   = list(VARIABLE_MAP.keys())

# 2Ô∏è‚É£ Identifica inconsist√™ncias
missing_in_map = set(signature_vars) - set(mapping_vars)
extra_in_map   = set(mapping_vars)   - set(signature_vars)

# 3Ô∏è‚É£ Exibe resultado
print("‚ùó Vari√°veis da signature QUE N√ÉO EST√ÉO no VARIABLE_MAP:", missing_in_map)
print("‚ùó Vari√°veis no VARIABLE_MAP QUE N√ÉO aparecem na signature:", extra_in_map)


‚ùó Vari√°veis da signature QUE N√ÉO EST√ÉO no VARIABLE_MAP: set()
‚ùó Vari√°veis no VARIABLE_MAP QUE N√ÉO aparecem na signature: set()


In [39]:
# üîß ETAPA 5: gera√ß√£o din√¢mica do RequestPayload dentro da API
from fastapi       import FastAPI, HTTPException
from pydantic      import create_model
from mlflow.pyfunc import load_model
from mlflow.types  import DataType
from mapping       import VARIABLE_MAP
from typing        import List

# ‚Äî 1Ô∏è‚É£ Carrega o modelo (use o model_uri ou run_id que voc√™ j√° declarou)
model = load_model(f"runs:/{run_id}/model")

# ‚Äî 2Ô∏è‚É£ (Re)cria dinamicamente o Pydantic RequestPayload
fields = {}
for var, cfg in VARIABLE_MAP.items():
    api_name = cfg["api"]
    if not api_name:
        continue
    # encontra o tipo MLflow correspondente
    ml_type = next(f.type for f in signature.inputs if f.name == var)
    py_type = (
        float if ml_type in (DataType.double, DataType.long)
        else bool  if ml_type is DataType.boolean
        else str
    )
    fields[api_name] = (py_type, ...)
RequestPayload = create_model("RequestPayload", **fields)

# ‚Äî 3Ô∏è‚É£ Monta o FastAPI usando o modelo dinamicamente gerado
app = FastAPI()

@app.post("/predict")
async def predict(payload: RequestPayload):
    # converte para dicion√°rio simples
    data_dict = payload.model_dump()
    try:
        # o MLflow espera uma lista de registros
        result = model.predict([data_dict])
    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))
    return {"prediction": int(result[0])}


Downloading artifacts:   0%|          | 0/1 [00:00<?, ?it/s]
Downloading artifacts: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 7/7 [00:00<00:00, 103.36it/s]  


In [40]:
# üîß ETAPA 6: Streamlit din√¢mico via VARIABLE_MAP
import streamlit as st
import requests
from mapping import VARIABLE_MAP

st.title("Classificador de Cr√©dito")

with st.form("input_form"):
    dados = {}
    # Para cada vari√°vel mapeada, gera dinamicamente o widget
    for var_name, cfg in VARIABLE_MAP.items():
        label  = cfg["label"]
        widget = cfg["widget"]
        api    = cfg["api"]
        # s√≥ cria se tiver widget configurado
        if not (label and widget and api):
            continue

        if widget == "selectbox":
            options = cfg.get("options", [])
            dados[api] = st.selectbox(label, options, key=api)
        elif widget == "number_input":
            min_, max_ = cfg.get("min", 0), cfg.get("max", None)
            dados[api] = st.number_input(label, min_value=min_, max_value=max_, key=api)
        elif widget == "checkbox":
            dados[api] = st.checkbox(label, key=api)
        # (adicione aqui outros widgets conforme necess√°rio)

    submitted = st.form_submit_button("Enviar")

if submitted:
    # converte valores categ√≥ricos antes de enviar
    from mapping import OPTIONS_MAP
    def converter(d):
        out = {}
        for k, v in d.items():
            if k in OPTIONS_MAP:
                out[k] = OPTIONS_MAP[k][v]
            else:
                out[k] = v
        return out

    payload = converter(dados)
    st.json(payload)

    resp = requests.post("http://localhost:8000/predict",
                         json=payload,
                         headers={"x-api-key": "quantum123"})
    if resp.ok:
        st.success(f"‚úÖ Predi√ß√£o: {resp.json()['prediction']}")
    else:
        st.error(f"‚ùå {resp.status_code}: {resp.text}")


2025-07-23 20:16:08.494 Session state does not function when running a script without `streamlit run`
