In [None]:
# Célula 0: Instalação das dependências do Sandbox

!pip install pandas
!pip install numpy
!pip install scikit-learn
!pip install joblib

print("Todas as bibliotecas essenciais foram instaladas.")

In [None]:
# Célula 1: Importação de Bibliotecas
import pandas as pd 
import numpy as np # Necessário para o LabelEncoder e diagnóstico
from sklearn.model_selection import train_test_split 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder # Essencial para codificar o Target

print("Bibliotecas essenciais para o Sandbox carregadas!")

In [None]:
# Célula 2: Carregamento dos Arquivos de Amostra

try:
    df_prm = pd.read_json('amostra_prm.json', lines=True) 
except ValueError:
    df_prm = pd.read_json('amostra_prm.json')

df_edr_correto = pd.read_csv('amostra_edr_correto.csv') 
df_lookup = pd.read_csv('tabela_lookup.csv') 

print(f"PRMs carregados: {df_prm.shape[0]} linhas")
print(f"EDRs Corretos carregados: {df_edr_correto.shape[0]} linhas")
print(f"Tabela de Lookup carregada: {df_lookup.shape[0]} linhas")

In [None]:
# Célula 3: Engenharia de Recursos (Enriquecimento e JOIN) - AJUSTADA PARA NaN

# 1. Pré-processamento do Lookup (Cópia)
df_lookup_preparado = df_lookup.copy()

# 2. Primeiro JOIN: Unir PRM e Tabela de Lookup (Enriquecimento)
df_prm_enriquecido = pd.merge(
    df_prm, 
    df_lookup_preparado[['ID', 'OPERADORA', 'TIPO_SERVICO', 'PORTADO']],
    left_on='CHAMADO_A', 
    right_on='ID',       
    how='left',
    suffixes=('_prm', '_lookup') 
)
df_prm_enriquecido = df_prm_enriquecido.drop(columns=['ID'], errors='ignore')

# 3. Segundo JOIN: Unir PRM Enriquecido com o EDR Correto (Ground Truth)
df_final = pd.merge(
    df_prm_enriquecido, 
    df_edr_correto, 
    on='ID_REGISTRO', 
    how='inner'
)

# 4. RENOMEAÇÃO CRÍTICA: Ajustamos os nomes das features do lookup para o padrão.
df_final = df_final.rename(columns={
    'OPERADORA_lookup': 'OPERADORA_x',
    'TIPO_SERVICO_lookup': 'TIPO_SERVICO', 
    'PORTADO_lookup': 'PORTADO'
})
# Os valores NaN agora permanecem aqui.

print(f"\nDataset FINAL (Pronto para o ML): {df_final.shape[0]} linhas")
print("\nColunas no df_final (Verifique se 'OPERADORA_x', 'TIPO_SERVICO' e 'PORTADO' estão corretas):")
print(df_final.columns.tolist())

In [None]:
# Célula 4: Definição de Features (X) e Target (Y)

# 1. Target (Y): O campo que o modelo deve prever
TARGET_COLUNA = 'COD_TARIFACAO_FINAL' 
Y_string = df_final[TARGET_COLUNA]

# 2. Codificação do Target: Transforma as strings em números (0, 1, 2, ...)
le = LabelEncoder()
Y = le.fit_transform(Y_string)

# 3. FEATURES (X): Colunas de entrada do PRM e Lookup
FEATURE_COLUNAS = ['Codigo_Servico', 'OPERADORA_x', 'TIPO_SERVICO', 'PORTADO', 'Duracao_Seg'] 
X = df_final[FEATURE_COLUNAS]

print(f"Variável Target (Y) definida: {TARGET_COLUNA}")
print(f"Variável Target (Y) codificada em {len(le.classes_)} classes.")

In [None]:
# Célula 5: Pré-processamento de Dados (One-Hot Encoding)

# Incluímos 'PORTADO' na lista de colunas categóricas
colunas_categoricas = ['Codigo_Servico', 'OPERADORA_x', 'TIPO_SERVICO', 'PORTADO']

# Aplica o One-Hot Encoding. O Pandas cria as colunas OPERADORA_x_nan, etc.
X_processado = pd.get_dummies(X, columns=colunas_categoricas)

print("-- Inspeção das Features após o One-Hot Encoding --")
print(X_processado.head())

In [None]:
# Célula 6: Divisão em Treino e Teste - AJUSTADA (Removendo stratify)

X_treino, X_teste, Y_treino, Y_teste = train_test_split(
    X_processado, 
    Y,            
    test_size=0.2, 
    random_state=42
    # O argumento 'stratify=Y' foi removido para resolver o erro
)

print(f"Amostras de Treinamento (80%): {X_treino.shape[0]} linhas")
print(f"Amostras de Teste (20%): {X_teste.shape[0]} linhas")

In [None]:
# Célula 7: Treinamento e Avaliação do Modelo

modelo = RandomForestClassifier(n_estimators=100, random_state=42)

print("\nIniciando Treinamento...")
modelo.fit(X_treino, Y_treino)
print("Treinamento concluído.")

previsoes = modelo.predict(X_teste)
acuracia = accuracy_score(Y_teste, previsoes)

print(f"\nACURÁCIA do Modelo no Teste: {acuracia * 100:.2f}%")

In [None]:
# Célula 8: Avaliação da Importância das Features

importancia = pd.Series(modelo.feature_importances_, index=X_processado.columns)

print("\n--- Importância das Features para o Mapeamento ---")
print("Qual campo é o mais decisivo para o modelo prever o COD_TARIFACAO_FINAL?")
print(importancia.sort_values(ascending=False))

In [None]:
# Célula 9: Simulação da Inferência - FINAL CORRIGIDA

# 1. Definir um novo CDR PRM (que o modelo NUNCA viu)
# Mantenha os valores consistentes com os tipos de dados do seu treinamento.
novo_prm = pd.DataFrame([{
    "ID_REGISTRO": "R_TESTE_FINAL",
    "CHAMADO_A": "5511933330000",
    "Timestamp_Origem": "2025-10-27T12:00:00",
    "Codigo_Servico": "V01",
    "Duracao_Seg": 500,
    "Dados_Brutos": "..."
}])

# 2. ENRIQUECIMENTO (JOIN com Lookup)
# NOTE: Mantenha as colunas aqui (OPERADORA, TIPO_SERVICO, PORTADO) sem o sufixo _x
novo_lookup = pd.DataFrame([{
    'ID': "5511933330000", 
    'OPERADORA': "TIM", 
    'TIPO_SERVICO': "VOZ_MOVEL", 
    'PORTADO': "Sim" # Tente 'Nao' para testar a regra da IA!
}])

novo_cdr_enriquecido = pd.merge(
    novo_prm, 
    novo_lookup[['ID', 'OPERADORA', 'TIPO_SERVICO', 'PORTADO']],
    left_on='CHAMADO_A', 
    right_on='ID',       
    how='left'
)
novo_cdr_enriquecido = novo_cdr_enriquecido.drop(columns=['ID'], errors='ignore')


# 3. PRÉ-PROCESSAMENTO (One-Hot Encoding)
# Selecionar e Renomear as Features para o formato que o modelo ESPERA
X_novo = novo_cdr_enriquecido[['Codigo_Servico', 'Duracao_Seg', 'OPERADORA', 'TIPO_SERVICO', 'PORTADO']].copy()

# A coluna OPERADORA PRECISA ser renomeada para 'OPERADORA_x' (o modelo espera esse nome)
X_novo = X_novo.rename(columns={'OPERADORA': 'OPERADORA_x'}) 

# Lista final de colunas categóricas (usando o nome OPERADORA_x)
colunas_categoricas_inference = ['Codigo_Servico', 'OPERADORA_x', 'TIPO_SERVICO', 'PORTADO']
X_novo_processado = pd.get_dummies(X_novo, columns=colunas_categoricas_inference)


# 4. ALINHAMENTO DAS COLUNAS (CRÍTICO!)
# Garante que o novo dado tenha EXATAMENTE as mesmas colunas do treinamento, preenchendo o que falta com 0.
X_novo_processado = X_novo_processado.reindex(columns=X_treino.columns, fill_value=0)


# 5. INFERÊNCIA (Geração da Previsão)
previsao_codificada = modelo.predict(X_novo_processado)


# 6. DECODIFICAÇÃO e Geração do EDR
# Usa o LabelEncoder (le) para reverter o código numérico para o nome original
cod_tarifacao_final = le.inverse_transform(previsao_codificada)

edr_final = novo_prm[['ID_REGISTRO', 'Timestamp_Origem']].copy()
edr_final['MINUTOS'] = novo_prm['Duracao_Seg'] / 60
edr_final['COD_TARIFACAO_FINAL'] = cod_tarifacao_final[0]
edr_final['OPERADORA'] = novo_lookup['OPERADORA'].iloc[0]

print("\n--- EDR Gerado pela IA (Inferência) ---")
print(edr_final)

In [None]:
# Célula 10: Simulação de Inferência (AGORA APRENDE O NaN)

# 1. CARREGAMENTO DOS DADOS DE PRODUÇÃO
try:
    novo_prm = pd.read_json('prx_em_producao.json', lines=True) 
except ValueError:
    novo_prm = pd.read_json('prx_em_producao.json')

novo_lookup = pd.read_csv('lookup_em_producao.csv') 

print(f"Iniciando inferência para {novo_prm.shape[0]} novos registros...")

# 2. ENRIQUECIMENTO (JOIN com Lookup)
novo_cdr_enriquecido = pd.merge(
    novo_prm, 
    novo_lookup[['ID', 'OPERADORA', 'TIPO_SERVICO', 'PORTADO']],
    left_on='CHAMADO_A', 
    right_on='ID',       
    how='left'
)
novo_cdr_enriquecido = novo_cdr_enriquecido.drop(columns=['ID'], errors='ignore')

# 2.1 TRATAMENTO DE NaN: NENHUMA REGRA MANUAL APLICADA. Deixamos o NaN para o One-Hot Encoding.
# Removemos o .fillna('LOCAL') aqui.

# 3. PRÉ-PROCESSAMENTO (Alinhamento e One-Hot Encoding)
X_novo = novo_cdr_enriquecido[['Codigo_Servico', 'Duracao_Seg', 'OPERADORA', 'TIPO_SERVICO', 'PORTADO']].copy()

X_novo = X_novo.rename(columns={'OPERADORA': 'OPERADORA_x'}) 

colunas_categoricas_inference = ['Codigo_Servico', 'OPERADORA_x', 'TIPO_SERVICO', 'PORTADO']
# Se houver NaN, pd.get_dummies cria as features *_nan
X_novo_processado = pd.get_dummies(X_novo, columns=colunas_categoricas_inference) 


# 4. ALINHAMENTO DAS COLUNAS (CRÍTICO!)
X_novo_processado = X_novo_processado.reindex(columns=X_treino.columns, fill_value=0)


# 5. INFERÊNCIA (Geração da Previsão)
previsao_codificada = modelo.predict(X_novo_processado)


# 6. DECODIFICAÇÃO e Geração do EDR Final
cod_tarifacao_final = le.inverse_transform(previsao_codificada)

edr_final = novo_prm[['ID_REGISTRO', 'Timestamp_Origem']].copy()
edr_final['MINUTOS'] = novo_prm['Duracao_Seg'] / 60
edr_final['COD_TARIFACAO_FINAL'] = cod_tarifacao_final

# CORREÇÃO AQUI: Se for NaN, preenchemos para fins de relatório com 'LOCAL' ou 'AUSENTE'.
edr_final['OPERADORA'] = novo_cdr_enriquecido['OPERADORA'].fillna('LOCAL_PRESUMIDO')


print("\n--- EDRs Gerados pela IA (Lote de Produção) ---")
print(edr_final)