In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import pickle
from datasets import load_dataset
from huggingface_hub import login

In [19]:
#1. Carregar dados
dataset = load_dataset('thzliaa/inadimplencia')

In [20]:
df = dataset['train'].to_pandas()

In [21]:
df.columns

Index(['data_base', 'uf', 'tcb', 'sr', 'cliente', 'ocupacao', 'porte',
       'modalidade', 'origem', 'indexador', 'a_vencer_ate_90_dias',
       'a_vencer_de_91_ate_360_dias', 'a_vencer_de_361_ate_1080_dias',
       'a_vencer_de_1081_ate_1800_dias', 'a_vencer_de_1801_ate_5400_dias',
       'a_vencer_acima_de_5400_dias', 'vencido_acima_de_15_dias',
       'carteira_ativa', 'carteira_inadimplida_arrastada',
       'ativo_problematico', 'mes', 'inadimplente', 'mes_texto', 'regiao',
       'status_carteira', 'total_a_vencer'],
      dtype='object')

In [22]:
# 2. Features e Target
X = df[['porte', 'ocupacao', 'modalidade', 'total_a_vencer']]
y = df['inadimplente']  # 0 ou 1

# 3. Definir quais colunas são categóricas e numéricas
colunas_categoricas = ['porte', 'ocupacao', 'modalidade']
colunas_numericas = ['total_a_vencer']

In [23]:
# 4. Pré-processamento
preprocessador = ColumnTransformer(transformers=[
    ('cat', OneHotEncoder(handle_unknown='ignore'), colunas_categoricas),
    ('num', StandardScaler(), colunas_numericas)
])

# 5. Pipeline: Pré-processamento + Modelo
pipeline = Pipeline(steps=[
    ('preprocessador', preprocessador),
    ('modelo', RandomForestClassifier(random_state=42))
])

In [24]:
# 6. Treinar modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
pipeline.fit(X_train, y_train)

KeyboardInterrupt: 

In [None]:
# 7. Avaliar modelo
print(f"Acurácia treino: {pipeline.score(X_train, y_train):.2f}")
print(f"Acurácia teste: {pipeline.score(X_test, y_test):.2f}")

Acurácia treino: 1.00
Acurácia teste: 1.00


In [None]:
# 8. Salvar pipeline inteiro
with open('modelo_pipeline.pkl', 'wb') as f:
    pickle.dump(pipeline, f)