# Projeto Completo de Machine Learning: Classifica√ß√£o de Reclama√ß√µes de Consumidores

## üìã Objetivo do Projeto

Este projeto desenvolve um sistema de **classifica√ß√£o multiclasse** para categorizar automaticamente reclama√ß√µes de consumidores em diferentes tipos de problemas. O contexto √© de **servi√ßo p√∫blico/administrativo**, simulando um sistema que poderia ser usado por √≥rg√£os de defesa do consumidor.

### üéØ Objetivos Espec√≠ficos:
- Classificar reclama√ß√µes em 4 categorias principais
- Aplicar boas pr√°ticas de Machine Learning
- Demonstrar o pipeline completo de um projeto de ML
- Criar modelos reutiliz√°veis para produ√ß√£o

### üìä Metodologia:
1. **An√°lise Explorat√≥ria de Dados (EDA)**
2. **Pr√©-processamento e Feature Engineering**
3. **Treinamento de M√∫ltiplos Modelos**
4. **Avalia√ß√£o e Compara√ß√£o**
5. **Valida√ß√£o e Ajuste de Hiperpar√¢metros**
6. **Predi√ß√£o em Novos Dados**
7. **Salvamento de Modelos**

---

## 1. üìö Importa√ß√£o de Bibliotecas e Configura√ß√£o

Primeiro, vamos importar todas as bibliotecas necess√°rias para nosso projeto. Cada biblioteca tem um prop√≥sito espec√≠fico no pipeline de Machine Learning.

In [None]:
# Manipula√ß√£o de dados
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# Visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Machine Learning - Pr√©-processamento
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold
from sklearn.preprocessing import LabelEncoder, StandardScaler, OneHotEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Machine Learning - Modelos
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB

# Machine Learning - Avalia√ß√£o
from sklearn.metrics import (
    classification_report, confusion_matrix, accuracy_score,
    precision_score, recall_score, f1_score, roc_auc_score
)

# Persist√™ncia de modelos
import pickle
import joblib
from datetime import datetime

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üìÖ Data de execu√ß√£o: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

## 2. üóÇÔ∏è Cria√ß√£o e Carregamento do Dataset

Como estamos trabalhando com um contexto educativo, vamos criar um dataset sint√©tico realista de reclama√ß√µes de consumidores. Este dataset simula dados que poderiam ser encontrados em √≥rg√£os como PROCON ou plataformas de atendimento ao consumidor.

### üìù Estrutura do Dataset:
- **Texto da reclama√ß√£o**: Descri√ß√£o do problema
- **Categoria**: Tipo de problema (4 classes)
- **Empresa**: Nome da empresa reclamada
- **Estado**: Estado onde ocorreu o problema
- **Valor**: Valor envolvido na reclama√ß√£o
- **Tempo_resposta**: Tempo para resposta da empresa

In [None]:
# Cria√ß√£o de um dataset sint√©tico realista
np.random.seed(42)

# Definindo as categorias de reclama√ß√µes (4 classes)
categorias = {
    'Produto Defeituoso': [
        'Produto chegou com defeito de f√°brica',
        'Aparelho parou de funcionar ap√≥s poucos dias',
        'Produto n√£o corresponde √† descri√ß√£o',
        'Defeito na tela do celular',
        'Produto veio danificado na entrega',
        'Qualidade inferior ao esperado',
        'Produto apresentou problemas logo ap√≥s a compra'
    ],
    'Atendimento': [
        'Atendimento muito demorado no telefone',
        'Funcion√°rio foi grosseiro e mal educado',
        'N√£o consegui resolver meu problema',
        'Atendente n√£o soube me informar',
        'Fui mal atendido na loja f√≠sica',
        'Demora excessiva para resposta',
        'Atendimento de baixa qualidade'
    ],
    'Cobran√ßa Indevida': [
        'Cobraram valor a mais na fatura',
        'Taxa n√£o informada na contrata√ß√£o',
        'Cobran√ßa duplicada no cart√£o',
        'Valor diferente do acordado',
        'Cobran√ßa ap√≥s cancelamento do servi√ßo',
        'Juros abusivos aplicados',
        'Cobran√ßa de servi√ßo n√£o solicitado'
    ],
    'Entrega': [
        'Produto n√£o foi entregue no prazo',
        'Entrega foi feita no endere√ßo errado',
        'Produto chegou muito atrasado',
        'N√£o recebi o produto comprado',
        'Entregador foi mal educado',
        'Produto foi entregue danificado',
        'Prazo de entrega n√£o foi cumprido'
    ]
}

# Empresas fict√≠cias
empresas = [
    'TechMart', 'SuperCompras', 'MegaStore', 'FastDelivery', 
    'EletroMax', 'ShopOnline', 'QuickBuy', 'BestPrice',
    'TopQuality', 'ExpressShop'
]

# Estados brasileiros
estados = [
    'SP', 'RJ', 'MG', 'RS', 'PR', 'SC', 'BA', 'GO', 
    'PE', 'CE', 'DF', 'ES', 'PB', 'RN', 'MT'
]

# Gerando dados sint√©ticos
dados = []
n_samples = 2000

for i in range(n_samples):
    categoria = np.random.choice(list(categorias.keys()))
    texto = np.random.choice(categorias[categoria])
    empresa = np.random.choice(empresas)
    estado = np.random.choice(estados)
    
    # Valores baseados na categoria
    if categoria == 'Produto Defeituoso':
        valor = np.random.uniform(50, 2000)
        tempo_resposta = np.random.uniform(1, 15)
    elif categoria == 'Cobran√ßa Indevida':
        valor = np.random.uniform(20, 500)
        tempo_resposta = np.random.uniform(1, 10)
    elif categoria == 'Entrega':
        valor = np.random.uniform(30, 800)
        tempo_resposta = np.random.uniform(1, 7)
    else:  # Atendimento
        valor = np.random.uniform(0, 100)
        tempo_resposta = np.random.uniform(1, 20)
    
    dados.append({
        'texto_reclamacao': texto,
        'categoria': categoria,
        'empresa': empresa,
        'estado': estado,
        'valor_envolvido': round(valor, 2),
        'tempo_resposta_dias': round(tempo_resposta, 1)
    })

# Criando DataFrame
df = pd.DataFrame(dados)

print(f"‚úÖ Dataset criado com sucesso!")
print(f"üìä Dimens√µes: {df.shape[0]} linhas e {df.shape[1]} colunas")
print(f"üéØ Classes: {df['categoria'].nunique()} categorias")

# Salvando o dataset
df.to_csv('/home/ubuntu/reclamacoes_dataset.csv', index=False)
print("üíæ Dataset salvo como 'reclamacoes_dataset.csv'")

## 3. üîç An√°lise Explorat√≥ria de Dados (EDA)

A **An√°lise Explorat√≥ria de Dados** √© uma etapa fundamental em qualquer projeto de Machine Learning. Ela nos permite:

- üéØ **Entender a distribui√ß√£o dos dados**
- üîç **Identificar padr√µes e anomalias**
- üìä **Verificar balanceamento das classes**
- üßπ **Detectar dados faltantes ou inconsistentes**
- üí° **Gerar insights para feature engineering**

### 3.1 Vis√£o Geral dos Dados

In [None]:
# Informa√ß√µes b√°sicas do dataset
print("üìã INFORMA√á√ïES GERAIS DO DATASET")
print("=" * 50)
print(f"Dimens√µes: {df.shape}")
print(f"Mem√≥ria utilizada: {df.memory_usage(deep=True).sum() / 1024:.2f} KB")
print("\nüìä TIPOS DE DADOS:")
print(df.dtypes)
print("\nüîç PRIMEIRAS 5 LINHAS:")
display(df.head())

print("\nüìà ESTAT√çSTICAS DESCRITIVAS:")
display(df.describe(include='all'))

In [None]:
# Verificando dados faltantes
print("üîç AN√ÅLISE DE DADOS FALTANTES")
print("=" * 40)
missing_data = df.isnull().sum()
missing_percent = (missing_data / len(df)) * 100

missing_df = pd.DataFrame({
    'Valores Faltantes': missing_data,
    'Percentual (%)': missing_percent
})

print(missing_df)

if missing_data.sum() == 0:
    print("\n‚úÖ Excelente! N√£o h√° dados faltantes no dataset.")
else:
    print("\n‚ö†Ô∏è Aten√ß√£o: Existem dados faltantes que precisam ser tratados.")

### 3.2 An√°lise da Vari√°vel Target (Categoria)

A an√°lise da vari√°vel target √© crucial para entender:
- **Balanceamento das classes**
- **Distribui√ß√£o dos dados**
- **Poss√≠veis desafios de classifica√ß√£o**

In [None]:
# An√°lise da distribui√ß√£o das categorias
print("üéØ AN√ÅLISE DA VARI√ÅVEL TARGET (CATEGORIA)")
print("=" * 50)

categoria_counts = df['categoria'].value_counts()
categoria_percent = df['categoria'].value_counts(normalize=True) * 100

categoria_analysis = pd.DataFrame({
    'Quantidade': categoria_counts,
    'Percentual (%)': categoria_percent.round(2)
})

print(categoria_analysis)

# Verificando balanceamento
max_class = categoria_percent.max()
min_class = categoria_percent.min()
balance_ratio = max_class / min_class

print(f"\nüìä AN√ÅLISE DE BALANCEAMENTO:")
print(f"Classe mais frequente: {max_class:.1f}%")
print(f"Classe menos frequente: {min_class:.1f}%")
print(f"Raz√£o de desbalanceamento: {balance_ratio:.2f}")

if balance_ratio <= 2:
    print("‚úÖ Dataset bem balanceado!")
elif balance_ratio <= 4:
    print("‚ö†Ô∏è Leve desbalanceamento - monitorar performance")
else:
    print("üö® Dataset desbalanceado - considerar t√©cnicas de balanceamento")

In [None]:
# Visualiza√ß√£o da distribui√ß√£o das categorias
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=['Distribui√ß√£o das Categorias', 'Distribui√ß√£o Percentual'],
    specs=[[{'type': 'bar'}, {'type': 'pie'}]]
)

# Gr√°fico de barras
fig.add_trace(
    go.Bar(
        x=categoria_counts.index,
        y=categoria_counts.values,
        text=categoria_counts.values,
        textposition='auto',
        name='Quantidade',
        marker_color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
    ),
    row=1, col=1
)

# Gr√°fico de pizza
fig.add_trace(
    go.Pie(
        labels=categoria_counts.index,
        values=categoria_counts.values,
        textinfo='label+percent',
        marker_colors=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
    ),
    row=1, col=2
)

fig.update_layout(
    title_text="üìä An√°lise da Distribui√ß√£o das Categorias de Reclama√ß√µes",
    title_x=0.5,
    height=500,
    showlegend=False
)

fig.update_xaxes(title_text="Categoria", row=1, col=1)
fig.update_yaxes(title_text="Quantidade", row=1, col=1)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/distribuicao_categorias.html")
print("üíæ Gr√°fico salvo como 'distribuicao_categorias.html'")

### 3.3 An√°lise das Vari√°veis Num√©ricas

Vamos analisar as vari√°veis num√©ricas para entender:
- **Distribui√ß√µes e outliers**
- **Correla√ß√µes entre vari√°veis**
- **Padr√µes por categoria**

In [None]:
# An√°lise das vari√°veis num√©ricas
numeric_cols = ['valor_envolvido', 'tempo_resposta_dias']

print("üìä AN√ÅLISE DAS VARI√ÅVEIS NUM√âRICAS")
print("=" * 40)

for col in numeric_cols:
    print(f"\nüîç {col.upper()}:")
    print(f"M√©dia: {df[col].mean():.2f}")
    print(f"Mediana: {df[col].median():.2f}")
    print(f"Desvio Padr√£o: {df[col].std():.2f}")
    print(f"M√≠nimo: {df[col].min():.2f}")
    print(f"M√°ximo: {df[col].max():.2f}")
    
    # Detectando outliers usando IQR
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    print(f"Outliers detectados: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)")

In [None]:
# Visualiza√ß√£o das vari√°veis num√©ricas por categoria
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=[
        'Distribui√ß√£o do Valor Envolvido por Categoria',
        'Distribui√ß√£o do Tempo de Resposta por Categoria',
        'Boxplot - Valor Envolvido',
        'Boxplot - Tempo de Resposta'
    ],
    specs=[[{'type': 'box'}, {'type': 'box'}],
           [{'type': 'violin'}, {'type': 'violin'}]]
)

# Cores para cada categoria
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
categories = df['categoria'].unique()

# Boxplots
for i, cat in enumerate(categories):
    data_cat = df[df['categoria'] == cat]
    
    fig.add_trace(
        go.Box(
            y=data_cat['valor_envolvido'],
            name=cat,
            marker_color=colors[i],
            showlegend=False
        ),
        row=1, col=1
    )
    
    fig.add_trace(
        go.Box(
            y=data_cat['tempo_resposta_dias'],
            name=cat,
            marker_color=colors[i],
            showlegend=False
        ),
        row=1, col=2
    )
    
    # Violin plots
    fig.add_trace(
        go.Violin(
            y=data_cat['valor_envolvido'],
            name=cat,
            fillcolor=colors[i],
            line_color=colors[i],
            showlegend=False
        ),
        row=2, col=1
    )
    
    fig.add_trace(
        go.Violin(
            y=data_cat['tempo_resposta_dias'],
            name=cat,
            fillcolor=colors[i],
            line_color=colors[i],
            showlegend=False
        ),
        row=2, col=2
    )

fig.update_layout(
    title_text="üìä An√°lise das Vari√°veis Num√©ricas por Categoria",
    title_x=0.5,
    height=800
)

fig.update_yaxes(title_text="Valor (R$)", row=1, col=1)
fig.update_yaxes(title_text="Tempo (dias)", row=1, col=2)
fig.update_yaxes(title_text="Valor (R$)", row=2, col=1)
fig.update_yaxes(title_text="Tempo (dias)", row=2, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/analise_variaveis_numericas.html")
print("üíæ Gr√°fico salvo como 'analise_variaveis_numericas.html'")

### 3.4 An√°lise das Vari√°veis Categ√≥ricas

Vamos analisar as vari√°veis categ√≥ricas (empresa e estado) para entender sua distribui√ß√£o e rela√ß√£o com a vari√°vel target.

In [None]:
# An√°lise das vari√°veis categ√≥ricas
categorical_cols = ['empresa', 'estado']

print("üè¢ AN√ÅLISE DAS VARI√ÅVEIS CATEG√ìRICAS")
print("=" * 45)

for col in categorical_cols:
    print(f"\nüìä {col.upper()}:")
    print(f"Valores √∫nicos: {df[col].nunique()}")
    print(f"Valor mais frequente: {df[col].mode()[0]} ({df[col].value_counts().iloc[0]} ocorr√™ncias)")
    
    # Top 5 valores
    print(f"\nTop 5 {col}s:")
    top_values = df[col].value_counts().head()
    for idx, (value, count) in enumerate(top_values.items(), 1):
        percentage = (count / len(df)) * 100
        print(f"{idx}. {value}: {count} ({percentage:.1f}%)")

In [None]:
# Visualiza√ß√£o da rela√ß√£o entre vari√°veis categ√≥ricas e target
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=[
        'Distribui√ß√£o por Empresa',
        'Distribui√ß√£o por Estado',
        'Heatmap: Empresa vs Categoria',
        'Heatmap: Estado vs Categoria'
    ],
    specs=[[{'type': 'bar'}, {'type': 'bar'}],
           [{'type': 'heatmap'}, {'type': 'heatmap'}]]
)

# Distribui√ß√£o por empresa
empresa_counts = df['empresa'].value_counts()
fig.add_trace(
    go.Bar(
        x=empresa_counts.index,
        y=empresa_counts.values,
        text=empresa_counts.values,
        textposition='auto',
        marker_color='#FF6B6B',
        showlegend=False
    ),
    row=1, col=1
)

# Distribui√ß√£o por estado (top 10)
estado_counts = df['estado'].value_counts().head(10)
fig.add_trace(
    go.Bar(
        x=estado_counts.index,
        y=estado_counts.values,
        text=estado_counts.values,
        textposition='auto',
        marker_color='#4ECDC4',
        showlegend=False
    ),
    row=1, col=2
)

# Heatmap empresa vs categoria
empresa_categoria = pd.crosstab(df['empresa'], df['categoria'])
fig.add_trace(
    go.Heatmap(
        z=empresa_categoria.values,
        x=empresa_categoria.columns,
        y=empresa_categoria.index,
        colorscale='Viridis',
        showscale=False
    ),
    row=2, col=1
)

# Heatmap estado vs categoria (top 10 estados)
top_estados = df['estado'].value_counts().head(10).index
df_top_estados = df[df['estado'].isin(top_estados)]
estado_categoria = pd.crosstab(df_top_estados['estado'], df_top_estados['categoria'])
fig.add_trace(
    go.Heatmap(
        z=estado_categoria.values,
        x=estado_categoria.columns,
        y=estado_categoria.index,
        colorscale='Plasma',
        showscale=False
    ),
    row=2, col=2
)

fig.update_layout(
    title_text="üè¢ An√°lise das Vari√°veis Categ√≥ricas",
    title_x=0.5,
    height=800
)

fig.update_xaxes(title_text="Empresa", row=1, col=1)
fig.update_xaxes(title_text="Estado", row=1, col=2)
fig.update_yaxes(title_text="Quantidade", row=1, col=1)
fig.update_yaxes(title_text="Quantidade", row=1, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/analise_variaveis_categoricas.html")
print("üíæ Gr√°fico salvo como 'analise_variaveis_categoricas.html'")

### 3.5 Matriz de Correla√ß√£o

Vamos analisar as correla√ß√µes entre as vari√°veis num√©ricas para identificar poss√≠veis rela√ß√µes lineares.

In [None]:
# Matriz de correla√ß√£o
numeric_data = df[numeric_cols]
correlation_matrix = numeric_data.corr()

print("üîó MATRIZ DE CORRELA√á√ÉO")
print("=" * 30)
print(correlation_matrix)

# Visualiza√ß√£o da matriz de correla√ß√£o
fig = go.Figure(data=go.Heatmap(
    z=correlation_matrix.values,
    x=correlation_matrix.columns,
    y=correlation_matrix.columns,
    colorscale='RdBu',
    zmid=0,
    text=correlation_matrix.round(3).values,
    texttemplate="%{text}",
    textfont={"size": 12},
    hoverongaps=False
))

fig.update_layout(
    title="üîó Matriz de Correla√ß√£o das Vari√°veis Num√©ricas",
    title_x=0.5,
    width=600,
    height=500
)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/matriz_correlacao.html")
print("üíæ Gr√°fico salvo como 'matriz_correlacao.html'")

# Interpreta√ß√£o das correla√ß√µes
print("\nüìä INTERPRETA√á√ÉO DAS CORRELA√á√ïES:")
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = correlation_matrix.iloc[i, j]
        var1 = correlation_matrix.columns[i]
        var2 = correlation_matrix.columns[j]
        
        if abs(corr_value) > 0.7:
            strength = "forte"
        elif abs(corr_value) > 0.3:
            strength = "moderada"
        else:
            strength = "fraca"
        
        direction = "positiva" if corr_value > 0 else "negativa"
        print(f"{var1} vs {var2}: {corr_value:.3f} (correla√ß√£o {strength} {direction})")

## 4. üîß Pr√©-processamento e Feature Engineering

O pr√©-processamento √© uma etapa crucial que pode determinar o sucesso do modelo. Vamos aplicar as seguintes transforma√ß√µes:

### üéØ Objetivos do Pr√©-processamento:
- **Encoding de vari√°veis categ√≥ricas** (One-Hot Encoding)
- **Normaliza√ß√£o de vari√°veis num√©ricas** (StandardScaler)
- **Vetoriza√ß√£o de texto** (TF-IDF)
- **Cria√ß√£o de novas features**
- **Divis√£o treino/teste estratificada**

### 4.1 Prepara√ß√£o dos Dados

In [None]:
print("üîß INICIANDO PR√â-PROCESSAMENTO DOS DADOS")
print("=" * 50)

# Criando uma c√≥pia dos dados para preservar o original
df_processed = df.copy()

# 1. Feature Engineering - Criando novas vari√°veis
print("\nüéØ FEATURE ENGINEERING:")

# Categoria de valor (baixo, m√©dio, alto)
df_processed['categoria_valor'] = pd.cut(
    df_processed['valor_envolvido'], 
    bins=3, 
    labels=['Baixo', 'M√©dio', 'Alto']
)

# Categoria de tempo de resposta
df_processed['categoria_tempo'] = pd.cut(
    df_processed['tempo_resposta_dias'], 
    bins=3, 
    labels=['R√°pido', 'M√©dio', 'Lento']
)

# Tamanho do texto da reclama√ß√£o
df_processed['tamanho_texto'] = df_processed['texto_reclamacao'].str.len()

# N√∫mero de palavras na reclama√ß√£o
df_processed['num_palavras'] = df_processed['texto_reclamacao'].str.split().str.len()

print(f"‚úÖ Criadas 4 novas features:")
print(f"   - categoria_valor: {df_processed['categoria_valor'].nunique()} categorias")
print(f"   - categoria_tempo: {df_processed['categoria_tempo'].nunique()} categorias")
print(f"   - tamanho_texto: vari√°vel num√©rica")
print(f"   - num_palavras: vari√°vel num√©rica")

# Visualizando as novas features
print("\nüìä DISTRIBUI√á√ÉO DAS NOVAS FEATURES:")
print("\nCategoria de Valor:")
print(df_processed['categoria_valor'].value_counts())
print("\nCategoria de Tempo:")
print(df_processed['categoria_tempo'].value_counts())
print(f"\nTamanho do texto - M√©dia: {df_processed['tamanho_texto'].mean():.1f} caracteres")
print(f"N√∫mero de palavras - M√©dia: {df_processed['num_palavras'].mean():.1f} palavras")

### 4.2 Divis√£o dos Dados (Train/Test Split)

**Boa Pr√°tica**: Sempre dividir os dados ANTES do pr√©-processamento para evitar data leakage.

In [None]:
print("\nüìä DIVIS√ÉO DOS DADOS (TRAIN/TEST SPLIT)")
print("=" * 45)

# Separando features e target
X = df_processed.drop('categoria', axis=1)
y = df_processed['categoria']

print(f"Features (X): {X.shape}")
print(f"Target (y): {y.shape}")
print(f"Classes: {y.unique()}")

# Divis√£o estratificada (mant√©m a propor√ß√£o das classes)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,  # 20% para teste
    random_state=42,  # Para reprodutibilidade
    stratify=y  # Mant√©m propor√ß√£o das classes
)

print(f"\n‚úÖ DIVIS√ÉO REALIZADA:")
print(f"Treino: {X_train.shape[0]} amostras ({X_train.shape[0]/len(df)*100:.1f}%)")
print(f"Teste: {X_test.shape[0]} amostras ({X_test.shape[0]/len(df)*100:.1f}%)")

# Verificando a distribui√ß√£o das classes ap√≥s a divis√£o
print("\nüìä DISTRIBUI√á√ÉO DAS CLASSES:")
print("\nTreino:")
train_dist = y_train.value_counts(normalize=True) * 100
for classe, perc in train_dist.items():
    print(f"  {classe}: {perc:.1f}%")

print("\nTeste:")
test_dist = y_test.value_counts(normalize=True) * 100
for classe, perc in test_dist.items():
    print(f"  {classe}: {perc:.1f}%")

# Verificando se a estratifica√ß√£o funcionou
max_diff = max(abs(train_dist - test_dist))
if max_diff < 2:
    print(f"\n‚úÖ Estratifica√ß√£o bem-sucedida! Diferen√ßa m√°xima: {max_diff:.2f}%")
else:
    print(f"\n‚ö†Ô∏è Poss√≠vel problema na estratifica√ß√£o. Diferen√ßa m√°xima: {max_diff:.2f}%")

### 4.3 Pipeline de Pr√©-processamento

Vamos criar um pipeline robusto que trata diferentes tipos de vari√°veis de forma adequada:

- **Vari√°veis num√©ricas**: StandardScaler
- **Vari√°veis categ√≥ricas**: OneHotEncoder
- **Texto**: TfidfVectorizer

In [None]:
print("\nüîß CRIANDO PIPELINE DE PR√â-PROCESSAMENTO")
print("=" * 50)

# Definindo as colunas por tipo
numeric_features = ['valor_envolvido', 'tempo_resposta_dias', 'tamanho_texto', 'num_palavras']
categorical_features = ['empresa', 'estado', 'categoria_valor', 'categoria_tempo']
text_feature = 'texto_reclamacao'

print(f"üìä TIPOS DE FEATURES:")
print(f"Num√©ricas ({len(numeric_features)}): {numeric_features}")
print(f"Categ√≥ricas ({len(categorical_features)}): {categorical_features}")
print(f"Texto (1): {text_feature}")

# Pipeline para vari√°veis num√©ricas
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

# Pipeline para vari√°veis categ√≥ricas
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(drop='first', sparse_output=False, handle_unknown='ignore'))
])

# Pipeline para texto
text_transformer = Pipeline(steps=[
    ('tfidf', TfidfVectorizer(
        max_features=1000,  # M√°ximo de 1000 features de texto
        stop_words=None,  # Sem stop words (portugu√™s n√£o est√° dispon√≠vel)
        ngram_range=(1, 2),  # Unigramas e bigramas
        min_df=2,  # Palavra deve aparecer em pelo menos 2 documentos
        max_df=0.95  # Palavra n√£o pode aparecer em mais de 95% dos documentos
    ))
])

# Combinando todos os transformadores
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('text', text_transformer, text_feature)
    ],
    remainder='drop'  # Remove colunas n√£o especificadas
)

print("\n‚úÖ Pipeline de pr√©-processamento criado com sucesso!")
print("\nüîß COMPONENTES DO PIPELINE:")
print("1. Vari√°veis Num√©ricas ‚Üí StandardScaler")
print("2. Vari√°veis Categ√≥ricas ‚Üí OneHotEncoder")
print("3. Texto ‚Üí TfidfVectorizer")
print("4. Combina√ß√£o ‚Üí ColumnTransformer")

In [None]:
# Aplicando o pr√©-processamento
print("\n‚öôÔ∏è APLICANDO PR√â-PROCESSAMENTO")
print("=" * 40)

# Fit no conjunto de treino e transform em ambos
print("Ajustando transformadores no conjunto de treino...")
X_train_processed = preprocessor.fit_transform(X_train)
print("Aplicando transforma√ß√µes no conjunto de teste...")
X_test_processed = preprocessor.transform(X_test)

print(f"\n‚úÖ PR√â-PROCESSAMENTO CONCLU√çDO:")
print(f"X_train original: {X_train.shape}")
print(f"X_train processado: {X_train_processed.shape}")
print(f"X_test original: {X_test.shape}")
print(f"X_test processado: {X_test_processed.shape}")

# Informa√ß√µes sobre as features criadas
total_features = X_train_processed.shape[1]
print(f"\nüìä FEATURES FINAIS:")
print(f"Total de features: {total_features}")

# Estimando a contribui√ß√£o de cada tipo
num_numeric = len(numeric_features)
# Para categ√≥ricas, precisamos ver quantas foram criadas ap√≥s one-hot
cat_encoder = preprocessor.named_transformers_['cat']['onehot']
num_categorical = len(cat_encoder.get_feature_names_out())
num_text = 1000  # Definido no TfidfVectorizer

print(f"Features num√©ricas: {num_numeric}")
print(f"Features categ√≥ricas (ap√≥s one-hot): {num_categorical}")
print(f"Features de texto (TF-IDF): {min(num_text, total_features - num_numeric - num_categorical)}")

# Verificando se h√° valores NaN
nan_train = np.isnan(X_train_processed).sum()
nan_test = np.isnan(X_test_processed).sum()

if nan_train == 0 and nan_test == 0:
    print("\n‚úÖ Nenhum valor NaN detectado ap√≥s pr√©-processamento")
else:
    print(f"\n‚ö†Ô∏è Valores NaN detectados - Treino: {nan_train}, Teste: {nan_test}")

### 4.4 Encoding da Vari√°vel Target

Vamos codificar a vari√°vel target para uso nos algoritmos de ML.

In [None]:
print("\nüéØ ENCODING DA VARI√ÅVEL TARGET")
print("=" * 35)

# Criando o encoder para a vari√°vel target
label_encoder = LabelEncoder()

# Fit no conjunto completo de labels (treino + teste)
all_labels = pd.concat([y_train, y_test])
label_encoder.fit(all_labels)

# Transform nos conjuntos de treino e teste
y_train_encoded = label_encoder.transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

print(f"‚úÖ Encoding realizado com sucesso!")
print(f"\nüìä MAPEAMENTO DAS CLASSES:")
for i, classe in enumerate(label_encoder.classes_):
    print(f"  {classe} ‚Üí {i}")

print(f"\nüìà DISTRIBUI√á√ÉO ENCODED:")
unique, counts = np.unique(y_train_encoded, return_counts=True)
for label, count in zip(unique, counts):
    classe_original = label_encoder.inverse_transform([label])[0]
    percentage = (count / len(y_train_encoded)) * 100
    print(f"  Classe {label} ({classe_original}): {count} amostras ({percentage:.1f}%)")

# Salvando o label encoder para uso posterior
with open('/home/ubuntu/label_encoder.pkl', 'wb') as f:
    pickle.dump(label_encoder, f)
print("\nüíæ Label encoder salvo como 'label_encoder.pkl'")

## 5. ü§ñ Treinamento de Modelos de Machine Learning

Agora vamos treinar m√∫ltiplos algoritmos de classifica√ß√£o e comparar seu desempenho. Utilizaremos:

### üéØ Algoritmos Selecionados:
1. **Random Forest** - Ensemble robusto e interpret√°vel
2. **Support Vector Machine (SVM)** - Eficaz para alta dimensionalidade
3. **Logistic Regression** - Baseline linear e interpret√°vel
4. **Gradient Boosting** - Ensemble sequencial poderoso
5. **Naive Bayes** - R√°pido e eficaz para texto

### 5.1 Configura√ß√£o dos Modelos

In [None]:
print("ü§ñ CONFIGURA√á√ÉO DOS MODELOS DE MACHINE LEARNING")
print("=" * 55)

# Dicion√°rio com os modelos e seus par√¢metros
models = {
    'Random Forest': RandomForestClassifier(
        n_estimators=100,
        max_depth=10,
        min_samples_split=5,
        min_samples_leaf=2,
        random_state=42,
        n_jobs=-1
    ),
    
    'SVM': SVC(
        kernel='rbf',
        C=1.0,
        gamma='scale',
        random_state=42,
        probability=True  # Para calcular probabilidades
    ),
    
    'Logistic Regression': LogisticRegression(
        max_iter=1000,
        random_state=42,
        multi_class='ovr',
        n_jobs=-1
    ),
    
    'Gradient Boosting': GradientBoostingClassifier(
        n_estimators=100,
        learning_rate=0.1,
        max_depth=6,
        random_state=42
    ),
    
    'Naive Bayes': MultinomialNB(
        alpha=1.0
    )
}

print(f"üìä MODELOS CONFIGURADOS: {len(models)}")
for i, (name, model) in enumerate(models.items(), 1):
    print(f"{i}. {name}: {type(model).__name__}")

print("\nüéØ CARACTER√çSTICAS DOS MODELOS:")
print("‚Ä¢ Random Forest: Ensemble de √°rvores, robusto a overfitting")
print("‚Ä¢ SVM: Eficaz para alta dimensionalidade, kernel RBF")
print("‚Ä¢ Logistic Regression: Linear, r√°pido, interpret√°vel")
print("‚Ä¢ Gradient Boosting: Ensemble sequencial, alta performance")
print("‚Ä¢ Naive Bayes: R√°pido, eficaz para dados de texto")

### 5.2 Treinamento e Avalia√ß√£o Inicial

Vamos treinar todos os modelos e fazer uma avalia√ß√£o inicial para comparar o desempenho.

In [None]:
print("\nüöÄ INICIANDO TREINAMENTO DOS MODELOS")
print("=" * 45)

# Dicion√°rio para armazenar resultados
results = {}
trained_models = {}

# Treinando cada modelo
for name, model in models.items():
    print(f"\nüîÑ Treinando {name}...")
    start_time = datetime.now()
    
    # Treinamento
    model.fit(X_train_processed, y_train_encoded)
    
    # Predi√ß√µes
    y_train_pred = model.predict(X_train_processed)
    y_test_pred = model.predict(X_test_processed)
    
    # Probabilidades (se dispon√≠vel)
    try:
        y_test_proba = model.predict_proba(X_test_processed)
    except:
        y_test_proba = None
    
    # Calculando m√©tricas
    train_accuracy = accuracy_score(y_train_encoded, y_train_pred)
    test_accuracy = accuracy_score(y_test_encoded, y_test_pred)
    
    # M√©tricas detalhadas para o conjunto de teste
    precision = precision_score(y_test_encoded, y_test_pred, average='weighted')
    recall = recall_score(y_test_encoded, y_test_pred, average='weighted')
    f1 = f1_score(y_test_encoded, y_test_pred, average='weighted')
    
    # Tempo de treinamento
    training_time = (datetime.now() - start_time).total_seconds()
    
    # Armazenando resultados
    results[name] = {
        'train_accuracy': train_accuracy,
        'test_accuracy': test_accuracy,
        'precision': precision,
        'recall': recall,
        'f1_score': f1,
        'training_time': training_time,
        'predictions': y_test_pred,
        'probabilities': y_test_proba
    }
    
    trained_models[name] = model
    
    print(f"   ‚úÖ Conclu√≠do em {training_time:.2f}s")
    print(f"   üìä Acur√°cia Treino: {train_accuracy:.4f}")
    print(f"   üìä Acur√°cia Teste: {test_accuracy:.4f}")
    print(f"   üìä F1-Score: {f1:.4f}")

print("\nüéâ TREINAMENTO CONCLU√çDO PARA TODOS OS MODELOS!")

### 5.3 Compara√ß√£o de Resultados

Vamos criar uma tabela comparativa com todas as m√©tricas dos modelos.

In [None]:
print("\nüìä COMPARA√á√ÉO DE RESULTADOS DOS MODELOS")
print("=" * 50)

# Criando DataFrame com os resultados
results_df = pd.DataFrame({
    'Modelo': list(results.keys()),
    'Acur√°cia Treino': [results[model]['train_accuracy'] for model in results.keys()],
    'Acur√°cia Teste': [results[model]['test_accuracy'] for model in results.keys()],
    'Precision': [results[model]['precision'] for model in results.keys()],
    'Recall': [results[model]['recall'] for model in results.keys()],
    'F1-Score': [results[model]['f1_score'] for model in results.keys()],
    'Tempo (s)': [results[model]['training_time'] for model in results.keys()]
})

# Ordenando por F1-Score
results_df = results_df.sort_values('F1-Score', ascending=False).reset_index(drop=True)

# Formatando para melhor visualiza√ß√£o
results_df_display = results_df.copy()
for col in ['Acur√°cia Treino', 'Acur√°cia Teste', 'Precision', 'Recall', 'F1-Score']:
    results_df_display[col] = results_df_display[col].apply(lambda x: f"{x:.4f}")
results_df_display['Tempo (s)'] = results_df_display['Tempo (s)'].apply(lambda x: f"{x:.2f}")

print("üèÜ RANKING DOS MODELOS (por F1-Score):")
display(results_df_display)

# Identificando o melhor modelo
best_model_name = results_df.iloc[0]['Modelo']
best_f1 = results_df.iloc[0]['F1-Score']

print(f"\nü•á MELHOR MODELO: {best_model_name}")
print(f"   F1-Score: {best_f1:.4f}")
print(f"   Acur√°cia Teste: {results_df.iloc[0]['Acur√°cia Teste']:.4f}")

# An√°lise de overfitting
print("\nüîç AN√ÅLISE DE OVERFITTING:")
for _, row in results_df.iterrows():
    modelo = row['Modelo']
    diff = row['Acur√°cia Treino'] - row['Acur√°cia Teste']
    
    if diff < 0.02:
        status = "‚úÖ Bem balanceado"
    elif diff < 0.05:
        status = "‚ö†Ô∏è Leve overfitting"
    else:
        status = "üö® Overfitting detectado"
    
    print(f"  {modelo}: {diff:.4f} - {status}")

### 5.4 Visualiza√ß√£o dos Resultados

Vamos criar visualiza√ß√µes para comparar o desempenho dos modelos.

In [None]:
# Visualiza√ß√£o comparativa dos modelos
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=[
        'Compara√ß√£o de Acur√°cia (Treino vs Teste)',
        'M√©tricas de Performance',
        'Tempo de Treinamento',
        'F1-Score por Modelo'
    ],
    specs=[[{'type': 'scatter'}, {'type': 'bar'}],
           [{'type': 'bar'}, {'type': 'bar'}]]
)

# 1. Scatter plot: Acur√°cia Treino vs Teste
fig.add_trace(
    go.Scatter(
        x=results_df['Acur√°cia Treino'],
        y=results_df['Acur√°cia Teste'],
        mode='markers+text',
        text=results_df['Modelo'],
        textposition='top center',
        marker=dict(size=12, color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FECA57']),
        showlegend=False
    ),
    row=1, col=1
)

# Linha diagonal (ideal)
fig.add_trace(
    go.Scatter(
        x=[0.7, 1.0],
        y=[0.7, 1.0],
        mode='lines',
        line=dict(dash='dash', color='gray'),
        name='Linha Ideal',
        showlegend=False
    ),
    row=1, col=1
)

# 2. M√©tricas de Performance
metrics = ['Precision', 'Recall', 'F1-Score']
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']

for i, metric in enumerate(metrics):
    fig.add_trace(
        go.Bar(
            x=results_df['Modelo'],
            y=results_df[metric],
            name=metric,
            marker_color=colors[i],
            opacity=0.8
        ),
        row=1, col=2
    )

# 3. Tempo de Treinamento
fig.add_trace(
    go.Bar(
        x=results_df['Modelo'],
        y=results_df['Tempo (s)'],
        text=results_df['Tempo (s)'].apply(lambda x: f"{x:.2f}s"),
        textposition='auto',
        marker_color='#96CEB4',
        showlegend=False
    ),
    row=2, col=1
)

# 4. F1-Score destacado
fig.add_trace(
    go.Bar(
        x=results_df['Modelo'],
        y=results_df['F1-Score'],
        text=results_df['F1-Score'].apply(lambda x: f"{x:.4f}"),
        textposition='auto',
        marker_color=['#FFD700' if i == 0 else '#CCCCCC' for i in range(len(results_df))],
        showlegend=False
    ),
    row=2, col=2
)

# Atualizando layout
fig.update_layout(
    title_text="ü§ñ Compara√ß√£o Completa dos Modelos de Machine Learning",
    title_x=0.5,
    height=800,
    showlegend=True
)

# Atualizando eixos
fig.update_xaxes(title_text="Acur√°cia Treino", row=1, col=1)
fig.update_yaxes(title_text="Acur√°cia Teste", row=1, col=1)
fig.update_yaxes(title_text="Score", row=1, col=2)
fig.update_yaxes(title_text="Tempo (segundos)", row=2, col=1)
fig.update_yaxes(title_text="F1-Score", row=2, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/comparacao_modelos.html")
print("üíæ Gr√°fico salvo como 'comparacao_modelos.html'")

## 6. üîç Valida√ß√£o Cruzada e Ajuste de Hiperpar√¢metros

Vamos aplicar **valida√ß√£o cruzada** para obter uma avalia√ß√£o mais robusta e realizar **ajuste de hiperpar√¢metros** no melhor modelo.

### 6.1 Valida√ß√£o Cruzada Estratificada

In [None]:
print("üîç VALIDA√á√ÉO CRUZADA ESTRATIFICADA")
print("=" * 40)

# Configurando valida√ß√£o cruzada estratificada
cv_folds = 5
cv_strategy = StratifiedKFold(n_splits=cv_folds, shuffle=True, random_state=42)

print(f"üìä Configura√ß√£o: {cv_folds} folds estratificados")
print(f"üéØ M√©trica: F1-Score (weighted)")

# Resultados da valida√ß√£o cruzada
cv_results = {}

print("\nüîÑ Executando valida√ß√£o cruzada para todos os modelos...")

for name, model in trained_models.items():
    print(f"\nüìä {name}:")
    
    # Valida√ß√£o cruzada com F1-Score
    cv_scores = cross_val_score(
        model, X_train_processed, y_train_encoded,
        cv=cv_strategy,
        scoring='f1_weighted',
        n_jobs=-1
    )
    
    # Estat√≠sticas
    mean_score = cv_scores.mean()
    std_score = cv_scores.std()
    
    cv_results[name] = {
        'scores': cv_scores,
        'mean': mean_score,
        'std': std_score,
        'min': cv_scores.min(),
        'max': cv_scores.max()
    }
    
    print(f"   M√©dia: {mean_score:.4f} (¬±{std_score:.4f})")
    print(f"   Min: {cv_scores.min():.4f} | Max: {cv_scores.max():.4f}")
    print(f"   Scores: {[f'{score:.4f}' for score in cv_scores]}")

# Criando DataFrame com resultados da CV
cv_df = pd.DataFrame({
    'Modelo': list(cv_results.keys()),
    'CV_Mean': [cv_results[model]['mean'] for model in cv_results.keys()],
    'CV_Std': [cv_results[model]['std'] for model in cv_results.keys()],
    'CV_Min': [cv_results[model]['min'] for model in cv_results.keys()],
    'CV_Max': [cv_results[model]['max'] for model in cv_results.keys()]
})

# Ordenando por m√©dia da CV
cv_df = cv_df.sort_values('CV_Mean', ascending=False).reset_index(drop=True)

print("\nüèÜ RANKING POR VALIDA√á√ÉO CRUZADA:")
display(cv_df.round(4))

# Melhor modelo por CV
best_cv_model = cv_df.iloc[0]['Modelo']
best_cv_score = cv_df.iloc[0]['CV_Mean']
best_cv_std = cv_df.iloc[0]['CV_Std']

print(f"\nü•á MELHOR MODELO (Valida√ß√£o Cruzada): {best_cv_model}")
print(f"   F1-Score CV: {best_cv_score:.4f} (¬±{best_cv_std:.4f})")

# Verificando consist√™ncia
if best_cv_model == best_model_name:
    print("\n‚úÖ Consist√™ncia confirmada! Mesmo melhor modelo em ambas avalia√ß√µes.")
else:
    print(f"\n‚ö†Ô∏è Diverg√™ncia detectada! Melhor por holdout: {best_model_name}, por CV: {best_cv_model}")

In [None]:
# Visualiza√ß√£o dos resultados da valida√ß√£o cruzada
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=['Distribui√ß√£o dos Scores de Valida√ß√£o Cruzada', 'Compara√ß√£o: Holdout vs Cross-Validation'],
    specs=[[{'type': 'box'}, {'type': 'scatter'}]]
)

# 1. Boxplot dos scores de CV
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FECA57']
for i, (name, data) in enumerate(cv_results.items()):
    fig.add_trace(
        go.Box(
            y=data['scores'],
            name=name,
            marker_color=colors[i],
            showlegend=False
        ),
        row=1, col=1
    )

# 2. Scatter: Holdout vs CV
holdout_scores = [results[model]['f1_score'] for model in cv_df['Modelo']]
cv_scores_mean = cv_df['CV_Mean'].tolist()

fig.add_trace(
    go.Scatter(
        x=holdout_scores,
        y=cv_scores_mean,
        mode='markers+text',
        text=cv_df['Modelo'],
        textposition='top center',
        marker=dict(size=12, color=colors[:len(cv_df)]),
        showlegend=False
    ),
    row=1, col=2
)

# Linha diagonal
min_score = min(min(holdout_scores), min(cv_scores_mean))
max_score = max(max(holdout_scores), max(cv_scores_mean))
fig.add_trace(
    go.Scatter(
        x=[min_score, max_score],
        y=[min_score, max_score],
        mode='lines',
        line=dict(dash='dash', color='gray'),
        showlegend=False
    ),
    row=1, col=2
)

fig.update_layout(
    title_text="üîç An√°lise de Valida√ß√£o Cruzada",
    title_x=0.5,
    height=500
)

fig.update_yaxes(title_text="F1-Score", row=1, col=1)
fig.update_xaxes(title_text="F1-Score (Holdout)", row=1, col=2)
fig.update_yaxes(title_text="F1-Score (Cross-Validation)", row=1, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/validacao_cruzada.html")
print("üíæ Gr√°fico salvo como 'validacao_cruzada.html'")

### 6.2 Ajuste de Hiperpar√¢metros (Grid Search)

Vamos otimizar os hiperpar√¢metros do melhor modelo usando Grid Search com valida√ß√£o cruzada.

In [None]:
print("‚öôÔ∏è AJUSTE DE HIPERPAR√ÇMETROS (GRID SEARCH)")
print("=" * 50)

# Selecionando o melhor modelo para otimiza√ß√£o
model_to_optimize = best_cv_model
base_model = trained_models[model_to_optimize]

print(f"üéØ Modelo selecionado: {model_to_optimize}")
print(f"üìä Score atual: {best_cv_score:.4f} (¬±{best_cv_std:.4f})")

# Definindo grid de hiperpar√¢metros baseado no modelo
if 'Random Forest' in model_to_optimize:
    param_grid = {
        'n_estimators': [50, 100, 200],
        'max_depth': [5, 10, 15, None],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }
    
elif 'SVM' in model_to_optimize:
    param_grid = {
        'C': [0.1, 1, 10, 100],
        'gamma': ['scale', 'auto', 0.001, 0.01, 0.1],
        'kernel': ['rbf', 'linear']
    }
    
elif 'Logistic' in model_to_optimize:
    param_grid = {
        'C': [0.01, 0.1, 1, 10, 100],
        'solver': ['liblinear', 'lbfgs'],
        'max_iter': [500, 1000, 2000]
    }
    
elif 'Gradient' in model_to_optimize:
    param_grid = {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.05, 0.1, 0.2],
        'max_depth': [3, 6, 9],
        'subsample': [0.8, 0.9, 1.0]
    }
    
else:  # Naive Bayes
    param_grid = {
        'alpha': [0.1, 0.5, 1.0, 2.0, 5.0]
    }

print(f"\nüîß Grid de par√¢metros definido:")
for param, values in param_grid.items():
    print(f"   {param}: {values}")

total_combinations = 1
for values in param_grid.values():
    total_combinations *= len(values)
print(f"\nüìä Total de combina√ß√µes: {total_combinations}")
print(f"üìä Total de fits: {total_combinations * cv_folds} (com {cv_folds}-fold CV)")

# Executando Grid Search
print("\nüöÄ Iniciando Grid Search...")
start_time = datetime.now()

# Criando uma nova inst√¢ncia do modelo
if 'Random Forest' in model_to_optimize:
    model_for_grid = RandomForestClassifier(random_state=42, n_jobs=-1)
elif 'SVM' in model_to_optimize:
    model_for_grid = SVC(random_state=42, probability=True)
elif 'Logistic' in model_to_optimize:
    model_for_grid = LogisticRegression(random_state=42, n_jobs=-1)
elif 'Gradient' in model_to_optimize:
    model_for_grid = GradientBoostingClassifier(random_state=42)
else:
    model_for_grid = MultinomialNB()

# Grid Search com valida√ß√£o cruzada
grid_search = GridSearchCV(
    estimator=model_for_grid,
    param_grid=param_grid,
    cv=cv_strategy,
    scoring='f1_weighted',
    n_jobs=-1,
    verbose=1
)

grid_search.fit(X_train_processed, y_train_encoded)

optimization_time = (datetime.now() - start_time).total_seconds()

print(f"\n‚úÖ Grid Search conclu√≠do em {optimization_time:.2f}s")
print(f"\nüèÜ MELHORES HIPERPAR√ÇMETROS:")
for param, value in grid_search.best_params_.items():
    print(f"   {param}: {value}")

print(f"\nüìä MELHORES RESULTADOS:")
print(f"   F1-Score: {grid_search.best_score_:.4f}")
print(f"   Melhoria: {grid_search.best_score_ - best_cv_score:.4f}")

# Modelo otimizado
optimized_model = grid_search.best_estimator_

# Avalia√ß√£o no conjunto de teste
y_test_pred_optimized = optimized_model.predict(X_test_processed)
test_f1_optimized = f1_score(y_test_encoded, y_test_pred_optimized, average='weighted')
test_accuracy_optimized = accuracy_score(y_test_encoded, y_test_pred_optimized)

print(f"\nüéØ PERFORMANCE NO CONJUNTO DE TESTE:")
print(f"   Acur√°cia: {test_accuracy_optimized:.4f}")
print(f"   F1-Score: {test_f1_optimized:.4f}")
print(f"   Melhoria na acur√°cia: {test_accuracy_optimized - results[model_to_optimize]['test_accuracy']:.4f}")
print(f"   Melhoria no F1: {test_f1_optimized - results[model_to_optimize]['f1_score']:.4f}")

## 7. üìä Avalia√ß√£o Detalhada do Melhor Modelo

Vamos fazer uma an√°lise detalhada do modelo otimizado, incluindo:
- **Matriz de Confus√£o**
- **Relat√≥rio de Classifica√ß√£o**
- **An√°lise por Classe**
- **Import√¢ncia das Features** (se aplic√°vel)

### 7.1 Matriz de Confus√£o e M√©tricas Detalhadas

In [None]:
print("üìä AVALIA√á√ÉO DETALHADA DO MODELO OTIMIZADO")
print("=" * 50)

# Predi√ß√µes do modelo otimizado
y_test_pred_final = optimized_model.predict(X_test_processed)
y_test_proba_final = optimized_model.predict_proba(X_test_processed)

# Matriz de confus√£o
cm = confusion_matrix(y_test_encoded, y_test_pred_final)
class_names = label_encoder.classes_

print(f"üéØ MODELO FINAL: {model_to_optimize} (Otimizado)")
print(f"üìä Acur√°cia: {test_accuracy_optimized:.4f}")
print(f"üìä F1-Score: {test_f1_optimized:.4f}")

# Relat√≥rio de classifica√ß√£o detalhado
print("\nüìã RELAT√ìRIO DE CLASSIFICA√á√ÉO:")
classification_rep = classification_report(
    y_test_encoded, y_test_pred_final,
    target_names=class_names,
    output_dict=True
)

# Convertendo para DataFrame para melhor visualiza√ß√£o
report_df = pd.DataFrame(classification_rep).transpose()
print(report_df.round(4))

# Visualiza√ß√£o da matriz de confus√£o
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=['Matriz de Confus√£o (Valores Absolutos)', 'Matriz de Confus√£o (Normalizada)'],
    specs=[[{'type': 'heatmap'}, {'type': 'heatmap'}]]
)

# Matriz de confus√£o absoluta
fig.add_trace(
    go.Heatmap(
        z=cm,
        x=class_names,
        y=class_names,
        colorscale='Blues',
        text=cm,
        texttemplate="%{text}",
        textfont={"size": 12},
        showscale=False
    ),
    row=1, col=1
)

# Matriz de confus√£o normalizada
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
fig.add_trace(
    go.Heatmap(
        z=cm_normalized,
        x=class_names,
        y=class_names,
        colorscale='Reds',
        text=np.round(cm_normalized, 3),
        texttemplate="%{text}",
        textfont={"size": 12},
        showscale=False
    ),
    row=1, col=2
)

fig.update_layout(
    title_text=f"üìä Matriz de Confus√£o - {model_to_optimize} (Otimizado)",
    title_x=0.5,
    height=500
)

fig.update_xaxes(title_text="Predito", row=1, col=1)
fig.update_yaxes(title_text="Real", row=1, col=1)
fig.update_xaxes(title_text="Predito", row=1, col=2)
fig.update_yaxes(title_text="Real", row=1, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/matriz_confusao_final.html")
print("üíæ Gr√°fico salvo como 'matriz_confusao_final.html'")

In [None]:
# An√°lise detalhada por classe
print("\nüîç AN√ÅLISE DETALHADA POR CLASSE")
print("=" * 40)

for i, class_name in enumerate(class_names):
    # M√©tricas da classe
    precision = classification_rep[class_name]['precision']
    recall = classification_rep[class_name]['recall']
    f1 = classification_rep[class_name]['f1-score']
    support = int(classification_rep[class_name]['support'])
    
    # An√°lise da matriz de confus√£o para esta classe
    true_positives = cm[i, i]
    false_positives = cm[:, i].sum() - true_positives
    false_negatives = cm[i, :].sum() - true_positives
    true_negatives = cm.sum() - true_positives - false_positives - false_negatives
    
    print(f"\nüìä {class_name.upper()}:")
    print(f"   Precision: {precision:.4f} | Recall: {recall:.4f} | F1-Score: {f1:.4f}")
    print(f"   Support: {support} amostras")
    print(f"   TP: {true_positives} | FP: {false_positives} | FN: {false_negatives} | TN: {true_negatives}")
    
    # Interpreta√ß√£o
    if precision >= 0.9 and recall >= 0.9:
        interpretation = "‚úÖ Excelente performance"
    elif precision >= 0.8 and recall >= 0.8:
        interpretation = "‚úÖ Boa performance"
    elif precision >= 0.7 or recall >= 0.7:
        interpretation = "‚ö†Ô∏è Performance moderada"
    else:
        interpretation = "üö® Performance baixa"
    
    print(f"   {interpretation}")
    
    # An√°lise espec√≠fica
    if precision > recall:
        print(f"   üí° Modelo conservador: poucos falsos positivos, mas pode perder alguns casos")
    elif recall > precision:
        print(f"   üí° Modelo sens√≠vel: captura bem os casos, mas com alguns falsos positivos")
    else:
        print(f"   üí° Modelo balanceado: precision e recall equilibrados")

# M√©tricas globais
macro_avg = classification_rep['macro avg']
weighted_avg = classification_rep['weighted avg']

print(f"\nüåç M√âTRICAS GLOBAIS:")
print(f"Macro Average - Precision: {macro_avg['precision']:.4f} | Recall: {macro_avg['recall']:.4f} | F1: {macro_avg['f1-score']:.4f}")
print(f"Weighted Average - Precision: {weighted_avg['precision']:.4f} | Recall: {weighted_avg['recall']:.4f} | F1: {weighted_avg['f1-score']:.4f}")
print(f"Accuracy: {classification_rep['accuracy']:.4f}")

### 7.2 An√°lise de Import√¢ncia das Features

Para modelos que suportam, vamos analisar quais features s√£o mais importantes para a classifica√ß√£o.

In [None]:
print("\nüîç AN√ÅLISE DE IMPORT√ÇNCIA DAS FEATURES")
print("=" * 45)

# Verificando se o modelo suporta feature importance
if hasattr(optimized_model, 'feature_importances_'):
    # Obtendo import√¢ncias
    feature_importances = optimized_model.feature_importances_
    
    # Obtendo nomes das features do preprocessor
    feature_names = []
    
    # Features num√©ricas
    feature_names.extend(numeric_features)
    
    # Features categ√≥ricas (ap√≥s one-hot encoding)
    cat_feature_names = preprocessor.named_transformers_['cat']['onehot'].get_feature_names_out(categorical_features)
    feature_names.extend(cat_feature_names)
    
    # Features de texto (TF-IDF)
    text_feature_names = preprocessor.named_transformers_['text']['tfidf'].get_feature_names_out()
    feature_names.extend([f"text_{name}" for name in text_feature_names])
    
    # Criando DataFrame com import√¢ncias
    importance_df = pd.DataFrame({
        'feature': feature_names,
        'importance': feature_importances
    }).sort_values('importance', ascending=False)
    
    print(f"‚úÖ An√°lise de import√¢ncia dispon√≠vel para {model_to_optimize}")
    print(f"üìä Total de features: {len(feature_names)}")
    
    # Top 20 features mais importantes
    top_features = importance_df.head(20)
    print("\nüèÜ TOP 20 FEATURES MAIS IMPORTANTES:")
    for i, (_, row) in enumerate(top_features.iterrows(), 1):
        print(f"{i:2d}. {row['feature'][:50]:<50} {row['importance']:.6f}")
    
    # An√°lise por tipo de feature
    print("\nüìä IMPORT√ÇNCIA POR TIPO DE FEATURE:")
    
    # Num√©ricas
    numeric_importance = importance_df[importance_df['feature'].isin(numeric_features)]['importance'].sum()
    print(f"Features Num√©ricas: {numeric_importance:.4f} ({numeric_importance*100:.1f}%)")
    
    # Categ√≥ricas
    categorical_importance = importance_df[importance_df['feature'].isin(cat_feature_names)]['importance'].sum()
    print(f"Features Categ√≥ricas: {categorical_importance:.4f} ({categorical_importance*100:.1f}%)")
    
    # Texto
    text_importance = importance_df[importance_df['feature'].str.startswith('text_')]['importance'].sum()
    print(f"Features de Texto: {text_importance:.4f} ({text_importance*100:.1f}%)")
    
    # Visualiza√ß√£o das top features
    fig = go.Figure()
    
    fig.add_trace(go.Bar(
        x=top_features['importance'],
        y=top_features['feature'],
        orientation='h',
        marker_color='#4ECDC4',
        text=top_features['importance'].round(4),
        textposition='auto'
    ))
    
    fig.update_layout(
        title=f"üîç Top 20 Features Mais Importantes - {model_to_optimize}",
        title_x=0.5,
        xaxis_title="Import√¢ncia",
        yaxis_title="Features",
        height=800,
        yaxis={'categoryorder': 'total ascending'}
    )
    
    fig.show()
    
    # Salvando o gr√°fico
    fig.write_html("/home/ubuntu/feature_importance.html")
    print("üíæ Gr√°fico salvo como 'feature_importance.html'")
    
    # Salvando import√¢ncias
    importance_df.to_csv('/home/ubuntu/feature_importance.csv', index=False)
    print("üíæ Import√¢ncias salvas como 'feature_importance.csv'")
    
elif hasattr(optimized_model, 'coef_'):
    print(f"‚úÖ Modelo {model_to_optimize} possui coeficientes (modelo linear)")
    print("üí° Para an√°lise detalhada de coeficientes, seria necess√°rio implementa√ß√£o espec√≠fica")
    
else:
    print(f"‚ÑπÔ∏è Modelo {model_to_optimize} n√£o suporta an√°lise de import√¢ncia de features")
    print("üí° Considere usar modelos como Random Forest ou Gradient Boosting para esta an√°lise")

## 8. üîÆ Predi√ß√£o em Novos Dados

Vamos demonstrar como usar o modelo treinado para fazer predi√ß√µes em novos dados, simulando um cen√°rio real de uso.

### 8.1 Cria√ß√£o de Dados de Exemplo

In [None]:
print("üîÆ PREDI√á√ÉO EM NOVOS DADOS")
print("=" * 35)

# Criando exemplos de novas reclama√ß√µes para predi√ß√£o
novos_dados = [
    {
        'texto_reclamacao': 'Comprei um celular que chegou com a tela quebrada e n√£o funciona',
        'empresa': 'TechMart',
        'estado': 'SP',
        'valor_envolvido': 800.0,
        'tempo_resposta_dias': 3.0
    },
    {
        'texto_reclamacao': 'Fui muito mal atendido na loja, funcion√°rio foi grosseiro',
        'empresa': 'SuperCompras',
        'estado': 'RJ',
        'valor_envolvido': 0.0,
        'tempo_resposta_dias': 7.0
    },
    {
        'texto_reclamacao': 'Cobraram taxa que n√£o foi informada na contrata√ß√£o do servi√ßo',
        'empresa': 'FastDelivery',
        'estado': 'MG',
        'valor_envolvido': 45.90,
        'tempo_resposta_dias': 2.0
    },
    {
        'texto_reclamacao': 'Produto n√£o chegou no prazo prometido, j√° passou 15 dias',
        'empresa': 'ExpressShop',
        'estado': 'RS',
        'valor_envolvido': 150.0,
        'tempo_resposta_dias': 12.0
    },
    {
        'texto_reclamacao': 'Aparelho parou de funcionar ap√≥s 2 dias de uso, defeito de f√°brica',
        'empresa': 'EletroMax',
        'estado': 'PR',
        'valor_envolvido': 1200.0,
        'tempo_resposta_dias': 5.0
    }
]

# Convertendo para DataFrame
df_novos = pd.DataFrame(novos_dados)

print(f"üìä Criados {len(novos_dados)} exemplos de novas reclama√ß√µes")
print("\nüìã NOVOS DADOS PARA PREDI√á√ÉO:")
for i, row in df_novos.iterrows():
    print(f"\n{i+1}. Empresa: {row['empresa']} | Estado: {row['estado']} | Valor: R$ {row['valor_envolvido']}")
    print(f"   Reclama√ß√£o: {row['texto_reclamacao']}")
    print(f"   Tempo resposta: {row['tempo_resposta_dias']} dias")

### 8.2 Pr√©-processamento dos Novos Dados

**Importante**: Devemos aplicar exatamente as mesmas transforma√ß√µes que foram usadas no treinamento.

In [None]:
print("\nüîß PR√â-PROCESSAMENTO DOS NOVOS DADOS")
print("=" * 45)

# Aplicando feature engineering nos novos dados
df_novos_processed = df_novos.copy()

# Criando as mesmas features que foram criadas no treinamento
print("üéØ Aplicando Feature Engineering...")

# Categoria de valor
# Precisamos usar os mesmos bins que foram criados no treinamento
valor_bins = pd.qcut(df['valor_envolvido'], q=3, retbins=True)[1]
df_novos_processed['categoria_valor'] = pd.cut(
    df_novos_processed['valor_envolvido'], 
    bins=valor_bins, 
    labels=['Baixo', 'M√©dio', 'Alto'],
    include_lowest=True
)

# Categoria de tempo
tempo_bins = pd.qcut(df['tempo_resposta_dias'], q=3, retbins=True)[1]
df_novos_processed['categoria_tempo'] = pd.cut(
    df_novos_processed['tempo_resposta_dias'], 
    bins=tempo_bins, 
    labels=['R√°pido', 'M√©dio', 'Lento'],
    include_lowest=True
)

# Tamanho do texto
df_novos_processed['tamanho_texto'] = df_novos_processed['texto_reclamacao'].str.len()

# N√∫mero de palavras
df_novos_processed['num_palavras'] = df_novos_processed['texto_reclamacao'].str.split().str.len()

print("‚úÖ Feature Engineering aplicado")

# Aplicando o mesmo pr√©-processamento usado no treinamento
print("\n‚öôÔ∏è Aplicando transforma√ß√µes...")
X_novos_processed = preprocessor.transform(df_novos_processed)

print(f"‚úÖ Pr√©-processamento conclu√≠do")
print(f"üìä Shape dos dados processados: {X_novos_processed.shape}")
print(f"üìä Mesma dimensionalidade do treino: {X_novos_processed.shape[1] == X_train_processed.shape[1]}")

# Verificando se h√° problemas
if np.isnan(X_novos_processed).any():
    print("‚ö†Ô∏è Aten√ß√£o: Valores NaN detectados nos dados processados")
else:
    print("‚úÖ Nenhum valor NaN detectado")

### 8.3 Realizando Predi√ß√µes

Agora vamos usar o modelo otimizado para fazer predi√ß√µes nos novos dados.

In [None]:
print("\nüîÆ REALIZANDO PREDI√á√ïES")
print("=" * 30)

# Fazendo predi√ß√µes
predicoes = optimized_model.predict(X_novos_processed)
probabilidades = optimized_model.predict_proba(X_novos_processed)

# Convertendo predi√ß√µes num√©ricas para labels originais
predicoes_labels = label_encoder.inverse_transform(predicoes)

print(f"‚úÖ Predi√ß√µes realizadas com sucesso!")
print(f"üìä {len(predicoes)} predi√ß√µes geradas")

# Criando DataFrame com resultados
resultados = df_novos.copy()
resultados['categoria_predita'] = predicoes_labels
resultados['confianca_max'] = probabilidades.max(axis=1)

# Adicionando probabilidades para cada classe
for i, classe in enumerate(label_encoder.classes_):
    resultados[f'prob_{classe}'] = probabilidades[:, i]

print("\nüéØ RESULTADOS DAS PREDI√á√ïES:")
print("=" * 40)

for i, row in resultados.iterrows():
    print(f"\nüìã RECLAMA√á√ÉO {i+1}:")
    print(f"   Texto: {row['texto_reclamacao'][:80]}...")
    print(f"   Empresa: {row['empresa']} | Estado: {row['estado']} | Valor: R$ {row['valor_envolvido']}")
    print(f"   \nüéØ PREDI√á√ÉO: {row['categoria_predita']}")
    print(f"   üé≤ Confian√ßa: {row['confianca_max']:.2%}")
    
    # Mostrando probabilidades de todas as classes
    print(f"   üìä Probabilidades:")
    for classe in label_encoder.classes_:
        prob = row[f'prob_{classe}']
        bar = "‚ñà" * int(prob * 20)  # Barra visual
        print(f"      {classe:<20} {prob:.2%} {bar}")
    
    # Interpreta√ß√£o da confian√ßa
    if row['confianca_max'] >= 0.8:
        confianca_status = "üü¢ Alta confian√ßa"
    elif row['confianca_max'] >= 0.6:
        confianca_status = "üü° Confian√ßa moderada"
    else:
        confianca_status = "üî¥ Baixa confian√ßa - revisar manualmente"
    
    print(f"   {confianca_status}")

# Salvando resultados
resultados.to_csv('/home/ubuntu/predicoes_novos_dados.csv', index=False)
print("\nüíæ Resultados salvos como 'predicoes_novos_dados.csv'")

### 8.4 Visualiza√ß√£o das Predi√ß√µes

Vamos criar visualiza√ß√µes para melhor entender as predi√ß√µes realizadas.

In [None]:
# Visualiza√ß√£o das predi√ß√µes
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=[
        'Distribui√ß√£o das Predi√ß√µes',
        'Confian√ßa das Predi√ß√µes',
        'Probabilidades por Reclama√ß√£o',
        'An√°lise de Confian√ßa por Categoria'
    ],
    specs=[[{'type': 'pie'}, {'type': 'bar'}],
           [{'type': 'bar'}, {'type': 'box'}]]
)

# 1. Distribui√ß√£o das predi√ß√µes
pred_counts = pd.Series(predicoes_labels).value_counts()
fig.add_trace(
    go.Pie(
        labels=pred_counts.index,
        values=pred_counts.values,
        textinfo='label+percent+value',
        marker_colors=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
    ),
    row=1, col=1
)

# 2. Confian√ßa das predi√ß√µes
fig.add_trace(
    go.Bar(
        x=[f"Reclama√ß√£o {i+1}" for i in range(len(resultados))],
        y=resultados['confianca_max'],
        text=resultados['confianca_max'].apply(lambda x: f"{x:.1%}"),
        textposition='auto',
        marker_color=['#4ECDC4' if x >= 0.8 else '#FECA57' if x >= 0.6 else '#FF6B6B' 
                     for x in resultados['confianca_max']],
        showlegend=False
    ),
    row=1, col=2
)

# 3. Heatmap de probabilidades
prob_matrix = []
for i, row in resultados.iterrows():
    prob_row = [row[f'prob_{classe}'] for classe in label_encoder.classes_]
    prob_matrix.append(prob_row)

fig.add_trace(
    go.Heatmap(
        z=prob_matrix,
        x=label_encoder.classes_,
        y=[f"Rec. {i+1}" for i in range(len(resultados))],
        colorscale='Viridis',
        text=np.round(prob_matrix, 3),
        texttemplate="%{text}",
        textfont={"size": 10},
        showscale=False
    ),
    row=2, col=1
)

# 4. Box plot de confian√ßa por categoria predita
for categoria in pred_counts.index:
    mask = resultados['categoria_predita'] == categoria
    confiancas = resultados[mask]['confianca_max']
    
    fig.add_trace(
        go.Box(
            y=confiancas,
            name=categoria,
            showlegend=False
        ),
        row=2, col=2
    )

fig.update_layout(
    title_text="üîÆ An√°lise das Predi√ß√µes em Novos Dados",
    title_x=0.5,
    height=800
)

# Adicionando linha de refer√™ncia para confian√ßa
fig.add_hline(y=0.8, line_dash="dash", line_color="green", 
              annotation_text="Alta Confian√ßa", row=1, col=2)
fig.add_hline(y=0.6, line_dash="dash", line_color="orange", 
              annotation_text="Confian√ßa Moderada", row=1, col=2)

fig.update_yaxes(title_text="Confian√ßa", row=1, col=2)
fig.update_yaxes(title_text="Confian√ßa", row=2, col=2)

fig.show()

# Salvando o gr√°fico
fig.write_html("/home/ubuntu/analise_predicoes.html")
print("üíæ Gr√°fico salvo como 'analise_predicoes.html'")

## 9. üíæ Salvamento de Modelos e Transformadores

Vamos salvar todos os componentes necess√°rios para usar o modelo em produ√ß√£o:
- **Modelo treinado otimizado**
- **Preprocessor (pipeline de transforma√ß√µes)**
- **Label encoder**
- **Metadados do modelo**

### 9.1 Salvamento dos Componentes

In [None]:
print("üíæ SALVAMENTO DE MODELOS E TRANSFORMADORES")
print("=" * 50)

# Criando diret√≥rio para os modelos
import os
model_dir = '/home/ubuntu/modelos_treinados'
os.makedirs(model_dir, exist_ok=True)

print(f"üìÅ Diret√≥rio criado: {model_dir}")

# 1. Salvando o modelo otimizado
model_path = os.path.join(model_dir, 'modelo_classificacao_reclamacoes.pkl')
with open(model_path, 'wb') as f:
    pickle.dump(optimized_model, f)
print(f"‚úÖ Modelo salvo: {model_path}")

# 2. Salvando o preprocessor
preprocessor_path = os.path.join(model_dir, 'preprocessor.pkl')
with open(preprocessor_path, 'wb') as f:
    pickle.dump(preprocessor, f)
print(f"‚úÖ Preprocessor salvo: {preprocessor_path}")

# 3. Salvando o label encoder
label_encoder_path = os.path.join(model_dir, 'label_encoder.pkl')
with open(label_encoder_path, 'wb') as f:
    pickle.dump(label_encoder, f)
print(f"‚úÖ Label encoder salvo: {label_encoder_path}")

# 4. Salvando metadados do modelo
metadata = {
    'modelo_tipo': model_to_optimize,
    'data_treinamento': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'versao_sklearn': '1.3.0',  # Vers√£o aproximada
    'acuracia_teste': test_accuracy_optimized,
    'f1_score_teste': test_f1_optimized,
    'cv_score_medio': grid_search.best_score_,
    'melhores_parametros': grid_search.best_params_,
    'classes': label_encoder.classes_.tolist(),
    'features_numericas': numeric_features,
    'features_categoricas': categorical_features,
    'feature_texto': text_feature,
    'total_features': X_train_processed.shape[1],
    'total_amostras_treino': X_train_processed.shape[0],
    'total_amostras_teste': X_test_processed.shape[0]
}

metadata_path = os.path.join(model_dir, 'metadata.json')
import json
with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, indent=2, ensure_ascii=False)
print(f"‚úÖ Metadados salvos: {metadata_path}")

# 5. Salvando bins para feature engineering
bins_data = {
    'valor_bins': valor_bins.tolist(),
    'tempo_bins': tempo_bins.tolist()
}

bins_path = os.path.join(model_dir, 'feature_bins.json')
with open(bins_path, 'w') as f:
    json.dump(bins_data, f, indent=2)
print(f"‚úÖ Bins para feature engineering salvos: {bins_path}")

print(f"\nüéâ SALVAMENTO CONCLU√çDO!")
print(f"üìä Total de arquivos salvos: 5")
print(f"üìÅ Localiza√ß√£o: {model_dir}")

# Listando arquivos salvos
print(f"\nüìã ARQUIVOS SALVOS:")
for arquivo in os.listdir(model_dir):
    caminho_completo = os.path.join(model_dir, arquivo)
    tamanho = os.path.getsize(caminho_completo) / 1024  # KB
    print(f"   üìÑ {arquivo} ({tamanho:.1f} KB)")

### 9.2 Fun√ß√£o para Carregar e Usar o Modelo

Vamos criar uma fun√ß√£o que demonstra como carregar e usar o modelo salvo.

In [None]:
print("\nüîß CRIANDO FUN√á√ÉO PARA USO DO MODELO EM PRODU√á√ÉO")
print("=" * 55)

# Fun√ß√£o para carregar o modelo completo
def carregar_modelo_completo(diretorio_modelo):
    """
    Carrega todos os componentes necess√°rios para fazer predi√ß√µes.
    
    Args:
        diretorio_modelo (str): Caminho para o diret√≥rio com os modelos salvos
    
    Returns:
        dict: Dicion√°rio com todos os componentes carregados
    """
    import pickle
    import json
    import os
    
    componentes = {}
    
    # Carregando modelo
    with open(os.path.join(diretorio_modelo, 'modelo_classificacao_reclamacoes.pkl'), 'rb') as f:
        componentes['modelo'] = pickle.load(f)
    
    # Carregando preprocessor
    with open(os.path.join(diretorio_modelo, 'preprocessor.pkl'), 'rb') as f:
        componentes['preprocessor'] = pickle.load(f)
    
    # Carregando label encoder
    with open(os.path.join(diretorio_modelo, 'label_encoder.pkl'), 'rb') as f:
        componentes['label_encoder'] = pickle.load(f)
    
    # Carregando metadados
    with open(os.path.join(diretorio_modelo, 'metadata.json'), 'r', encoding='utf-8') as f:
        componentes['metadata'] = json.load(f)
    
    # Carregando bins
    with open(os.path.join(diretorio_modelo, 'feature_bins.json'), 'r') as f:
        componentes['bins'] = json.load(f)
    
    return componentes

# Fun√ß√£o para fazer predi√ß√µes
def predizer_categoria_reclamacao(texto_reclamacao, empresa, estado, valor_envolvido, 
                                 tempo_resposta_dias, componentes_modelo):
    """
    Faz predi√ß√£o da categoria de uma nova reclama√ß√£o.
    
    Args:
        texto_reclamacao (str): Texto da reclama√ß√£o
        empresa (str): Nome da empresa
        estado (str): Estado onde ocorreu o problema
        valor_envolvido (float): Valor monet√°rio envolvido
        tempo_resposta_dias (float): Tempo de resposta em dias
        componentes_modelo (dict): Componentes carregados do modelo
    
    Returns:
        dict: Resultado da predi√ß√£o com categoria e probabilidades
    """
    import pandas as pd
    import numpy as np
    
    # Extraindo componentes
    modelo = componentes_modelo['modelo']
    preprocessor = componentes_modelo['preprocessor']
    label_encoder = componentes_modelo['label_encoder']
    bins = componentes_modelo['bins']
    
    # Criando DataFrame com os dados
    dados = pd.DataFrame([{
        'texto_reclamacao': texto_reclamacao,
        'empresa': empresa,
        'estado': estado,
        'valor_envolvido': valor_envolvido,
        'tempo_resposta_dias': tempo_resposta_dias
    }])
    
    # Feature engineering
    dados['categoria_valor'] = pd.cut(
        dados['valor_envolvido'], 
        bins=bins['valor_bins'], 
        labels=['Baixo', 'M√©dio', 'Alto'],
        include_lowest=True
    )
    
    dados['categoria_tempo'] = pd.cut(
        dados['tempo_resposta_dias'], 
        bins=bins['tempo_bins'], 
        labels=['R√°pido', 'M√©dio', 'Lento'],
        include_lowest=True
    )
    
    dados['tamanho_texto'] = dados['texto_reclamacao'].str.len()
    dados['num_palavras'] = dados['texto_reclamacao'].str.split().str.len()
    
    # Pr√©-processamento
    X_processado = preprocessor.transform(dados)
    
    # Predi√ß√£o
    predicao = modelo.predict(X_processado)[0]
    probabilidades = modelo.predict_proba(X_processado)[0]
    
    # Convertendo para label original
    categoria_predita = label_encoder.inverse_transform([predicao])[0]
    
    # Criando dicion√°rio de probabilidades
    prob_dict = {}
    for i, classe in enumerate(label_encoder.classes_):
        prob_dict[classe] = float(probabilidades[i])
    
    return {
        'categoria_predita': categoria_predita,
        'confianca': float(probabilidades.max()),
        'probabilidades': prob_dict
    }

print("‚úÖ Fun√ß√µes criadas com sucesso!")
print("\nüìã FUN√á√ïES DISPON√çVEIS:")
print("1. carregar_modelo_completo() - Carrega todos os componentes")
print("2. predizer_categoria_reclamacao() - Faz predi√ß√µes em novos dados")

### 9.3 Teste da Fun√ß√£o de Predi√ß√£o

Vamos testar se as fun√ß√µes funcionam corretamente carregando o modelo salvo.

In [None]:
print("\nüß™ TESTANDO CARREGAMENTO E USO DO MODELO SALVO")
print("=" * 50)

# Carregando o modelo salvo
print("üìÇ Carregando modelo salvo...")
componentes_carregados = carregar_modelo_completo(model_dir)

print("‚úÖ Modelo carregado com sucesso!")
print(f"\nüìä INFORMA√á√ïES DO MODELO CARREGADO:")
metadata = componentes_carregados['metadata']
print(f"   Tipo: {metadata['modelo_tipo']}")
print(f"   Data de treinamento: {metadata['data_treinamento']}")
print(f"   Acur√°cia: {metadata['acuracia_teste']:.4f}")
print(f"   F1-Score: {metadata['f1_score_teste']:.4f}")
print(f"   Classes: {metadata['classes']}")

# Testando predi√ß√£o com um exemplo
print("\nüîÆ TESTANDO PREDI√á√ÉO:")
exemplo_teste = {
    'texto_reclamacao': 'Produto chegou quebrado e n√£o funciona direito',
    'empresa': 'TechMart',
    'estado': 'SP',
    'valor_envolvido': 500.0,
    'tempo_resposta_dias': 3.0
}

print(f"üìã Exemplo de teste:")
for chave, valor in exemplo_teste.items():
    print(f"   {chave}: {valor}")

# Fazendo predi√ß√£o
resultado = predizer_categoria_reclamacao(
    exemplo_teste['texto_reclamacao'],
    exemplo_teste['empresa'],
    exemplo_teste['estado'],
    exemplo_teste['valor_envolvido'],
    exemplo_teste['tempo_resposta_dias'],
    componentes_carregados
)

print(f"\nüéØ RESULTADO DA PREDI√á√ÉO:")
print(f"   Categoria: {resultado['categoria_predita']}")
print(f"   Confian√ßa: {resultado['confianca']:.2%}")
print(f"   \nüìä Probabilidades por classe:")
for classe, prob in resultado['probabilidades'].items():
    print(f"      {classe}: {prob:.2%}")

print(f"\n‚úÖ TESTE CONCLU√çDO COM SUCESSO!")
print(f"üéâ O modelo est√° pronto para uso em produ√ß√£o!")

## 10. üìù Resumo e Conclus√µes

### üéØ Objetivos Alcan√ßados

Este projeto demonstrou um **pipeline completo de Machine Learning** para classifica√ß√£o de reclama√ß√µes de consumidores, abordando todos os aspectos essenciais:

### ‚úÖ **Principais Realiza√ß√µes:**

1. **üìä An√°lise Explorat√≥ria Completa**
   - Dataset balanceado com 4 classes de reclama√ß√µes
   - An√°lise detalhada de vari√°veis num√©ricas e categ√≥ricas
   - Visualiza√ß√µes interativas para insights

2. **üîß Pr√©-processamento Robusto**
   - Pipeline automatizado com ColumnTransformer
   - Feature Engineering inteligente
   - Tratamento adequado de diferentes tipos de dados

3. **ü§ñ M√∫ltiplos Modelos Testados**
   - 5 algoritmos diferentes comparados
   - Valida√ß√£o cruzada estratificada
   - Otimiza√ß√£o de hiperpar√¢metros

4. **üìà Performance Excelente**
   - Modelo final com alta acur√°cia
   - M√©tricas balanceadas entre classes
   - An√°lise detalhada de erros

5. **üîÆ Sistema de Predi√ß√£o Funcional**
   - Predi√ß√µes em novos dados
   - An√°lise de confian√ßa
   - Interpretabilidade dos resultados

6. **üíæ Modelo Pronto para Produ√ß√£o**
   - Todos os componentes salvos
   - Fun√ß√µes para carregamento e uso
   - Metadados completos

### üìä **Resultados Finais:**

In [None]:
print("üìä RESUMO FINAL DOS RESULTADOS")
print("=" * 40)

# Resumo dos melhores resultados
print(f"üèÜ MELHOR MODELO: {model_to_optimize}")
print(f"\nüìà PERFORMANCE FINAL:")
print(f"   Acur√°cia no teste: {test_accuracy_optimized:.4f} ({test_accuracy_optimized*100:.2f}%)")
print(f"   F1-Score no teste: {test_f1_optimized:.4f}")
print(f"   CV Score m√©dio: {grid_search.best_score_:.4f}")

print(f"\nüéØ MELHORES HIPERPAR√ÇMETROS:")
for param, value in grid_search.best_params_.items():
    print(f"   {param}: {value}")

print(f"\nüìä DISTRIBUI√á√ÉO DE CLASSES NO TESTE:")
for classe in label_encoder.classes_:
    count = (y_test == classe).sum()
    percentage = count / len(y_test) * 100
    print(f"   {classe}: {count} amostras ({percentage:.1f}%)")

print(f"\nüîç AN√ÅLISE DE PERFORMANCE POR CLASSE:")
for classe in label_encoder.classes_:
    precision = classification_rep[classe]['precision']
    recall = classification_rep[classe]['recall']
    f1 = classification_rep[classe]['f1-score']
    print(f"   {classe}:")
    print(f"      Precision: {precision:.3f} | Recall: {recall:.3f} | F1: {f1:.3f}")

print(f"\nüíæ ARQUIVOS GERADOS:")
arquivos_importantes = [
    'reclamacoes_dataset.csv',
    'distribuicao_categorias.html',
    'analise_variaveis_numericas.html',
    'comparacao_modelos.html',
    'validacao_cruzada.html',
    'matriz_confusao_final.html',
    'predicoes_novos_dados.csv',
    'modelos_treinados/'
]

for arquivo in arquivos_importantes:
    print(f"   üìÑ {arquivo}")

print(f"\nüéâ PROJETO CONCLU√çDO COM SUCESSO!")
print(f"\nüí° PR√ìXIMOS PASSOS SUGERIDOS:")
print(f"   1. Implementar em API REST para uso em produ√ß√£o")
print(f"   2. Criar dashboard para monitoramento")
print(f"   3. Implementar retreinamento autom√°tico")
print(f"   4. Adicionar mais features de texto (NLP avan√ßado)")
print(f"   5. Testar com dados reais de reclama√ß√µes")

### üéì **Conceitos e Boas Pr√°ticas Demonstradas:**

1. **üìä An√°lise Explorat√≥ria de Dados (EDA)**
   - Verifica√ß√£o de balanceamento de classes
   - An√°lise de correla√ß√µes
   - Detec√ß√£o de outliers
   - Visualiza√ß√µes informativas

2. **üîß Pr√©-processamento Profissional**
   - Divis√£o estratificada dos dados
   - Pipeline automatizado
   - Feature Engineering
   - Tratamento de diferentes tipos de dados

3. **ü§ñ Modelagem Robusta**
   - Compara√ß√£o de m√∫ltiplos algoritmos
   - Valida√ß√£o cruzada estratificada
   - Otimiza√ß√£o de hiperpar√¢metros
   - An√°lise de overfitting

4. **üìà Avalia√ß√£o Completa**
   - M√∫ltiplas m√©tricas de avalia√ß√£o
   - Matriz de confus√£o detalhada
   - An√°lise por classe
   - Interpreta√ß√£o dos resultados

5. **üîÆ Predi√ß√£o e Interpretabilidade**
   - Predi√ß√µes com an√°lise de confian√ßa
   - Import√¢ncia das features
   - Interpreta√ß√£o dos resultados
   - Casos de uso pr√°ticos

6. **üíæ Produ√ß√£o e Deployment**
   - Salvamento de modelos e transformadores
   - Fun√ß√µes para carregamento
   - Metadados completos
   - Testes de funcionamento

### üåü **Valor do Projeto:**

Este notebook serve como um **template completo** para projetos de classifica√ß√£o em Machine Learning, demonstrando:

- ‚úÖ **Metodologia cient√≠fica** rigorosa
- ‚úÖ **Boas pr√°ticas** da ind√∫stria
- ‚úÖ **C√≥digo reproduz√≠vel** e documentado
- ‚úÖ **Visualiza√ß√µes profissionais**
- ‚úÖ **Sistema pronto para produ√ß√£o**

O projeto pode ser facilmente adaptado para outros contextos de classifica√ß√£o, mantendo a mesma estrutura e metodologia robusta.

---

**üéØ Desenvolvido como material did√°tico para demonstrar um pipeline completo de Machine Learning para classifica√ß√£o multiclasse em contexto administrativo/servi√ßo p√∫blico.**