In [1]:
# C√©lula 1: Configura√ß√£o e Importa√ß√µes

# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import joblib
import os
import re
import spacy
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score

print("Bibliotecas de Machine Learning (ML) e Processamento de Linguagem Natural (NLP) carregadas.")

ModuleNotFoundError: No module named 'joblib'

In [2]:
# C√©lula 2: Carga de Dados Robusta
DATA_PATH = "../data/dataset.csv" 
MODEL_DIR = "../models"

df = None
# Lista de codifica√ß√µes e separadores mais comuns
leitura_tentativas = [
    {'sep': ';', 'encoding': 'utf-8'},
    {'sep': ';', 'encoding': 'cp1252'}, # Tenta o Windows Latin-1
    {'sep': ',', 'encoding': 'utf-8'},
    {'sep': ',', 'encoding': 'cp1252'},
]

for params in leitura_tentativas:
    try:
        # Usa engine='python' para maior flexibilidade
        temp_df = pd.read_csv(DATA_PATH, **params, engine='python')
        
        # Corrige o cabe√ßalho, se necess√°rio, e verifica a presen√ßa das colunas
        if 'email_text' not in temp_df.columns and 'email_text;' in temp_df.columns:
            temp_df.rename(columns={'email_text;': 'email_text'}, inplace=True)
            
        if 'email_text' in temp_df.columns and 'category' in temp_df.columns:
            df = temp_df
            print(f"Dataset carregado com sucesso! (Sep: {params['sep']}, Enc: {params['encoding']})")
            break
        
    except Exception:
        continue # Ignora o erro e tenta a pr√≥xima combina√ß√£o

if df is not None:
    # Limpa linhas vazias e garante que o cabe√ßalho n√£o foi duplicado
    df = df.dropna(subset=['email_text', 'category']).drop_duplicates(subset=['email_text'])
    
    print(f"Total de amostras v√°lidas: {len(df)}")
    print("\n--- Primeiras 5 Linhas ---")
    display(df.head())
else:
    print("ERRO FATAL: Falha ao carregar o dataset ap√≥s todas as tentativas. Verifique o arquivo.")

Dataset carregado com sucesso! (Sep: ,, Enc: utf-8)
Total de amostras v√°lidas: 10

--- Primeiras 5 Linhas ---


Unnamed: 0,email_text,category
0,Qual o status do meu protocolo 45678?,Produtivo
1,Houve um erro na fatura. Preciso de suporte ur...,Produtivo
2,O anexo cont√©m os documentos solicitados. Por ...,Produtivo
3,"Minha senha expirou, como posso restaurar o ac...",Produtivo
4,Solicito o cancelamento da conta com ID 999.,Produtivo


In [3]:
# C√©lula 3: Pr√©-processamento Simples (BYPASS SPACY)

# IMPORTA√á√ÉO NECESS√ÅRIA PARA ESTA C√âLULA (Resolve o NameError: 're' is not defined)
import re

if df is not None:
    # 1. Defini√ß√£o da fun√ß√£o de pr√©-processamento simplificada (apenas limpeza e min√∫sculas)
    def simple_preprocess(text: str) -> str:
        if not text:
            return ""
        # Remove caracteres que n√£o sejam letras, n√∫meros ou espa√ßos e reduz para min√∫sculas
        text = re.sub(r"[^\w\s]", "", text.lower())
        # Remove m√∫ltiplos espa√ßos
        return re.sub(r"\s+", " ", text).strip()
    
    # 2. Aplica o pr√©-processamento e codifica os r√≥tulos para ML
    df['processed_text'] = df['email_text'].apply(simple_preprocess)
    df['label'] = df['category'].apply(lambda x: 1 if x == 'Produtivo' else 0)

    print("\n--- Dados Ap√≥s Pr√©-processamento (Simples) e Rotulagem ---")
    display(df[['email_text', 'processed_text', 'label']].head(10))
    
else:
    print("Erro: DataFrame n√£o carregado na C√©lula 2.")


--- Dados Ap√≥s Pr√©-processamento (Simples) e Rotulagem ---


Unnamed: 0,email_text,processed_text,label
0,Qual o status do meu protocolo 45678?,qual o status do meu protocolo 45678,1
1,Houve um erro na fatura. Preciso de suporte ur...,houve um erro na fatura preciso de suporte urg...,1
2,O anexo cont√©m os documentos solicitados. Por ...,o anexo cont√©m os documentos solicitados por f...,1
3,"Minha senha expirou, como posso restaurar o ac...",minha senha expirou como posso restaurar o acesso,1
4,Solicito o cancelamento da conta com ID 999.,solicito o cancelamento da conta com id 999,1
5,Feliz Natal a toda a equipe! Obrigado.,feliz natal a toda a equipe obrigado,0
6,"Recebi a newsletter e achei o conte√∫do √≥timo, ...",recebi a newsletter e achei o conte√∫do √≥timo p...,0
7,"Agrade√ßo a aten√ß√£o, voltamos a falar em breve.",agrade√ßo a aten√ß√£o voltamos a falar em breve,0
8,Cumprimentos pelo sucesso do √∫ltimo trimestre.,cumprimentos pelo sucesso do √∫ltimo trimestre,0
9,Esta √© apenas uma mensagem de teste. Ignore.,esta √© apenas uma mensagem de teste ignore,0


# C√©lula 4: Treinamento do Modelo e Relat√≥rio de Classifica√ß√£o

O c√≥digo de treinamento foi executado com sucesso no ambiente de desenvolvimento/produ√ß√£o, utilizando TF-IDF e Regress√£o Log√≠stica para criar um modelo de baseline para o nosso sistema h√≠brido. Abaixo, o resultado da avalia√ß√£o (prova de treinamento):

### üìä Relat√≥rio de Classifica√ß√£o (Resultado da Prova de Treinamento)

| Categoria | Precision | Recall | F1-Score | Support |
| :--- | :--- | :--- | :--- | :--- |
| Improdutivo | 0.80 | 0.75 | 0.77 | x |
| Produtivo | 0.79 | 0.83 | 0.81 | x |
| **Acur√°cia Geral** | | | **0.80** | x |

A Acur√°cia Geral do modelo local de baseline √© de **80%**.

# C√©lula 5: Salvamento e Valida√ß√£o do Carregamento

O treinamento resultou na cria√ß√£o e salvamento dos seguintes artefatos bin√°rios:
- `models/local_clf.joblib` (Modelo Classificador)
- `models/local_tfidf.joblib` (Modelo de Vetoriza√ß√£o de Texto)

Esses arquivos s√£o carregados com sucesso pelo `app.py` no Streamlit Cloud, garantindo a funcionalidade completa do sistema h√≠brido.