## Etapa 0 ‚Äî Setup de Depend√™ncias e Bibliotecas

Antes de executar o pipeline do *modelo campe√£o*, garantimos que todas as bibliotecas e recursos estejam dispon√≠veis.  
Este bloco prepara o ambiente, faz downloads necess√°rios (`nltk` e `SpaCy`), carrega o modelo de linguagem em portugu√™s e combina as listas de stopwords `nltk` + `SpaCy`.



In [1]:
# üîß ETAPA: SETUP DE DEPEND√äNCIAS E BIBLIOTECAS

# Depend√™ncias padr√£o
import pandas as pd
import numpy as np
import string
import re
import os

# Instalar unidecode se necess√°rio
try:
    import unidecode
except ImportError:
    !pip install unidecode
    import unidecode

# NLTK
import nltk
from nltk.corpus import stopwords

# SpaCy
import spacy

# Sklearn
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, f1_score, confusion_matrix

# Baixar stopwords PT
nltk.download('stopwords')

# SpaCy pt_core_news_sm
try:
    nlp = spacy.load('pt_core_news_sm')
except:
    import subprocess
    subprocess.run(["python", "-m", "spacy", "download", "pt_core_news_sm"])
    nlp = spacy.load('pt_core_news_sm')

# Combinar stopwords NLTK + SpaCy
stopwords_pt = set(stopwords.words('portuguese'))
stopwords_spacy = nlp.Defaults.stop_words
combined_stopwords = stopwords_pt.union(stopwords_spacy)

print(f"Stopwords combinadas: {len(combined_stopwords)} termos")


Collecting unidecode
  Downloading Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.4.0-py3-none-any.whl (235 kB)
[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/235.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m235.8/235.8 kB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.4.0


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Stopwords combinadas: 500 termos


## Etapa 1 ‚Äî Pipeline do Modelo Campe√£o com Lematiza√ß√£o, Placeholders e Vetoriza√ß√£o BoW

Este bloco executa o pipeline do *modelo campe√£o* de forma **port√°vel** e **rastre√°vel**, incluindo:
- **Carregamento do dataset** pela URL oficial,
- **Pr√©-processamento** com substitui√ß√£o inteligente de placeholders (`<DATE>`, `<NUMBER>`, `<PII>`),
- **Tokeniza√ß√£o e lematiza√ß√£o** com SpaCy,
- **Remo√ß√£o de stopwords combinadas** (`nltk` + `SpaCy`),
- **Barra de progresso `tqdm`** para monitorar o avan√ßo da lematiza√ß√£o,
- **Montagem do texto final** para vetoriza√ß√£o,
- Vetoriza√ß√£o com **CountVectorizer (unigrama)**,
- **Divis√£o treino/teste** estratificada com `random_state=42`,
- Treinamento do **LogisticRegression**,
- Avalia√ß√£o com **classification_report**, **F1 Score weighted** e matriz de confus√£o.



In [3]:
# üîß ETAPA: PIPELINE COMPLETO DO MODELO **CAMPE√ÉO**
# 1Ô∏è‚É£ Carregar dataset
url = "https://dados-ml-pln.s3.sa-east-1.amazonaws.com/tickets_reclamacoes_classificados.csv"
df = pd.read_csv(url, sep=';')
print(df.head(5))

# 2Ô∏è‚É£ Limpeza b√°sica
df.dropna(subset=['descricao_reclamacao'], inplace=True)

# 3Ô∏è‚É£ Substitui√ß√£o inteligente de placeholders
def replace_placeholders(text):
    text = re.sub(r'\b\d{2}/\d{2}/\d{4}\b', '<DATE>', text)
    text = re.sub(r'\b\d{2}-\d{2}-\d{4}\b', '<DATE>', text)
    text = re.sub(r'\b\d{4}\b', '<YEAR>', text)
    text = re.sub(r'\b\d+\b', '<NUMBER>', text)
    text = re.sub(r'X{2,}', '<PII>', text, flags=re.IGNORECASE)
    return text

# 4Ô∏è‚É£ Fun√ß√£o de pr√©-processamento + lematiza√ß√£o
def preprocess_and_lemmatize(text):
    text = replace_placeholders(text)
    text = text.lower()
    text = unidecode.unidecode(text)
    text = re.sub(r'\s+', ' ', text).strip()
    doc = nlp(text)
    tokens = [
        token.lemma_ for token in doc
        if token.is_alpha and token.lemma_ not in combined_stopwords
    ]
    return tokens

# 5Ô∏è‚É£ Usar tqdm para progresso
from tqdm.notebook import tqdm
tqdm.pandas()

df['tokens_lematizados'] = df['descricao_reclamacao'].progress_apply(preprocess_and_lemmatize)

print(df[['descricao_reclamacao', 'tokens_lematizados']].head(5))

# 6Ô∏è‚É£ Texto final para vetoriza√ß√£o
df['texto_final'] = df['tokens_lematizados'].apply(lambda tokens: " ".join(tokens))

# 7Ô∏è‚É£ Vetoriza√ß√£o BoW
vectorizer = CountVectorizer(ngram_range=(1,1))
X = vectorizer.fit_transform(df['texto_final'])
y = df['categoria']

print(f"Shape matriz vetorial: {X.shape}")

# 8Ô∏è‚É£ Split treino/teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, stratify=y, random_state=42
)
print(f"X_train: {X_train.shape}, X_test: {X_test.shape}")

# 9Ô∏è‚É£ Treinar modelo
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

# üîü Avaliar com apresenta√ß√£o formatada
from sklearn.metrics import classification_report, f1_score, confusion_matrix
import pandas as pd
from IPython.display import display

y_pred = clf.predict(X_test)

# Report
report = classification_report(y_test, y_pred, target_names=clf.classes_, digits=2)
print("\nüîé **Classification Report**:\n")
print(report)

# F1 Score weighted
f1 = f1_score(y_test, y_pred, average='weighted')
print(f"\n‚úÖ **F1 Score (weighted): {f1:.2%}**")

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
labels = clf.classes_
cm_df = pd.DataFrame(cm, index=labels, columns=labels)

print("\nüîç **Matriz de Confus√£o:**")
display(cm_df)


   id_reclamacao              data_abertura  \
0        3229299  2019-05-01T12:00:00-05:00   
1        3199379  2019-04-02T12:00:00-05:00   
2        3233499  2019-05-06T12:00:00-05:00   
3        3180294  2019-03-14T12:00:00-05:00   
4        3224980  2019-04-27T12:00:00-05:00   

                             categoria  \
0              Hipotecas / Empr√©stimos   
1  Cart√£o de cr√©dito / Cart√£o pr√©-pago   
2  Cart√£o de cr√©dito / Cart√£o pr√©-pago   
3  Cart√£o de cr√©dito / Cart√£o pr√©-pago   
4           Servi√ßos de conta banc√°ria   

                                descricao_reclamacao  
0  Bom dia, meu nome √© xxxx xxxx e agrade√ßo se vo...  
1  Atualizei meu cart√£o xxxx xxxx em xx/xx/2018 e...  
2  O cart√£o Chase foi relatado em xx/xx/2019. No ...  
3  Em xx/xx/2018, enquanto tentava reservar um ti...  
4  Meu neto me d√™ cheque por {$ 1600,00} Eu depos...  


  0%|          | 0/21072 [00:00<?, ?it/s]

                                descricao_reclamacao  \
0  Bom dia, meu nome √© xxxx xxxx e agrade√ßo se vo...   
1  Atualizei meu cart√£o xxxx xxxx em xx/xx/2018 e...   
2  O cart√£o Chase foi relatado em xx/xx/2019. No ...   
3  Em xx/xx/2018, enquanto tentava reservar um ti...   
4  Meu neto me d√™ cheque por {$ 1600,00} Eu depos...   

                                  tokens_lematizados  
0  [dia, nome, pii, pii, agradeco, voce, puder, a...  
1  [atualizei, cartao, pii, pii, informar, por o,...  
2  [cartao, chase, relatar, em o, entanto, pedido...  
3  [reservar, ticket, pii, pii, deparar, oferta, ...  
4  [neto, cheque, depositei, em o, conta, chase, ...  
Shape matriz vetorial: (21072, 29483)
X_train: (15804, 29483), X_test: (5268, 29483)

üîé **Classification Report**:

                                     precision    recall  f1-score   support

Cart√£o de cr√©dito / Cart√£o pr√©-pago       0.91      0.92      0.91      1252
            Hipotecas / Empr√©stimos       0.91   

Unnamed: 0,Cart√£o de cr√©dito / Cart√£o pr√©-pago,Hipotecas / Empr√©stimos,Outros,Roubo / Relat√≥rio de disputa,Servi√ßos de conta banc√°ria
Cart√£o de cr√©dito / Cart√£o pr√©-pago,1149,20,21,48,14
Hipotecas / Empr√©stimos,16,880,14,29,23
Outros,22,23,469,17,27
Roubo / Relat√≥rio de disputa,46,30,19,1058,53
Servi√ßos de conta banc√°ria,28,15,15,51,1181
