In [7]:
import pandas as pd
import numpy as np
import re
import nltk
from nltk.corpus import stopwords
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score
import joblib

# --- CONFIGURA√á√ïES ---
# Nome do arquivo onde o modelo ser√° salvo
ARQUIVO_MODELO = 'sentiment_model.pkl'

# URL do dataset (usando o link raw correto da sua branch ou o p√∫blico)
url_dados = 'https://raw.githubusercontent.com/Hackaton-ONE/hackathon-DataScience/refs/heads/feature/mvp-sentiment/olist_order_reviews_dataset.csv'

print("‚è≥ Baixando dados da nuvem...")
try:
    df = pd.read_csv(url_dados)
    print("‚úÖ Dados carregados com sucesso!")
except Exception as e:
    # Fallback para o link p√∫blico caso o link privado falhe
    print("‚ö†Ô∏è Falha no link do repo. Tentando link p√∫blico...")
    url_publica = "https://raw.githubusercontent.com/BrunnerS/Olist_Dataset/master/olist_order_reviews_dataset.csv"
    df = pd.read_csv(url_publica)
    print("‚úÖ Dados carregados do link p√∫blico!")

# 1. Download de recursos de texto (silencioso)
nltk.download('stopwords', quiet=True)
stop_words_pt = stopwords.words('portuguese')

# --- FUN√á√ïES ---

def limpar_texto_final(texto):
    """Fun√ß√£o de produ√ß√£o para limpeza de texto."""
    if not isinstance(texto, str):
        return ""

    texto = texto.lower()
    # Remove pontua√ß√£o e n√∫meros, mant√©m acentos
    texto = re.sub(r'[^a-z√°√†√¢√£√©√®√™√≠√Ø√≥√¥√µ√∂√∫√ß√± ]', '', texto)

    # Remove stopwords
    palavras = [p for p in texto.split() if p not in stop_words_pt]
    return " ".join(palavras)

def classificar_sentimento(nota):
    """Regra de Neg√≥cio: 1-2 (Neg), 3 (Neu), 4-5 (Pos)"""
    if nota <= 2:
        return 'Negativo'
    elif nota == 3:
        return 'Neutro'
    else:
        return 'Positivo'

# --- PIPELINE DE EXECU√á√ÉO ---

print("\nüöÄ Iniciando Pipeline de Processamento...")

# Limpeza de nulos antes de processar
df = df.dropna(subset=['review_comment_message', 'review_score'])

# 2. Pr√©-processamento
print("‚öôÔ∏è Processando textos e sentimentos...")
df['sentiment'] = df['review_score'].apply(classificar_sentimento)
df['text_clean'] = df['review_comment_message'].apply(limpar_texto_final)

# 3. Divis√£o Treino/Teste
X = df['text_clean']
y = df['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Constru√ß√£o do Modelo (Pipeline)
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=2000)),
    ('clf', LogisticRegression(solver='liblinear', class_weight='balanced'))
])

# 5. Treinamento
print("üß† Treinando o modelo (pode levar alguns segundos)...")
pipeline.fit(X_train, y_train)

# 6. Valida√ß√£o
y_pred = pipeline.predict(X_test)
acuracia = accuracy_score(y_test, y_pred)

print(f"\n‚úÖ Modelo Treinado com Sucesso!")
print(f"üìä Acur√°cia do Modelo: {acuracia:.2f}")
print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred))

# 7. Exporta√ß√£o
joblib.dump(pipeline, ARQUIVO_MODELO)
print(f"\nüíæ Arquivo '{ARQUIVO_MODELO}' salvo no Colab. Fa√ßa o download dele agora!")

‚è≥ Baixando dados da nuvem...
‚úÖ Dados carregados com sucesso!

üöÄ Iniciando Pipeline de Processamento...
‚öôÔ∏è Processando textos e sentimentos...
üß† Treinando o modelo (pode levar alguns segundos)...

‚úÖ Modelo Treinado com Sucesso!
üìä Acur√°cia do Modelo: 0.82

Relat√≥rio de Classifica√ß√£o:
              precision    recall  f1-score   support

    Negativo       0.76      0.83      0.79      2151
      Neutro       0.27      0.24      0.25       730
    Positivo       0.92      0.89      0.91      5315

    accuracy                           0.82      8196
   macro avg       0.65      0.66      0.65      8196
weighted avg       0.82      0.82      0.82      8196


üíæ Arquivo 'sentiment_model.pkl' salvo no Colab. Fa√ßa o download dele agora!
