In [16]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [4]:
# DB_CONN = "postgresql+psycopg2://airflow:airflow123@postgres_app/bacen"
DATA_PATH = "../data/olist_order_reviews_dataset.csv"

df = pd.read_csv(DATA_PATH)

In [7]:
df.head()
df.shape

(99224, 7)

In [11]:
DB_CONN = "postgresql+psycopg2://airflow:airflow123@localhost:5433/bacen"

engine = create_engine(DB_CONN)

conn = engine.raw_connection()

try:
    # 3. Passa a conex√£o bruta para o Pandas
    df = pd.read_sql("SELECT * FROM reviews_features", conn)
    print(df.head())
finally:
    # 4. Sempre feche a conex√£o manual
    conn.close()

  df = pd.read_sql("SELECT * FROM reviews_features", conn)


                          review_id  \
0  e64fb393e7b32834bb789ff8bb30750e   
1  f7c4243c7fe1938f181bec41a392bdeb   
2  8670d52e15e00043ae7de4c01cc2fe06   
3  4b49719c8a200003f700d3d986ea1a19   
4  3948b09f7c818e2d86c9a546758b2335   

                                      texto_original  \
0              Recebi bem antes do prazo estipulado.   
1  Parab√©ns lojas lannister adorei comprar pela I...   
2  aparelho eficiente. no site a marca do aparelh...   
3    Mas um pouco ,travando...pelo valor ta Boa.\r\n   
4  Vendedor confi√°vel, produto ok e entrega antes...   

                                         texto_limpo  target  
0              recebi bem antes do prazo estipulado.       0  
1  parab√©ns lojas lannister adorei comprar pela i...       0  
2  aparelho eficiente. no site a marca do aparelh...       0  
3        mas um pouco ,travando...pelo valor ta boa.       0  
4  vendedor confi√°vel, produto ok e entrega antes...       0  


In [None]:
configuracoes = {
    "Logistic_Regression": {
        "modelo": LogisticRegression(solver='liblinear', random_state=42),
        "params": {
            "C": [0.1, 1.0, 10.0],  # For√ßa da regulariza√ß√£o
            "penalty": ["l1", "l2"] # Tipo de penalidade
        }
    },
    "Random_Forest": {
        "modelo": RandomForestClassifier(random_state=42),
        "params": {
            "n_estimators": [50, 100, 200], # N√∫mero de √°rvores
            "max_depth": [10, 20, None],    # Profundidade m√°xima
            "min_samples_split": [2, 5]     # M√≠nimo de amostras para dividir
        }
    },
    "XGBoost": {
        "modelo": XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42),
        "params": {
            "learning_rate": [0.01, 0.1, 0.2], # Taxa de aprendizado
            "n_estimators": [50, 100],         # N√∫mero de √°rvores
            "max_depth": [3, 6, 10]            # Profundidade da √°rvore
        }
    }
}

# Vari√°veis para rastrear o melhor modelo global
best_global_f1 = -1
best_global_model_name = ""
best_global_params = {}

# --- 3. Loop de Treinamento com GridSearch ---
for nome, config in configuracoes.items():
    print(f"üîç Otimizando {nome}...")
    
    # Configura o GridSearch
    # cv=3: Valida√ß√£o cruzada com 3 dobras (divide treino em 3 peda√ßos)
    # scoring='f1': Otimiza focado no F1-Score
    grid = GridSearchCV(
        estimator=config["modelo"], 
        param_grid=config["params"], 
        cv=3, 
        scoring='f1',
        n_jobs=-1, # Usa todos os processadores para ser mais r√°pido
        verbose=1
    )
    
    # Treina testando todas as combina√ß√µes
    grid.fit(X_train, y_train)
    
    # Pega o melhor modelo encontrado para esse algoritmo
    melhor_modelo_atual = grid.best_estimator_
    melhores_params_atual = grid.best_params_
    
    # Faz a previs√£o nos dados de TESTE (que o GridSearch n√£o viu)
    preds = melhor_modelo_atual.predict(X_test)
    
    metrics = {
        "accuracy": accuracy_score(y_test, preds),
        "precision": precision_score(y_test, preds),
        "recall": recall_score(y_test, preds),
        "f1": f1_score(y_test, preds)
    }
    
    print(f"   ‚úÖ Melhores params para {nome}: {melhores_params_atual}")
    print(f"   üìä Resultado Teste - F1: {metrics['f1']:.4f}")
    print("-" * 30)
    
    # Verifica se este √© o melhor modelo global at√© agora
    if metrics['f1'] > best_global_f1:
        best_global_f1 = metrics['f1']
        best_global_model_name = nome
        best_global_params = melhores_params_atual

print("\n" + "="*40)
print(f"   MELHOR MODELO GERAL: {best_global_model_name}")
print(f"   F1-Score: {best_global_f1:.4f}")
print(f"   Par√¢metros: {best_global_params}")
print("="*40)

üîç Otimizando Logistic_Regression...
Fitting 3 folds for each of 6 candidates, totalling 18 fits
   ‚úÖ Melhores params para Logistic_Regression: {'C': 1.0, 'penalty': 'l1'}
   üìä Resultado Teste - F1: 0.7996
------------------------------
üîç Otimizando Random_Forest...
Fitting 3 folds for each of 18 candidates, totalling 54 fits
   ‚úÖ Melhores params para Random_Forest: {'max_depth': None, 'min_samples_split': 5, 'n_estimators': 200}
   üìä Resultado Teste - F1: 0.8018
------------------------------
üîç Otimizando XGBoost...
Fitting 3 folds for each of 18 candidates, totalling 54 fits


Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.


   ‚úÖ Melhores params para XGBoost: {'learning_rate': 0.2, 'max_depth': 10, 'n_estimators': 100}
   üìä Resultado Teste - F1: 0.7952
------------------------------

üèÜ CAMPE√ÉO GERAL: Random_Forest
   F1-Score: 0.8018
   Par√¢metros: {'max_depth': None, 'min_samples_split': 5, 'n_estimators': 200}


In [1]:
from cryptography.fernet import Fernet
print(Fernet.generate_key().decode())

UClXgkcwPtA99DrI6z-5rlpItyVCBts6-gtEBvfmBj8=
