In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# 1) Carrega os dados
df = pd.read_csv("dados/log_tratado_completo.csv")

# 2) Vamos assumir que existam colunas:
#    - 'frase' (texto original ou tratado)
#    - 'cla_maj_masc' (rótulo majoritário masculino: 'positiva', 'negativa', 'neutra')
#    - 'cla_maj_femi' (rótulo majoritário feminino: 'positiva', 'negativa', 'neutra')

X = df["frase"]                # Features (texto)
y_masc = df["cla_maj_masc"]    # Rótulos masculinos
y_femi = df["cla_maj_femi"]    # Rótulos femininos

# 3) Split único para manter as MESMAS frases e índices
# Repare que passamos y_masc e y_femi ao mesmo tempo.
X_train, X_test, y_masc_train, y_masc_test, y_femi_train, y_femi_test = train_test_split(
    X, y_masc, y_femi,
    test_size=0.2,
    random_state=42,
    stratify=y_masc  # ou y_femi, dependendo de qual rótulo deseja estratificar
)

# 4) Vetorização TF-IDF do texto
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf  = vectorizer.transform(X_test)

# 5) Modelo recomendado: LogisticRegression (rápido, boa performance e interpretável).
#    Você pode ajustar parâmetros conforme necessário (ex: solver, regularização, etc.).

# --- MODELO MASCULINO ---
clf_masc = LogisticRegression(random_state=42, max_iter=1000)
clf_masc.fit(X_train_tfidf, y_masc_train)

# Previsões para o conjunto de teste
y_masc_pred = clf_masc.predict(X_test_tfidf)

# Relatório de classificação
print("=== Modelo para cla_maj_masc ===")
print(classification_report(y_masc_test, y_masc_pred))

# --- MODELO FEMININO ---
clf_femi = LogisticRegression(random_state=42, max_iter=1000)
clf_femi.fit(X_train_tfidf, y_femi_train)

# Previsões para o conjunto de teste
y_femi_pred = clf_femi.predict(X_test_tfidf)

# Relatório de classificação
print("=== Modelo para cla_maj_femi ===")
print(classification_report(y_femi_test, y_femi_pred))


KeyError: 'frase'