# IMPORTS

In [103]:
import os
import pandas as pd
import numpy as np
import re
import unicodedata
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.utils import shuffle

# CONFIGURAÇÕES

In [104]:
BASE_FOLDER_TRAIN = "treino"

FILES = [
    "train_literal_dinamico.csv",
    "train_complexo_simples.csv",
    "train_arcaico_moderno.csv",
]

preprocess_params = {
    "lowercase": True,
    "normalize_unicode": False,
    "remove_extra_whitespace": True,
    "remove_punct": False,
}

In [105]:
# Configuração dos Pipelines e Grades de Hiperparâmetros para Grid Search
param_grids = {
    'Naive Bayes': {
        'pipeline': Pipeline([
            ('vectorizer', TfidfVectorizer()),
            ('model', MultinomialNB())
        ]),
        'params': {
            'vectorizer__max_features': [3000, 5000, 10000],
            'vectorizer__ngram_range': [(1, 1), (1, 2)],
            'vectorizer__min_df': [2, 5],
            'vectorizer__max_df': [0.9, 0.95],
            'model__alpha': [0.1, 0.5, 1.0, 2.0]
        }
    },
    'Logistic Regression': {
        'pipeline': Pipeline([
            ('vectorizer', TfidfVectorizer()),
            ('model', LogisticRegression(max_iter=1000, random_state=42))
        ]),
        'params': {
            'vectorizer__max_features': [3000, 5000, 10000],
            'vectorizer__ngram_range': [(1, 1), (1, 2)],
            'vectorizer__min_df': [2, 5],
            'vectorizer__max_df': [0.9, 0.95],
            'model__C': [0.1, 1.0, 10.0],
            'model__solver': ['lbfgs', 'liblinear'],
            'model__class_weight': ['balanced', None]
        }
    },
    'SVM (LinearSVC)': {
        'pipeline': Pipeline([
            ('vectorizer', TfidfVectorizer()),
            ('model', LinearSVC(dual=False, random_state=42))
        ]),
        'params': {
            'vectorizer__max_features': [3000, 5000, 10000],
            'vectorizer__ngram_range': [(1, 1), (1, 2)],
            'vectorizer__min_df': [2, 5],
            'vectorizer__max_df': [0.9, 0.95],
            'model__C': [0.1, 1.0, 10.0],
            'model__max_iter': [1000, 2000]
        }
    }
}


# ANÁLISE DE BALANCEAMENTO DOS DATASETS


In [106]:
def analisar_balanceamento(file_name):
    """Função para analisar o balanceamento de um dataset"""
    path = os.path.join(BASE_FOLDER_TRAIN, file_name)
    df = pd.read_csv(path, sep=";")
    
    print("="*60)
    print(f"ANÁLISE ESTATÍSTICA - {file_name}")
    print("="*60)
    
    # Informações básicas
    print(f"\n📊 INFORMAÇÕES GERAIS:")
    print(f"   • Total de linhas: {len(df):,}")
    print(f"   • Total de colunas: {len(df.columns)}")
    print(f"   • Colunas: {list(df.columns)}")
    
    # Verificar valores nulos
    print(f"\n🔍 VALORES NULOS:")
    print(f"   • Coluna 'text': {df['text'].isna().sum()}")
    print(f"   • Coluna 'style': {df['style'].isna().sum()}")
    
    # Distribuição das classes
    print(f"\n📈 DISTRIBUIÇÃO DAS CLASSES:")
    contagem_classes = df['style'].value_counts()
    print(contagem_classes)
    
    print(f"\n📊 PORCENTAGEM POR CLASSE:")
    porcentagem_classes = df['style'].value_counts(normalize=True) * 100
    for classe, perc in porcentagem_classes.items():
        count = contagem_classes[classe]
        print(f"   • {classe}: {count:,} ({perc:.2f}%)")
    
    # Verificar balanceamento
    print(f"\n⚖️ BALANCEAMENTO:")
    razao = contagem_classes.max() / contagem_classes.min()
    print(f"   • Razão maior/menor classe: {razao:.2f}x")
    if razao < 1.5:
        print(f"   • Status: ✅ Dataset bem balanceado")
    elif razao < 3:
        print(f"   • Status: ⚠️ Dataset moderadamente desbalanceado")
    else:
        print(f"   • Status: ❌ Dataset desbalanceado")
    
    print("\n" + "="*60)
    print()
    
    return df, contagem_classes


In [107]:
# Analisar todos os datasets
resultados_analise = {}

for file_name in FILES:
    df, contagem = analisar_balanceamento(file_name)
    resultados_analise[file_name] = {
        'dataframe': df,
        'contagem_classes': contagem
    }


ANÁLISE ESTATÍSTICA - train_literal_dinamico.csv

📊 INFORMAÇÕES GERAIS:
   • Total de linhas: 36,964
   • Total de colunas: 2
   • Colunas: ['text', 'style']

🔍 VALORES NULOS:
   • Coluna 'text': 0
   • Coluna 'style': 0

📈 DISTRIBUIÇÃO DAS CLASSES:
style
literal     18482
dinamico    18482
Name: count, dtype: int64

📊 PORCENTAGEM POR CLASSE:
   • literal: 18,482 (50.00%)
   • dinamico: 18,482 (50.00%)

⚖️ BALANCEAMENTO:
   • Razão maior/menor classe: 1.00x
   • Status: ✅ Dataset bem balanceado


ANÁLISE ESTATÍSTICA - train_complexo_simples.csv

📊 INFORMAÇÕES GERAIS:
   • Total de linhas: 33,422
   • Total de colunas: 2
   • Colunas: ['text', 'style']

🔍 VALORES NULOS:
   • Coluna 'text': 1
   • Coluna 'style': 0

📈 DISTRIBUIÇÃO DAS CLASSES:
style
complexo    16711
simples     16711
Name: count, dtype: int64

📊 PORCENTAGEM POR CLASSE:
   • complexo: 16,711 (50.00%)
   • simples: 16,711 (50.00%)

⚖️ BALANCEAMENTO:
   • Razão maior/menor classe: 1.00x
   • Status: ✅ Dataset bem balancead

In [108]:
# Criar tabela resumo comparativa
print("="*80)
print("RESUMO COMPARATIVO - TODOS OS DATASETS")
print("="*80)
print()

resumo_data = []
for file_name, resultado in resultados_analise.items():
    df = resultado['dataframe']
    contagem = resultado['contagem_classes']
    razao = contagem.max() / contagem.min()
    
    resumo_data.append({
        'Dataset': file_name.replace('train_', '').replace('.csv', ''),
        'Total Linhas': len(df),
        'Classe 1': contagem.index[0],
        'Count 1': contagem.values[0],
        'Classe 2': contagem.index[1],
        'Count 2': contagem.values[1],
        'Razão': f"{razao:.2f}x",
        'Status': '✅ Balanceado' if razao < 1.5 else '⚠️ Moderado' if razao < 3 else '❌ Desbalanceado'
    })

df_resumo = pd.DataFrame(resumo_data)
print(df_resumo.to_string(index=False))
print()
print("="*80)


RESUMO COMPARATIVO - TODOS OS DATASETS

         Dataset  Total Linhas Classe 1  Count 1 Classe 2  Count 2 Razão       Status
literal_dinamico         36964  literal    18482 dinamico    18482 1.00x ✅ Balanceado
complexo_simples         33422 complexo    16711  simples    16711 1.00x ✅ Balanceado
 arcaico_moderno         36884  arcaico    18442  moderno    18442 1.00x ✅ Balanceado



# PRÉ-PROCESSAMENTO

In [109]:
def preprocess_operations(text, params):
    if not isinstance(text, str):
        return ""
    if params.get("normalize_unicode", True):
        text = unicodedata.normalize("NFKC", text)
    if params.get("lowercase", True):
        text = text.lower()
    if params.get("remove_punct", False):
        text = re.sub(r"[^\w\s]", " ", text)
    if params.get("remove_extra_whitespace", True):
        text = re.sub(r"\s+", " ", text).strip()
    return text

def preprocess_data(path):
    if not os.path.exists(path):
        print(f"Aviso: {path} não encontrado.")
        return None

    df = pd.read_csv(path, sep=";")
    col_text, col_label = "text", "style"

    df = df[[col_text, col_label]].dropna()
    df = shuffle(df, random_state=10).reset_index(drop=True)

    df["text_preproc"] = df[col_text].apply(lambda x: preprocess_operations(x, preprocess_params))

    le = LabelEncoder()
    y = le.fit_transform(df[col_label])
    X = df["text_preproc"].values

    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.15, stratify=y, random_state=10
    )

    return X_train, X_test, y_train, y_test

In [110]:
datasets = {}

for file_name in FILES:
    path = os.path.join(BASE_FOLDER_TRAIN, file_name)
    print(f"\nProcessando: {file_name}")
    result = preprocess_data(path) 

    if result is not None:
        X_train, X_test, y_train, y_test = result
        datasets[file_name] = {
            "X_train": X_train,
            "X_test": X_test,
            "y_train": y_train,
            "y_test": y_test
        }


Processando: train_literal_dinamico.csv

Processando: train_complexo_simples.csv

Processando: train_arcaico_moderno.csv


# DATASET 1: ARCAICO vs MODERNO

Classificação de textos entre estilo **arcaico** e **moderno**.

In [111]:
# Preparar dados - arcaico_moderno
X_train = datasets["train_arcaico_moderno.csv"]["X_train"]
X_test = datasets["train_arcaico_moderno.csv"]["X_test"]
y_train = datasets["train_arcaico_moderno.csv"]["y_train"]
y_test = datasets["train_arcaico_moderno.csv"]["y_test"]

print(f"Dados carregados - train_arcaico_moderno.csv")
print(f"   Treino: {len(X_train)} textos | Teste: {len(X_test)} textos")


Dados carregados - train_arcaico_moderno.csv
   Treino: 31351 textos | Teste: 5533 textos


In [None]:
print("="*80)
print("GRID SEARCH COM PIPELINE - ARCAICO vs MODERNO (10-FOLD CV)")
print("="*80)
print("Otimizando TF-IDF + Modelos simultaneamente...\n")

# Armazenar melhores pipelines
best_models = {}
cv_results = {}

for name, config in param_grids.items():
    print(f"[{name}] Executando Grid Search...")
    print(f"   Testando {len(config['params']['vectorizer__max_features']) * len(config['params']['vectorizer__ngram_range']) * len(config['params']['vectorizer__min_df']) * len(config['params']['vectorizer__max_df'])} combinações de TF-IDF...")
    
    # Grid Search com 10-fold CV
    grid_search = GridSearchCV(
        config['pipeline'],
        config['params'],
        cv=10,
        scoring='accuracy',
        n_jobs=-1,
        verbose=0
    )
    
    grid_search.fit(X_train, y_train)
    
    # Armazenar resultados
    best_models[name] = grid_search.best_estimator_
    
    # Separar parâmetros de TF-IDF e modelo
    vectorizer_params = {k.replace('vectorizer__', ''): v 
                        for k, v in grid_search.best_params_.items() 
                        if k.startswith('vectorizer__')}
    model_params = {k.replace('model__', ''): v 
                   for k, v in grid_search.best_params_.items() 
                   if k.startswith('model__')}
    
    cv_results[name] = {
        'best_params': grid_search.best_params_,
        'vectorizer_params': vectorizer_params,
        'model_params': model_params,
        'best_score': grid_search.best_score_,
        'mean': grid_search.best_score_,
        'std': grid_search.cv_results_['std_test_score'][grid_search.best_index_]
    }
    
    print(f"  ✓ Melhores params TF-IDF: {vectorizer_params}")
    print(f"  ✓ Melhores params Modelo: {model_params}")
    print(f"  ✓ Acuracia (CV): {grid_search.best_score_:.4f}\n")

print("="*80)


GRID SEARCH COM PIPELINE - ARCAICO vs MODERNO (10-FOLD CV)
Otimizando TF-IDF + Modelos simultaneamente...

[Naive Bayes] Executando Grid Search...
   Testando 24 combinações de TF-IDF...
  ✓ Melhores params TF-IDF: {'max_df': 0.9, 'max_features': 10000, 'min_df': 2, 'ngram_range': (1, 2)}
  ✓ Melhores params Modelo: {'alpha': 0.1}
  ✓ Acuracia (CV): 0.8362

[Logistic Regression] Executando Grid Search...
   Testando 24 combinações de TF-IDF...
  ✓ Melhores params TF-IDF: {'max_df': 0.9, 'max_features': 10000, 'min_df': 5, 'ngram_range': (1, 2)}
  ✓ Melhores params Modelo: {'C': 10.0, 'class_weight': 'balanced', 'solver': 'lbfgs'}
  ✓ Acuracia (CV): 0.8386

[SVM (LinearSVC)] Executando Grid Search...
   Testando 24 combinações de TF-IDF...


In [None]:
# Teste Final - arcaico_moderno (com melhores params do Grid Search)
print("\nTeste Final no Hold-Out - ARCAICO vs MODERNO")
print("="*60)

final_results = {}
for name, pipeline in best_models.items():
    y_pred = pipeline.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    final_results[name] = {'holdout_acc': acc, 'cv_mean': cv_results[name]['mean']}
    print(f"{name:25s}: CV={cv_results[name]['mean']:.4f} | Hold-Out={acc:.4f}")

best_final = max(final_results.items(), key=lambda x: x[1]['holdout_acc'])
print(f"\nMelhor modelo (Hold-Out): {best_final[0]} - {best_final[1]['holdout_acc']*100:.2f}%")


# DATASET 2: COMPLEXO vs SIMPLES

Classificação de textos entre estilo **complexo** e **simples**.


In [None]:
# Preparar dados - complexo_simples
X_train_cs = datasets["train_complexo_simples.csv"]["X_train"]
X_test_cs = datasets["train_complexo_simples.csv"]["X_test"]
y_train_cs = datasets["train_complexo_simples.csv"]["y_train"]
y_test_cs = datasets["train_complexo_simples.csv"]["y_test"]

print(f"Dados carregados - train_complexo_simples.csv")
print(f"   Treino: {len(X_train_cs)} textos | Teste: {len(X_test_cs)} textos")


Vetorização concluída - train_complexo_simples.csv
   Treino: (28407, 4000) | Teste: (5014, 4000)


In [None]:
print("="*80)
print("GRID SEARCH COM PIPELINE - COMPLEXO vs SIMPLES (10-FOLD CV)")
print("="*80)
print("Otimizando TF-IDF + Modelos simultaneamente...\n")

# Armazenar melhores pipelines
best_models_cs = {}
cv_results_cs = {}

for name, config in param_grids.items():
    print(f"[{name}] Executando Grid Search...")
    print(f"   Testando {len(config['params']['vectorizer__max_features']) * len(config['params']['vectorizer__ngram_range']) * len(config['params']['vectorizer__min_df']) * len(config['params']['vectorizer__max_df'])} combinações de TF-IDF...")
    
    # Grid Search com 10-fold CV
    grid_search = GridSearchCV(
        config['pipeline'],
        config['params'],
        cv=10,
        scoring='accuracy',
        n_jobs=-1,
        verbose=0
    )
    
    grid_search.fit(X_train_cs, y_train_cs)
    
    # Armazenar resultados
    best_models_cs[name] = grid_search.best_estimator_
    
    # Separar parâmetros de TF-IDF e modelo
    vectorizer_params = {k.replace('vectorizer__', ''): v 
                        for k, v in grid_search.best_params_.items() 
                        if k.startswith('vectorizer__')}
    model_params = {k.replace('model__', ''): v 
                   for k, v in grid_search.best_params_.items() 
                   if k.startswith('model__')}
    
    cv_results_cs[name] = {
        'best_params': grid_search.best_params_,
        'vectorizer_params': vectorizer_params,
        'model_params': model_params,
        'best_score': grid_search.best_score_,
        'mean': grid_search.best_score_,
        'std': grid_search.cv_results_['std_test_score'][grid_search.best_index_]
    }
    
    print(f"  ✓ Melhores params TF-IDF: {vectorizer_params}")
    print(f"  ✓ Melhores params Modelo: {model_params}")
    print(f"  ✓ Acuracia (CV): {grid_search.best_score_:.4f}\n")

print("="*80)


GRID SEARCH - COMPLEXO vs SIMPLES (10-FOLD CV)

Otimizando hiperparametros...

[Naive Bayes] Executando Grid Search...
  ✓ Melhores params: {'alpha': 0.1}
  ✓ Acuracia (CV): 0.7961

[Logistic Regression] Executando Grid Search...
  ✓ Melhores params: {'C': 10.0, 'class_weight': None, 'solver': 'lbfgs'}
  ✓ Acuracia (CV): 0.8238

[SVM (LinearSVC)] Executando Grid Search...
  ✓ Melhores params: {'C': 1.0, 'max_iter': 1000}
  ✓ Acuracia (CV): 0.8216



In [None]:
# Teste Final - complexo_simples (com melhores params do Grid Search)
print("\nTeste Final no Hold-Out - COMPLEXO vs SIMPLES")
print("="*60)

final_results_cs = {}
for name, pipeline in best_models_cs.items():
    y_pred = pipeline.predict(X_test_cs)
    acc = accuracy_score(y_test_cs, y_pred)
    final_results_cs[name] = {'holdout_acc': acc, 'cv_mean': cv_results_cs[name]['mean']}
    print(f"{name:25s}: CV={cv_results_cs[name]['mean']:.4f} | Hold-Out={acc:.4f}")

best_final_cs = max(final_results_cs.items(), key=lambda x: x[1]['holdout_acc'])
print(f"\nMelhor modelo (Hold-Out): {best_final_cs[0]} - {best_final_cs[1]['holdout_acc']*100:.2f}%")



Teste Final no Hold-Out - COMPLEXO vs SIMPLES
Naive Bayes              : CV=0.7961 | Hold-Out=0.7924
Logistic Regression      : CV=0.8238 | Hold-Out=0.8131
SVM (LinearSVC)          : CV=0.8216 | Hold-Out=0.8127

Melhor modelo (Hold-Out): Logistic Regression - 81.31%


# DATASET 3: LITERAL vs DINÂMICO

Classificação de textos entre estilo **literal** e **dinâmico**.

In [None]:
# Preparar dados - literal_dinamico
X_train_ld = datasets["train_literal_dinamico.csv"]["X_train"]
X_test_ld = datasets["train_literal_dinamico.csv"]["X_test"]
y_train_ld = datasets["train_literal_dinamico.csv"]["y_train"]
y_test_ld = datasets["train_literal_dinamico.csv"]["y_test"]

print(f"Dados carregados - train_literal_dinamico.csv")
print(f"   Treino: {len(X_train_ld)} textos | Teste: {len(X_test_ld)} textos")


Vetorização concluída - train_literal_dinamico.csv
   Treino: (31419, 4000) | Teste: (5545, 4000)


In [None]:
print("="*80)
print("GRID SEARCH COM PIPELINE - LITERAL vs DINÂMICO (10-FOLD CV)")
print("="*80)
print("Otimizando TF-IDF + Modelos simultaneamente...\n")

# Armazenar melhores pipelines
best_models_ld = {}
cv_results_ld = {}

for name, config in param_grids.items():
    print(f"[{name}] Executando Grid Search...")
    print(f"   Testando {len(config['params']['vectorizer__max_features']) * len(config['params']['vectorizer__ngram_range']) * len(config['params']['vectorizer__min_df']) * len(config['params']['vectorizer__max_df'])} combinações de TF-IDF...")
    
    # Grid Search com 10-fold CV
    grid_search = GridSearchCV(
        config['pipeline'],
        config['params'],
        cv=10,
        scoring='accuracy',
        n_jobs=-1,
        verbose=0
    )
    
    grid_search.fit(X_train_ld, y_train_ld)
    
    # Armazenar resultados
    best_models_ld[name] = grid_search.best_estimator_
    
    # Separar parâmetros de TF-IDF e modelo
    vectorizer_params = {k.replace('vectorizer__', ''): v 
                        for k, v in grid_search.best_params_.items() 
                        if k.startswith('vectorizer__')}
    model_params = {k.replace('model__', ''): v 
                   for k, v in grid_search.best_params_.items() 
                   if k.startswith('model__')}
    
    cv_results_ld[name] = {
        'best_params': grid_search.best_params_,
        'vectorizer_params': vectorizer_params,
        'model_params': model_params,
        'best_score': grid_search.best_score_,
        'mean': grid_search.best_score_,
        'std': grid_search.cv_results_['std_test_score'][grid_search.best_index_]
    }
    
    print(f"  ✓ Melhores params TF-IDF: {vectorizer_params}")
    print(f"  ✓ Melhores params Modelo: {model_params}")
    print(f"  ✓ Acuracia (CV): {grid_search.best_score_:.4f}\n")

print("="*80)


GRID SEARCH - LITERAL vs DINÂMICO (10-FOLD CV)

Otimizando hiperparametros...

[Naive Bayes] Executando Grid Search...
  ✓ Melhores params: {'alpha': 0.1}
  ✓ Acuracia (CV): 0.8161

[Logistic Regression] Executando Grid Search...
  ✓ Melhores params: {'C': 1.0, 'class_weight': 'balanced', 'solver': 'liblinear'}
  ✓ Acuracia (CV): 0.8225

[SVM (LinearSVC)] Executando Grid Search...
  ✓ Melhores params: {'C': 0.1, 'max_iter': 1000}
  ✓ Acuracia (CV): 0.8215



In [None]:
# Teste Final - literal_dinamico (com melhores params do Grid Search)
print("\nTeste Final no Hold-Out - LITERAL vs DINÂMICO")
print("="*60)

final_results_ld = {}
for name, pipeline in best_models_ld.items():
    y_pred = pipeline.predict(X_test_ld)
    acc = accuracy_score(y_test_ld, y_pred)
    final_results_ld[name] = {'holdout_acc': acc, 'cv_mean': cv_results_ld[name]['mean']}
    print(f"{name:25s}: CV={cv_results_ld[name]['mean']:.4f} | Hold-Out={acc:.4f}")

best_final_ld = max(final_results_ld.items(), key=lambda x: x[1]['holdout_acc'])
print(f"\nMelhor modelo (Hold-Out): {best_final_ld[0]} - {best_final_ld[1]['holdout_acc']*100:.2f}%")



Teste Final no Hold-Out - LITERAL vs DINÂMICO
Naive Bayes              : CV=0.8161 | Hold-Out=0.8061
Logistic Regression      : CV=0.8225 | Hold-Out=0.8227
SVM (LinearSVC)          : CV=0.8215 | Hold-Out=0.8204

Melhor modelo (Hold-Out): Logistic Regression - 82.27%


# COMPARAÇÃO FINAL - TODOS OS DATASETS

Análise comparativa do desempenho dos modelos nos 3 tipos de classificação.


In [None]:
print("="*100)
print("COMPARAÇÃO FINAL - TODOS OS DATASETS")
print("="*100)

# Organizar resultados com parâmetros
datasets_comparison = {
    'ARCAICO vs MODERNO': {
        'results': final_results,
        'cv_results': cv_results
    },
    'COMPLEXO vs SIMPLES': {
        'results': final_results_cs,
        'cv_results': cv_results_cs
    },
    'LITERAL vs DINÂMICO': {
        'results': final_results_ld,
        'cv_results': cv_results_ld
    }
}

# Mostrar resultados por dataset
for dataset_name, data in datasets_comparison.items():
    results = data['results']
    cv_res = data['cv_results']
    
    print(f"\n{'='*100}")
    print(f"DATASET: {dataset_name}")
    print(f"{'='*100}")
    
    # Ordenar por Hold-Out
    sorted_results = sorted(results.items(), key=lambda x: x[1]['holdout_acc'], reverse=True)
    
    for i, (model_name, metrics) in enumerate(sorted_results, 1):
        emoji = "🥇" if i == 1 else "🥈" if i == 2 else "🥉"
        print(f"\n{emoji} {model_name}")
        print(f"   Acurácia CV:       {metrics['cv_mean']:.4f} ({metrics['cv_mean']*100:.2f}%)")
        print(f"   Acurácia Hold-Out: {metrics['holdout_acc']:.4f} ({metrics['holdout_acc']*100:.2f}%)")
        print(f"   Params TF-IDF:     {cv_res[model_name]['vectorizer_params']}")
        print(f"   Params Modelo:     {cv_res[model_name]['model_params']}")

# Resumo final - Melhor modelo por dataset
print(f"\n\n{'='*100}")
print("RESUMO - MELHOR MODELO POR DATASET")
print(f"{'='*100}\n")

for dataset_name, data in datasets_comparison.items():
    results = data['results']
    cv_res = data['cv_results']
    
    best = max(results.items(), key=lambda x: x[1]['holdout_acc'])
    best_name = best[0]
    best_metrics = best[1]
    
    print(f"🏆 {dataset_name}")
    print(f"   Melhor Modelo:     {best_name}")
    print(f"   Acurácia Hold-Out: {best_metrics['holdout_acc']*100:.2f}%")
    print(f"   Params TF-IDF:     {cv_res[best_name]['vectorizer_params']}")
    print(f"   Params Modelo:     {cv_res[best_name]['model_params']}")
    print()

print("="*100)


COMPARAÇÃO FINAL - TODOS OS DATASETS

DATASET: ARCAICO vs MODERNO

Primeiro Lugar:
   Acurácia CV:      0.8217 (82.17%)
   Acurácia Hold-Out: 0.8227 (82.27%)
   Melhores params:  {'C': 0.1, 'max_iter': 1000}

Segundo Lugar:
   Acurácia CV:      0.8222 (82.22%)
   Acurácia Hold-Out: 0.8225 (82.25%)
   Melhores params:  {'C': 1.0, 'class_weight': 'balanced', 'solver': 'lbfgs'}

Terceiro Lugar:
   Acurácia CV:      0.8167 (81.67%)
   Acurácia Hold-Out: 0.8084 (80.84%)
   Melhores params:  {'alpha': 0.1}

DATASET: COMPLEXO vs SIMPLES

Primeiro Lugar:
   Acurácia CV:      0.8238 (82.38%)
   Acurácia Hold-Out: 0.8131 (81.31%)
   Melhores params:  {'C': 10.0, 'class_weight': None, 'solver': 'lbfgs'}

Segundo Lugar:
   Acurácia CV:      0.8216 (82.16%)
   Acurácia Hold-Out: 0.8127 (81.27%)
   Melhores params:  {'C': 1.0, 'max_iter': 1000}

Terceiro Lugar:
   Acurácia CV:      0.7961 (79.61%)
   Acurácia Hold-Out: 0.7924 (79.24%)
   Melhores params:  {'alpha': 0.1}

DATASET: LITERAL vs DINÂMICO