<a href="https://colab.research.google.com/github/carlosprr29/ai-progetto-spagnoli/blob/main/Baseline_Model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Setup Environment

In [1]:
##Celda de Instalaci√≥n y carga
!pip install -q datasets pandas scikit-learn

from datasets import load_dataset
import pandas as pd

# Descargamos el dataset WELFake
print("‚è≥ Descargando dataset...")
dataset_raw = load_dataset("davanstrien/WELFake")
df = pd.DataFrame(dataset_raw['train'])

# Limpieza r√°pida: quitamos filas que no tengan texto o t√≠tulo
df = df.dropna(subset=['title', 'text'])
print(f"‚úÖ Dataset cargado: {len(df)} filas.")


‚è≥ Descargando dataset...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md: 0.00B [00:00, ?B/s]



data/train-00000-of-00001-290868f0a36350(‚Ä¶):   0%|          | 0.00/152M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/72134 [00:00<?, ? examples/s]

‚úÖ Dataset cargado: 71537 filas.


In [2]:
#Celda de Divisi√≥n de Datos
from sklearn.model_selection import train_test_split

# Dividimos el dataset (80% entrenamiento, 20% prueba)
# 'stratify' asegura que haya la misma proporci√≥n de noticias reales y fakes en ambos grupos
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42, stratify=df['label'])

print(f"Datos para entrenar: {len(train_df)}")
print(f"Datos para evaluar: {len(test_df)}")



Datos para entrenar: 57229
Datos para evaluar: 14308


In [3]:
## Experimento 1: Baseline con Regresi√≥n Log√≠stica
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# Definimos la funci√≥n de entrenamiento y evaluaci√≥n
def entrenar_y_evaluar(X_train, X_test, y_train, y_test, nombre_experimento):
    # 1. Creamos el modelo (TF-IDF + Regresi√≥n Log√≠stica)
    # TF-IDF convierte palabras en n√∫meros seg√∫n su importancia (max_features evita que sea muy pesado)
    pipeline = Pipeline([
        ('tfidf', TfidfVectorizer(stop_words='english', max_features=5000)),
        ('clf', LogisticRegression(max_iter=1000))
    ])

    # 2. Entrenamos
    print(f"\nüöÄ Entrenando modelo para: {nombre_experimento}...")
    pipeline.fit(X_train, y_train)

    # 3. Predecimos
    predicciones = pipeline.predict(X_test)

    # 4. Resultados
    acc = accuracy_score(y_test, predicciones)
    print(f"‚úÖ Precisi√≥n ({nombre_experimento}): {acc:.4f}")
    print(classification_report(y_test, predicciones))

    return acc

# --- EJECUCI√ìN DEL ESTUDIO DE ABLACI√ìN ---

# CASO 1: Solo con el t√≠tulo
acc_titulos = entrenar_y_evaluar(
    train_df['title'], test_df['title'],
    train_df['label'], test_df['label'],
    "SOLO T√çTULOS"
)

# CASO 2: T√≠tulo + Texto (Creamos la columna 'total' justo antes)
train_df['total'] = train_df['title'] + " " + train_df['text']
test_df['total'] = test_df['title'] + " " + test_df['text']

acc_completo = entrenar_y_evaluar(
    train_df['total'], test_df['total'],
    train_df['label'], test_df['label'],
    "TEXTO COMPLETO"
)


üöÄ Entrenando modelo para: SOLO T√çTULOS...
‚úÖ Precisi√≥n (SOLO T√çTULOS): 0.8937
              precision    recall  f1-score   support

           0       0.90      0.88      0.89      7006
           1       0.89      0.90      0.90      7302

    accuracy                           0.89     14308
   macro avg       0.89      0.89      0.89     14308
weighted avg       0.89      0.89      0.89     14308


üöÄ Entrenando modelo para: TEXTO COMPLETO...
‚úÖ Precisi√≥n (TEXTO COMPLETO): 0.9436
              precision    recall  f1-score   support

           0       0.95      0.93      0.94      7006
           1       0.94      0.95      0.95      7302

    accuracy                           0.94     14308
   macro avg       0.94      0.94      0.94     14308
weighted avg       0.94      0.94      0.94     14308



# **Eficacia del Baseline:** Un 94.36% en texto completo es una marca alt√≠sima. Esto indica que el dataset WELFake tiene patrones de palabras muy claros que permiten distinguir noticias reales de fakes con facilidad.

#**Ablation Study (Hallazgo inicial)**: Hay una diferencia de 5 puntos (89% vs 94%).

#**Conclusi√≥n:** Aunque el t√≠tulo por s√≠ solo es muy informativo, el cuerpo de la noticia aporta un contexto necesario para captar un 5% extra de casos que el titular no revela.

#**El reto para BERT:** Vuestro Baseline es tan bueno que el desaf√≠o ahora no es solo "superar" el 94%, sino ver si BERT es capaz de entender noticias m√°s ambiguas donde las palabras clave no son tan obvias.
