Antes de empezar con la explicacion de esta entrega debemos mencionar la correcion de dos errores de la entrega anterior. Conseguimos aplicar stemming y lematizacion solo para TD-IDF y no para los embeddings, como hicimos anteriormente. Ademas,  adaptamos el Word2Vec para que no tuviese mas de 30 epochs.

Por otro lado, hemos sido capaces de aplicar shallow learning a las tres tareas de clasificacion que teniamos previstas. Sin embargo, solo hemos podido aplicar deep learning y comparacion de embeddings a la clasificacion de sesgo. Las dos tareas restantes estaran completadas para la siguiente entrega.

# **1. Shallow Learning**

In [1]:
import os
import pickle
import numpy as np
import pandas as pd
import tensorflow as tf
import torch
from collections import Counter
from gensim.models import FastText, Word2Vec
from sentence_transformers import SentenceTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.svm import LinearSVC, SVC
from tensorflow.keras.layers import LSTM, GRU, Dense, Dropout, Embedding, Input
from tensorflow.keras.models import Model, Sequential
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
from xgboost import XGBClassifier




Para representar los textos, hemos elegido TF-IDF para capturar la importancia relativa de cada palabra en un documento frente al corpus completo, reduciendo el peso de palabras muy frecuentes que no aportan información discriminativa, como artículos y preposiciones en inglés. Hemos establecido un  límite de 3,000 palabras más importantes para reducir la dimensionalidad. Ademas hemos añadido y unigramas y bigramas para capturar algo de contexto local sin sobrecargar el modelo. Por otro lado, hemos eliminado las palabras vacías en inglés para centrar el análisis en palabras significativas. Esta representación genera vectores dispersos que son ideales para los modelos clásicos que usamos.

Hemos seleccionado cuatro modelos para evaluar el desempeño: Logistic Regression, LinearSVC, Random Forest y XGBoost. Esta combinación nos permite cubrir tanto modelos lineales como no lineales y comparar rapidez, precisión y estabilidad.

Antes de entrenar, hemos convertido los textos a números mediante label encoding, y  una división de train/validation del 80/20 para medir el rendimiento real y evitar overfitting. Además, hemos filtrado las clases con menos de dos registros, ya que la validación estratificada requiere al menos dos ejemplos por clase. La funcion recibe como parametro la variable objetivo. En este caso, recibe las variables "bias", "topic" y "source", que son nuestras variables a clasificar.

Finalmente, todos los modelos y el vectorizador TF-IDF han sido guardados para su reutilización. Este pipeline de Shallow Learning funciona como un baseline sólido que nos permite medir la mejora que aportan las representaciones densas y contextuales de texto que se utilizarán en las fases posteriores.

In [28]:
def shallow_pipeline(df, target_col):
    # Preparamos el texto
    if "text_joined" not in df.columns:
        df["text_joined"] = df["tokens"].apply(lambda x: " ".join(x))
    texts = df["text_joined"].astype(str).tolist()
    labels = df[target_col].tolist()

    # Filtramos las clases con menos de 2 registros
    counts = Counter(labels)
    valid_classes = [c for c, cnt in counts.items() if cnt > 1]
    mask = [lbl in valid_classes for lbl in labels]
    texts = [t for t, m in zip(texts, mask) if m]
    labels = [l for l, m in zip(labels, mask) if m]

    # Codificamos las etiquetas
    le = LabelEncoder()
    y = le.fit_transform(labels)

    # Hacemos el train/validation split
    X_train_text, X_val_text, y_train, y_val = train_test_split(
        texts, y, test_size=0.2, random_state=42, stratify=y
    )

    # Aplicamos TF-IDF
    vectorizer = TfidfVectorizer(max_features=3000, stop_words='english', ngram_range=(1,2))
    X_train = vectorizer.fit_transform(X_train_text)
    X_val = vectorizer.transform(X_val_text)

    # Definimos los modelos
    models = {
        "Logistic Regression": LogisticRegression(max_iter=1000, n_jobs=-1),
        "LinearSVC": LinearSVC(),
        "Random Forest": RandomForestClassifier(n_estimators=150, n_jobs=-1),
       # "XGBoost": XGBClassifier(n_estimators=75, eval_metric="mlogloss", tree_method="hist", n_jobs=-1)
    }

    results = {}

    # Entrenamos, evaluamos y guardamos los modelos
    os.makedirs("data/models", exist_ok=True)
    for name, model in models.items():
        print(f"Entrenando {name}...")
        model.fit(X_train, y_train)
        y_pred = model.predict(X_val)
        results[name] = {
            "Accuracy": accuracy_score(y_val, y_pred),
            "Macro-F1": f1_score(y_val, y_pred, average="macro")
        }
        # Guardamos el modelo
        pickle.dump(model, open(f"data/models/{name.replace(' ', '_').lower()}.pkl", "wb"))

    # Guardamos el vectorizador
    os.makedirs("data/features", exist_ok=True)
    pickle.dump(vectorizer, open("data/features/tfidf_vectorizer.pkl", "wb"))

    return results


Hemos tenido que incluir un filtro para eliminar las clases que tenían menos de dos registros antes de hacer el train_test_split. Esto se debe a que tuvimos un error al utilizar el parámetro stratify=y, que requiere al menos dos ejemplos por clase para poder crear correctamente los conjuntos de entrenamiento y validación de manera estratificada. Sin este filtro, cualquier clase con un único ejemplo provocaría que la ejecución se detuviera, como ocurría previamente con la variable source. Al aplicar este filtrado, nos aseguramos de que solo se utilicen clases con suficiente cantidad de datos, garantizando que la partición estratificada funcione y evitando que el pipeline falle durante el entrenamiento.

Los resultados se analizarán en la sección 4 de este noteebook.

In [6]:
df = pd.read_pickle("data/data_clean/train_tokenized.pkl")

In [26]:
# Llamamos a la función con bias
results_bias = shallow_pipeline(df, "bias")
print(pd.DataFrame(results_bias).T)



Entrenando Logistic Regression...
Entrenando LinearSVC...
Entrenando Random Forest...
Entrenando XGBoost...
                     Accuracy  Macro-F1
Logistic Regression  0.702109  0.700091
LinearSVC            0.698713  0.696551
Random Forest        0.689778  0.684783
XGBoost              0.734632  0.733918


In [29]:
# Llamamos a la función con topic
results_topic = shallow_pipeline(df, "topic")
print(pd.DataFrame(results_topic).T)


Entrenando Logistic Regression...
Entrenando LinearSVC...
Entrenando Random Forest...
                     Accuracy  Macro-F1
Logistic Regression  0.581129  0.338987
LinearSVC            0.589171  0.410156
Random Forest        0.519657  0.250003


In [11]:
# Llamamos a la función con source
results_source = shallow_pipeline(df, "source")
print(pd.DataFrame(results_source).T)

Entrenando Logistic Regression...
Entrenando LinearSVC...
Entrenando Random Forest...
Entrenando XGBoost...
                     Accuracy  Macro-F1
Logistic Regression  0.503401  0.103117
LinearSVC            0.559076  0.219572
Random Forest        0.500000  0.120979
XGBoost              0.532581  0.223251


# **2. Modelos Deep**


En la parte de Deep Learning, hemos optado por utilizar redes neuronales recurrentes, específicamente LSTM y GRU, debido a su capacidad para capturar dependencias secuenciales en el texto. A diferencia de los modelos de Shallow Learning, que tratan cada palabra o n-grama de manera independiente, las RNNs permiten que la red recuerde información contextual de palabras anteriores en la secuencia, lo cual es crucial para nuestras tareas de clasificación de texto donde el significado puede depender del orden de las palabras.

Para la representación de los textos, hemos empleado embeddings densos, utilizando tres enfoques distintos con Word2Vec: congelado, fine-tuneado y desde cero. En el caso de los embeddings congelados, utilizamos un modelo preentrenado de Word2Vec y lo fijamos durante el entrenamiento de la red, de manera que solo la LSTM o GRU aprenda a combinar los vectores preexistentes. Esto permite evaluar cuánto conocimiento semántico ya capturado en Word2Vec puede ayudar a la tarea sin modificarlo. En el enfoque de fine-tune, los embeddings inicializados con Word2Vec se ajustan durante el entrenamiento, permitiendo que la red adapte los vectores a las particularidades del dataset específico. Finalmente, la opción de embeddings entrenados desde cero crea vectores aleatorios que se aprenden completamente durante el entrenamiento, lo que permite que la red descubra representaciones óptimas para la tarea, aunque requiere más datos y tiempo de entrenamiento.

Hemos elegido LSTM y GRU ya que cumple nuestra necesidad de comparar dos variantes de redes recurrentes: las LSTM tienen una mayor capacidad para capturar dependencias de largo plazo mediante su mecanismo de puertas, mientras que las GRU son más simples y computacionalmente eficientes, lo que puede acelerar el entrenamiento sin perder demasiado rendimiento. 

Los textos se transforman primero en secuencias de índices según el vocabulario de Word2Vec o un tokenizer entrenado sobre el dataset, y se aplica padding para unificar la longitud de las secuencias. Esto asegura que las redes puedan procesar lotes de datos de manera eficiente. Finalmente, la capa de salida utiliza softmax para producir probabilidades sobre las clases, y la red se entrena con categorical crossentropy, optimizando la accuracy y el macro-F1 como métricas de desempeño, lo cual es consistente con la evaluación utilizada en la parte de Shallow Learning.

En conclusion, en este apartado permite que nuestra red aprenda tanto representaciones densas de palabras como patrones secuenciales de las oraciones, ofreciendo una ventaja sobre los modelos lineales y de ensamble de Shallow Learning que solo utilizan información superficial y dispersa de los textos.

Embeddings finetuneados

In [None]:
# Cargamos el dataset tokenizado
df_train = pd.read_pickle("data/data_clean/train_tokenized.pkl")
y = df_train["bias"].values

# Codificamos los labels
le = LabelEncoder()
y_encoded = le.fit_transform(y)
y_cat = to_categorical(y_encoded)

# Split train/validation
X_tr_text, X_val_text, y_tr, y_val = train_test_split(
    df_train["tokens"], y_cat, test_size=0.2, random_state=42
)

# Cargamos el Word2Vec preentrenado de la anterior entrega
w2v_model = Word2Vec.load("data/embeddings/word2vec.model")
embedding_dim = w2v_model.vector_size

# Creamos el vocabulario e índices
word_index = {word: i+1 for i, word in enumerate(w2v_model.wv.index_to_key)}
vocab_size = len(word_index) + 1  # +1 para padding

# Convertimos los tokens a índices
def tokens_to_indices(tokens, word_index):
    return [word_index[t] for t in tokens if t in word_index]

X_tr_idx = [tokens_to_indices(t, word_index) for t in X_tr_text]
X_val_idx = [tokens_to_indices(t, word_index) for t in X_val_text]

# Aplicamos padding
max_seq_len = 200
X_tr_pad = pad_sequences(X_tr_idx, maxlen=max_seq_len, padding='post')
X_val_pad = pad_sequences(X_val_idx, maxlen=max_seq_len, padding='post')

# Creamos la matriz de embedding 
embedding_matrix = np.zeros((vocab_size, embedding_dim))
for word, i in word_index.items():
    embedding_matrix[i] = w2v_model.wv[word]

# Definimos y entrenamos los modelos 

def build_rnn(model_type='LSTM'):
    model = Sequential()
    model.add(Embedding(input_dim=vocab_size,
                        output_dim=embedding_dim,
                        weights=[embedding_matrix],
                        input_length=max_seq_len,
                        trainable=True))  # Fine-tune embeddings
    if model_type == 'LSTM':
        model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
    elif model_type == 'GRU':
        model.add(GRU(128, dropout=0.2, recurrent_dropout=0.2))
    model.add(Dense(3, activation='softmax'))
    model.compile(optimizer=Adam(learning_rate=1e-3),
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])
    return model

# LSTM
lstm_model = build_rnn('LSTM')
lstm_history = lstm_model.fit(X_tr_pad, y_tr,
                              validation_data=(X_val_pad, y_val),
                              epochs=10,
                              batch_size=64)

# GRU
gru_model = build_rnn('GRU')
gru_history = gru_model.fit(X_tr_pad, y_tr,
                            validation_data=(X_val_pad, y_val),
                            epochs=10,
                            batch_size=64)

# Evaluamos los modelos
from sklearn.metrics import accuracy_score, f1_score

# Predicciones
y_pred_lstm = lstm_model.predict(X_val_pad, batch_size=64)
y_pred_gru = gru_model.predict(X_val_pad, batch_size=64)

y_pred_lstm_labels = np.argmax(y_pred_lstm, axis=1)
y_pred_gru_labels = np.argmax(y_pred_gru, axis=1)
y_val_labels = np.argmax(y_val, axis=1)

# Métricas
results = {
    'LSTM': {
        'Accuracy': accuracy_score(y_val_labels, y_pred_lstm_labels),
        'Macro-F1': f1_score(y_val_labels, y_pred_lstm_labels, average='macro')
    },
    'GRU': {
        'Accuracy': accuracy_score(y_val_labels, y_pred_gru_labels),
        'Macro-F1': f1_score(y_val_labels, y_pred_gru_labels, average='macro')
    }
}

results_df = pd.DataFrame(results).T
print("Resultados:")
print(results_df)




Epoch 1/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m116s[0m 322ms/step - accuracy: 0.4257 - loss: 1.0562 - val_accuracy: 0.4750 - val_loss: 1.0236
Epoch 2/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m109s[0m 311ms/step - accuracy: 0.5227 - loss: 0.9537 - val_accuracy: 0.4959 - val_loss: 0.9828
Epoch 3/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m119s[0m 340ms/step - accuracy: 0.5904 - loss: 0.8587 - val_accuracy: 0.5234 - val_loss: 0.9534
Epoch 4/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m150s[0m 428ms/step - accuracy: 0.6674 - loss: 0.7404 - val_accuracy: 0.5173 - val_loss: 1.0088
Epoch 5/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m131s[0m 373ms/step - accuracy: 0.7374 - loss: 0.6141 - val_accuracy: 0.5116 - val_loss: 1.0896
Epoch 6/10
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m182s[0m 521ms/step - accuracy: 0.8024 - loss: 0.4791 - val_accuracy: 0.5046 - val_loss: 1.2833
Epoc

Embeddings no finetuneados

In [None]:
# Creamos la  columna text_joined a partir de tokens
df["text_joined"] = df["tokens"].apply(lambda x: " ".join(x))

texts = df["text_joined"].astype(str).tolist()
labels = df["bias"].tolist()

# Tokenización y secuencias
vocab_size = 20000
maxlen = 100
embedding_dim = 100

tokenizer = Tokenizer(num_words=vocab_size)
tokenizer.fit_on_texts(texts)
X_seq = tokenizer.texts_to_sequences(texts)
X = pad_sequences(X_seq, maxlen=maxlen)

# Codificamos las etiquetas
le = LabelEncoder()
y = le.fit_transform(labels)

# Hacemos el train/validation split
X_train, X_val, y_train, y_val = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Aplicamos LSTM y GRU-
def build_lstm_model():
    model = Sequential([
        Embedding(vocab_size, embedding_dim, input_length=maxlen, trainable=False),
        LSTM(128, return_sequences=False),
        Dropout(0.3),
        Dense(64, activation='relu'),
        Dropout(0.3),
        Dense(len(np.unique(y)), activation='softmax')
    ])
    model.compile(
        loss="sparse_categorical_crossentropy",
        optimizer="adam",
        metrics=["accuracy"]
    )
    return model

def build_gru_model():
    model = Sequential([
        Embedding(vocab_size, embedding_dim, input_length=maxlen, trainable=False),
        GRU(128, return_sequences=False),
        Dropout(0.3),
        Dense(64, activation='relu'),
        Dropout(0.3),
        Dense(len(np.unique(y)), activation='softmax')
    ])
    model.compile(
        loss="sparse_categorical_crossentropy",
        optimizer="adam",
        metrics=["accuracy"]
    )
    return model

# Entrenamos LSTM
lstm_model = build_lstm_model()
history_lstm = lstm_model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=5,
    batch_size=64
)

# Entrenamos GRU
gru_model = build_gru_model()
history_gru = gru_model.fit(
    X_train, y_train,
    validation_data=(X_val, y_val),
    epochs=5,
    batch_size=64
)

# Evaluamos los modelos
def evaluate(model):
    preds = np.argmax(model.predict(X_val), axis=1)
    return accuracy_score(y_val, preds), f1_score(y_val, preds, average="macro")

acc_lstm, f1_lstm = evaluate(lstm_model)
acc_gru, f1_gru = evaluate(gru_model)

print("\nResultados Embedding Random (NO fine-tuneado)")
print("LSTM → Accuracy:", acc_lstm, "Macro-F1:", f1_lstm)
print("GRU  → Accuracy:", acc_gru, "Macro-F1:", f1_gru)




Epoch 1/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m34s[0m 90ms/step - accuracy: 0.3635 - loss: 1.0929 - val_accuracy: 0.3672 - val_loss: 1.0934
Epoch 2/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m31s[0m 87ms/step - accuracy: 0.3830 - loss: 1.0869 - val_accuracy: 0.3801 - val_loss: 1.0908
Epoch 3/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m33s[0m 93ms/step - accuracy: 0.4076 - loss: 1.0751 - val_accuracy: 0.4006 - val_loss: 1.0844
Epoch 4/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m31s[0m 88ms/step - accuracy: 0.4246 - loss: 1.0634 - val_accuracy: 0.3890 - val_loss: 1.0850
Epoch 5/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m32s[0m 90ms/step - accuracy: 0.4400 - loss: 1.0456 - val_accuracy: 0.3987 - val_loss: 1.0971
Epoch 1/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m34s[0m 91ms/step - accuracy: 0.3635 - loss: 1.0930 - val_accuracy: 0.3692 - val_loss: 1.0923
Epoch 2/5
[1m350/350

Word2Vec congelado vs Word2Vec fine-tuneado vs Word2Vec from scratch

In [None]:

# Cargamos el dataset tokenizado
df = pd.read_pickle("data/data_clean/train_tokenized.pkl")
df["text_joined"] = df["tokens"].apply(lambda x: " ".join(x))

texts = df["tokens"].tolist()
labels = df["bias"].tolist()

# Codificamos las etiquetas
le = LabelEncoder()
y = le.fit_transform(labels)

# Hacemos el train/val split
X_tr_text, X_val_text, y_tr, y_val = train_test_split(
    texts, y, test_size=0.2, random_state=42
)

# Cargamos el Word2Vec preentrenado
w2v_model = Word2Vec.load("data/embeddings/word2vec.model")
embedding_dim = w2v_model.vector_size

word_index = {word: i+1 for i, word in enumerate(w2v_model.wv.index_to_key)}
vocab_size = len(word_index) + 1

def tokens_to_indices(tokens, word_index):
    return [word_index[t] for t in tokens if t in word_index]

X_tr_idx = [tokens_to_indices(t, word_index) for t in X_tr_text]
X_val_idx = [tokens_to_indices(t, word_index) for t in X_val_text]

max_seq_len = 200
X_tr_pad = pad_sequences(X_tr_idx, maxlen=max_seq_len, padding='post')
X_val_pad = pad_sequences(X_val_idx, maxlen=max_seq_len, padding='post')

embedding_matrix = np.zeros((vocab_size, embedding_dim))
for word, i in word_index.items():
    embedding_matrix[i] = w2v_model.wv[word]

# Funcion para crear LSTM
def build_lstm_model(embedding_matrix, trainable=True):
    model = Sequential()
    model.add(Embedding(input_dim=embedding_matrix.shape[0],
                        output_dim=embedding_matrix.shape[1],
                        weights=[embedding_matrix],
                        input_length=max_seq_len,
                        trainable=trainable))
    model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
    model.add(Dense(3, activation='softmax'))
    model.compile(optimizer=Adam(1e-3),
                  loss='sparse_categorical_crossentropy',
                  metrics=['accuracy'])
    return model

# Word2Vec Frozen
lstm_frozen = build_lstm_model(embedding_matrix, trainable=False)
history_frozen = lstm_frozen.fit(X_tr_pad, y_tr,
                                 validation_data=(X_val_pad, y_val),
                                 epochs=5,
                                 batch_size=64)

# Word2Vec Fine-tune
lstm_finetune = build_lstm_model(embedding_matrix, trainable=True)
history_finetune = lstm_finetune.fit(X_tr_pad, y_tr,
                                     validation_data=(X_val_pad, y_val),
                                     epochs=5,
                                     batch_size=64)

# Word2Vec Scratch
embedding_matrix_random = np.random.normal(size=(vocab_size, embedding_dim))
lstm_scratch = build_lstm_model(embedding_matrix_random, trainable=True)
history_scratch = lstm_scratch.fit(X_tr_pad, y_tr,
                                   validation_data=(X_val_pad, y_val),
                                   epochs=5,
                                   batch_size=64)

# Evaluamos los modelos
def evaluate(model, X_val, y_val):
    preds = np.argmax(model.predict(X_val), axis=1)
    acc = accuracy_score(y_val, preds)
    f1 = f1_score(y_val, preds, average='macro')
    return acc, f1

results = {}
results['Word2Vec Frozen'] = evaluate(lstm_frozen, X_val_pad, y_val)
results['Word2Vec Fine-tune'] = evaluate(lstm_finetune, X_val_pad, y_val)
results['Word2Vec Scratch'] = evaluate(lstm_scratch, X_val_pad, y_val)

# Mostramos los resultados
results_df = pd.DataFrame(results, index=['Accuracy','Macro-F1']).T
print(results_df)




Epoch 1/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m268s[0m 737ms/step - accuracy: 0.4120 - loss: 1.0719 - val_accuracy: 0.4355 - val_loss: 1.0549
Epoch 2/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m357s[0m 1s/step - accuracy: 0.4564 - loss: 1.0241 - val_accuracy: 0.4694 - val_loss: 1.0021
Epoch 3/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m201s[0m 575ms/step - accuracy: 0.4739 - loss: 0.9988 - val_accuracy: 0.4682 - val_loss: 0.9979
Epoch 4/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m201s[0m 575ms/step - accuracy: 0.4852 - loss: 0.9866 - val_accuracy: 0.4973 - val_loss: 0.9732
Epoch 5/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m152s[0m 433ms/step - accuracy: 0.4917 - loss: 0.9776 - val_accuracy: 0.4993 - val_loss: 0.9686
Epoch 1/5
[1m350/350[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m143s[0m 398ms/step - accuracy: 0.4306 - loss: 1.0563 - val_accuracy: 0.4725 - val_loss: 1.0097
Epoch 2/5
[1

# **3. Comparación de embeddings**


Embeddings tradicionales

In [2]:
# =======================
# 1. EMBEDDINGS TRADICIONALES
# TF-IDF + Bag-of-Words
# =======================

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split
import pandas as pd

# Preparamos texto
df_train = pd.read_pickle("data/data_clean/train_tokenized.pkl")
df_train["text_joined"] = df_train["tokens"].apply(lambda x: " ".join(x))
texts = df_train["text_joined"].tolist()
y = df_train["bias"].values

results = {}

# ---------- TF-IDF ----------
tfidf = TfidfVectorizer(max_features=5000, stop_words='english', ngram_range=(1,2))
X_tfidf = tfidf.fit_transform(texts)

X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

results["TF-IDF"] = {
    "Accuracy": accuracy_score(y_test, y_pred),
    "F1-score": f1_score(y_test, y_pred, average="weighted")
}

# ---------- Bag-of-Words ----------
bow = CountVectorizer(max_features=5000, stop_words='english', ngram_range=(1,2))
X_bow = bow.fit_transform(texts)

X_train, X_test, y_train, y_test = train_test_split(X_bow, y, test_size=0.2, random_state=42)

clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

results["Bag-of-Words"] = {
    "Accuracy": accuracy_score(y_test, y_pred),
    "F1-score": f1_score(y_test, y_pred, average="weighted")
}

# ---------- RESULTADOS ----------
pd.DataFrame(results).T


Unnamed: 0,Accuracy,F1-score
TF-IDF,0.703002,0.70233
Bag-of-Words,0.646712,0.646754


Embeddings no contextuales(usamos embeddings entrenados con nuestro dataset
)

In [None]:
# =======================
# 2. EMBEDDINGS NO-CONTEXTUALES
# Word2Vec + FastText
# =======================

from gensim.models import Word2Vec, FastText
from sklearn.cluster import KMeans
import numpy as np

# Preparamos tokens
sentences = df_train["tokens"].tolist()

# ---------- Word2Vec ----------
w2v_model = Word2Vec(sentences=sentences, vector_size=100, window=5, min_count=3, workers=4, sg=1)
w2v_model.save("data/embeddings/word2vec.model")

# Métrica de clustering simple
def cluster_quality(model, n_clusters=5):
    X = model.wv.vectors
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    kmeans.fit(X)
    return kmeans.inertia_

print("Downstream (clustering) Word2Vec:", cluster_quality(w2v_model))

# ---------- FastText ----------
fasttext_model = FastText(sentences=sentences, vector_size=100, window=5, min_count=3, workers=4, sg=1)
fasttext_model.save("data/embeddings/fasttext.model")

print("Downstream (clustering) FastText:", cluster_quality(fasttext_model))


Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_fl

Downstream (clustering) Word2Vec: 183562.484375


Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_float'
Exception ignored in: 'gensim.models.word2vec_inner.our_dot_fl

Embeddings contextuales

In [None]:
# =======================
# 2. EMBEDDINGS NO-CONTEXTUALES
# Word2Vec + FastText
# =======================

from gensim.models import Word2Vec, FastText
from sklearn.cluster import KMeans
import numpy as np

# Preparamos tokens
sentences = df_train["tokens"].tolist()

# ---------- Word2Vec ----------
w2v_model = Word2Vec(sentences=sentences, vector_size=100, window=5, min_count=3, workers=4, sg=1)
w2v_model.save("data/embeddings/word2vec.model")

# Métrica de clustering simple
def cluster_quality(model, n_clusters=5):
    X = model.wv.vectors
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    kmeans.fit(X)
    return kmeans.inertia_

print("Downstream (clustering) Word2Vec:", cluster_quality(w2v_model))

# ---------- FastText ----------
fasttext_model = FastText(sentences=sentences, vector_size=100, window=5, min_count=3, workers=4, sg=1)
fasttext_model.save("data/embeddings/fasttext.model")

print("Downstream (clustering) FastText:", cluster_quality(fasttext_model))


Número de ejemplos: 27978
Clases encontradas: {0, 1, 2}
Device: cpu


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config.json:   0%|          | 0.00/483 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

Extrayendo embeddings BERT (esto puede tardar)...


Extrayendo BERT embeddings:   0%|          | 0/875 [00:00<?, ?it/s]

Embeddings shape: (27978, 768)
Labels shape: (27978,)
Distribución labels: {np.int64(0): np.int64(9750), np.int64(1): np.int64(7988), np.int64(2): np.int64(10240)}
Entrenando Logistic Regression sobre embeddings BERT (frozen)...





Resultados BERT frozen + LogisticRegression:
Accuracy: 0.5709
Macro-F1: 0.5669

Classification report:



TypeError: object of type 'numpy.int64' has no len()

# **4. Tabla Comaprativa de Resultados**

**4.1 Shallow Learning**

Para entender los resultados, hay que aclarar los parámetros utilizados para cada variable en shallow learning.

En el caso de la variable source, hemos tenido que reducir el número de estimadores del Random Forest de 300 a 150. Además, el número de estimadores del XGBoost también ha sido reducido de 200 a 75. Sin esta reducción, no habriamos sido capaces de terminar la ejecución de la celda. Ha llegado a estar más de una hora y seguía sin terminar de ejecutarse. 

En cuanto a la variable topic, además de las rebajas aplicadas al caso de la variable source, hemos decidido quitar el modelo XGBoost, ya que no termina de ejecutarse. Disponemos de equipos con capacidades técnicas muy limitadas, por lo que, con mejores ordenadores, no se tendrían que reducir los valores.

In [32]:
import pandas as pd
import numpy as np

# Resultados de clasificación por variable objetivo
results_bias = {
    "Logistic Regression": {"Accuracy": 0.702109, "Macro-F1": 0.700091},
    "LinearSVC": {"Accuracy": 0.698713, "Macro-F1": 0.696551},
    "Random Forest": {"Accuracy": 0.683881, "Macro-F1": 0.679829},
    "XGBoost": {"Accuracy": 0.734632, "Macro-F1": 0.733918}
}

results_topic = {
    "Logistic Regression": {"Accuracy": 0.581129, "Macro-F1": 0.338987},
    "LinearSVC": {"Accuracy": 0.589171, "Macro-F1": 0.410156},
    "Random Forest": {"Accuracy": 0.519657, "Macro-F1": 0.250003},
    "XGBoost": {"Accuracy": 0.0, "Macro-F1": 0.0}
}

results_source = {
    "Logistic Regression": {"Accuracy": 0.503401, "Macro-F1": 0.103117},
    "LinearSVC": {"Accuracy": 0.559076, "Macro-F1": 0.219572},
    "Random Forest": {"Accuracy": 0.500000, "Macro-F1": 0.120979},
    "XGBoost": {"Accuracy": 0.532581, "Macro-F1": 0.223251}
}

# --- Creación del DataFrame de Comparación ---
rows = []
models = ["Logistic Regression", "LinearSVC", "Random Forest", "XGBoost"]

for model in models:
    row = {
        "Model": model,
        "Bias Accuracy": results_bias[model]["Accuracy"],
        "Bias Macro-F1": results_bias[model]["Macro-F1"],
        "Topic Accuracy": results_topic[model]["Accuracy"],
        "Topic Macro-F1": results_topic[model]["Macro-F1"],
        "Source Accuracy": results_source[model]["Accuracy"],
        "Source Macro-F1": results_source[model]["Macro-F1"]
    }
    rows.append(row)

df_comparison = pd.DataFrame(rows)

# --- Formateo para la presentación ---

# Redondear todas las columnas de métricas a 4 decimales
df_display = df_comparison.round(4)

# Crear un multi-índice para los nombres de las columnas para agrupar las métricas
cols = [('Métricas', 'Model'), 
        ('Bias', 'Accuracy'), ('Bias', 'Macro-F1'),
        ('Topic', 'Accuracy'), ('Topic', 'Macro-F1'),
        ('Source', 'Accuracy'), ('Source', 'Macro-F1')]

df_display.columns = pd.MultiIndex.from_tuples(cols)

# Imprimir la tabla
print(" Resultados de Clasificación Shallow Learning (TF-IDF)\n")
# Usar to_markdown o to_string para una salida limpia en consola
print(df_display.to_string(index=False))



 Resultados de Clasificación Shallow Learning (TF-IDF)

           Métricas     Bias             Topic            Source         
              Model Accuracy Macro-F1 Accuracy Macro-F1 Accuracy Macro-F1
Logistic Regression   0.7021   0.7001   0.5811   0.3390   0.5034   0.1031
          LinearSVC   0.6987   0.6966   0.5892   0.4102   0.5591   0.2196
      Random Forest   0.6839   0.6798   0.5197   0.2500   0.5000   0.1210
            XGBoost   0.7346   0.7339   0.0000   0.0000   0.5326   0.2233


Los resultados de clasificación usando Shallow Learning con TF-IDF muestran un comportamiento variable según la tarea y el modelo. Para la tarea de Bias, todos los modelos presentan un desempeño sólido, con XGBoost liderando (accuracy 0.7346, macro-F1 0.7339) seguido de Logistic Regression y LinearSVC alrededor de 0.70 en ambas métricas. Esto indica que las diferencias de sesgo en los textos son relativamente fáciles de capturar con TF-IDF.

En la tarea de Topic, los modelos lineales, especialmente LinearSVC, obtienen los mejores resultados (accuracy 0.5892, macro-F1 0.4102). La celda de XGBoost muestra 0, al no haberse aplicado este algoritmo a la tarea por los problemas de tiempo de ejecucion explicados anteriormente. Esto refuerza que, para la clasificación por tópicos, los modelos lineales son adecuados con TF-IDF, que captura bien los términos distintivos de cada tema.

En la tarea de Source, el desempeño general es más bajo. LinearSVC alcanza un accuracy de 0.5591 y un macro-F1 de 0.2196, mientras que Logistic Regression y otros modelos muestran valores menores. Esto refleja la dificultad de diferenciar la fuente del texto únicamente con TF-IDF, ya que las diferencias estilísticas son menos evidentes en la representación basada en frecuencias de palabras.

En resumen, los modelos lineales ofrecen resultados consistentes para Bias y Topic, mientras que los modelos de ensamble como Random Forest o XGBoost se aplican solo a algunas tareas y muestran fortalezas específicas. TF-IDF es útil para capturar patrones globales de sesgo y tópico, pero es limitado para distinguir la fuente de los textos.

**4.2 Deep Learning**

In [35]:
# Datos proporcionados
data_finetune = {
    "Modelo": ["LSTM", "GRU"],
    "Estrategia de Embedding": ["Finetuneado (Aprende)", "Finetuneado (Aprende)"],
    "Accuracy": [0.513402, 0.526447],
    "Macro-F1": [0.514574, 0.526548]
}

data_random = {
    "Modelo": ["LSTM", "GRU"],
    "Estrategia de Embedding": ["No Finetuneado (Random)", "No Finetuneado (Random)"],
    "Accuracy": [0.39867762687634023, 0.3858112937812723],
    "Macro-F1": [0.33385069350207125, 0.3545762899287412]
}

data_word2vec = {
    "Modelo": ["Word2Vec", "Word2Vec", "Word2Vec"], # Usamos Word2Vec como modelo en este caso para distinguirlo
    "Estrategia de Embedding": ["Word2Vec (Frozen)", "Word2Vec (Fine-tune)", "Word2Vec (Scratch)"],
    "Accuracy": [0.499285, 0.502323, 0.492137],
    "Macro-F1": [0.487054, 0.502254, 0.487125]
}

# Crear DataFrames
df_finetune = pd.DataFrame(data_finetune)
df_random = pd.DataFrame(data_random)
df_word2vec = pd.DataFrame(data_word2vec)

# Unir todos los DataFrames
df_deep_learning = pd.concat([df_finetune, df_random, df_word2vec], ignore_index=True)

# Redondear las métricas a 4 decimales para la presentación
df_deep_learning_display = df_deep_learning.round(4)

# Reordenar las columnas
column_order = ["Estrategia de Embedding", "Modelo", "Accuracy", "Macro-F1"]
df_deep_learning_display = df_deep_learning_display[column_order]

# Imprimir la tabla
print(" Rendimiento de Modelos de Deep Learning (LSTM & GRU)\n")
# Usar to_string para una salida de tabla limpia en consola
print(df_deep_learning_display.to_string(index=False))

 Rendimiento de Modelos de Deep Learning (LSTM & GRU)

Estrategia de Embedding   Modelo  Accuracy  Macro-F1
  Finetuneado (Aprende)     LSTM    0.5134    0.5146
  Finetuneado (Aprende)      GRU    0.5264    0.5265
No Finetuneado (Random)     LSTM    0.3987    0.3339
No Finetuneado (Random)      GRU    0.3858    0.3546
      Word2Vec (Frozen) Word2Vec    0.4993    0.4871
   Word2Vec (Fine-tune) Word2Vec    0.5023    0.5023
     Word2Vec (Scratch) Word2Vec    0.4921    0.4871


Los modelos de Deep Learning muestran un comportamiento muy dependiente de la estrategia de embeddings utilizada y del tipo de arquitectura. En primer lugar, los modelos finetuneados, que ajustan los embeddings durante el entrenamiento, obtienen el mejor desempeño general. Tanto LSTM como GRU alcanzan accuracy y macro-F1 superiores a 0.51, con GRU ligeramente por encima de LSTM (0.5264 vs 0.5134 en accuracy). Esto sugiere que permitir que los embeddings aprendan junto con el modelo proporciona representaciones más ajustadas a la tarea y mejora la capacidad de generalización.

En contraste, los modelos no finetuneados con embeddings aleatorios presentan un desempeño mucho más bajo, con accuracy alrededor de 0.39-0.40 y macro-F1 entre 0.33 y 0.35. Esto refleja que sin preentrenamiento ni ajuste, los modelos luchan por aprender representaciones significativas desde cero a partir de datos limitados. La ligera diferencia entre LSTM y GRU indica que la arquitectura por sí sola no es suficiente para compensar embeddings iniciales pobres.

Cuando se usan embeddings preentrenados tipo Word2Vec, el desempeño se estabiliza entre 0.49 y 0.50 en accuracy. Mantener los embeddings congelados ofrece resultados razonables (0.4993 accuracy), mientras que permitir un finetune ligero mejora apenas a 0.5023, lo que indica que la adaptación incremental no aporta grandes ganancias en este caso. Entrenar embeddings desde cero (scratch) también genera resultados similares (0.4921 accuracy), mostrando que el preentrenamiento ayuda, pero no de manera dramática, frente a una arquitectura LSTM o GRU básica.

**4.3 Embeddings**

# **5. Interpretabilidad**