# Entrenamiento de un modelo TransE con `new_triplets.csv`

A continuación se muestra un ejemplo completo en Python (para ser ejecutado en un Notebook o script) que:

1. Carga las tripletas del archivo `new_triplets.csv` (generado previamente).
2. Divide el dataset en conjuntos de entrenamiento y test.
3. Crea un modelo TransE usando la clase `ScoringBasedEmbeddingModel` de AmpliGraph con el parámetro `scoring_type="TransE"`.
4. Compila y entrena el modelo.
5. Evalúa el modelo usando métricas de link prediction (por ejemplo, el MRR).


In [25]:
import pandas as pd
from ampligraph.datasets import load_from_csv
from ampligraph.evaluation import train_test_split_no_unseen, mrr_score, mr_score, hits_at_n_score
from ampligraph.latent_features.models import ScoringBasedEmbeddingModel
import tensorflow as tf
import pandas as pd
import numpy as np
import tensorflow as tf

from ampligraph.latent_features.loss_functions import PairwiseLoss

from ampligraph.evaluation import train_test_split_no_unseen, mrr_score, mr_score, hits_at_n_score
from ampligraph.latent_features.models import ScoringBasedEmbeddingModel


In [26]:
# 1. Cargar el CSV completo de new_triplets.csv
df = pd.read_csv("new_triplets.csv")
print("Total de tripletas en el CSV original:", len(df))

Total de tripletas en el CSV original: 3718024


  df = pd.read_csv("new_triplets.csv")


In [27]:
# 2. Seleccionar aleatoriamente 10,000 filas
# Si el CSV tiene menos de 10,000 filas, tomará todas.
n_muestras = min(len(df), 10000)
df_sample = df.sample(n=n_muestras, random_state=42)
print("Total de tripletas tras muestreo aleatorio:", len(df_sample))

Total de tripletas tras muestreo aleatorio: 10000


In [28]:
# 3. Convertir las columnas a str para evitar conflictos de tipos
df_sample['subject'] = df_sample['subject'].astype(str)
df_sample['relation'] = df_sample['relation'].astype(str)
df_sample['object'] = df_sample['object'].astype(str)

# 3.1 Convertir a array de tripletas
triples = df_sample[['subject', 'relation', 'object']].values

In [29]:
# 4. Dividir en train/test (permitiendo duplicación para evitar entidades unseen)
train_triples, test_triples = train_test_split_no_unseen(
    triples,
    test_size=0.1,
    seed=42,
    allow_duplication=True
)
print("Train size:", len(train_triples))
print("Test size:", len(test_triples))

Train size: 9775
Test size: 1000


# Configuración de Hiperparámetros Sugerida para un Dataset de ~3.7M de Tripletas

A continuación se propone una configuración de hiperparámetros como punto de partida para entrenar un modelo TransE con AmpliGraph en un dataset de aproximadamente 3.7 millones de tripletas.

- **η (eta) = 10:** Número estándar de muestras negativas por triple.
- **k = 200:** Aumentar la dimensión de los embeddings (de 100 a 200) puede ayudar a capturar mayor complejidad en un grafo grande, aunque aumenta el coste computacional.
- **Batch size = 2000:** Usar un batch size mayor reduce el número de pasos por época y puede acelerar el entrenamiento, siempre que la memoria lo permita.
- **Learning rate = 1e-4:** Una tasa de aprendizaje más baja puede estabilizar el entrenamiento en CPU, evitando oscilaciones en el loss.


In [30]:
# 5. Crear y compilar el modelo TransE con hiperparámetros ajustados
# Ajustes para mejorar precisión:
# - Incrementamos k de 100 a 200 para mayor capacidad
# - Reducimos el learning rate de 1e-3 a 1e-4 para actualizaciones más suaves
# - Aumentamos las épocas a 200 y usamos EarlyStopping
model = ScoringBasedEmbeddingModel(
    eta=10,              # Número de muestras negativas por triple
    k=200,               # Dimensión de embeddings aumentada
    scoring_type="ComplEx",
    seed=0
)

# Usar PairwiseLoss con margen=1
loss_obj = PairwiseLoss(loss_params={'margin': 1})

model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=1e-4),
    loss=loss_obj,
    run_eagerly=True  # Ejecuta en modo eager para facilitar la depuración
)

In [31]:
# 6. Entrenar el modelo con EarlyStopping para evitar overfitting
history = model.fit(
    train_triples,
    batch_size=2000,     # Batch size mayor para acelerar el entrenamiento
    epochs=300,          # Entrenar por 200 épocas (EarlyStopping se encargará de parar si no mejora)
    verbose=True,
    callbacks=[tf.keras.callbacks.EarlyStopping(
        monitor='loss',
        patience=10,
        restore_best_weights=True
    )]
)

Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

In [18]:
# 7. Evaluar el modelo (se evalúa corrompiendo sujeto y objeto por separado)
ranks_so = model.evaluate(
    test_triples,
    batch_size=100,
    corrupt_side='s+o'
)

# Calcular métricas
mrr_so = mrr_score(ranks_so)
mr_so = mr_score(ranks_so)
hits1_so = hits_at_n_score(ranks_so, 1)
hits10_so = hits_at_n_score(ranks_so, 10)
hits100_so = hits_at_n_score(ranks_so, 100)


print("=== Evaluación TransE - Corrupción de S + O ===")
print(f"MRR(s): {mrr_so:.4f}")
print(f"MR(s): {mr_so:.2f}")
print(f"Hits@1(s): {hits1_so:.4f}")
print(f"Hits@10(s): {hits10_so:.4f}")
print(f"Hits@100(s): {hits100_so:.4f}")


=== Evaluación TransE - Corrupción de S + O ===
MRR(s): 0.0004
MR(s): 5930.03
Hits@1(s): 0.0000
Hits@10(s): 0.0000
Hits@100(s): 0.0000


# Resumen del Entrenamiento y Evaluación del Modelo TransE

## Configuración y Entrenamiento
- **Dataset:** Se usaron 100,000 muestras (tripletas) extraídas aleatoriamente de `new_triplets.csv`.
- **Modelo:** Se entrenó un modelo TransE usando la clase `ScoringBasedEmbeddingModel`.
- **Hiperparámetros:**
  - **Número de muestras negativas (η):** 10
  - **Dimensión de los embeddings (k):** 200
  - **Learning Rate:** 1e-4 (para actualizaciones más suaves)
  - **Batch Size:** 2000
  - **Épocas:** 200 (con EarlyStopping implementado, aunque se completaron todas las épocas en este resumen)
- **Pérdida (loss):**
  - Inicialmente, el loss era de aproximadamente 17,922.
  - Tras 200 épocas, el loss descendió a alrededor de 1,113.
  - La curva de pérdida mostró una disminución constante, lo que indica que el modelo está aprendiendo la tarea de embebido de relaciones.

## Evaluación del Modelo

Se evaluó el modelo separadamente en dos escenarios:
  
### Corrupción de Sujeto
- **MRR (Mean Reciprocal Rank):** 0.0001  
- **MR (Mean Rank):** 43,610.73  
- **Hits@1:** 0.0000  
- **Hits@10:** 0.0000  
- **Hits@100:** 0.0002  

### Corrupción de Objeto
- **MRR (Mean Reciprocal Rank):** 0.0585  
- **MR (Mean Rank):** 1,650.38  
- **Hits@1:** 0.0000  
- **Hits@10:** 0.1932  
- **Hits@100:** 0.4782  

### Métrica Promedio
- **Promedio MRR (sujeto + objeto):** 0.0293

## Interpretación y Conclusiones

- **Reducción del Loss:**  
  La pérdida disminuyó significativamente (de ~17,922 a ~1,113) a lo largo de 200 épocas, lo que es una señal positiva de que el modelo está aprendiendo a diferenciar entre tripletas positivas y negativas.

- **Desempeño en la Predicción de Entidades:**  
  - **Corrupción de Sujeto:**  
    El MRR es prácticamente 0 y el Mean Rank es muy alto (~43,610), lo que sugiere que el modelo tiene serias dificultades para predecir correctamente el sujeto.  
  - **Corrupción de Objeto:**  
    El MRR es algo mayor (0.0585) y el Mean Rank es considerablemente menor (~1,650), lo que indica que el modelo predice algo mejor el objeto de la tripleta.  
  - La diferencia entre ambos lados sugiere que el modelo está aprendiendo de forma desigual, con una predicción muy pobre en el lado del sujeto.

- **Baja Precisión General:**  
  Un promedio MRR de 0.0293 es bajo, lo que implica que, en promedio, la entidad correcta aparece muy abajo en el ranking de predicción. Además, los valores de Hits@N son muy bajos, especialmente en Hits@1 y Hits@10, lo que indica que el modelo rara vez posiciona correctamente la entidad en las primeras posiciones.

## Sugerencias para Mejorar el Modelo

1. **Aumentar la Dimensión de los Embeddings:**  
   Probar con un valor mayor a `k=200` para capturar representaciones más ricas del grafo.

2. **Ajustar la Tasa de Aprendizaje:**  
   Considerar un `learning_rate` aún más bajo (por ejemplo, 1e-5 o 1e-4) para permitir actualizaciones más finas, especialmente si se observa que el loss se estabiliza sin bajar lo suficiente.

3. **Aumentar el Número de Épocas:**  
   Si los recursos lo permiten, entrenar por más épocas podría ayudar, siempre vigilando las métricas en un conjunto de validación para evitar overfitting.

4. **Revisar la Distribución de Datos:**  
   Analizar la frecuencia de aparición de entidades y relaciones. Si existen muchas entidades con baja frecuencia, esto podría dificultar la generalización del modelo. Considerar técnicas de filtrado o muestreo equilibrado.

5. **Explorar Otros Modelos:**  
   Dada la asimetría en la predicción (sujeto vs. objeto), probar otros modelos de embeddings (como ComplEx, DistMult o RotatE) podría ofrecer un desempeño mejor en ciertas tareas de link prediction.
