In [6]:
import pandas as pd
from pathlib import Path

# Ruta base
data_path = Path("../src/data/training_data")

# Cargar los CSV
df_es = pd.read_csv(data_path / "equivalencia_5.csv", header=None)       # columnas: frase1, frase2, relacion
df_fol = pd.read_csv(data_path / "equivalencia_5_fol.csv", header=None, sep=";")  # columnas: fol1, fol2, relacion

# Asignar nombres de columnas
df_es.columns = ["frase1", "frase2", "relacion"]
df_fol.columns = ["fol1", "fol2", "relacion"]

# Verificar coincidencias fila a fila
coinciden = (df_es['relacion'].reset_index(drop=True) == df_fol['relacion'].reset_index(drop=True))
num_no_coinciden = (~coinciden).sum()

if num_no_coinciden > 0:
    print(f"⚠️ Atención: {num_no_coinciden} filas no coinciden en 'relacion'.")
    print("Primeras filas que no coinciden:")
    print(pd.concat([df_es.loc[~coinciden, 'relacion'], df_fol.loc[~coinciden, 'relacion']], axis=1))
    # Opcional: detener ejecución si quieres revisar antes de fusionar
    # raise ValueError("Existen filas que no coinciden. Revisa los datos antes de fusionar.")
else:
    print("✅ Todas las filas coinciden en 'relacion'. Fusionando fila a fila...")

    # Fusionar fila a fila
    df_final = pd.concat([df_es.reset_index(drop=True),
                          df_fol[['fol1','fol2']].reset_index(drop=True)], axis=1)

    # Reordenar columnas para mayor claridad
    df_final = df_final[['frase1', 'fol1', 'frase2', 'fol2', 'relacion']]

    # Guardar el resultado
    output_file = data_path / "equivalencia_5_frase_fol.csv"
    df_final.to_csv(output_file, index=False)

    print(f"✅ Dataset fusionado fila a fila guardado en {output_file}")
    print("Número de filas:", len(df_final))
    print("Columnas finales:", list(df_final.columns))


✅ Todas las filas coinciden en 'relacion'. Fusionando fila a fila...
✅ Dataset fusionado fila a fila guardado en ../src/data/training_data/equivalencia_5_frase_fol.csv
Número de filas: 10650
Columnas finales: ['frase1', 'fol1', 'frase2', 'fol2', 'relacion']


In [8]:
df = pd.read_csv(data_path / "equivalencia_5_frase_fol.csv")
df.head()


Unnamed: 0,frase1,fol1,frase2,fol2,relacion
0,no todo abuelo alegre acuerda,-all x.((ABUELO(x) & ALEGRE(x)) -> ACORDAR(x)),algún abuelo alegre no acuerda,exists x.(ABUELO(x) & ALEGRE(x) & -ACORDAR(x)),1
1,no todo abuelo alto acuerda,-all x.((ABUELO(x) & ALTO(x)) -> ACORDAR(x)),algún abuelo alto no acuerda,exists x.(ABUELO(x) & ALTO(x) & -ACORDAR(x)),1
2,no todo abuelo amargo acuerda,-all x.((ABUELO(x) & AMARGO(x)) -> ACORDAR(x)),algún abuelo amargo no acuerda,exists x.(ABUELO(x) & AMARGO(x) & -ACORDAR(x)),1
3,no todo abuelo amplio acuerda,-all x.((ABUELO(x) & AMPLIO(x)) -> ACORDAR(x)),algún abuelo amplio no acuerda,exists x.(ABUELO(x) & AMPLIO(x) & -ACORDAR(x)),1
4,no todo abuelo amarillo acuerda,-all x.((ABUELO(x) & AMARILLO(x)) -> ACORDAR(x)),algún abuelo amarillo no acuerda,exists x.(ABUELO(x) & AMARILLO(x) & -ACORDAR(x)),1
