In [6]:
import spacy
import pandas as pd
from spacy import displacy
import os
import re

In [7]:
# Cargar el archivo CSV con los argumentos
df = pd.read_csv(r"C:\Users\Lucas\Desktop\Socrates\llm_proyect\data\limpios\argumentos_procesados.csv")
print(df.head())
df.info()

               titulo                                      contenido_arg
0            Clitofon  ,Clitofon, acusado por S√≥crates de haber censu...
1               Lisis  ,El objeto de este di√°logo es la Amistad, t√≠tu...
2     Timeo de Locres  ,Timeo, nacido entre los locrios epicefirianos...
3               Fedro  ,Seg√∫n una tradici√≥n, que no tenemos necesidad...
4  segundo Alcib√≠ades  ,No debe orarse ligeramente. Dirigir a los dio...
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   titulo         16 non-null     object
 1   contenido_arg  16 non-null     object
dtypes: object(2)
memory usage: 388.0+ bytes


In [8]:
# Funci√≥n para limpiar texto eliminando referencias num√©ricas en corchetes
def limpiar_texto(texto):
    return re.sub(r'\s*\[\d+\]', '', texto)

In [9]:
# Carga modelo espa√±ol large
nlp = spacy.load('es_core_news_lg')



In [10]:
"""
Extracci√≥n de premisas y conclusiones:
Identificamos patrones de premisas ("porque", "ya que", "dado que") 
"""
# Funci√≥n para extraer las premisas de los textos
def extraer_premisas(texto):
    doc = nlp(texto)
    premisas = [sent.text for sent in doc.sents if any(p in sent.text.lower() for p in ["porque", "ya que", "dado que"])]
    return {"premisas": premisas}

In [11]:
# Funci√≥n para extraer las conclusiones de los textos
def extraer_conclusiones(texto):
    doc = nlp(texto)
    conclusiones = [sent.text for sent in doc.sents if any(c in sent.text.lower() for c in ["por lo tanto", "as√≠ que", "en consecuencia"])]
    return {"conclusiones": conclusiones}

In [12]:
# Funci√≥n para detectar contradicciones en los textos
def detectar_contradicciones(texto):
    doc = nlp(texto)
    contradicciones = [sent.text for sent in doc.sents if any(word in sent.text.lower() for word in ["sin embargo", "aunque", "no obstante"])]
    return contradicciones

In [13]:
# Aplicar la detecci√≥n de contradicciones
df["contradicciones"] = df["contenido_arg"].apply(detectar_contradicciones)

# Mostrar contradicciones encontradas
print(df[["titulo", "contradicciones"]].head())

               titulo                                    contradicciones
0            Clitofon                                                 []
1               Lisis  [Sin embargo, el hombre que ama a otro puede n...
2     Timeo de Locres                                                 []
3               Fedro  [,Sin embargo, existe un lazo entre estas dos ...
4  segundo Alcib√≠ades                                                 []


In [14]:
# Funci√≥n para extraer fragmentos de estilo socr√°tico (preguntas y razonamientos l√≥gicos)
def extraer_fragmentos_socraticos(texto):
    doc = nlp(texto)
    fragmentos = [sent.text for sent in doc.sents if "¬ø" in sent.text or ":" in sent.text]
    return fragmentos

# Aplicar la extracci√≥n de fragmentos socr√°ticos
df["fragmentos_socraticos"] = df["contenido_arg"].apply(extraer_fragmentos_socraticos)

# Mostrar fragmentos encontrados
print(df[["titulo", "fragmentos_socraticos"]].head())

               titulo                              fragmentos_socraticos
0            Clitofon                                                 []
1               Lisis  [,¬øEs el amigo el que ama o el que es amado?, ...
2     Timeo de Locres  [Por otra parte, ¬øc√≥mo puede admitirse esta id...
3               Fedro  [,¬øCu√°l es el objeto del di√°logo?, ,En el ,pue...
4  segundo Alcib√≠ades  [Lo mejor es fiarse a los dioses mismos para t...


In [15]:
# Funci√≥n de procesamiento de texto (tokenizaci√≥n, lematizaci√≥n, eliminaci√≥n de stopwords y puntuaci√≥n)
def procesar_argumento(texto):
    doc = nlp(texto)
    tokens = [token.lemma_.lower() for token in doc if not token.is_stop and not token.is_punct]
    return " ".join(tokens)

In [16]:
# Procesar los argumentos
df["argumento_procesado"] = df["contenido_arg"].apply(procesar_argumento)

# Mostrar resultados procesados
print(df[["titulo", "argumento_procesado"]].head())

               titulo                                argumento_procesado
0            Clitofon  clitofon acusado s√≥crates censurar conversaci√≥...
1               Lisis  objeto di√°logo amistad t√≠tulo lleno esperanza ...
2     Timeo de Locres  timeo nacido locrio epicefiriano grecia cuyo n...
3               Fedro  tradici√≥n necesidad discutir obra juventud pla...
4  segundo Alcib√≠ades  orar √©l ligeramente dirigir dios s√∫plica pedir...


In [20]:
# Aplicar las funciones de extracci√≥n al dataframe
df["premisas"] = df["contenido_arg"].apply(extraer_premisas)
df["conclusiones"] = df["contenido_arg"].apply(extraer_conclusiones)
df["contradicciones"] = df["contenido_arg"].apply(detectar_contradicciones)
df["fragmentos_socraticos"] = df["contenido_arg"].apply(extraer_fragmentos_socraticos)
df["argumento_procesado"] = df["contenido_arg"].apply(procesar_argumento)

In [21]:
# Funci√≥n para mostrar el contenido estructurado
def mostrar_contenido_estructurado(fila):
    print(f"üìö T√≠tulo: {fila['titulo']}")
    print("üîπ Premisas:")
    for premisa in fila["premisas"]:
        print(f"  - {premisa}")
    
    print("üîπ Conclusiones:")
    for conclusion in fila["conclusiones"]:
        print(f"  - {conclusion}")
    
    print("üîπ Contradicciones:")
    for contradiccion in fila["contradicciones"]:
        print(f"  - {contradiccion}")
    
    print("üîπ Fragmentos Socr√°ticos:")
    for fragmento in fila["fragmentos_socraticos"]:
        print(f"  - {fragmento}")
    
    print("üîπ Argumento Procesado:")
    print(f"  {fila['argumento_procesado']}")
    print("-" * 60)

In [22]:
# Mostrar la informaci√≥n estructurada para cada fila del dataframe
for index, fila in df.iterrows():
    mostrar_contenido_estructurado(fila)

üìö T√≠tulo: Clitofon
üîπ Premisas:
  - premisas
üîπ Conclusiones:
  - conclusiones
üîπ Contradicciones:
üîπ Fragmentos Socr√°ticos:
üîπ Argumento Procesado:
  clitofon acusado s√≥crates censurar conversaci√≥n filos√≥fico alabar lecci√≥n sofista trasimaco defender exponer s√≥crates pensar discurso p√°gina resumir palabra s√≥crates hombre maravilloso exhortar virtud desempe√±ar noble tarea incurrir error pasar bastar inspirar yo deseo virtuoso preciso ense√±ar yo ser √©l pr√°cticamente preciso mostrar camino se√±alar dificultad obst√°culo necesario gu√≠ar llegar t√©rmino √°nimo indagar censura justo ser composici√≥n escaso valor
------------------------------------------------------------
üìö T√≠tulo: Lisis
üîπ Premisas:
  - premisas
üîπ Conclusiones:
  - conclusiones
üîπ Contradicciones:
  - Sin embargo, el hombre que ama a otro puede no ser correspondido; m√°s a√∫n, puede ser odioso al que ama, cosa que se ve com√∫nmente en la vida.
  - Y sin embargo, ¬øqu√© cosas menos amig

In [23]:
# Combinamos todos los datos extra√≠dos en un formato estructurado
def combinar_argumentos(row):
    argumentos = {
        "titulo": row["titulo"],
        "premisas": row.get("premisas", []),
        "conclusiones": row.get("conclusiones", []),
        "contradicciones": row.get("contradicciones", []),
        "fragmentos_socraticos": row.get("fragmentos_socraticos", []),
        "argumento_procesado": row.get("argumento_procesado", "")
    }
    return argumentos

df["argumentos_combinados"] = df.apply(combinar_argumentos, axis=1)

In [24]:
# Guardar los datos procesados en un archivo JSON
output_directory = r"C:\Users\Lucas\Desktop\Socrates\llm_proyect\data\procesed"
output_file = os.path.join(output_directory, "argumentos_socraticos_procesados.json")

In [25]:
# Guardamos en formato JSON
df["argumentos_combinados"].to_json(output_file, orient="records", lines=True)

