# Funciones para realizar parsing de dependencias en Español

In [1]:
import es_core_news_sm # procesador de lenguaje con segmentación de frases, tokenización, lematización, etiquetas POS y dependencias sintácticas. Carga el modelo en español de Spacy
from spacy import displacy # biblioteca gráfica de Spacy para visualizar 
            # 1) árboles de dependencias ( style ="dep")
            # 2) entidades (style = "ent")
from pathlib import Path # objeto para manerjar rutas de archivos

In [2]:
#Función para leer un texto o documentos

def LeerTexto(FileName):
    with open(FileName, 'r', encoding='latin-1') as f:
        texto = f.read().split('.') #Parte el texto en una lista, usando el punto como separador.
    return(texto)

In [3]:
# Función para crear un archivo de salida con la imagen  del análisis realizado por el parser para un texto de entrada
def CrearArchivoSalida(ID_oracion,imagen):
    file_name = "File_"+ str(ID_oracion) + ".svg"  #file_name = "File_0.svg", "File_1.svg", etc.
    output_path = Path(DIR_IMAGENES / file_name)
    output_path.open("w", encoding="utf-8").write(imagen) #Abre ese archivo en modo escritura ("w", utf-8) y escribe dentro la cadena imagen (que en realidad es un SVG).

# Esta función recibe:
    # ID_oracion: un índice (0,1,2,…)
    # imagen: el SVG en texto que genera displacy.render

In [4]:
# Ruta del corpus
FILENAME=r'D:\Repos Github\AnaliticaTextual-Ejemplos\CORPUS\deportes\d20.txt'

In [5]:
# Crear directorio en donde estarán las imágenes de parsing generadas
DIR_IMAGENES = Path(r'D:\Repos Github\AnaliticaTextual-Ejemplos\Imágenes')

In [6]:
# Carga del modelo y lectura de oraciones
nlp = es_core_news_sm.load() # carga el modelo de lenguaje de Spacy. A partir de ahora, cada vez que hagas nlp(texto) obtendrás un Doc con tokens, POS, dependencias, etc.
oraciones = LeerTexto(FILENAME) # Llama a la función LeerTexto y devuelve una lista de oraciones (strings), separadas por puntos

In [7]:
# Bucle principal: Parsing + guardado
ID_oracion = 0 # contador para numerar los ficheros. Lo activamos con 0
for oracion in oraciones:
    doc = nlp(oracion) #paso cada oración por el modelo spacy, obteniendo un objeto doc, de manera que:
        #doc[i].text → texto del token
        #doc[i].pos_ → categoría gramatical
        #doc[i].dep_ → relación de dependencia
        #doc[i].head → token del que depende, etc.
    imagen = displacy.render(doc, style="dep", jupyter=False) #spacy a través de displacy dibuja el árbil de dependencias de esta oración, 
    #style="dep" → modo dependencias sintácticas.
    #jupyter=False → en lugar de mostrarlo directamente en el notebook, devuelve una cadena SVG (texto).
    CrearArchivoSalida(ID_oracion,imagen) # llama a función para gauardar SVG en un fichero
    ID_oracion +=1 # aumento contador en 1