In [1]:
import spacy
import json

In [2]:
nlp = spacy.load("es_dep_news_trf")

In [36]:
texto = """
Introducción
Adrián Riesco [ ariesco@ucm.es]
Dpto de Sistemas Informáticos y Computación
Facultad de Informática
Universidad Complutense de Madrid

Contenidos del tema:

    Sistemas de organización de la información
        Vocabularios controlados y no controlados
        Taxonomías
        Tesauros
        Ontologías
    Lenguajes de marcado
    Modelos abstractos de organización de datos

Volver al índice
Sistemas de organización de la información
En una época como la actual, en la cual se generan diariamente enormes volúmenes de datos, es necesario almacenar y recuperar de manera eficiente la información para hacer uso de ella. Es por ello que cobran importancia los metadatos, es decir, la información que añadimos a nuestros datos para describir su contenido y facilitar su uso. Los usos que se pueden dar a estos metadatos es muy amplia e incluyen, sin ser exhaustivo:

    Facilidad de estructuración y búsqueda. Los metadatos pueden indicar la categoría a la que pertenece un cierto dato (por ejemplo, para una foto puede indicar si contiene o no personas, evitando así que se tenga que procesar cada vez), permitiendo que se filtre en ciertas búsquedas, o puede crear una jerarquía (por ejemplo, distinguiendo entre párrafos, frases y palabras en un texto), permitiendo así una gestión más estructurada de sus elementos.
    Optimización del análisis. Los metadatos pueden contener multitud de información pre-calculada que puede ser útil posteriormente. Por ejemplo, si estamos interesados analizar tuits y descargamos los relacionados con cierto tema, veremos que Twitter no solo nos da el texto del tuit, también la hora en la que se publicó, la posición geográfica del usuario en ese momento (si dicho usuario ha dado previamente permiso), si es un retuit o una respuesta, si tiene hashtags, si el usuario está verificado... y así con más de 30 características, que nos permitirán hacer un análisis muy preciso de la situación.
    Control de versiones. Es frecuente introducir errores al modificar datos, por lo que un sistema para localizar la última versión libre de ciertos fallos es de gran interés para una gestión eficiente.
    Estandarización. El uso de estándares nos permite identificar, a través de los metadatos, de la misma manera los mismos elementos en distintas instituciones, para así permitir un uso global de los datos. En nuestro caso nos servirá para identificar las distintas partes de los textos (así como sus autores, sus traductores, su edición y el resto de información necesario) de manera uniforme, para compartirla y analizarla de manera eficaz. Veremos más detalles sobre este tema en el tercer bloque.

Es por ello que en esta asignatura veremos distintas maneras de representar metadatos. Empezaremos dando una breve introducción a algunos términos clave, que extenderemos en los siguientes temas. En particular, en el segundo bloque veremos las representaciones más comunes y algunas herramientas para su creación y análisis, aunque trabajaremos en un ámbito general, mientras que en el tercer bloque veremos distintos estándares propios de las Letras Digitales.
Vocabularios controlados
Un vocabulario controlado consta de:

    Un conjunto de términos.
    Un conjunto de reglas, que relaciona los términos entre sí e indica cómo deben usarse estos términos para indexar la información.

El nivel de complejidad de los vocabularios controlados puede variar. Puede ser un conjunto de términos de significados excluyentes (como "sí" y "no" o "mayor de edad" y "menor de edad"), que hace que las reglas simplemente sean asignar a cada elemento que queremos catalogar un único término, hasta entidades complejas como los tesauros y las taxonomías que presentamos a continuación y que explicaremos con más detalle en el próximo bloque.

Los vocabularios que no cumplen estas características se llaman no controlados o libres y no tendrán relevancia en la asignatura, por lo que siempre que nos refiramos a un vocabulario será controlado.
Taxonomías

Una taxonomía es una organización jerárquica de un vocabulario controlado. En general puede mostrar la relación entre términos generales y aquellos a los que contienen (por ejemplo, una taxonomía de animales puede distinguir entre vertebrados e invertebrados; a su vez los vertebrados se dividirían en peces, anfibios, aves y mamíferos, etc. En este caso es importante ver que un pez es también un vertebrado, que es también un animal) y de parte/todo (por ejemplo, el cuerpo humano está compuesto por ojos, pulmones, cerebro, etc., los ojos a su vez están compuestos de pupila, iris, etc. En este caso es importante ver que una pupila no es un ojo, ni un ojo es un cuerpo humano).

Mostramos a continuación un ejemplo muy sencillo de taxonomía para alimentos, caracterizada por la relación parte/todo. ¿Cómo funcionan aquí los metadatos? Las ideas clave son:

    Los metadatos están "ocultos" en la jerarquía: estar anidado dentro de una categoría (por ejemplo, "Pollo" de "Carne") nos indica que el término superior es más general que el inferior.
    Nos facilita la búsqueda de elementos; si por ejemplo queremos recuperar todos los tipos de verduras tendremos todos los elementos agrupados bajo el elemento de ese nombre y no hace falta recorrer el resto del vocabulario.
    Nuestra información es asociativa: dado que tenemos "Pescado semigraso" anidado en "Pescado" y, a su vez, "Pescado" anidado en "Alimentos", sabemos que "Pescado semigraso" es un "Alimento".

Aunque es posible complicar la taxonomía añadiendo, por ejemplo, sinónimo ("Comida" de "Alimentos"), pero vemos que es difícil relacionarlo con elementos más distantes como "Granja", "Dieta vegetariana" o "Mejor amigo del hombre", para lo que necesitaremos las relaciones más complejas que presentamos a continuación.
Tesauros
Los tesauros nos permiten clasificar términos de manera más rica que las taxonomías, en particular relacionando términos entre distintas taxonomías. Imaginemos, por ejemplo, que tenemos la taxonomía de alimentos del apartado anterior y una taxonomía de recetas. Es razonable querer relacionar cada receta con varios los alimentos, por lo que nos conviene relacionar ambas. También sería interesante tener una relación de sinónimos o "sustitutos" que indique cuándo un elemento puede sustituir a otro (por ejemplo el azúcar podría sustituirse con panela); relaciones como estas son las que nos proporcionan los tesauros. En particular tenemos relaciones de:

    Jerarquía, tal y como teníamos en las taxonomías.
    Equivalencia, indicando sinonimia, homonimia, antonimia y polisemia entre términos.
    Uso, indicando que ciertos términos se aplican con limitaciones. Por ejemplo, si tenemos taxonomía de los miembros de una orquesta y una taxonomía de instrumentos musicales, podremos relacionar unos con otros mediante esta relación.

Para cada término, es interesante que un tesauro tenga:

    Las definiciones de los términos.
    Para los sinónimos, un término preferente. Por ejemplo, si en un tesauro sobre enfermedades buscamos dolor de "lomera" debería indicarnos que el término preferente en este caso es dolor de "espalda" y mostrarnos las resultados para dicha búsqueda.
    Una ordenación para dichos términos preferentes. Puede ser simplemente alfabética, pero también puede puede ser un orden más complejo, como por temas.

Nota: la diferencia entre taxonomía y tesauro no es estricta; podemos tener varias categorías con algunas relaciones entre ellas y pensar que tenemos una taxonomía "amplia". La distinción que hago en este apartado nos sirve, sin embargo, para tener unas ideas comunes cuando nos refiramos a estos términos. Por ello, cuando simplemente tengamos una jerarquía diremos "taxonomía" y cuando tengamos varias con relaciones entre ellas como las que hemos indicado aquí diremos "tesauro".
Ontologías

Aunque los tesauros son flexibles y nos proporcionan mucha información, cuando nos encontramos ante realidad complejas, con multitud de relaciones diferentes entre los elementos, son difíciles de usar. ¿Cómo representar, con las relaciones que hemos presentado para los tesauros, el Mundodisco, Juego de Tronos, el UCM (Universo Cinematográfico Marvel) o El Señor de los Anillos? Es necesario definir relaciones específicas para cada uno de estos ámbitos, y eso precisamente es una ontología: la "elevación" de un tesauro al añadirle relaciones propias del universo que representa.

Nota: de nuevo tenemos ambigüedad entre tesauro y ontología. En este caso llamaremos tesauros a aquellas organizaciones de datos que se limitan a usar las relaciones indicadas en el apartado anterior (jerárquicas, de equivalencia y de uso) y ontologías al resto, que presentarán relaciones "novedosas".
Lenguajes de marcado

Los lenguajes de marcado, llamados así porque usan marcas (también llamadas etiquetas) para delimitar el contenido, se han convertido en el estándar para la codificación de documentos en la web. En todo lenguaje de marcado tenemos marcas de inicio, de la forma <marca>, y marcas de fin, de la forma </marca>, donde "marca" es el nombre de la etiqueta y cambiará de un lenguaje de marcado a otro. Por ejemplo, la marca "p" se usa en HTML (el lenguaje de marcado en el que se escriben la mayoría de los documentos que van a visualizarse en un navegador, como estos apuntes) para párrafos y la marca "b" para negrita (de bold) por ejemplo:

<p>Esto es un párrafo muy corto con <b>esta</b> palabra en negrita.</p>

En este ejemplo vemos que las marcas limitan el rango de aplicación, solo la palabra "esta" irá en negrita, pero se renderizará toda la frase como un párrafo.

Las etiquetas no siempre van solas, a veces es interesante introducir metadatos para un uso posterior. Por ejemplo, imagina que nos interesa ir numerando los párrafos para luego poder acceder a ellos. Podríamos escribir

<p id="1">Párrafo cortísimo.</p>

donde id es un atributo de la etiqueta p. Fíjate que en este caso tenemos el atributo después de la marca pero antes de >. Además, el valor del atributo va siempre con un igual y entre comillas. En el próximo bloque veremos varios lenguajes de marcado, pero es importante entender estas ideas básicas porque se repetirán en todos ellos.

La estructura básica de HTML es muy sencilla y será útil el resto del curso a la hora de crear páginas web sencillas en las que presentar la información. Por ello, es recomendable tener un conocimiento general, como el que podéis encontrar aquí.
Modelos abstractos de organización de datos

En ocasiones, para organizar la información podemos abstraer algunos detalles y centrarnos simplemente en la relación que guardan los elementos entre ellos. Esto es especialmente importante cuando los elementos son muy grandes y visualizarlos completamente puede distraernos de la idea general.

Un dominio en el que es necesario abstraer para entender el conjunto rápidamente es la Informática. El Lenguaje Unificado de Modelado (UML) proporciona un estándar para presentar diagramas explicativos de lo que debe hacer un sistema. Por ejemplo, el diagrama de casos de uso que tenemos debajo muestra qué tareas deben realizarse (redondeadas en el rectángulo central) y qué usuarios pueden realizar cada una de ellas. Vemos que es posible entender, sin necesidad de código ni documentación, qué actores tenemos y qué debe hacer cada uno de ellos.
Diagrama de casos de uso """

In [37]:
with open('documentos_txt\\OIM_Introducción.txt', 'w', encoding='UTF-8') as f:
    f.write(texto)

In [38]:
doc = nlp(texto)

In [39]:
sentences = []
for sen in doc.sents:
    if len(sen.text.strip().split()) > 0:
        sentences.append(sen.text.strip())

In [40]:
frasecitas = []
parrafo_correspondiente = []
for a in sentences:
    if len(a.split('\n'))> 1:
        for b in a.split('\n'):
            if len(b.strip().split()) > 0:
                frasecitas.append(b.strip())
                parrafo_correspondiente.append(a.strip())
    else:
        frasecitas.append(a.strip())
        parrafo_correspondiente.append(a.strip())

In [41]:
len(frasecitas)

100

In [42]:
len(parrafo_correspondiente)

100

In [43]:
js = {}
js['name'] = 'OIM'
js['subname'] = 'Introducción'
js['paragraph'] = parrafo_correspondiente
js['content'] = frasecitas

In [44]:
with open(f"json\\{js['name']}_{js['subname']}.json", 'w', encoding='UTF-8') as f:
    json.dump(js, f, ensure_ascii=False)