# XMLCorpus
Una herramienta personalizada para analizar datos
contenidos en ficheros `xml`.

La ejecuci√≥n se realiza sobre un [Jupyter Notebook](https://jupyter.org/),
un sistema de ejecuci√≥n que permite integrar las
herramientas necesarias para que el sistema funcione
sin mayor complejidad.

## Estructura del `XML`
Siguiendo de ejemplo el fichero `xml` provisto,
este programa est√° especialmente dise√±ado para funcionar
con la siguiente estructura:

```xml
<!-- Notation:
    x, y: mandatory values
    o: optional values
-->
<propiel>
    <annotation>
        <!-- Optional -->
        <parts-of-speech>
            <value tag="x" summary="y" />
                        ...
        </parts-of-speech>
        <!-- Mandatory -->
        <morphology>
            <field tag="x">
                <value tag="x" summary="y" />
                            ...
            </field>
            ...
        </morphology>
        <!-- Optional -->
        <gloss>
            <value tag="x" summary="y" />
        </gloss>
    </annotation>

    <source id="x" alignment-id="o" language="y">
        <!-- All these fields are optional -->
        <title></title>
        <citation-part></citation-part>
        <editorial-note></editorial-note>
        <annotator></annotator>
        <reviewer></reviewer>
        <electronic-text-original-url></electronic-text-original-url>
        <!-- Source main section -->
        <div>
            <title>Actually unused</title>
            <sentence id="x" alignment-id="o" status="[annotated, unannotated, reviewed]">
                <token id="x" form="y" alignment-id="o" lemma="o" part-of-speech="o" morphology="o" gloss="o" />
                ...
            </sentence>
            ...
        </div>
    </source>
    ...
</propiel>
```
## Ejecuci√≥n de las celdas
Las celdas que contienen texto y/o c√≥digo se pueden
ejecutar. Esto permite, por ejemplo, que se pueda
cambiar este texto y que se muestre actualizado as√≠
como ejecutar c√≥digo en particular.

Para ejecutar una celda, existen dos opciones:
 + Con la celda seleccionada, pulsar el bot√≥n
   `Run` que aparece en la barra de opciones.

 + Con la celda seleccionada, pulsar <kbd>‚áß Shift</kbd> + <kbd>‚Üµ Enter</kbd>.

Cualquiera de las dos opciones anteriores es perfectamente
v√°lida para ejecutar una celda.

## Instalaci√≥n de requisitos
Para que la aplicaci√≥n funcione correctamente, es
necesario instalar las siguientes dependencias:

In [None]:
pip install -r requirements.txt

## Carga de los datos
Para poder evaluar distintos ficheros `XML` se ofrece
un sistema de carga que permite o bien trabajar con
una URL o bien con un fichero `XML` en s√≠.

En el *widget* que aparece justo debajo tienes la opci√≥n
de subir un fichero o trabajar con una URL. Ten en cuenta
que, si pones una URL, esta tendr√° prioridad sobre el
fichero.

In [None]:
from xmlcjupyter import init, show_widgets, load_source, annotations_widget

init()
uploader, url = show_widgets()

Adem√°s, se puede trabajar con dos ficheros `XML` por
separado: un primer fichero que contenga √∫nicamente
las anotaciones y el segundo que contenga ya las
fuentes. En este caso, se marcar√≠a la casilla
y se especificar√≠a la ubicaci√≥n de dicho fichero.

In [None]:
use_annotations, file_data = annotations_widget()

In [None]:
annotations_tree, tree = load_source(uploader, url, use_annotations, file_data)

## Procesado de los datos
Ahora el fichero `XML` est√° ya cargado y listo
para ser utilizado. El objeto `tree` contiene todos los
valores del mismo, pero ahora es necesario hacer que
el programa lo entienda.

La funci√≥n
```python
def parse_tree(tree, annotations) -> Dict[SourceID, Source]
```
identifica, dentro del √°rbol `XML`, las distintas
fuentes (`<source>`) que lo componen y genera un mapa
con distintas claves y valores. La clave consta
del identificador de una fuente (por ejemplo, `text1`)
y el valor es la fuente en s√≠, con todas las oraciones,
*tokens* y dem√°s valores pertinentes.

Para ello, primero se han de cargar las anotaciones en
s√≠. Para ello, se usa la siguiente funci√≥n:

In [None]:
from xmlcjupyter import load_annotations

annotations = load_annotations(annotations_tree)

# Show the identified annotations
print(annotations)

Despu√©s, ya se pueden obtener las fuentes:


In [None]:
from xmlcjupyter import parse_tree

sources = parse_tree(tree, annotations)

# Show the identified sources
print("Identified sources:", end=' {')
for key in sources.keys():
    print(key, end=', ')
print("}\nAccess them by writting: 'sources['sourceID']'")

## Operaciones con las fuentes
Ahora que ya est√°n las fuentes listas para trabajar con
ellas, se pueden realizar las siguientes operaciones:

 + Mostrar el contenido de las fuentes como tabla.
 Para ello, se cuenta con el m√©todo
 ```python
 def display_source(source, tabletype="latex")
 ```
 el cual muestra el contenido de la fuente o de todas
 las fuentes, en caso de usar `sources` como par√°metro.

 + Comparar el contenido de dos fuentes, mediante
 el m√©todo
 ```python
 def compare(source, another_source, sentences=(), status=None, tabletype="latex")
 ```
 el cual mostrar√° en una tabla las oraciones junto con
 sus *token*s anotados y las relaciones entre ellos.

 + Buscar dentro de una fuente seg√∫n ciertas
 caracter√≠sticas. Por ejemplo, si se quiere buscar
 por todos los *token*s en primera persona del singular,
 o si son adjetivos, etc. Para ello, se cuenta con
 el m√©todo:
 ```python
 def find_words_by(data, source, tabletype="latex")
 ```

Como se puede ver, los m√©todos reciben un par√°metro
adicional `tabletype` que por defecto est√° con un
valor "latex". Esto permite cambiar c√≥mo se muestran
las tablas y si se quiere otro formato (hay una lista
con todos los formatos disponible en https://github.com/astanin/python-tabulate#table-format).

A continuaci√≥n, a modo explicativo, se muestran ejemplos
de c√≥mo usar las funciones anteriores:

### Mostrar todas las fuentes con sus datos
```python
display_source(sources)
```

### Mostrar los datos de una fuente con ID `text1`
```python
display_source(sources['text1'])
```

### Mostrar los datos de una fuente con otro formato de tabla
```python
display_source(sources['text2'], tabletype="grid")
```

### Comparar `text1` con `text2`
```python
compare(sources['text1'], sources['text2'])
```

### Comparar `text1` con `text2` las oraciones '0a' y '1a'
```python
compare(sources['text1'], sources['text2'], sentences=('0a', '1a'))
```

### Comparar `text1` con `text2` aquellas oraciones que est√©n anotadas
```python
compare(sources['text1'], sources['text2'], status=AnnotationStatus.ANNOTATED)
```

### Buscar palabras seg√∫n distintos campos
```python
source = sources['text1']

# Find all first person tokens in text1
find_words_by({
    AnnotationsElements.Morphology: 'person.1'
}, source)

# Find all first person singular masculine tokens in text1
find_words_by({
    AnnotationsElements.Morphology: {'person.1', 'number.s', 'gender.m'}
}, source)

# Find all first person singular adjectives
find_words_by({
    AnnotationElements.Morphology: {'person.1', 'number.s'},
    AnnotationElements.PartsOfSpeech: 'A-'
}, source)

# Find all words literally translated from Latin (in example)
find_words_by({
    AnnotationElements.Gloss: 'l'
}, sources['text2'])

# Find all positive words in all sources
find_words_by({
    AnnotationElements.Morphology: 'degree.p'
}, sources)
```

## Declaraci√≥n de las cabezeras de las funciones
A continuaci√≥n, se declaran las cabeceras de las
funciones anteriores

In [None]:
from xmlcjupyter import (
    display_source,
    compare,
    find_words_by
)
from xmlc import AnnotationStatus, AnnotationElements

## C√≥digo de prueba (funcional con `lindgos.xml`)

In [None]:
# Print all sources
display_source(sources, tabletype="fancy_grid")

print('Comparing text1 with text2 (all sentences):', end='\n\n')
# Compare all sentences
compare(sources['text1'], sources['text2'], tabletype="fancy_grid")

print('Comparing text1 with text2 (reviewed sentences):', end='\n\n')
# Compare all reviewed sentences
compare(sources['text1'], sources['text2'], status=AnnotationStatus.REVIEWED, tabletype="fancy_grid")

print('All first person words in text1:', end='\n\n')
# Find all first person words
find_words_by({
    AnnotationElements.Morphology: 'person.1'
}, sources['text1'], tabletype="fancy_grid")

print('All common nouns:', end='\n\n')
# Find all common nouns
find_words_by({
    AnnotationElements.PartsOfSpeech: 'Nb'
}, sources, tabletype="fancy_grid")

print('All first person singular masculine words in text1:', end='\n\n')
# Find all first person singular masculine words
find_words_by({
    AnnotationElements.Morphology: {'person.1', 'number.s', 'gender.m'}
}, sources['text1'], tabletype="fancy_grid")

print('All literal translated words:', end='\n\n')
# Find all literal translated words
find_words_by({
    AnnotationElements.Gloss: 'l'
}, sources['text2'], tabletype="fancy_grid")

print('All unassigned words:', end='\n\n')
# Find all unassigned words
find_words_by({
    AnnotationElements.PartsOfSpeech: 'X-'
}, sources, tabletype="fancy_grid")

## C√≥digo fuente
El c√≥digo fuente de la aplicaci√≥n al completo se
encuentra en: https://github.com/Javinator9889/XMLCorpus

Ah√≠ se puede ver c√≥mo est√° dise√±ado y qu√© opciones
ofrece, junto con la documentaci√≥n de cada una de las
funciones que lo componen.

## Descarga de las salidas
Al estar trabajando sobre este entorno, todas las
salidas se guardan y pueden ser descargadas
posteriormente. Adem√°s, a continuaci√≥n puedes seguir
creando m√°s celdas para seguir trabajando, y una vez
acabado, descargar el resultado o ver c√≥mo queda.

## $\LaTeX$
Actualmente, por comodidad, las tablas se muestran
en el formato "*fancy_grid*", pero pueden ser exportadas
f√°cilmente a $\LaTeX$ para usarlas posteriormente. Para
ello, en los comandos anteriores, bastar√≠a con quitar
el campo "*tabletype*", ya que su valor por defecto
es $\LaTeX$.

In [None]:
# Esta celda es para ti üòâ
find_words_by({
    AnnotationElements.Morphology: {'number.s'},
    AnnotationElements.PartsOfSpeech: 'A-'
}, sources)