## Universal dependencies!
### **Kakataibo!**

Librería [conllu](https://github.com/EmilStenstrom/conllu/)

Instrucciones [UD](https://universaldependencies.org/u/overview/simple-syntax.html#intransitive-and-transitive-clauses)

[Annotatrix](https://jonorthwash.github.io/ud-annotatrix/server/public/html/annotatrix.html#1)

In [59]:
!pip install conllu



You should consider upgrading via the 'c:\users\jxver\anaconda3\python.exe -m pip install --upgrade pip' command.


In [62]:
## ahora, lo volvemos a leer :)

from io import open
from conllu import parse

data_k = open("ud-annotatrix-corpus-s.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [63]:
len(kakataibo)

6

In [66]:
## lista de objetos TokenList

kakataibo

[TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>,
 TokenList<atian, casi, kamabi, nëtë, =n, ka, =is, =a, a, uni, kwan-akë-x-ín, .>,
 TokenList<paën-xun, ka, =na, ‘ë, =n, ‘atsa, kwëën-i-n, .>,
 TokenList<nukën, papaokë, =kama, ka, =a, uni, chaxké, siná, uni, ‘i-akë-x-a, .>,
 TokenList<ka, =nanuna, toxama, upí, bits-tankëxun, taish, a, bits-tankëxun, ka, =nanuna, ‘aru-i-n, .>,
 TokenList<maru-kin, no-n, buan-akë-x-ín, .>]

In [67]:
## número de oraciones

len(kakataibo)

6

In [78]:
## ejemplo!

sentence = kakataibo[0]

In [79]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [80]:
## número de tokens

len(sentence)

10

In [81]:
largos = []

for oracion in kakataibo:
    largos+=[len(oracion)]

In [91]:
largos

[10, 12, 8, 11, 12, 4]

In [87]:
import numpy as np

np.round(np.max(largos),0)

12

In [94]:
print('promedio:  '+str(np.mean(largos)))
print('mediana:  '+str(np.median(largos)))
print('máximo:  '+str(np.max(largos)))
print('mínimo:  '+str(np.min(largos)))
print('desviación:  '+str(np.std(largos)))
print('número de tokens:  '+str(sum(largos)))

promedio:  9.5
mediana:  10.5
máximo:  12
mínimo:  4
desviación:  2.8136571693556887
número de tokens:  57


In [95]:
## algunas peros: puntuación; otras medidas (moda, mediana, máximo, mínimo); elementos que separamos antes; detalle (mayúsculas/minúsculas)

In [96]:
## miremos la información que tienen las palabras

token = sentence[1]

In [97]:
## es decir, token es una lista

In [100]:
token

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Cada palabra en la **lista sentence** es un **diccionario!!! :)**

In [101]:
## veamos qué hay adentro de token

keys = list(token.keys())

In [102]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [103]:
values = list(token.values())

In [104]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

La lista **keys** contiene las entradas del diccionario token, de la misma forma en que un diccionario léxico tiene entradas. Los **keys** siempre son distintos. Los **values** son de alguna forma las "definiciones" asociadas a los keys. En general, los **keys** son enteros o strings, los **values** pueden ser cualquier cosa: otros diccionarios, listas, números, strings. Veamos algunos asuntos prácticos!

In [105]:
## los diccionarios tiene largo

largo = len(token)

In [106]:
largo

10

In [107]:
## todos los tokens de sentence

for T in sentence:
    print(T,len(token))

Emilio 10
ka 10
=a 10
mas 10
xuá 10
ki 10
Roberto 10
=ma 10
‘ikën 10
. 10


In [108]:
## los diccionarios tienen items (pares key-value)

items = list(token.items())

In [109]:
items

[('id', 2),
 ('form', 'ka'),
 ('lemma', '_'),
 ('upos', 'PART'),
 ('xpos', None),
 ('feats', None),
 ('head', 9),
 ('deprel', 'aux:sgen'),
 ('deps', None),
 ('misc', {'nar:3': ''})]

In [110]:
## algo de magia! 

D = dict(items)

In [111]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

¿Cómo **accedemos** a los **elementos** (es decir, los valores asociados a los keys) de un **diccionario**?

In [112]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [113]:
## usamos D[key] para cualquier key :)

value = token['id']

In [114]:
value

2

In [115]:
value = token['misc']

In [116]:
value

{'nar:3': ''}

In [117]:
## tal como esperábamos, también podemos acceder usando ciclos "for"

lista_values = []

## recorremos los keys
for key in token.keys():
    ## accedemos a cada key
    value = token[key]
    ## guardamos!
    lista_values+=[value]

In [118]:
lista_values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [119]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [120]:
## ¿Qué pasa si uno de los values es también un diccionario?

value = token['misc']

In [122]:
value

{'nar:3': ''}

In [123]:
value_value = value['nar:3']

In [124]:
value_value

''

In [126]:
## es decir!

value_value = token['misc']['nar:3']

In [127]:
value_value

''

¿Cómo **creamos** diccionarios?

In [129]:
items[0][0]

'id'

In [151]:
D = {}
L = []

In [152]:
L += ['a']

In [153]:
L

['a']

In [154]:
D[1]='a'

In [156]:
D

{1: 'a'}

In [157]:
## diccionario vacío
D = {}

## recorremos los items
for item in items:
    print(item)
    D[item[0]] = item[1]

('id', 2)
('form', 'ka')
('lemma', '_')
('upos', 'PART')
('xpos', None)
('feats', None)
('head', 9)
('deprel', 'aux:sgen')
('deps', None)
('misc', {'nar:3': ''})


In [158]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Analicemos ahora la **oración en Kakataibo!**

In [159]:
D = {1:'a',2:'b'}

In [160]:
D[1]='gato'

In [161]:
D

{1: 'gato', 2: 'b'}

In [162]:
sentence

TokenList<Uni, chaxké̈, achushi, =bëtan, ka, =na, ‘ë, =n, xubu, ‘ati, ‘ain, .>

In [163]:
sentence[0]

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

In [164]:
## hacemos un cambio!

sentence[0]['head']=11

In [165]:
sentence[0]

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 11,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

In [166]:
with open('kakataibo_v2.conllu', 'w',encoding='utf-8') as f:    
    #f.writelines([sentence.serialize() + "\n" for sentence in sentences])
    f.writelines(sentence.serialize())

Un poco sobre la librería para manejar datos UD

In [167]:
## leemos denuevo los datos :)

data_k = open("kakataibo.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [168]:
## la primera oración, la única!

sentence = kakataibo[0]

In [169]:
## ¿Cómo podemos filtrar las oraciones?

## x forma
sentence.filter(form='chaxké̈')

TokenList<chaxké̈>

In [170]:
## x upos
sentence.filter(upos='VERB')

TokenList<‘ati>

In [171]:
## x upos
sentence.filter(upos='NOUN')

TokenList<Uni, xubu>

In [172]:
sentence[0]

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

In [177]:
heads = {}

for token in sentence:
    key = token['id']
    heads[key]=-1

In [178]:
heads

{1: -1,
 2: -1,
 3: -1,
 4: -1,
 5: -1,
 6: -1,
 7: -1,
 8: -1,
 9: -1,
 10: -1,
 11: -1,
 12: -1}

In [180]:
## solución pendiente!!! :)

for i in range(len(sentence)):
    heads[sentence[i]['id']]=sentence[i]['head']

In [181]:
heads

{1: 10,
 2: 1,
 3: 1,
 4: 1,
 5: 10,
 6: 10,
 7: 9,
 8: 7,
 9: 10,
 10: 0,
 11: 10,
 12: 10}

In [173]:
## busquemos las heads!
heads = {}

for token in sentence:
    heads[token['id']]=token['head'] 

In [174]:
heads

{1: 10,
 2: 1,
 3: 1,
 4: 1,
 5: 10,
 6: 10,
 7: 9,
 8: 7,
 9: 10,
 10: 0,
 11: 10,
 12: 10}

In [182]:
## otra forma :)

## busquemos las heads!
heads_form = {}

for token in sentence:
    heads_form[token['id']]=[token['form'],token['head']]

In [183]:
heads_form

{1: ['Uni', 10],
 2: ['chaxké̈', 1],
 3: ['achushi', 1],
 4: ['=bëtan', 1],
 5: ['ka', 10],
 6: ['=na', 10],
 7: ['‘ë', 9],
 8: ['=n', 7],
 9: ['xubu', 10],
 10: ['‘ati', 0],
 11: ['‘ain', 10],
 12: ['.', 10]}

In [223]:
## otra otra forma!

heads_forms2 = {}

for token in sentence:
    ## mini-tarea: queremos que los values sean las formas de que dependen los keys, y no los id's (tal como está ahora!!!)
    if token['head']!=0:
        heads_forms2[token['form']]=sentence[token['head']-1]['form']
    else:
        heads_forms2[token['form']]=token['form']

In [224]:
heads_forms2

{'Uni': '‘ati',
 'chaxké̈': 'Uni',
 'achushi': 'Uni',
 '=bëtan': 'Uni',
 'ka': '‘ati',
 '=na': '‘ati',
 '‘ë': 'xubu',
 '=n': '‘ë',
 'xubu': '‘ati',
 '‘ati': '‘ati',
 '‘ain': '‘ati',
 '.': '‘ati'}

In [193]:
token

{'id': 12,
 'form': '.',
 'lemma': '_',
 'upos': 'PUNCT',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'punct',
 'deps': None,
 'misc': None}

## Ejercicios sobre dependencias :)

Para una **oración**, identifique todos los **tokens** y los **types**. 

In [194]:
sentence

TokenList<Uni, chaxké̈, achushi, =bëtan, ka, =na, ‘ë, =n, xubu, ‘ati, ‘ain, .>

In [214]:
tokens = []
types = []

In [215]:
puntuacion = ['.',',']

for d in sentence:
    form = d['form']
    if form not in puntuacion:
        tokens+=[form.lower()]

In [216]:
tokens

['uni',
 'chaxké̈',
 'achushi',
 '=bëtan',
 'ka',
 '=na',
 '‘ë',
 '=n',
 'xubu',
 '‘ati',
 '‘ain']

In [217]:
for palabra in tokens:
    if palabra not in types:
        types+=[palabra]

In [218]:
types

['uni',
 'chaxké̈',
 'achushi',
 '=bëtan',
 'ka',
 '=na',
 '‘ë',
 '=n',
 'xubu',
 '‘ati',
 '‘ain']

In [219]:
types = list(set(tokens))

In [220]:
types

['=bëtan',
 '‘ë',
 '‘ain',
 '=na',
 'xubu',
 '‘ati',
 '=n',
 'uni',
 'achushi',
 'chaxké̈',
 'ka']

Construya un **diccionario {type:frecuencia}** para cada **type** de una oración. 

Ahora para un **conjunto de oraciones (un mini-corpus)** identifique los **tokens** y los **types** usados. 

Construya un **diccionario {type:frecuencia}** para cada **type** del corpus. 

Para una oración, identifique los **POS tags**. Determine su frecuencia.

Ahora para un **mini-corpus** identifique los **POS tags**. Determine su **frecuencia** en el corpus.  

Identifique el **id** de la raíz y la **forma** asociada.

Calcule las distancias entre **cada token** y la **raiz (head)**. Suponga que el número de tokens es $n$. Si las palabras sucesivas están numeradas desde la palabra 1, luego 2, hasta la palabra $n$, la **distancia** entre dos palabras en posiciones $i$ y $j$ se define como $|i-j|$. 

Calcule el **largo de dependencias** **promedio**, **máximo** y **mínimo**. 

[Paper :)](liu-dependencies-2017.pdf)

[otro paper :)](W19-7911.pdf)