## Universal dependencies!
### **Kakataibo!**

Librería [conllu](https://github.com/EmilStenstrom/conllu/)

Instrucciones [UD](https://universaldependencies.org/u/overview/simple-syntax.html#intransitive-and-transitive-clauses)

[Annotatrix](https://jonorthwash.github.io/ud-annotatrix/server/public/html/annotatrix.html#1)

In [66]:
!pip install conllu



You should consider upgrading via the 'C:\Users\jxver\anaconda3\envs\geo_env\python.exe -m pip install --upgrade pip' command.


In [67]:
## ahora, lo volvemos a leer :)

from io import open
from conllu import parse

data_k = open("kakataibo.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [68]:
len(kakataibo)

1

In [69]:
## lista de objetos TokenList

kakataibo

[TokenList<Uni, chaxké̈, achushi, =bëtan, ka, =na, ‘ë, =n, xubu, ‘ati, ‘ain, .>]

In [70]:
## número de oraciones

len(kakataibo)

1

In [71]:
## ejemplo!

sentence = kakataibo[0]

In [72]:
sentence

TokenList<Uni, chaxké̈, achushi, =bëtan, ka, =na, ‘ë, =n, xubu, ‘ati, ‘ain, .>

In [73]:
## número de tokens

len(sentence)

12

In [74]:
## miremos la información que tienen las palabras

token = sentence[0]

In [75]:
## es decir, token es una lista

In [76]:
token

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

Cada palabra en la **lista tokens** es un **diccionario!!! :)**

In [77]:
## veamos qué hay adentro de token

keys = list(token.keys())

In [78]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [79]:
values = list(token.values())

In [80]:
values

[1, 'Uni', 'uni', 'NOUN', None, None, 10, 'obl', None, {'man': ''}]

La lista **keys** contiene las entradas del diccionario D, de la misma forma en que un diccionario léxico tiene entradas. Los **keys** siempre son distintos. Los **values** son de alguna forma las "definiciones" asociadas a los keys. En general, los **keys** son enteros o strings, los **values** pueden ser cualquier cosa: otros diccionarios, listas, números, strings. Veamos algunos asuntos prácticos!

In [81]:
## los diccionarios tiene largo

largo = len(token)

In [82]:
largo

10

In [83]:
## todos los tokens de sentence

for T in sentence:
    print(T,len(token))

Uni 10
chaxké̈ 10
achushi 10
=bëtan 10
ka 10
=na 10
‘ë 10
=n 10
xubu 10
‘ati 10
‘ain 10
. 10


In [84]:
## los diccionarios tienen items (pares key-value)

items = list(token.items())

In [85]:
items

[('id', 1),
 ('form', 'Uni'),
 ('lemma', 'uni'),
 ('upos', 'NOUN'),
 ('xpos', None),
 ('feats', None),
 ('head', 10),
 ('deprel', 'obl'),
 ('deps', None),
 ('misc', {'man': ''})]

In [86]:
## algo de magia! 

D = dict(items)

In [87]:
D

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

¿Cómo **accedemos** a los **elementos** (es decir, los valores asociados a los keys) de un **diccionario**?

In [88]:
## usamos D[key] para cualquier key :)

value = token['id']

In [89]:
value

1

In [90]:
value = token['form']

In [91]:
value

'Uni'

In [92]:
## tal como esperábamos, también podemos acceder usando ciclos "for"

lista_values = []

## recorremos los keys
for key in token.keys():
    ## accedemos a cada key
    value = token[key]
    ## guardamos!
    lista_values+=[value]

In [93]:
lista_values

[1, 'Uni', 'uni', 'NOUN', None, None, 10, 'obl', None, {'man': ''}]

In [94]:
## ¿Qué pasa si uno de los values es también un diccionario?

value = token['misc']

In [95]:
value

{'man': ''}

In [96]:
value_value = value['man']

In [97]:
value_value

''

In [98]:
## es decir!

value_value = D['misc']['man']

In [99]:
value_value

''

¿Cómo **creamos** diccionarios?

In [100]:
## diccionario vacío
D = {}

## recorremos los items
for item in items:
    D[item[0]]=item[1]

In [101]:
D

{'id': 1,
 'form': 'Uni',
 'lemma': 'uni',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 10,
 'deprel': 'obl',
 'deps': None,
 'misc': {'man': ''}}

Analicemos ahora la **oración en Kakataibo!**

In [102]:
sentence

TokenList<Uni, chaxké̈, achushi, =bëtan, ka, =na, ‘ë, =n, xubu, ‘ati, ‘ain, .>

In [103]:
sentence[0]['head']

10

In [104]:
## hacemos un cambio!

sentence[0]['head']=11

In [105]:
with open('kakataibo_v2.conllu', 'w',encoding='utf-8') as f:    
    #f.writelines([sentence.serialize() + "\n" for sentence in sentences])
    f.writelines(sentence.serialize())

Un poco sobre la librería para manejar datos UD

In [106]:
## leemos denuevo los datos :)

data_k = open("kakataibo.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [107]:
## la primera oración, la única!

sentence = kakataibo[0]

In [108]:
## ¿Cómo podemos filtrar las oraciones?

## x forma
sentence.filter(form='chaxké̈')

TokenList<chaxké̈>

In [109]:
## x upos
sentence.filter(upos='VERB')

TokenList<‘ati>

In [110]:
## x upos
sentence.filter(upos='NOUN')

TokenList<Uni, xubu>

In [111]:
## busquemos las heads!
heads = {}

for token in sentence:
    heads[token['id']]=token['head'] 

In [112]:
heads

{1: 10,
 2: 1,
 3: 1,
 4: 1,
 5: 10,
 6: 10,
 7: 9,
 8: 7,
 9: 10,
 10: 0,
 11: 10,
 12: 10}

In [113]:
## otra forma :)

## busquemos las heads!
heads_form = {}

for token in sentence:
    heads_form[token['id']]=[token['form'],token['head']]

In [114]:
heads_form

{1: ['Uni', 10],
 2: ['chaxké̈', 1],
 3: ['achushi', 1],
 4: ['=bëtan', 1],
 5: ['ka', 10],
 6: ['=na', 10],
 7: ['‘ë', 9],
 8: ['=n', 7],
 9: ['xubu', 10],
 10: ['‘ati', 0],
 11: ['‘ain', 10],
 12: ['.', 10]}

**Ejercicio :)** calcule las distancia promedio entre cada token y la raiz (head). Suponga que el número de tokens es $n$. Si las palabras sucesivas están numeradas desde la palabra 1, luego 2, hasta la palabra $n$, la **distancia** entre dos palabras en posiciones $i$ y $j$ se define como $|i-j|$. 

[Paper :)](liu-dependencies-2017.pdf)

[otro paper :)](W19-7911.pdf)

**Ejercicio :) :)** calcule la distancia promedio entre las dependencias de la oración. 