## Universal dependencies!
### **Kakataibo!**

Librería [conllu](https://github.com/EmilStenstrom/conllu/)

Instrucciones [UD](https://universaldependencies.org/u/overview/simple-syntax.html#intransitive-and-transitive-clauses)

[Annotatrix](https://jonorthwash.github.io/ud-annotatrix/server/public/html/annotatrix.html#1)

In [1]:
!pip install conllu



You should consider upgrading via the 'c:\users\jxver\anaconda3\python.exe -m pip install --upgrade pip' command.


In [2]:
## ahora, lo volvemos a leer :)

from io import open
from conllu import parse

data_k = open("ud-annotatrix-corpus-s.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [3]:
len(kakataibo)

6

In [4]:
## lista de objetos TokenList

kakataibo

[TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>,
 TokenList<atian, casi, kamabi, nëtë, =n, ka, =is, =a, a, uni, kwan-akë-x-ín, .>,
 TokenList<paën-xun, ka, =na, ‘ë, =n, ‘atsa, kwëën-i-n, .>,
 TokenList<nukën, papaokë, =kama, ka, =a, uni, chaxké, siná, uni, ‘i-akë-x-a, .>,
 TokenList<ka, =nanuna, toxama, upí, bits-tankëxun, taish, a, bits-tankëxun, ka, =nanuna, ‘aru-i-n, .>,
 TokenList<maru-kin, no-n, buan-akë-x-ín, .>]

In [5]:
## número de oraciones

len(kakataibo)

6

In [6]:
## ejemplo!

sentence = kakataibo[0]

In [7]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [8]:
## número de tokens

len(sentence)

10

In [9]:
## miremos la información que tienen las palabras

token = sentence[1]

In [10]:
## es decir, token es una lista

In [11]:
token

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Cada palabra en la **lista sentence** es un **diccionario!!! :)**

In [12]:
## veamos qué hay adentro de token

keys = list(token.keys())

In [13]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [14]:
values = list(token.values())

In [15]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

La lista **keys** contiene las entradas del diccionario token, de la misma forma en que un diccionario léxico tiene entradas. Los **keys** siempre son distintos. Los **values** son de alguna forma las "definiciones" asociadas a los keys. En general, los **keys** son enteros o strings, los **values** pueden ser cualquier cosa: otros diccionarios, listas, números, strings. Veamos algunos asuntos prácticos!

In [16]:
## los diccionarios tiene largo

largo = len(token)

In [17]:
largo

10

In [18]:
## todos los tokens de sentence

for T in sentence:
    print(T,len(token))

Emilio 10
ka 10
=a 10
mas 10
xuá 10
ki 10
Roberto 10
=ma 10
‘ikën 10
. 10


In [19]:
## los diccionarios tienen items (pares key-value)

items = list(token.items())

In [20]:
items

[('id', 2),
 ('form', 'ka'),
 ('lemma', '_'),
 ('upos', 'PART'),
 ('xpos', None),
 ('feats', None),
 ('head', 9),
 ('deprel', 'aux:sgen'),
 ('deps', None),
 ('misc', {'nar:3': ''})]

In [21]:
## algo de magia! 

D = dict(items)

In [22]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

¿Cómo **accedemos** a los **elementos** (es decir, los valores asociados a los keys) de un **diccionario**?

In [23]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [24]:
## usamos D[key] para cualquier key :)

value = token['id']

In [25]:
value

2

In [26]:
value = token['misc']

In [27]:
value

{'nar:3': ''}

In [28]:
## tal como esperábamos, también podemos acceder usando ciclos "for"

lista_values = []

## recorremos los keys
for key in token.keys():
    ## accedemos a cada key
    value = token[key]
    ## guardamos!
    lista_values+=[value]

In [29]:
lista_values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [30]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [31]:
## ¿Qué pasa si uno de los values es también un diccionario?

value = token['misc']

In [32]:
value

{'nar:3': ''}

In [33]:
value_value = value['nar:3']

In [34]:
value_value

''

In [35]:
## es decir!

value_value = token['misc']['nar:3']

In [36]:
value_value

''

¿Cómo **creamos** diccionarios?

In [37]:
items[0][1]

2

In [38]:
## diccionario vacío
D = {}

## recorremos los items
for item in items:
    D[item[0]] = item[1]

In [39]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Analicemos ahora la **oración en Kakataibo!**

In [40]:
D = {1:'a',2:'b'}

In [41]:
D[1]='gato'

In [42]:
D

{1: 'gato', 2: 'b'}

In [43]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [44]:
sentence[0]

{'id': 1,
 'form': 'Emilio',
 'lemma': '_',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'nsubj:free',
 'deps': None,
 'misc': {'Emilio:abs': ''}}

In [45]:
## hacemos un cambio!

sentence[0]['head']=11

In [46]:
sentence[0]

{'id': 1,
 'form': 'Emilio',
 'lemma': '_',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 11,
 'deprel': 'nsubj:free',
 'deps': None,
 'misc': {'Emilio:abs': ''}}

In [47]:
with open('kakataibo_v2.conllu', 'w',encoding='utf-8') as f:    
    #f.writelines([sentence.serialize() + "\n" for sentence in sentences])
    f.writelines(sentence.serialize())

Un poco sobre la librería para manejar datos UD

In [48]:
## leemos denuevo los datos :)

data_k = open("kakataibo.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [49]:
## la primera oración, la única!

sentence = kakataibo[0]

In [50]:
## ¿Cómo podemos filtrar las oraciones?

## x forma
sentence.filter(form='chaxké̈')

TokenList<chaxké̈>

In [51]:
## x upos
sentence.filter(upos='VERB')

TokenList<‘ati>

In [52]:
## x upos
sentence.filter(upos='NOUN')

TokenList<Uni, xubu>

In [53]:
## busquemos las heads!
heads = {}

for token in sentence:
    heads[token['id']]=token['head'] 

In [54]:
heads

{1: 10,
 2: 1,
 3: 1,
 4: 1,
 5: 10,
 6: 10,
 7: 9,
 8: 7,
 9: 10,
 10: 0,
 11: 10,
 12: 10}

In [55]:
## otra forma :)

## busquemos las heads!
heads_form = {}

for token in sentence:
    heads_form[token['id']]=[token['form'],token['head']]

In [56]:
heads_form

{1: ['Uni', 10],
 2: ['chaxké̈', 1],
 3: ['achushi', 1],
 4: ['=bëtan', 1],
 5: ['ka', 10],
 6: ['=na', 10],
 7: ['‘ë', 9],
 8: ['=n', 7],
 9: ['xubu', 10],
 10: ['‘ati', 0],
 11: ['‘ain', 10],
 12: ['.', 10]}

## Ejercicios sobre dependencias :)

Para una **oración**, identifique todos los **tokens** y los **types**. 

Construya un **diccionario {type:frecuencia}** para cada **type** de una oración. 

Ahora para un **conjunto de oraciones (un mini-corpus)** identifique los **tokens** y los **types** usados. 

Construya un **diccionario {type:frecuencia}** para cada **type** del corpus. 

Para una oración, identifique los **POS tags**. Determine su frecuencia.

Ahora para un **mini-corpus** identifique los **POS tags**. Determine su **frecuencia** en el corpus.  

Identifique el **id** de la raíz y la **forma** asociada.

Calcule las distancias entre **cada token** y la **raiz (head)**. Suponga que el número de tokens es $n$. Si las palabras sucesivas están numeradas desde la palabra 1, luego 2, hasta la palabra $n$, la **distancia** entre dos palabras en posiciones $i$ y $j$ se define como $|i-j|$. 

Calcule el **largo de dependencias** **promedio**, **máximo** y **mínimo**. 

[Paper :)](liu-dependencies-2017.pdf)

[otro paper :)](W19-7911.pdf)