## Universal dependencies!
### **Kakataibo!**

Librería [conllu](https://github.com/EmilStenstrom/conllu/)

Instrucciones [UD](https://universaldependencies.org/u/overview/simple-syntax.html#intransitive-and-transitive-clauses)

[Annotatrix](https://jonorthwash.github.io/ud-annotatrix/server/public/html/annotatrix.html#1)

In [1]:
#!pip install conllu

In [2]:
## ahora, lo volvemos a leer :)

from io import open
from conllu import parse

data_k = open("ud-annotatrix-corpus-s.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [4]:
len(kakataibo)

6

In [5]:
## lista de objetos TokenList

kakataibo

[TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>,
 TokenList<atian, casi, kamabi, nëtë, =n, ka, =is, =a, a, uni, kwan-akë-x-ín, .>,
 TokenList<paën-xun, ka, =na, ‘ë, =n, ‘atsa, kwëën-i-n, .>,
 TokenList<nukën, papaokë, =kama, ka, =a, uni, chaxké, siná, uni, ‘i-akë-x-a, .>,
 TokenList<ka, =nanuna, toxama, upí, bits-tankëxun, taish, a, bits-tankëxun, ka, =nanuna, ‘aru-i-n, .>,
 TokenList<maru-kin, no-n, buan-akë-x-ín, .>]

In [5]:
## número de oraciones

len(kakataibo)

6

In [6]:
## ejemplo!

sentence = kakataibo[0]

In [7]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [8]:
## número de tokens

len(sentence)

10

In [9]:
largos = []

for oracion in kakataibo:
    largos+=[len(oracion)]

In [10]:
largos

[10, 12, 8, 11, 12, 4]

In [11]:
import numpy as np

np.round(np.max(largos),0)

12

In [12]:
print('promedio:  '+str(np.mean(largos)))
print('mediana:  '+str(np.median(largos)))
print('máximo:  '+str(np.max(largos)))
print('mínimo:  '+str(np.min(largos)))
print('desviación:  '+str(np.std(largos)))
print('número de tokens:  '+str(sum(largos)))

promedio:  9.5
mediana:  10.5
máximo:  12
mínimo:  4
desviación:  2.8136571693556887
número de tokens:  57


In [13]:
## algunas peros: puntuación; otras medidas (moda, mediana, máximo, mínimo); elementos que separamos antes; detalle (mayúsculas/minúsculas)

In [14]:
## miremos la información que tienen las palabras

token = sentence[1]

In [15]:
## es decir, token es una lista

In [16]:
token

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Cada palabra en la **lista sentence** es un **diccionario!!! :)**

In [17]:
## veamos qué hay adentro de token

keys = list(token.keys())

In [18]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [19]:
values = list(token.values())

In [20]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

La lista **keys** contiene las entradas del diccionario token, de la misma forma en que un diccionario léxico tiene entradas. Los **keys** siempre son distintos. Los **values** son de alguna forma las "definiciones" asociadas a los keys. En general, los **keys** son enteros o strings, los **values** pueden ser cualquier cosa: otros diccionarios, listas, números, strings. Veamos algunos asuntos prácticos!

In [21]:
## los diccionarios tiene largo

largo = len(token)

In [22]:
largo

10

In [23]:
## todos los tokens de sentence

for T in sentence:
    print(T,len(token))

Emilio 10
ka 10
=a 10
mas 10
xuá 10
ki 10
Roberto 10
=ma 10
‘ikën 10
. 10


In [24]:
## los diccionarios tienen items (pares key-value)

items = list(token.items())

In [25]:
items

[('id', 2),
 ('form', 'ka'),
 ('lemma', '_'),
 ('upos', 'PART'),
 ('xpos', None),
 ('feats', None),
 ('head', 9),
 ('deprel', 'aux:sgen'),
 ('deps', None),
 ('misc', {'nar:3': ''})]

In [26]:
## algo de magia! 

D = dict(items)

In [27]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

¿Cómo **accedemos** a los **elementos** (es decir, los valores asociados a los keys) de un **diccionario**?

In [28]:
keys

['id',
 'form',
 'lemma',
 'upos',
 'xpos',
 'feats',
 'head',
 'deprel',
 'deps',
 'misc']

In [29]:
## usamos D[key] para cualquier key :)

value = token['id']

In [30]:
value

2

In [31]:
value = token['misc']

In [32]:
value

{'nar:3': ''}

In [33]:
## tal como esperábamos, también podemos acceder usando ciclos "for"

lista_values = []

## recorremos los keys
for key in token.keys():
    ## accedemos a cada key
    value = token[key]
    ## guardamos!
    lista_values+=[value]

In [34]:
lista_values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [35]:
values

[2, 'ka', '_', 'PART', None, None, 9, 'aux:sgen', None, {'nar:3': ''}]

In [36]:
## ¿Qué pasa si uno de los values es también un diccionario?

value = token['misc']

In [37]:
value

{'nar:3': ''}

In [38]:
value_value = value['nar:3']

In [39]:
value_value

''

In [40]:
## es decir!

value_value = token['misc']['nar:3']

In [41]:
value_value

''

¿Cómo **creamos** diccionarios?

In [42]:
items[0][0]

'id'

In [43]:
D = {}
L = []

In [44]:
L += ['a']

In [45]:
L

['a']

In [46]:
D[1]='a'

In [47]:
D

{1: 'a'}

In [48]:
## diccionario vacío
D = {}

## recorremos los items
for item in items:
    print(item)
    D[item[0]] = item[1]

('id', 2)
('form', 'ka')
('lemma', '_')
('upos', 'PART')
('xpos', None)
('feats', None)
('head', 9)
('deprel', 'aux:sgen')
('deps', None)
('misc', {'nar:3': ''})


In [49]:
D

{'id': 2,
 'form': 'ka',
 'lemma': '_',
 'upos': 'PART',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'aux:sgen',
 'deps': None,
 'misc': {'nar:3': ''}}

Analicemos ahora la **oración en Kakataibo!**

In [50]:
D = {1:'a',2:'b'}

In [51]:
D[1]='gato'

In [52]:
D

{1: 'gato', 2: 'b'}

In [53]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [54]:
sentence[0]

{'id': 1,
 'form': 'Emilio',
 'lemma': '_',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'nsubj:free',
 'deps': None,
 'misc': {'Emilio:abs': ''}}

In [55]:
## hacemos un cambio!

sentence[0]['head']=11

In [56]:
sentence[0]

{'id': 1,
 'form': 'Emilio',
 'lemma': '_',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 11,
 'deprel': 'nsubj:free',
 'deps': None,
 'misc': {'Emilio:abs': ''}}

In [57]:
with open('kakataibo_v2.conllu', 'w',encoding='utf-8') as f:    
    #f.writelines([sentence.serialize() + "\n" for sentence in sentences])
    f.writelines(sentence.serialize())

Un poco sobre la librería para manejar datos UD

In [5]:
## leemos denuevo los datos :)

data_k = open("ud-annotatrix-corpus-s.conllu", "r", encoding="utf-8")
data_k = data_k.read()
kakataibo = parse(data_k)

In [6]:
kakataibo

[TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>,
 TokenList<atian, casi, kamabi, nëtë, =n, ka, =is, =a, a, uni, kwan-akë-x-ín, .>,
 TokenList<paën-xun, ka, =na, ‘ë, =n, ‘atsa, kwëën-i-n, .>,
 TokenList<nukën, papaokë, =kama, ka, =a, uni, chaxké, siná, uni, ‘i-akë-x-a, .>,
 TokenList<ka, =nanuna, toxama, upí, bits-tankëxun, taish, a, bits-tankëxun, ka, =nanuna, ‘aru-i-n, .>,
 TokenList<maru-kin, no-n, buan-akë-x-ín, .>]

In [7]:
## la primera oración, la única!

sentence = kakataibo[0]

In [8]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [9]:
## ¿Cómo podemos filtrar las oraciones?

## x forma
sentence.filter(form='chaxké̈')

TokenList<>

In [10]:
## x upos
sentence.filter(upos='VERB')

TokenList<‘ikën>

In [11]:
## x upos
sentence.filter(upos='NOUN')

TokenList<Emilio, Roberto>

In [12]:
sentence[0]

{'id': 1,
 'form': 'Emilio',
 'lemma': '_',
 'upos': 'NOUN',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'nsubj:free',
 'deps': None,
 'misc': {'Emilio:abs': ''}}

In [13]:
heads = {}

for token in sentence:
    key = token['id']
    heads[key]=-1

In [14]:
heads

{1: -1, 2: -1, 3: -1, 4: -1, 5: -1, 6: -1, 7: -1, 8: -1, 9: -1, 10: -1}

In [15]:
## solución pendiente!!! :)

for i in range(len(sentence)):
    heads[sentence[i]['id']]=sentence[i]['head']

In [16]:
heads

{1: 9, 2: 9, 3: 9, 4: 6, 5: 9, 6: 7, 7: 9, 8: 9, 9: 0, 10: 9}

In [17]:
len(sentence)

10

In [18]:
## busquemos las heads!
heads = {}

for token in sentence:
    key = token['id']
    head = token['head'] 
    heads[key] = head

In [19]:
heads

{1: 9, 2: 9, 3: 9, 4: 6, 5: 9, 6: 7, 7: 9, 8: 9, 9: 0, 10: 9}

In [20]:
## otra forma :)

## busquemos las heads!
heads_form = {}

for token in sentence:
    
    ## extraemos el key: id de token
    key = token['id']
    ## extraemos el head asociado a token
    head = token['head'] 
    ## form es la forma (la "palabra")
    form = token['form']
    ## lista form, head
    lista_head_form = [form,head]
    
    heads_form[key]=lista_head_form

In [21]:
heads_form

{1: ['Emilio', 9],
 2: ['ka', 9],
 3: ['=a', 9],
 4: ['mas', 6],
 5: ['xuá', 9],
 6: ['ki', 7],
 7: ['Roberto', 9],
 8: ['=ma', 9],
 9: ['‘ikën', 0],
 10: ['.', 9]}

In [22]:
token = sentence[9]

In [23]:
token

{'id': 10,
 'form': '.',
 'lemma': '_',
 'upos': 'PUNCT',
 'xpos': None,
 'feats': None,
 'head': 9,
 'deprel': 'punct',
 'deps': None,
 'misc': None}

In [24]:
## otra otra forma!

heads_forms2 = {}

for token in sentence:
    ## mini-tarea: queremos que los values sean las formas de que dependen los keys, y no los id's (tal como está ahora!!!)
    key = token['id']
    head = token['head'] 
    form = token['form']
    
    if token['head']!=0:
        diccionario_head = sentence[head-1]
        heads_forms2[form]=diccionario_head['form']
    else:
        heads_forms2[form]=form

In [25]:
heads_forms2

{'Emilio': '‘ikën',
 'ka': '‘ikën',
 '=a': '‘ikën',
 'mas': 'ki',
 'xuá': '‘ikën',
 'ki': 'Roberto',
 'Roberto': '‘ikën',
 '=ma': '‘ikën',
 '‘ikën': '‘ikën',
 '.': '‘ikën'}

## Ejercicios sobre dependencias :)

Para una **oración**, identifique todos los **tokens** y los **types**. 

In [28]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [43]:
tokens = []
types = []

In [44]:
puntuacion = ['.',',']

for d in sentence:
    form = d['form']
    if form not in puntuacion:
        tokens+=[form.lower()]

In [45]:
tokens

['emilio', 'ka', '=a', 'mas', 'xuá', 'ki', 'roberto', '=ma', '‘ikën']

In [46]:
for palabra in tokens:
    if palabra not in types:
        types+=[palabra]

In [47]:
types

['emilio', 'ka', '=a', 'mas', 'xuá', 'ki', 'roberto', '=ma', '‘ikën']

In [48]:
types = list(set(tokens))

In [49]:
types

['ki', 'xuá', 'ka', '‘ikën', 'emilio', '=a', 'mas', 'roberto', '=ma']

In [50]:
D_type_frec = {}

for word_type in types:
    D_type_frec[word_type]=0

In [51]:
D_type_frec

{'ki': 0,
 'xuá': 0,
 'ka': 0,
 '‘ikën': 0,
 'emilio': 0,
 '=a': 0,
 'mas': 0,
 'roberto': 0,
 '=ma': 0}

In [52]:
for token in tokens:
    D_type_frec[token]+=1

In [53]:
D_type_frec

{'ki': 1,
 'xuá': 1,
 'ka': 1,
 '‘ikën': 1,
 'emilio': 1,
 '=a': 1,
 'mas': 1,
 'roberto': 1,
 '=ma': 1}

In [54]:
## función que resume todo lo anterior:

## INPUT: lista de diccionarios
## OUTPUT: diccionario type:frecuencia del type
def frecuencia_types(sent):
    
    ## tokens
    puntuacion = ['.',',']
    tokens = []
    for d in sent:
        form = d['form']
        if form not in puntuacion:
            tokens+=[form.lower()]
            
    ## types
    types = []
    for palabra in tokens:
        if palabra not in types:
            types+=[palabra]
            
    D_type_frec = {}
    
    ## diccionario de frecuencia, con ceros al principio
    for word_type in types:
        D_type_frec[word_type]=0
    ## recorremos la lista tokens buscando los types, y cuando aparecen sumamos 1
    for token in tokens:
        D_type_frec[token]+=1
        
    return D_type_frec

In [61]:
frecuencia_types(kakataibo[4])

{'ka': 2,
 '=nanuna': 2,
 'toxama': 1,
 'upí': 1,
 'bits-tankëxun': 2,
 'taish': 1,
 'a': 1,
 '‘aru-i-n': 1}

In [62]:
from collections import Counter

## función que usa la librería collections

## INPUT: lista de diccionarios
## OUTPUT: diccionario type:frecuencia del type
def frecuencia_types_counter(sent):
    
    ## tokens
    puntuacion = ['.',',']
    tokens = []
    for d in sent:
        form = d['form']
        if form not in puntuacion:
            tokens+=[form.lower()]
            
    D_type_frec = dict(Counter(tokens))
        
    return D_type_frec

In [63]:
frecuencia_types_counter(kakataibo[0])

{'emilio': 1,
 'ka': 1,
 '=a': 1,
 'mas': 1,
 'xuá': 1,
 'ki': 1,
 'roberto': 1,
 '=ma': 1,
 '‘ikën': 1}

In [64]:
## INPUT: lista de diccionarios
## INPUT: entero k -> número de types más frecuentes
## OUTPUT: diccionario type:frecuencia del type
def types_mas_frecuentes(sent,k):
    
    ## tokens
    puntuacion = ['.',',']
    tokens = []
    for d in sent:
        form = d['form']
        if form not in puntuacion:
            tokens+=[form.lower()]
            
    D_type_frec = Counter(tokens)
        
    return D_type_frec.most_common(k)

In [69]:
types_mas_frecuentes(kakataibo[4],4)

[('ka', 2), ('=nanuna', 2), ('bits-tankëxun', 2), ('toxama', 1)]

In [70]:
sentence

TokenList<Emilio, ka, =a, mas, xuá, ki, Roberto, =ma, ‘ikën, .>

In [72]:
## ¿Cómo podemos generalizar esto para todo el mini-corpus?

lista_tokens_corpus = []

for sentence in kakataibo:
    for d in sentence:
        lista_tokens_corpus+=[d]

In [123]:
dict_frec_types = frecuencia_types(lista_tokens_corpus)

In [124]:
max_value = max(dict_frec_types.values())

In [125]:
max_value

6

In [77]:
lista_max_frec = []

for key in dict_frec_types.keys():
    if dict_frec_types[key]==max_value:
        lista_max_frec+=[key]

In [78]:
lista_max_frec

['ka']

In [81]:
frecuencia_types_counter(lista_tokens_corpus)

{'emilio': 1,
 'ka': 6,
 '=a': 3,
 'mas': 1,
 'xuá': 1,
 'ki': 1,
 'roberto': 1,
 '=ma': 1,
 '‘ikën': 1,
 'atian': 1,
 'casi': 1,
 'kamabi': 1,
 'nëtë': 1,
 '=n': 2,
 '=is': 1,
 'a': 2,
 'uni': 3,
 'kwan-akë-x-ín': 1,
 'paën-xun': 1,
 '=na': 1,
 '‘ë': 1,
 '‘atsa': 1,
 'kwëën-i-n': 1,
 'nukën': 1,
 'papaokë': 1,
 '=kama': 1,
 'chaxké': 1,
 'siná': 1,
 '‘i-akë-x-a': 1,
 '=nanuna': 2,
 'toxama': 1,
 'upí': 1,
 'bits-tankëxun': 2,
 'taish': 1,
 '‘aru-i-n': 1,
 'maru-kin': 1,
 'no-n': 1,
 'buan-akë-x-ín': 1}

In [82]:
num_types = len(frecuencia_types_counter(lista_tokens_corpus))

In [84]:
num_types

38

In [83]:
num_tokens = sum(frecuencia_types_counter(lista_tokens_corpus).values())

In [85]:
num_tokens

51

In [189]:
types_mas_frecuentes(lista_tokens_corpus,10)

[('ka', 6),
 ('=a', 3),
 ('uni', 3),
 ('=n', 2),
 ('a', 2),
 ('=nanuna', 2),
 ('bits-tankëxun', 2),
 ('emilio', 1),
 ('mas', 1),
 ('xuá', 1)]

In [169]:
from collections import Counter

A = [1,1,1,1,2,2,2,4,5,6,6,6]

In [171]:
C = Counter(A)

In [173]:
C.most_common(2)

[(1, 4), (2, 3)]

Construya un **diccionario {type:frecuencia}** para cada **type** de una oración. 

Ahora para un **conjunto de oraciones (un mini-corpus)** identifique los **tokens** y los **types** usados. 

Construya un **diccionario {type:frecuencia}** para cada **type** del corpus. 

In [86]:
## dict_frec_types

Calcule para cada type la cantidad $-\log (p_t)$, donde $p_t$ es la frecuencia normalizada del type $t$ ¿Qué puede observar?

In [88]:
dict_probabilidades = {}

for key in dict_frec_types:
    dict_probabilidades[key]=dict_frec_types[key]/num_tokens

In [90]:
import math

3.4965075614664802

In [93]:
dict_sorpresa = {}

for key in dict_frec_types:
    dict_sorpresa[key]=-math.log(dict_probabilidades[key])

In [96]:
for key in dict_sorpresa.keys():
    print(key,dict_frec_types[key],dict_probabilidades[key],dict_sorpresa[key])

emilio 1 0.0196078431372549 3.9318256327243257
ka 6 0.11764705882352941 2.1400661634962708
=a 3 0.058823529411764705 2.833213344056216
mas 1 0.0196078431372549 3.9318256327243257
xuá 1 0.0196078431372549 3.9318256327243257
ki 1 0.0196078431372549 3.9318256327243257
roberto 1 0.0196078431372549 3.9318256327243257
=ma 1 0.0196078431372549 3.9318256327243257
‘ikën 1 0.0196078431372549 3.9318256327243257
atian 1 0.0196078431372549 3.9318256327243257
casi 1 0.0196078431372549 3.9318256327243257
kamabi 1 0.0196078431372549 3.9318256327243257
nëtë 1 0.0196078431372549 3.9318256327243257
=n 2 0.0392156862745098 3.2386784521643803
=is 1 0.0196078431372549 3.9318256327243257
a 2 0.0392156862745098 3.2386784521643803
uni 3 0.058823529411764705 2.833213344056216
kwan-akë-x-ín 1 0.0196078431372549 3.9318256327243257
paën-xun 1 0.0196078431372549 3.9318256327243257
=na 1 0.0196078431372549 3.9318256327243257
‘ë 1 0.0196078431372549 3.9318256327243257
‘atsa 1 0.0196078431372549 3.9318256327243257
kwë

Construya un **diccionario {frecuencia:lista de types con esa frecuencia}** para cada frecuencia del corpus.

In [106]:
dict_frec_types

{'emilio': 1,
 'ka': 6,
 '=a': 3,
 'mas': 1,
 'xuá': 1,
 'ki': 1,
 'roberto': 1,
 '=ma': 1,
 '‘ikën': 1,
 'atian': 1,
 'casi': 1,
 'kamabi': 1,
 'nëtë': 1,
 '=n': 2,
 '=is': 1,
 'a': 2,
 'uni': 3,
 'kwan-akë-x-ín': 1,
 'paën-xun': 1,
 '=na': 1,
 '‘ë': 1,
 '‘atsa': 1,
 'kwëën-i-n': 1,
 'nukën': 1,
 'papaokë': 1,
 '=kama': 1,
 'chaxké': 1,
 'siná': 1,
 '‘i-akë-x-a': 1,
 '=nanuna': 2,
 'toxama': 1,
 'upí': 1,
 'bits-tankëxun': 2,
 'taish': 1,
 '‘aru-i-n': 1,
 'maru-kin': 1,
 'no-n': 1,
 'buan-akë-x-ín': 1}

In [112]:
#dict_frec_types = {'emilio':1,'ka':6}

In [126]:
dict_frec_types

{'emilio': 1,
 'ka': 6,
 '=a': 3,
 'mas': 1,
 'xuá': 1,
 'ki': 1,
 'roberto': 1,
 '=ma': 1,
 '‘ikën': 1,
 'atian': 1,
 'casi': 1,
 'kamabi': 1,
 'nëtë': 1,
 '=n': 2,
 '=is': 1,
 'a': 2,
 'uni': 3,
 'kwan-akë-x-ín': 1,
 'paën-xun': 1,
 '=na': 1,
 '‘ë': 1,
 '‘atsa': 1,
 'kwëën-i-n': 1,
 'nukën': 1,
 'papaokë': 1,
 '=kama': 1,
 'chaxké': 1,
 'siná': 1,
 '‘i-akë-x-a': 1,
 '=nanuna': 2,
 'toxama': 1,
 'upí': 1,
 'bits-tankëxun': 2,
 'taish': 1,
 '‘aru-i-n': 1,
 'maru-kin': 1,
 'no-n': 1,
 'buan-akë-x-ín': 1}

In [127]:
frecuencias = list(set(dict_frec_types.values()))

In [137]:
D_frecuencias_lista = {}

for f in frecuencias:
    D_frecuencias_lista[f]=[]

In [139]:
for palabra in dict_frec_types.keys():
    frec = dict_frec_types[palabra]
    print(palabra,frec)
    D_frecuencias_lista[frec]+=[palabra]

emilio 1
ka 6
=a 3
mas 1
xuá 1
ki 1
roberto 1
=ma 1
‘ikën 1
atian 1
casi 1
kamabi 1
nëtë 1
=n 2
=is 1
a 2
uni 3
kwan-akë-x-ín 1
paën-xun 1
=na 1
‘ë 1
‘atsa 1
kwëën-i-n 1
nukën 1
papaokë 1
=kama 1
chaxké 1
siná 1
‘i-akë-x-a 1
=nanuna 2
toxama 1
upí 1
bits-tankëxun 2
taish 1
‘aru-i-n 1
maru-kin 1
no-n 1
buan-akë-x-ín 1


In [131]:
D_frecuencias_lista

{1: ['emilio',
  'mas',
  'xuá',
  'ki',
  'roberto',
  '=ma',
  '‘ikën',
  'atian',
  'casi',
  'kamabi',
  'nëtë',
  '=is',
  'kwan-akë-x-ín',
  'paën-xun',
  '=na',
  '‘ë',
  '‘atsa',
  'kwëën-i-n',
  'nukën',
  'papaokë',
  '=kama',
  'chaxké',
  'siná',
  '‘i-akë-x-a',
  'toxama',
  'upí',
  'taish',
  '‘aru-i-n',
  'maru-kin',
  'no-n',
  'buan-akë-x-ín'],
 2: ['=n', 'a', '=nanuna', 'bits-tankëxun'],
 3: ['=a', 'uni'],
 6: ['ka']}

Construya un **diccionario {frecuencia:número de veces que aparece esa frecuencia}** para cada frecuencia del corpus.

In [143]:
D_frec_numero = {}

for key in D_frecuencias_lista.keys():
    D_frec_numero[key]=len(D_frecuencias_lista[key])

In [144]:
D_frec_numero

{1: 31, 2: 4, 3: 2, 6: 1}

Para una oración, identifique los **POS tags**. Determine su frecuencia.

Ahora para un **mini-corpus** identifique los **POS tags**. Determine su **frecuencia** en el corpus.  

Identifique el **id** de la raíz y la **forma** asociada.

Desordene **aleatoriamente las dependencias de las oraciones.** Use

In [3]:
import random

A = [1,2,3]

A_random = random.sample(A,len(A))

In [4]:
A_random

[3, 1, 2]

Cree 100 versiones aleatorias de las dependencias de una oración. Guárdelas en una lista. 

Calcule las distancias entre **cada token** y la **raiz (head)**. Suponga que el número de tokens es $n$. Si las palabras sucesivas están numeradas desde la palabra 1, luego 2, hasta la palabra $n$, la **distancia** entre dos palabras en posiciones $i$ y $j$ se define como $|i-j|$. 

Calcule el **largo de dependencias** **promedio**, **máximo** y **mínimo**. 

[Paper :)](liu-dependencies-2017.pdf)

[otro paper :)](W19-7911.pdf)