In [68]:
from utils import get_corpus, WordsToLetter
from pprint import pprint
from functools import reduce
original_corpus = get_corpus('corpus_otomi_original')
hard_corpus = get_corpus('corpus_hard')

corpora = original_corpus + hard_corpus

In [14]:
# Funciones auxiliares

def count_occurrence(bag, _type):
    if _type in bag.keys():
        bag[_type] += 1
    else:
        bag[_type] = 1
    return bag

def dict_sorter(data):
    # Ref https://stackoverflow.com/questions/613183/how-do-i-sort-a-dictionary-by-value
    return {k: v for k, v in sorted(data.items(), key=lambda item: item[1], reverse=True)}

In [2]:
def get_tokens(corpus):
    gloss_tags, pos_tags = dict(), dict()
    for frases in corpus:
        for frase in frases:
            for parte in frase[:-1]:    
                gloss_tags = count_occurrence(gloss_tags, parte[1])
            pos_tags = count_occurrence(pos_tags, frase[-1])
    return dict_sorter(pos_tags), dict_sorter(gloss_tags)

In [25]:
def get_bio_tokens(corpus):
    bio_tokens = dict()
    frases = WordsToLetter(corpus)
    for frase in frases:
        for letras in frase:
            for letra in letras:
                bio_tokens = count_occurrence(bio_tokens, letra[-1])  # Only Bio Label
    return dict_sorter(bio_tokens)

In [21]:
def report(data):
    for k, i in data.items():
        print(k, "\t\t", i)

In [94]:
# Obteniedo datos del corpus
pos, gloss = get_tokens(corpora)
bio = get_bio_tokens(corpora)

pos_types = pos.keys()
gloss_types = gloss.keys()
bio_types = bio.keys()

In [67]:
# Reportando tamaño de tipos y tokens

print("Frases etiquetadas corpus original:", len(original_corpus))
print("Frases etiquetadas corpus retador:", len(hard_corpus))
print("Frases etiquetadas totales:", len(corpora))

print("Numero de tokens POS:", reduce(lambda x, y: x + y, pos.values()))
print("Numero de tipos POS:", len(pos_types))

print("Numero de tokens GLOSA:", reduce(lambda x, y: x + y, gloss.values()))
print("Numero de tipos GLOSA:", len(gloss_types))

Frases etiquetadas corpus original: 1705
Frases etiquetadas corpus retador: 81
Frases etiquetadas totales: 1786
Numero de tokens POS: 8578
Numero de tipos POS: 44
Numero de tokens GLOSA: 14477
Numero de tipos GLOSA: 112


In [88]:
def types_to_table(data, columns):
    return "".join([t + " \\\\\n " if i % columns == 0 else t + " & " for i, t in enumerate(data, start=1)])

def tokens_to_table(data, limit=0):
    table = ""
    if limit:
        counts = list(data.items())[:limit]
    else:
        counts = data.items()
    for key, count in counts:
        table += f"{key} & {count} \\\\\n"
    return table

In [91]:
# Cuenta de Bio Labels a cuerpo de tabla latex 
print(tokens_to_table(bio, limit=10))

I-stem & 21934 \\
B-stem & 7527 \\
I-det & 1469 \\
I-lim & 1092 \\
B-det & 733 \\
I-det.pl & 553 \\
I-dem & 485 \\
B-3.cpl & 450 \\
I-3.cpl & 450 \\
B-psd & 418 \\



In [92]:
# Cuenta de etiquetas POS a cuerpo de tabla latex 
print(tokens_to_table(pos, limit=10))

v & 2596 \\
obl & 2447 \\
det & 975 \\
cnj & 837 \\
dem & 543 \\
unkwn & 419 \\
n & 273 \\
neg & 178 \\
p.loc & 81 \\
prt & 49 \\



In [93]:
# Cuenta de etiquetas de glosa a cuerpo de tabla latex 
print(tokens_to_table(gloss, limit=10))

stem & 7527 \\
det & 733 \\
3.cpl & 450 \\
psd & 418 \\
lim & 374 \\
prag & 362 \\
3.icp & 346 \\
lig & 289 \\
det.pl & 271 \\
1.icp & 270 \\



In [78]:
# Tipos de etiquetas POS a cuerpo de tabla Latex 
print(types_to_table(pos_types, 5))

v & obl & det & cnj & dem \\
 unkwn & n & neg & p.loc & prt \\
 conj.adv & dim & gen & cond & it \\
 lim & aff & loc & pascuala & toluca \\
 chente & dec & conj & chalma & mexico \\
 tapanco & cord & san & cnj.adv & regular/v \\
 adv & juan & andrés & buena.vista & nada.más \\
 zapata & calvario & bautisterio & adj & cristo \\
 emilio & pato & luis & mextepec & 


In [79]:
# Tipos de etiquetas de glosa a cuerpo de tabla Latex 
print(types_to_table(gloss_types, 7))

stem & det & 3.cpl & psd & lim & prag & 3.icp \\
 lig & det.pl & 1.icp & 3.pot & ctrf & 1.pot & pl.exc \\
 1.cpl & dem & 1.pss & dim & pl & 1.obj & ila \\
 2.icp & 1.prf & 3.cnt & 3.obj & loc & mod & 1.cnt \\
 3.pls & muy & prt & it & dual.exc & 3.prf & 3.icp.irr \\
 3.pss & 2.pss & 1.enf & med & dual & p.loc & 2.cnt \\
 2 & 3.imp & int & neg & 1.icp.irr & 1.cpl.irr & 2.obj \\
 pues & que & aum & 1.pls & y & 2.cpl & toluca \\
 2.prf & aqui & gen & hasta & com & 2.pot & adj \\
 cuando & cond & como & 3.cpl.irr & 1.sg & encl & por.que \\
 solo & agujerear/v & mientras & 3.sg & uno & 3.pss.pl & spt \\
 mexico & 1.irr & mucho & 2.enf & conj.adv & pueblo & animal.de.dios \\
 caus & tiempo & con & lugar/v & chico & eh & para \\
 comp & prf & dónde & dist & mov & pascuala & 3.irr \\
 loco & coraje & si & det.dem & dcl & nom & chente \\
 vez & rapido & maria & 2.icp.irr & tal.vez & mujer/v & dios \\
 


In [98]:
# Tipos de etiquetas BIO a cuerpo de tabla Latex 
print(types_to_table(bio_types, 6))

I-stem & B-stem & I-det & I-lim & B-det & I-det.pl \\
 I-dem & B-3.cpl & I-3.cpl & B-psd & B-lim & I-prag \\
 B-prag & B-3.icp & B-lig & I-dim & B-det.pl & B-1.icp \\
 I-1.icp & I-ila & B-3.pot & I-3.pot & B-ctrf & I-ctrf \\
 B-1.pot & I-1.pot & B-pl.exc & I-pl.exc & B-1.cpl & I-1.cpl \\
 B-dem & I-1.cnt & I-pl & B-1.pss & I-1.pss & I-muy \\
 I-3.cnt & I-loc & B-dim & I-mod & B-pl & B-1.obj \\
 I-1.obj & B-ila & B-2.icp & I-2.icp & B-1.prf & I-1.prf \\
 B-3.cnt & I-prt & I-3.obj & B-3.obj & B-loc & B-mod \\
 B-1.cnt & I-3.pss & B-3.pls & I-3.pls & B-muy & B-prt \\
 I-toluca & B-it & I-it & B-dual.exc & I-dual.exc & B-3.prf \\
 I-3.prf & B-3.icp.irr & I-3.icp.irr & I-2.cnt & B-3.pss & I-3.imp \\
 B-2.pss & I-2.pss & I-neg & I-1.icp.irr & B-1.enf & I-1.enf \\
 B-med & B-dual & I-dual & I-2.obj & I-aum & B-p.loc \\
 I-p.loc & B-2.cnt & B-2 & I-2 & I-int & B-3.imp \\
 B-int & B-neg & B-1.icp.irr & B-1.cpl.irr & I-1.cpl.irr & B-2.obj \\
 I-3.icp & I-gen & I-aqui & B-pues & I-pues & B-que \\