# Modelo de lenguaje

Se busca realizar un modelo de lenguaje mu=(A,B,PI) a partir del corpus ✭✭corpus entrenamiento.txt✮✮.
Para realizar el ejercicio se tuvieron que limpiar los datos. Los problemas que se encontraron fueron:

* Cuando la palabra "document" se refería a un token pero aparecía como si estuviera describiendo el inicio de un documento.
* Dobles comillas.
* Falta de alguna coma.

Una vez que se tuvieron los datos limpios se procedió a cargarlo en archivo *.txt* sin embargo cuando se trató de cargar los datos en formato *json* se tuvieron varios problemas. Por tal motivo se transformó a un archivo *.jsonline* que en cada una de sus filas contiene una relación de token_tag.

### Se importan las librerías necesarias

In [1]:
import json
import numpy as np
import codecs

### Se carga el archivo que contiene las relaciones token_tag

In [2]:
data = []
with codecs.open('token_tag.jsonlines') as tok_tag:
    for line in tok_tag:
        data.append(json.loads(line.lower()))

Las siguientes listas se nombran *_dict para poder utilizar posteriormente `dict.has_key`

In [3]:
token_dict ={}
tag_dict ={}

Tokens y tags diferentes

In [4]:
for item in data:
    if tag_dict.has_key(item['tag']):
        tag_dict[item['tag']]= tag_dict[item['tag']]+1
    else:
        tag_dict[item['tag']] = 1
        
    if token_dict.has_key(item['token']):
        token_dict[item['token']]= token_dict[item['token']]+1
    else:
        token_dict[item['token']]= 1

### Se ordenan los tokens y tags

In [5]:
tags=sorted(tag_dict.keys())
tokens = sorted(token_dict.keys())

In [6]:
tags

[u'ao',
 u'aq',
 u'cc',
 u'cs',
 u'da',
 u'dd',
 u'di',
 u'dp',
 u'fa',
 u'fc',
 u'fd',
 u'fe',
 u'fg',
 u'fh',
 u'fi',
 u'fl',
 u'fp',
 u'fr',
 u'fs',
 u'fx',
 u'fz',
 u'i',
 u'nc',
 u'np',
 u'p0',
 u'pd',
 u'pi',
 u'pp',
 u'pr',
 u'pt',
 u'px',
 u'rg',
 u'rn',
 u'sp',
 u'va',
 u'vm',
 u'vs',
 u'z']

In [7]:
tokens

[u'!',
 u'"',
 u'(',
 u')',
 u',',
 u',2',
 u',45',
 u',51',
 u'-',
 u'.',
 u'...',
 u'.23',
 u'.32',
 u'.74',
 u'/',
 u'0,432',
 u'000',
 u'1',
 u'10',
 u'100',
 u'11',
 u'116',
 u'12',
 u'12.1',
 u'12.2',
 u'13',
 u'13.1',
 u'13.2',
 u'14',
 u'14.1',
 u'14.2',
 u'15',
 u'16',
 u'17',
 u'18',
 u'1879',
 u'1886',
 u'19',
 u'1913',
 u'1922',
 u'1925',
 u'1972',
 u'1983',
 u'1988,2',
 u'1993',
 u'2',
 u'20',
 u'200',
 u'2010',
 u'2013',
 u'218',
 u'26',
 u'27',
 u'273-232',
 u'29',
 u'29.\xaa',
 u'299',
 u'3',
 u'3.1',
 u'3.2',
 u'300',
 u'32',
 u'35',
 u'383',
 u'4',
 u'4.1',
 u'4.2',
 u'4.3',
 u'4.4',
 u'4.5',
 u'4.6',
 u'4.7',
 u'4.8',
 u'4.9',
 u'40',
 u'400',
 u'411',
 u'44',
 u'45',
 u'45,72',
 u'46',
 u'483',
 u'483-411',
 u'486',
 u'49',
 u'5',
 u'50',
 u'500',
 u'52',
 u'544',
 u'545',
 u'550',
 u'563',
 u'563-483',
 u'59',
 u'6',
 u'60',
 u'7',
 u'8',
 u'80',
 u'84.000',
 u'9',
 u'9.1',
 u'9.2',
 u'9.3',
 u'9.4',
 u':',
 u';',
 u'?',
 u'[',
 u']',
 u'a',
 u'a,i:181',
 u'a_causa

Número de tags diferentes:

In [8]:
a = len(tags)
a

38

Número de tokens diferentes

In [9]:
b = len(tokens)
b

2521

## Se definen los componentes del modelo: A, B, PI

In [10]:
A=np.zeros((a, a))
B=np.zeros((b, a))
PI=np.zeros((a,1))

### Matriz B: matriz de token×tag

In [11]:
for b_d in data:
    i= tokens.index(b_d['token'])    
    j= tags.index(b_d['tag'])    
    B[i][j] = B[i][j] + 1.0
B = np.array(B)
B = [i/sum(i) for i in B] 
B

[array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]),
 array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]),
 array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]),
 array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]),
 array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  0.,
         0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0., 

Se confirma la dimensión de la matriz

In [12]:
np.shape(B)

(2521L, 38L)

* Para obtener la matriz A y el vector PI se requiere el corpus completo

In [13]:
corpus =[]
with codecs.open('corpus_entrenamiento.jsonline') as f:
    for line in f:
        corpus.append(json.loads(line.lower()))

### Matriz de transición: A es una matriz cuadrada de tag × tag.

In [16]:
for document in corpus:
    tag_j=document['document'][0]['tag']
    for i in xrange (1,len(document['document'])):
        tag_i = document['document'][i]['tag']
        A[tags.index(tag_j)][tags.index(tag_i)] +=1
        tag_p = tag_i

A = np.array(A)
A = [i/sum(i) for i in A] 

In [17]:
A

[array([ 0.        ,  0.        ,  0.        ,  0.        ,  0.27272727,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.09090909,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.27272727,  0.09090909,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.27272727,  0.        ,
         0.        ,  0.        ,  0.        ]),
 array([ 0.        ,  0.        ,  0.02941176,  0.08823529,  0.08823529,
         0.        ,  0.02941176,  0.02941176,  0.        ,  0.02941176,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.02941176,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.23529412,  0.02941176,  0.        ,
         0.        ,  0.05882353,  0.        ,  0.        ,  0.        ,
  

Se confirma la dimensión de la matriz

In [18]:
np.shape(A)

(38L, 38L)

### Vector PI (tamaño del número de elementos tag)

In [19]:
for pi in corpus:
    piTag = pi['document'][0]['tag']
    col=tags.index(piTag)
    PI[col]=PI[col]+1
PI=PI/sum(PI)
PI

array([[ 0.00304878],
       [ 0.00304878],
       [ 0.03658537],
       [ 0.01219512],
       [ 0.1402439 ],
       [ 0.01829268],
       [ 0.03353659],
       [ 0.01829268],
       [ 0.        ],
       [ 0.00304878],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.00609756],
       [ 0.        ],
       [ 0.00304878],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.03353659],
       [ 0.29573171],
       [ 0.02134146],
       [ 0.00914634],
       [ 0.00609756],
       [ 0.01219512],
       [ 0.        ],
       [ 0.        ],
       [ 0.        ],
       [ 0.04573171],
       [ 0.00914634],
       [ 0.17073171],
       [ 0.00609756],
       [ 0.08536585],
       [ 0.02743902],
       [ 0.        ]])

Se confirma la dimensión de la matriz

In [20]:
np.shape(PI)

(38L, 1L)