## Álvaro Sánchez Castañeda.

# Identificador de Idioma.

### Introducción

 Nuestro objetivo es construir un algoritmo que clasifique un texto según el idioma en el que esté escrito. Para ello disponemos de corpus paralelos proporcionados por el Parlamento Europeo: http://www.statmt.org/europarl/. 

 Se ha creado un algoritmo que recibe un conjunto de entrenamiento formado por textos, y sus respectivos lenguajes. Sobre dicho conjunto "entrena"(modifica su comportamiento interno para poder predecir los elementos del conjunto de entrenamiento). Una vez "entrenado" el algoritmo, podemos usarlo para predecir el idioma de un nuevo fragmento de texto.

Tener en cuenta que, al estar usando texto sacado del parlamento europeo como entrenamiento y test, solo tenemos garantizado que este algoritmo funcionara bien sobre textos con caracteristicas similares: longitud corta de texto, terminologia, etc.

### Librerias y datos.

En primer lugar, carguemos algunas librerias útiles para este problema:

In [1]:
import nltk
import random
import time
import pickle

 Lo siguiente que podemos hacer, es construir los conjuntos de entrenamiento y test. Una primera idea para trabajar con nuestros datos puede ser trabajar directamente sobre los corpus, el problema es que sabemos de que idioma es un texto por el corpus al que pertenece. Se puede trabajar así, pero parece mas natural definir una estructura que contenga cada elemento de texto, y su respectivo idioma. 

 Se ha tratado de crear una base de datos mediante el uso de pandas, pero todos los procesos parecian muy costosos computacionalmente. De este modo, se ha optado por crear una lista formada a su vez por listas, las cuales contienen en la primera posición un fragmento de texto, y en la segunda el idioma al que pertenecen.
 
 Adjuntaré un script de python en el que esta el proceso para crear estas listas, pero aquí no nos centraremos en eso. Simplemente cargaremos las listas de entrenamiento y test creadas (estarán incluidas en el archivo que le envíe, dado que el conjunto test pesa mucho, le he enviado solo una parte). 
 
 Es recomendable que cada idioma aparezca mas o menos el mismo numero de veces en el conjunto de entrenamiento.

In [2]:
with open ("D:\\corpus_PLN1\\prueba_loop_borrar\\lista_train.txt", 'rb') as fp:#Put the path of the train.
    train = pickle.load(fp)
    
with open ("D:\\corpus_PLN1\\prueba_loop_borrar\\lista_test.txt", 'rb') as fp:#Put the path of the test.
    test = pickle.load(fp)

A su vez, necesitaremos una lista con los idiomas que vamos a usar en codigo ISO 639-1. Esto se usará internamente en el algoritmo, y servirá de referencia para usar las matrices de confusión.

In [3]:
languages=['en','bg','cs','da','de','el','es','et','fi','fr','hu','it','lv','nl','pl','pt','ro','sk','sl','sv']

### Algoritmo.

Pasemos a definir la clase que contendrá nuestro algoritmo. Dicha clase se basa en un diccionario con palabras sacadas de los corpus como claves, y listas de "pesos" en cada idioma (relaccionados con la lista languages) como valores.

Para inicializar dicha clase tenemos que incluir los posibles idiomas (languages), el diccionario de los pesos (podemos tomarlo vacio, y que despues lo construya), y el metodo que usará el algoritmo por defecto para predecir (method),esto ultimo se explicara posteriormente.

In [4]:
class Rosetta:    
    def __init__(self, words,languages, method='sum'):            
        #We save a count of words in a dictionary.
        self.words = words
        self.languages=languages
        self.method=method
             
    def predict(self, p, method=None):
        if method==None:
            method=self.method
        
        if method=='sum':
            return (self.predict_sum(p))
        if method=='prob':
            return (self.predict_prob(p))
        if method=='abs':
            return (self.predict_abs(p))        
        
    def predict_prob(self,p):
        #This method multiply the probs of each word.
        #predict_sum works better (problems with words with prob almost zero) 
        n_lgj=len(self.languages)
        w_list= nltk.word_tokenize(p)
        prob=[1 for i in range (n_lgj)]
        for w in w_list:
            if [x  for x in w if x in '.,123456789']==[]:
                for w2 in self.words:
                    if w==w2:
                        prob_w=[min(x / sum(self.words[w2]), 0.01) for x in self.words[w2]]
                        prob=[prob_w[i]*prob[i] for i in range(n_lgj)]
        return self.languages[prob.index(max(prob))]
                            
    def predict_sum(self,p):
        #This method sum the probs of each word.
        n_lgj=len(self.languages)
        w_list= nltk.word_tokenize(p)
        prob=[1 for i in range (n_lgj)]
        for w in w_list:
            if [x  for x in w if x in '.,123456789']==[]:
                for w2 in self.words:
                    if w==w2:
                        prob_w=[x / sum(self.words[w2]) for x in self.words[w2]]
                        prob=[prob_w[i]+prob[i] for i in range(n_lgj)]
        return self.languages[prob.index(max(prob))]

    def predict_abs(self,p):
        #This method works using the absolute frequency..
        n_lgj=len(self.languages)
        w_list= nltk.word_tokenize(p)
        prob=[1 for i in range (n_lgj)]
        for w in w_list:
            if [x  for x in w if x in '.,123456789']==[]:
                for w2 in self.words:
                    if w==w2:
                        prob_w=self.words[w2]
                        prob=[prob_w[i]+prob[i] for i in range(n_lgj)]
        return self.languages[prob.index(max(prob))]
    
                            
    def predict_retro(self,p, method=None):
        if method==None:
            method=self.method
        #This method sum the probs of each word.
        #Also, we tray to improve te model when we predict.
        
        #In this block we predict.
        n_lgj=len(self.languages)
        w_list= nltk.word_tokenize(p)
        prob=[1 for i in range (n_lgj)]
        pred=self.predict(p, method=method)
        pos_lgj=self.languages.index(pred)
        
        #In this block we 'train'.
        for w in w_list:
            if [x  for x in w if x in '.,123456789']==[]:
                if w not in (self.words).keys():
                    self.words [w]=[0 if i!= pos_lgj else 1 for i in range(n_lgj)]
                else:
                    self.words [w][pos_lgj]+=1
        
        return self.languages[prob.index(max(prob))] 

    def predict_by_phrases(self,t,method=None):
        #We have a text t, we do the mean the predictions of each prhase in t.
        if method==None:
            method=self.method
        p_list=nltk.sent_tokenize(t)
        ph_list=[]
        for p in p_list:
            ph_list=ph_list+[x   for x in p.split('"') if x != '']
        pred_list=[]
        for p in ph_list:
            pred_list.append(self.predict(p,method=method))
        d=nltk.FreqDist(pred_list)
        return (max(d, key=d.get),[[i,j]for i,j in zip (ph_list,pred_list)])
         
    def pseudo_train(self,data):
        n_lgj=len(self.languages)
        for l in data:
            for w in nltk.word_tokenize(l[0]):
                pos_lgj=self.languages.index(l[1])
                if w not in (self.words).keys():
                    self.words [w]=[0 if i!= pos_lgj else 1 for i in range(n_lgj)]
                else:
                    self.words [w][pos_lgj]+=1
      
    def train(self, data,a=1, method=None):
        #a is the number wich is added or substracted in the dictionary words
        start_time = time.time()
        if method==None:
            method=self.method
        n_lgj=len(self.languages)
        for l in data:
            real_ln=l[1]
            pos_lgj=self.languages.index(real_ln)
            pred_ln=self.predict(l[0], method=method)
            if real_ln != pred_ln:
                for w in nltk.word_tokenize(l[0]):
            
                    if w not in (self.words).keys():
                        self.words [w]=[0 if i!= pos_lgj else a for i in range(n_lgj)]
                    else:
                        self.words [w][pos_lgj]+= 2*a
                        for i in range(n_lgj):
                            if self.words [w][i] >= a:
                                self.words [w][i]+= -a
                            else:
                                self.words [w][i]=0
                                
            else:
                for w in nltk.word_tokenize(l[0]):
            
                    if w not in (self.words).keys():
                        self.words [w]=[0 if i!= pos_lgj else a for i in range(n_lgj)]
                    else:
                        self.words [w][pos_lgj]+= a
        print('Se han tardado ',(time.time() - start_time)/60,' minutos.')
        

    def test_mc(self, data ,method=None):
        start_time = time.time()
        if method==None:
            method=self.method
        n_lgj=len(self.languages)
        mc=[[0 for i in range(n_lgj)] for i in range(n_lgj)]
        for l in data:
            real_ln=l[1]
            pred_ln=self.predict(l[0],method=method)
            mc[self.languages.index(real_ln)][self.languages.index(pred_ln)] +=1
        print('Se han tardado ',(time.time() - start_time)/60,' minutos.')
        return (mc)
    
        
    def test_mc_by_phrases(self, data,method=None):
        start_time = time.time()
        if method==None:
            method=self.method
        start_time = time.time()
        n_lgj=len(self.languages)
        mc=[[0 for i in range(n_lgj)] for i in range(n_lgj)]
        for l in data:
            real_ln=l[1]
            pred_ln=self.predict_by_phrases(l[0], method=method)[0]
            mc[self.languages.index(real_ln)][self.languages.index(pred_ln)] +=1
        print('Se han tardado ',(time.time() - start_time)/60,' minutos.')
        return (mc)

### Explicación del algoritmo.

Tenemos tres tipos de funciones: predictoras (predict), de entrenamiento (train), y unas ultimas para construir la matriz de confusión sobre datos test (test_mc).

Tenemos tres metodos de predicción. 'sum':Para las palabras del texto a predecir, sumamos cada peso(contenido en el diccionario words) dividido por la suma de los pesos de dicha palabra para cada uno de los posibles idiomas. Una vez echo esto para cada idioma, clasificamos el texto como aquel que tiene una suma mayor. Si el diccionario contiene las frecuencias absolutas de las palabras para cada idioma, este metodo simplemente suma las frecuencias relativas de dicha palabra para cada idioma.

'prob': funciona igual que 'sum', salvo por que en lugar de sumar los pesos, los multiplicamos. Si el diccionario contiene las frecuencias absolutas de las palabras para cada idioma, estamos calculando las probabilidades de que la frase pertenezca a cada idioma (asumiendo que la aparicion de dos palabras cuales quiera son sucesos independientes, lo cual no es cierto). El metodo 'sum' funciona mejor.

'abs': Funciona igual que sum, salvo que no dividimos los pesos que aparecen en el diccionario, simplemente los sumamos. Es el que peor funciona, pues dará mas peso a las palabras que mas aparecen, las cuales no tienen por que ser las mas determinantes para clasificar.

 Por ultimo, hay definidas otras dos funciones predictoras: Predict_retro ademas de predecir, modifica los pesos de las palabras del texto a clasificar, aumentandolos para el idioma predicho, y disminuyendolos para el resto. El objetivo es que se retroalimente el algoritmo. Por ejemplo, si tenemos una frase con una palabra desconocida, pero la clasifica bien. Es razonable pensar que esa palabra pertenece a dicho idioma, y así lo "aprenderá" el algoritmo.
 
 La ultima función predictora clasifica cada una de las frases del texto a predecir. El objetivo seria buscar menciones que aparezcan en otros idiomas y cosas por el estilo.
 
 Probemos algunos de estos algoritmos predictores, pero antes necesitaremos usar el metodo pseudo_train (que calcula las frecuencias absolutas de las palabras de train en cada idioma).

In [5]:
ej=Rosetta({},languages=languages)
ej.pseudo_train(train)

In [6]:
ej.predict('Hola mundo.')

'es'

In [7]:
ej.predict('Hello wordld.', method='prob')

'en'

In [8]:
ej.predict('Salut monde.', method='abs')

'fr'

Por defecto usamos el metodo 'sum'. 

El algoritmo ya funciona, pero podemos tratar de mejorarlo usando un diccionario cuyos pesos se modifiquen tratando de predecir bien el conjunto train, en vez de contener las frecuencias absolutas. Para esto definimos el metodo train, recive el conjunto de entrenamiento (data), el metodo de predicción (method), y un numero que se usara para modificar los pesos (a). Para cada texto del conjunto de entrenamiento predecimos (usando el metodo que queramos), si acertamos añadimos a al peso de cada una de las palabras para el idioma del texto. Si fallamos, añadimos a a los pesos del idioma real, y restamos a al resto.

Podemos entrenar directamente el modelo inicializado con el diccionario vacio, o podemos entrenarlo partiendo del diccionario de las frecuencias absolutas.

Lo recomendable es usar el conjunto train completo, pero como el objetivo ahora es ilustrar el funcionamiento de la clase, podemos tomar un subconjunto.

In [9]:
train_aux=[ train[i] for i in random.sample(list(range(len(train))), 1000)]
ej.train(train_aux, a=2)

Se han tardado  4.433675726254781  minutos.


Ahora podemos usar un conjunto test y ver que tal predice este modelo viendo su matriz de confusión.

In [10]:
test_aux=[ test[i] for i in random.sample(list(range(len(test))), 1000)]
mc=ej.test_mc(test_aux)

Se han tardado  4.70621060927709  minutos.


In [11]:
print(languages)
mc

['en', 'bg', 'cs', 'da', 'de', 'el', 'es', 'et', 'fi', 'fr', 'hu', 'it', 'lv', 'nl', 'pl', 'pt', 'ro', 'sk', 'sl', 'sv']


[[77, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 23, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 15, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 77, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 63, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 51, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 90, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 27, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 63, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 76, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 15, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 70, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 27, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 97, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 20, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,

Podemos definir una función que de el porcentaje de acierto atraves de la matriz de confusión.

In [12]:
def tasa_acierto(mc):
    error=sum([ mc[i][j]  for  i in range(len(languages)) for j in range (len(mc[0])) if i != j])
    acierto=sum([ mc[i][j]  for  i in range(len(languages)) for j in range (len(mc[0])) if i == j])  
    return (acierto/(acierto+error))

In [13]:
tasa_acierto(mc)

0.989

Por ultimo, veamos como funciona el metodo predict_by_phrases: 

Este nos devuelve una lista de dos elementos, el segundo elemento a su vez es una lista que contiene fragmentos del texto, y predicciones del idioma de los respectivos fragmentos. Para averiguar cual es idioma del texto completo, tomamos el idioma mas frecuente para los fragmentos, y lo devolvemos en la primera posición de la lista.

In [14]:
ej.predict_by_phrases("Hola, ¿que tal estas?. I'm really well.")

('es', [['Hola, ¿que tal estas?.', 'es'], ["I'm really well.", 'en']])

In [15]:
ej.predict_by_phrases('El nos dijo: "hey, what are you doing?"')

('es', [['El nos dijo: ', 'es'], ['hey, what are you doing?', 'en']])

Veamos una matriz de confusion resultante de aplicar este metodo sobre un conjunto test.

In [16]:
mc2=ej.test_mc_by_phrases(test_aux)

Se han tardado  4.688563215732574  minutos.


In [17]:
print(tasa_acierto(mc2))
print(languages)
mc2

0.985
['en', 'bg', 'cs', 'da', 'de', 'el', 'es', 'et', 'fi', 'fr', 'hu', 'it', 'lv', 'nl', 'pl', 'pt', 'ro', 'sk', 'sl', 'sv']


[[77, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 23, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 15, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 74, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2],
 [0, 0, 0, 0, 63, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 51, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 90, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 27, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 63, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 76, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 15, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 70, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 27, 0, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 97, 0, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 20, 0, 0, 0, 0, 0],
 [1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,

### Resultados con un conjunto test de tamaño 10000.

Por ultimo, entrenemos el modelo con todos los datos train, y usemos una mayor cantidad de datos test.

In [18]:
algoritmo=Rosetta({},languages=languages)
algoritmo.train(train, a=3)
mc=algoritmo.test_mc(test)
print(tasa_acierto(mc))
print(languages)
mc

Se han tardado  36.62121630907059  minutos.
Se han tardado  47.006208284695944  minutos.
0.9903
['en', 'bg', 'cs', 'da', 'de', 'el', 'es', 'et', 'fi', 'fr', 'hu', 'it', 'lv', 'nl', 'pl', 'pt', 'ro', 'sk', 'sl', 'sv']


[[774, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0],
 [0, 165, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [2, 0, 248, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1],
 [6, 0, 0, 762, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 2],
 [0, 0, 0, 0, 709, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0],
 [0, 0, 0, 0, 0, 457, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0],
 [5, 0, 0, 0, 0, 0, 751, 0, 0, 0, 0, 0, 0, 1, 0, 4, 0, 0, 1, 1],
 [3, 0, 0, 0, 0, 0, 0, 257, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 [6, 0, 0, 1, 0, 0, 0, 0, 692, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
 [4, 0, 0, 0, 0, 0, 0, 0, 0, 754, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0],
 [2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 248, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [2, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 743, 0, 0, 0, 0, 0, 0, 0, 0],
 [2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 264, 0, 0, 0, 0, 0, 0, 0],
 [5, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 739, 0, 0, 0, 0, 1, 1],
 [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 265, 0, 0, 0, 0, 0],
 [4, 0, 0, 0, 0, 0, 0, 0,

Veamos la matriz de confusión, pero usando predict_by_phrases.

In [19]:
mc_p=algoritmo.test_mc_by_phrases(test)
print(tasa_acierto(mc_p))
print(languages)
mc_p

Se han tardado  47.099146687984465  minutos.
0.9876
['en', 'bg', 'cs', 'da', 'de', 'el', 'es', 'et', 'fi', 'fr', 'hu', 'it', 'lv', 'nl', 'pl', 'pt', 'ro', 'sk', 'sl', 'sv']


[[774, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0],
 [0, 165, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [2, 0, 248, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 1],
 [11, 0, 1, 748, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 3, 7],
 [1, 0, 0, 0, 708, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0],
 [0, 0, 0, 0, 0, 455, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 2, 1],
 [5, 0, 0, 0, 1, 0, 750, 0, 0, 0, 0, 0, 0, 1, 0, 4, 0, 0, 1, 1],
 [3, 0, 0, 0, 0, 0, 0, 257, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 [6, 0, 0, 1, 0, 0, 0, 0, 692, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
 [5, 0, 0, 0, 0, 0, 0, 0, 0, 753, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0],
 [2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 248, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [2, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 743, 0, 0, 0, 0, 0, 0, 0, 0],
 [3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 263, 0, 0, 0, 0, 0, 0, 0],
 [7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 737, 0, 0, 0, 0, 1, 1],
 [2, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 262, 0, 0, 0, 0, 1],
 [4, 0, 0, 0, 0, 0, 0, 0