In [1]:
from pandas import set_option, read_csv
from numpy import array, float64

__author__ = "Olivares Castillo José Luis"

In [2]:
# Se establece la precisión con la que Pandas lee el archivo para evitar que
# trunque el valor de los vectores
set_option('display.max_colwidth', -1)
set_option('precision', 18)

In [3]:
def load_node2vec():
    """
    Esta función lee los archivos para almacenar los vectores node2vec del español
    y náhuatl los retorna en dataframes de Pandas.
    
    Returns:
        Pandas.dataframe (2): dataframes con palabras/node2vec.
    """

    es = read_csv("../vectors/es.node2vec.embeddings",delimiter=" ", skiprows=1, header=None)
    nah = read_csv("../vectors/na.node2vec.embeddings",delimiter=" ", skiprows=1, header=None)

    return es, nah

In [4]:
es, na = load_node2vec()

In [5]:
type(es)

pandas.core.frame.DataFrame

In [36]:
def get_seed_index(lexicon_input, lexicon_target, source="training_set"):
    """Esta función obtiene los índices de las palabras semillas de los
    dataframes.
    
    Arguments:
        lexicon_input {Dataframe} -- Contiene vectores n2v de español.
        lexicon_target {Dataframe} -- Contiene vectores n2v de náhuatl.
        source {string} -- Indica si se lee el lexicon semilla o de evaluación.
    
    Returns:
        list (2) -- Listas con índices de las palabras semillas.
    
    TODO:
        Agregar opción para leer set de evaluación o pruebas.
    """
    names = ["esp", "nah"]
    # Se lee el lexicon necesario
    lexiconsemilla = read_csv(
        "../lexiconessemilla/lexicon.esna.proc.norep.tmp2", delimiter=" ", names=names)

    # Se almacenan las palabras semillas de español y náhuatl en listas.
    semillas_esp = list(lexiconsemilla["esp"].values)
    semillas_nah = list(lexiconsemilla["nah"].values)
    
    pares = list(zip(semillas_esp,semillas_nah))
    print(len(semillas_esp),len(semillas_nah),len(semillas_nah))
    
    
    not_found = list()
    for i,palabra_es in enumerate(semillas_esp):
        if lexicon_input[lexicon_input[0] == palabra_es].index.get_values().__len__() == 0:
            not_found.append(i)
    print(not_found)
    
    not_found = tuple(not_found)
    pares = [v for i,v in enumerate(pares) if i not in frozenset(not_found)] 

    print("pares",len(pares))
    del not_found
    not_found = list()
    for i,palabra_na in enumerate(semillas_nah):
        if lexicon_target[lexicon_target[0] == palabra_na].index.get_values().__len__() == 0:
            not_found.append(i)
    print(not_found)
    not_found = tuple(not_found)
    pares = [v for i,v in enumerate(pares) if i not in frozenset(not_found)]
    
    
    del semillas_esp
    del semillas_nah
    semillas_esp, semillas_nah = zip(*pares)
    print("asd",len(semillas_esp),len(semillas_nah))
    
    index_esp = [int(lexicon_input[lexicon_input[0] == palabra].index.get_values())
                 for palabra in semillas_esp
                 if int(lexicon_input[lexicon_input[0] == palabra].index.get_values().__len__()) == 1]
    
    
    index_nah = [int(lexicon_target[lexicon_target[0] == palabra].index.get_values())
                 for palabra in semillas_nah
                 if int(lexicon_target[lexicon_target[0] == palabra].index.get_values().__len__()) == 1]
    
    
    return index_esp, index_nah

i_es, i_na = get_seed_index(es,na)
print(len(i_es),len(i_na))

553 553 553
[6, 23, 54, 98, 110, 139, 140, 254, 390, 468, 531, 533, 541]
pares 540
[23, 54, 71, 87, 139, 140, 166, 254, 295, 337, 468, 516, 531]
asd 527 527
527 521


In [7]:
i_es, i_na = get_seed_index(es,na)

553 553 553
pares 540
asd 527 527


In [8]:
len(i_es)

527

In [9]:
lexiconsemilla = read_csv(
        "../lexiconessemilla/lexicon.esna.proc.norep.tmp2", delimiter=" ", names=["esp", "nah"])

# Se almacenan las palabras semillas de español y náhuatl en listas.
semillas_esp = list(lexiconsemilla["esp"].values)
semillas_nah = list(lexiconsemilla["nah"].values)

pares = list(zip(semillas_esp,semillas_nah))

# Se buscan los índices de las palabras semilla en los dataframes para obtener sus
# representaciones vectoriales.
# Nota: Se omite la palabra semilla si no existe su representación vectorial.


In [10]:
pares.__len__()

553

In [11]:
es[es[0] == 'sal'].index.get_values().__len__()

1

In [12]:
p = ['a','3d','f','1312']

In [13]:
p.remove('a')

In [14]:
p.pop(0)

'3d'

In [15]:
bad=list()

In [16]:
for i,palabra_es in enumerate(semillas_esp):
    if es[es[0] == palabra_es].index.get_values().__len__() == 0:
        bad.append(i)

In [17]:
asd = (2,3,4,5)

In [18]:
type(asd)

tuple

In [19]:
bad = tuple(bad)

In [20]:
bad

(6, 23, 54, 98, 110, 139, 140, 254, 390, 468, 531, 533, 541)

In [21]:
newlex = [v for i,v in enumerate(pares) if i not in frozenset(bad)] 

In [22]:
newlex

[('cebolla', 'xonaca'),
 ('ajo', 'axox'),
 ('kilo', 'ki'),
 ('aquí', 'nican'),
 ('haba', 'ahuax'),
 ('dinero', 'tomin'),
 ('chile', 'chil'),
 ('cucharada', 'xumalli'),
 ('amar', 'tlazohtla'),
 ('año', 'xihuitl'),
 ('sal', 'izta'),
 ('2', 'ome'),
 ('luego', 'niman'),
 ('8', 'chicuey'),
 ('5', 'macuil'),
 ('noche', 'yohual'),
 ('elote', 'elo'),
 ('juan', 'juan'),
 ('vender', 'tlanamaca'),
 ('pedernal', 'tecpa'),
 ('6', 'chicuacen'),
 ('diego', 'diego'),
 ('4', 'nahui'),
 ('llorar', 'choca'),
 ('comal', 'comal'),
 ('vivir', 'nemi'),
 ('manteca', 'chiyahuizotl'),
 ('hongo', 'nanacatl'),
 ('flor', 'xochi'),
 ('nopal', 'nohpal'),
 ('escudo', 'chimal'),
 ('día', 'tonal'),
 ('pollo', 'poyox'),
 ('atole', 'atol'),
 ('zanahoria', 'zanahoria'),
 ('ahora', 'axcan'),
 ('traficante', 'pochteca'),
 ('san', 'san'),
 ('trabajar', 'tequiti'),
 ('morir', 'miqui'),
 ('casa', 'chan'),
 ('cuerpo', 'nacayo'),
 ('carne', 'naca'),
 ('masa', 'textli'),
 ('zapatista', 'zapatista'),
 ('maría', 'maria'),
 ('carlos

In [23]:
semillas_esp1, semillas_nah1 = zip(*newlex)

In [24]:
list(semillas_esp1)

['cebolla',
 'ajo',
 'kilo',
 'aquí',
 'haba',
 'dinero',
 'chile',
 'cucharada',
 'amar',
 'año',
 'sal',
 '2',
 'luego',
 '8',
 '5',
 'noche',
 'elote',
 'juan',
 'vender',
 'pedernal',
 '6',
 'diego',
 '4',
 'llorar',
 'comal',
 'vivir',
 'manteca',
 'hongo',
 'flor',
 'nopal',
 'escudo',
 'día',
 'pollo',
 'atole',
 'zanahoria',
 'ahora',
 'traficante',
 'san',
 'trabajar',
 'morir',
 'casa',
 'cuerpo',
 'carne',
 'masa',
 'zapatista',
 'maría',
 'carlos',
 'arroz',
 'azúcar',
 'después',
 'mañana',
 'ropa',
 'mercado',
 'mucho',
 'mexicano',
 'tamal',
 'mes',
 'guerra',
 'enojar',
 'rico',
 'salir',
 'obispo',
 'viento',
 'ciudad',
 'dialogar',
 'tortilla',
 'camisa',
 'hoja',
 'mi',
 'llanto',
 'cuando',
 'otro',
 'nuevo',
 'dios',
 'naranja',
 'frase',
 'pasar',
 'corazón',
 'húmedo',
 'café',
 'vena',
 'maestro',
 'ayudar',
 'sombrero',
 '1',
 'moctezuma',
 '15',
 'orejera',
 'libro',
 'hambre',
 'gabriel',
 'tecuciztecatl',
 'ancho',
 'ángel',
 'guadalupe',
 'qué',
 'más',
 'm

In [25]:
pares.__len__()

553

In [26]:
int(es[es[0] == 'sal'].index.get_values())

3421

In [27]:
es[es[0] == 'sal']

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,119,120,121,122,123,124,125,126,127,128
3421,sal,-0.266382,0.1116349999999999,-0.241844,-0.167157,0.290115,0.0484749999999999,-0.3739669999999999,-0.377753,-0.059365,...,-0.389741,-0.068305,0.0887209999999999,-0.044017,-0.3649499999999999,0.083082,0.2994979999999999,0.6877809999999999,-0.0528189999999999,-0.291233


In [28]:
index_esp, index_nah= get_seed_index(es,na)
print(index_esp.__len__(), index_nah.__len__())

553 553 553
pares 540
asd 527 527
527 521


In [29]:
list(enumerate(index_esp))

[(0, 734),
 (1, 4199),
 (2, 3508),
 (3, 3047),
 (4, 2645),
 (5, 3174),
 (6, 1157),
 (7, 751),
 (8, 1574),
 (9, 3262),
 (10, 3421),
 (11, 1207),
 (12, 1475),
 (13, 2972),
 (14, 4312),
 (15, 1034),
 (16, 2239),
 (17, 2487),
 (18, 103),
 (19, 2939),
 (20, 2365),
 (21, 2780),
 (22, 1756),
 (23, 602),
 (24, 3149),
 (25, 793),
 (26, 619),
 (27, 1948),
 (28, 3113),
 (29, 1352),
 (30, 3609),
 (31, 2321),
 (32, 3879),
 (33, 1359),
 (34, 1415),
 (35, 2794),
 (36, 3420),
 (37, 2923),
 (38, 3745),
 (39, 948),
 (40, 2650),
 (41, 4071),
 (42, 2347),
 (43, 1143),
 (44, 3212),
 (45, 3637),
 (46, 20),
 (47, 1973),
 (48, 3658),
 (49, 1121),
 (50, 2694),
 (51, 3683),
 (52, 1205),
 (53, 2187),
 (54, 576),
 (55, 1146),
 (56, 2956),
 (57, 37),
 (58, 3676),
 (59, 4262),
 (60, 3442),
 (61, 3756),
 (62, 1772),
 (63, 100),
 (64, 2248),
 (65, 2336),
 (66, 1927),
 (67, 823),
 (68, 2332),
 (69, 3962),
 (70, 443),
 (71, 3863),
 (72, 1389),
 (73, 1269),
 (74, 75),
 (75, 1641),
 (76, 1155),
 (77, 4144),
 (78, 2869),


In [30]:
def get_seed_index(es,nah):
    """
    Esta función obtiene los índices de las palabras semillas de los
    dataframes.
    Args:
        es (Dataframe): Contiene vectores n2v de español.
        nah (Dataframe): Contiene vectores n2v de náhuatl.
        
    Returns:
        list (2): Listas con índices de las palabras semillas.
    """

    # Dataframe que contiene las palabras semilla para entrenamiento.
    lexiconsemilla = read_csv("../lexiconessemilla/lexicon.esna.proc.norep.tmp2",
                              delimiter=" ",
                              names=["esp", "nah"])

    # Se almacenan las palabras semillas de español y náhuatl en listas.
    semillas_esp = list(lexiconsemilla["esp"].values)
    semillas_nah = list(lexiconsemilla["nah"].values)

    # Se buscan los índices de las palabras semilla en los dataframes para obtener sus
    # representaciones vectoriales.
    # Nota: Se omite la palabra semilla si no existe su representación vectorial.
    index_esp = [int(es[es[0] == i].index.get_values()) for i in semillas_esp
                 if int(es[es[0] == i].index.get_values().__len__()) == 1]
    
    index_nah = [int(nah[nah[0] == i].index.get_values()) for i in semillas_nah
                 if int(nah[nah[0] == i].index.get_values().__len__()) == 1]

    return index_esp, index_nah

In [31]:
index_esp, index_nah = get_seed_index(es,na)
print(index_esp.__len__(), index_nah.__len__())

540 540


In [32]:
type(index_esp)

list

In [33]:
def get_vectors(dataframe, index, format=float64):
    """
    Retorna los vectores dentro del dataframe.
    
    Args:
        dataframe(Pandas.dataframe): Contiene las palabras y su representación vectorial.
        index (list): Contiene los índices que se necesitan del dataframe
    
    Returns:
        Numpy array: Matriz con representaciones vectoriales.
    """
    return array([(dataframe.iloc[_].loc[1::])
                  for _ in index]).astype(float64)
    
    

In [34]:
es_vectores = get_vectors(es,index_esp)
na_vectores = get_vectors(na,index_nah)