In [1]:
from pandas import set_option, read_csv
from numpy import array, float64

__author__ = "Olivares Castillo José Luis"

In [2]:
# Se establece la precisión con la que Pandas lee el archivo para evitar que
# trunque el valor de los vectores
set_option('display.max_colwidth', -1)
set_option('precision', 18)

In [3]:
def load_node2vec():
    """
    Esta función lee los archivos para almacenar los vectores node2vec del español
    y náhuatl los retorna en dataframes de Pandas.
    
    Returns:
        Pandas.dataframe (2): dataframes con palabras/node2vec.
    """

    es = read_csv("../vectors/es.node2vec.embeddings",delimiter=" ", skiprows=1, header=None)
    nah = read_csv("../vectors/na.node2vec.embeddings",delimiter=" ", skiprows=1, header=None)

    return es, nah

In [4]:
es, na = load_node2vec()

In [26]:
def get_dataframe_index(dataframe, palabra):
    """
    Obtiene el índice dentro del dataframe de la palabra si es que
    se existe, sino retorna falso.
    
    Args:
        dataframe(Pandas.dataframe): Contiene palabras y sus n2v.
        palabra(string): Palabra a buscar dentro del dataframe
    
    Returns:
        index (int): Retorna el índice si existe, sino retorna 0.
    """
    index_esp = [int(es[es[0] == i].index.get_values()) for i in semillas_esp
                 if int(es[es[0] == i].index.get_values().__len__()) == 1]
    
    if int(dataframe[dataframe[0] == palabra].index.get_values().__len__()) == 1:
        return int(dataframe[dataframe[0] == palabra].index.get_values())
    return 0

In [27]:
print(get_dataframe_index(es,"perro"))
print(get_dataframe_index(es,"no"))

728
0


In [28]:
def get_seed_index(lexicon_seed_input, lexicon_seed_target):
    """
    Esta función obtiene los índices de las palabras semillas de los
    dataframes.
    Args:
        lexicon_seed_input (Dataframe): Contiene vectores n2v de español.
        lexicon_seed_target (Dataframe): Contiene vectores n2v de náhuatl.
        
    Returns:
        list (2): Listas con índices de las palabras semillas.
    """

    # Dataframe que contiene las palabras semilla para entrenamiento.
    lexiconsemilla = read_csv("../lexiconessemilla/lexicon.esna.proc.norep.tmp2",
                              delimiter=" ",
                              names=["esp", "nah"])

    # Se almacenan las palabras semillas de español y náhuatl en listas.
    semillas_esp = list(lexiconsemilla["esp"].values)
    semillas_nah = list(lexiconsemilla["nah"].values)
    print(semillas_esp.__len__(), semillas_nah.__len__())

    # Se buscan los índices de las palabras semilla en los dataframes para obtener sus
    # representaciones vectoriales.
    # Nota: Se omite la palabra semilla si no existe su representación vectorial.
    index_esp = [int(es[es[0] == i].index.get_values()) for i in semillas_esp
                 if int(es[es[0] == i].index.get_values().__len__()) == 1]
    
    index_esp = [get_dataframe_index(lexicon_seed_input,palabra) for palabra in semillas_esp
                if get_dataframe_index(lexicon_seed_input,palabra) is not 0]
    index_nah = [get_dataframe_index(lexicon_seed_target,palabra) for palabra in semillas_nah
                if get_dataframe_index(lexicon_seed_input,palabra) is not 0]
    
    return index_esp, index_nah

In [29]:
index_esp, index_nah = get_seed_index(es,na)
print(index_esp.__len__(), index_nah.__len__())

553 553
540 46


In [30]:
def get_seed_index(es,nah):
    """
    Esta función obtiene los índices de las palabras semillas de los
    dataframes.
    Args:
        es (Dataframe): Contiene vectores n2v de español.
        nah (Dataframe): Contiene vectores n2v de náhuatl.
        
    Returns:
        list (2): Listas con índices de las palabras semillas.
    """

    # Dataframe que contiene las palabras semilla para entrenamiento.
    lexiconsemilla = read_csv("../lexiconessemilla/lexicon.esna.proc.norep.tmp2",
                              delimiter=" ",
                              names=["esp", "nah"])

    # Se almacenan las palabras semillas de español y náhuatl en listas.
    semillas_esp = list(lexiconsemilla["esp"].values)
    semillas_nah = list(lexiconsemilla["nah"].values)

    # Se buscan los índices de las palabras semilla en los dataframes para obtener sus
    # representaciones vectoriales.
    # Nota: Se omite la palabra semilla si no existe su representación vectorial.
    index_esp = [int(es[es[0] == i].index.get_values()) for i in semillas_esp
                 if int(es[es[0] == i].index.get_values().__len__()) == 1]
    
    index_nah = [int(nah[nah[0] == i].index.get_values()) for i in semillas_nah
                 if int(nah[nah[0] == i].index.get_values().__len__()) == 1]

    return index_esp, index_nah

In [31]:
index_esp, index_nah = get_seed_index(es,na)
print(index_esp.__len__(), index_nah.__len__())

540 540


In [9]:
type(index_esp)

list

In [10]:
def get_vectors(dataframe, index, format=float64):
    """
    Retorna los vectores dentro del dataframe.
    
    Args:
        dataframe(Pandas.dataframe): Contiene las palabras y su representación vectorial.
        index (list): Contiene los índices que se necesitan del dataframe
    
    Returns:
        Numpy array: Matriz con representaciones vectoriales.
    """
    return array([(dataframe.iloc[_].loc[1::])
                  for _ in index]).astype(float64)
    
    

In [11]:
es_vectores = get_vectors(es,index_esp)
na_vectores = get_vectors(na,index_nah)