In [1]:
import os
import io
import json

import numpy as np

from scipy.stats import spearmanr
from gensim.models.keyedvectors import KeyedVectors

import Constant

# Path a carpeta principal
MAIN_FOLDER = Constant.MAIN_FOLDER

# Path a carpeta con los embeddings
EMBEDDING_FOLDER = Constant.EMBEDDING_FOLDER

# Lista con los nombres de los archivos de los embeddings
embedding_name_list = os.listdir(EMBEDDING_FOLDER)

print(">>> Embeddings a evaluar:")
for embedding in embedding_name_list:
    print("     > " + embedding)

def get_wordvector(file, cant=None):
    wordvector_file = EMBEDDING_FOLDER / file

    return KeyedVectors.load_word2vec_format(wordvector_file, limit=cant)


D:\Documents\Memoria - Eval. Word Embeddings\Testing
D:\Documents\Memoria - Eval. Word Embeddings
D:\Documents\Memoria - Eval. Word Embeddings\Embeddings
D:\Documents\Memoria - Eval. Word Embeddings\Datasets
D:\Documents\Memoria - Eval. Word Embeddings\Resultados
D:\Documents\Memoria - Eval. Word Embeddings\TempResultados
>>> Embeddings a evaluar:
     > _fasttext_sbwc.vec
     > _fasttext_suc.vec
     > _fasttext_wiki.vec
     > _glove_sbwc.vec
     > _w2v_sbwc.txt


In [7]:
# Realizacion de test

import SimilarityTest

# Test de similaridad
print(">>> Test de similaridad\n")
for embedding in embedding_name_list:
    print(">>> Testing " + embedding + "\n")
    
    print(">>> Cargando vectores...", end='')
    wordvector = get_wordvector(embedding)
    print("listo\n")
    
    result = SimilarityTest.similarityTest(wordvector, embedding.split('.')[0])


>>> Test de similaridad

>>> Cargando vectores...listo

>>> Testing _fasttext_sbwc.vec

>>> Test individuales
>>> Archivo test: rg65_es.txt
     > Opening file: rg65_es.txt
>>> Not found words:0
    []
     > Cantidad de pares no procesados: 0


>>> Archivo test: semeval17_es.txt
     > Opening file: semeval17_es.txt
>>> Not found words:4
    ['spider-man', 'u2', 'brexit', "mcdonald's"]
     > Cantidad de pares no procesados: 4


>>> Empezando test en conjunto
>>> Not found words:4
    ['spider-man', 'u2', 'brexit', "mcdonald's"]
     > Cantidad de pares no procesados: 4


>>> Resultados
    rg65_es.txt: 0.8204467520617068
    semeval17_es.txt: 0.704972763305767
    all_data: 0.7223296706995783


>>> Saving in _fasttext_sbwc
[['rg65_es.txt', 0.8204467520617068], ['semeval17_es.txt', 0.704972763305767], ['all_data', 0.7223296706995783]]

>>> Cargando vectores...listo

>>> Testing _fasttext_suc.vec

>>> Test individuales
>>> Archivo test: rg65_es.txt
     > Opening file: rg65_es.txt
>>> 

In [3]:
import AnalogyTest

# Test de analogias
print(">>> Test de analogias\n")
for embedding in embedding_name_list:
    print(">>> Testing " + embedding + "\n")
    
    print(">>> Cargando vectores...", end='')
    wordvector = get_wordvector(embedding, 10000)
    print("listo\n")
    
    AnalogyTest.analogyTest(wordvector, embedding.split('.')[0], all_score=True)


>>> Test de analogias

>>> Testing _fasttext_sbwc.vec

>>> Cargando vectores...listo

>>> Testing : _español_D01 [prefijo_anti-].txt
>>> Testing : _español_D02 [prefijo_des-].txt
>>> Testing : _español_D03 [prefijo_in-].txt
>>> Testing : _español_D04 [sufijo_-able].txt
>>> Testing : _español_D05 [sufijo_-ción].txt
>>> Testing : _español_D06 [sufijo_-ísimo].txt
>>> Testing : _español_D07 [sufijo_-ita].txt
>>> Testing : _español_D08 [sufijo_-ito].txt
>>> Testing : _español_D09 [sufijo_-mente].txt
>>> Testing : _español_D10 [sufijo_-miento].txt
>>> Testing : _español_E01 [pais - capital].txt
>>> Testing : _español_E02 [pais - idioma].txt
>>> Testing : _español_E04 [nombre - nacionalidad].txt
>>> Testing : _español_E05 [nombre - ocupacion].txt
>>> Testing : _español_E10 [hombre - mujer].txt
>>> Testing : _español_E11 [pais - gentilicio].txt
>>> Testing : _español_I067 [gerund - parti].txt
>>> Testing : _español_I096 [inf - gerund].txt
>>> Testing : _español_I097 [inf - parti].txt
>>> Testi

In [5]:
import CrossMatchTest

# Test de cross match


In [6]:
import OutlierDetectionTest

# Test de outlier detection
print(">>> Test de outlier detection\n")
for embedding in embedding_name_list:
    print(">>> Testing " + embedding + "\n")
    
    print(">>> Cargando vectores...", end='')
    wordvector = get_wordvector(embedding, 10000)
    print("listo\n")
    
    OutlierDetectionTest.outlierDetectionTest(embedding, embedding.split('.')[0])