In [12]:
import os
from gensim.models.keyedvectors import KeyedVectors, BaseKeyedVectors

import Constant

# Path a carpeta principal
MAIN_FOLDER = Constant.MAIN_FOLDER

# Path a carpeta con los embeddings
EMBEDDING_FOLDER = Constant.EMBEDDING_FOLDER

# Lista con los nombres de los archivos de los embeddings
embedding_name_list = os.listdir(EMBEDDING_FOLDER)

print(">>> Embeddings a evaluar:")
for embedding in embedding_name_list:
    print("  > " + embedding)
    
def get_wordvector(file, cant=None):
    wordvector_file = EMBEDDING_FOLDER / file

    return KeyedVectors.load_word2vec_format(wordvector_file, limit=cant)

>>> Embeddings a evaluar:
  > _fasttext_sbwc.vec
  > _fasttext_suc_L.vec
  > _fasttext_suc_M.vec
  > _fasttext_suc_NL.vec
  > _fasttext_wiki.vec
  > _glove_sbwc.vec
  > _rand_embedding.vec
  > _w2v_sbwc.txt


In [17]:
import AnalogyTest
import SimilarityTest
import OutlierDetectionTest

import ConstitucionClasificacionMeanVector
import torch

word_embedding = get_wordvector("_rand_embedding.vec")

class Embedding:
    def __init__(self, embedding):
        self._embedding = embedding
        
    def __getitem__(self, item):
        return self._embedding[item]
    
    def __contains__(self, item):
        return (item in self._embedding)
    
    # Entrega tamaño de los vectores dentro del embedding
    def vectorSize(self):
        return self._embedding.vector_size
    
    # Entrega lista de todas las palabras en el vocabulario del embedding. 
    # Las palabras estan en el mismo orden que la lista de vectores
    def getWordList(self):
        return self._embedding.index2word
    
    # Entrega lista de todos los vectores en el embedding.
    # Los vectores estan en el mismo orden que la lista de palabras
    def getVectors(self):
        word_embedding.init_sims()
        return word_embedding.vectors_norm
    
emb = Embedding(word_embedding)

In [15]:
test_const_mean = ConstitucionClasificacionMeanVector.ConstitucionTestClass()
test_const_mean.MeanVectorEvaluation("_rand_embedding", emb)

>>> Test de Clasificacion de textos (vector promedio) <<<
>>> Evaluando embedding  _rand_embedding
 > Tamaño del dataset: 205357
 > Conceptos de gobierno
Topico 1 => cantidad de conceptos:  37
Topico 2 => cantidad de conceptos:  44
Topico 3 => cantidad de conceptos:  12
Topico 4 => cantidad de conceptos:  21
 > Conceptos abiertos:
Topico 1 => cantidad de conceptos:  55
Topico 2 => cantidad de conceptos:  60
Topico 3 => cantidad de conceptos:  21
Topico 4 => cantidad de conceptos:  35
 > Conceptos abiertos eliminado
Topico 1 => cantidad de conceptos eliminado:  18
Topico 2 => cantidad de conceptos eliminado:  16
Topico 3 => cantidad de conceptos eliminado:  9
Topico 4 => cantidad de conceptos eliminado:  14
 > Cantidad de argumentos para conceptos de gobierno: 183342
 > Cantidad de argumentos para conceptos abiertos: 22015

Task A
Topico 1 => cantidad de conceptos: 37
Topico 2 => cantidad de conceptos: 44
Topico 3 => cantidad de conceptos: 12
Topico 4 => cantidad de conceptos: 21
Topico

({'1': [0.03920280782414154, 0.1938178608813448],
  '2': [0.022035360068995258, 0.11058645968089693],
  '3': [0.15782670913539215, 0.5302358860730277],
  '4': [0.07771776304927236, 0.2804207844894686]},
 {'1': [0.277623542476402, 0.4625208217656857],
  '2': [0.18297331639135958, 0.3983481575603558],
  '3': [0.29513064133016625, 0.588479809976247],
  '4': [0.16047176554681916, 0.39814152966404576]})

In [14]:
test_sim = SimilarityTest.SimilarityTestClass(use_intersect_dataset=True)
test_sim.intersectDataset(emb)
res = test_sim.evaluateWordVector("_rand_embedding", emb)

>>> Test de Similaridad <<<
>>> Copiando dataset original para realizar interseccion
    MC30_Barzegar_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    MC30_Hassan_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    MultiSimLex_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    RG65_Barzegar_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    RG65_Collado_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    semeval17_es.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    SIMLEX999_Barzegar_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    WS353_Barzegar_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    WS353_Hassan_ES.txt  ya ha se encuentra en dataset de interseccion, reutilizando
>>> Intersectando datasets con vocabulario de embedding...
 > Revision de archivos en dataset
   Revisando MC30_Barzegar_ES.txt
   > Lineas elimi

In [16]:
test_out = OutlierDetectionTest.OutlierDetectionTestClass(use_intersect_dataset=True)
test_out.intersectDataset(emb)
res = test_out.evaluateWordVector("_rand_embedding", emb)

>>> Test de Outlier Detection <<<
>>> Copiando dataset original para realizar interseccion
    Q101352.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q104157.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q10417670.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q105000.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1052743.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1053630.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1061151.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1065118.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1066984.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q1070990.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q10742.txt  ya ha se encuentra en dataset de interseccion, reutilizando
    Q10943.txt  ya ha se encuentra en dataset de inters

In [6]:
test_analogy = AnalogyTest.AnalogyTestClass(use_intersect_dataset=True)
test_analogy.intersectDataset(emb)
res = test_analogy.evaluateWordVector("_rand_embedding", emb)


Test de Analogias
Intersectando datasets...
 > Revisando si existe interseccion previa
   >  4tupla_google_analogy_AG01 [capital-pais].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG02 [capital2-pais2].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG03 [pais-moneda].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG04 [ciudad-estado EEUU].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG05 [familia].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG06 [adj-adv].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG07 [opuestos].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG08 [presente-participio].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG09 [nacionalidad].txt  ya ha sido intersectado anteriormente
   >  4tupla_google_analogy_AG10 [past-tense].txt  ya ha sido intersectado anteriormente
   > 