In [1]:
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
from pprint import pprint
import multiprocessing

# Carga de datos y preprocesamiento

- Se carga el dump de wikipedia como un corpus de gensim

In [2]:
wiki = WikiCorpus("./data/eswiki-latest-pages-articles.xml.bz2")

- Clase para transformar el corpus a un formato admitido por el Doc2Vec

In [3]:
class TaggedWikiDocument(object):
    def __init__(self, wiki):
        self.wiki = wiki
        self.wiki.metadata = True
    def __iter__(self):
        for content, (page_id, title) in self.wiki.get_texts():
            yield TaggedDocument([c for c in content], [title])

- Se transforma el corpus al formato para utilizar en doc2vec

In [4]:
documents = TaggedWikiDocument(wiki)

# Construccion y entrenamiento de los modelos

- Se definen parámetros generales

In [5]:
cores = multiprocessing.cpu_count()
words = 1
size = 300
context_window = 8
min_count = 19
epochs = 10
n_epochs = 10

### PV-DBOW

In [6]:
model = Doc2Vec(dm=0, dbow_words=words, vector_size=size, window=context_window, min_count=min_count, 
                epochs=epochs, workers=cores)

- Construccion del vocabulario

In [7]:
model.build_vocab(documents)
print("Tamaño del vocabulario: {}".format(len(model.wv.vocab)))
print(str(model))

Tamaño del vocabulario: 419450
Doc2Vec(dbow+w,d300,n5,w8,mc19,s0.001,t16)


- Entrenamiento del modelo

In [13]:
%time model.train(documents, total_examples=model.corpus_count, epochs=n_epochs)

CPU times: user 2d 9h 18min 13s, sys: 38min 9s, total: 2d 9h 56min 23s
Wall time: 7h 9min 52s


- Almacenamiento del modelo

In [23]:
model.save("./pvdbow/doc2vec_wikipedia_es_pvdbow")

# PV- DM

In [17]:
model_pvdm = Doc2Vec(dm=1, dm_mean=1, vector_size=size, window=context_window, min_count=min_count, 
                epochs=epochs, workers=cores)

- Construcción del vocabulario

In [18]:
model_pvdm.build_vocab(documents)
print("Tamaño del vocabulario: {}".format(len(model_pvdm.wv.vocab)))
print(str(model_pvdm))

Tamaño del vocabulario: 419450
Doc2Vec(dm/m,d300,n5,w8,mc19,s0.001,t16)


- Entrenamiento del modelo

In [20]:
%time model_pvdm.train(documents, total_examples=model_pvdm.corpus_count, epochs=n_epochs)

CPU times: user 12h 24min 23s, sys: 36min 15s, total: 13h 38s
Wall time: 5h 31min 45s


- Almacenamiento del modelo

In [21]:
model_pvdm.save("./pvdm/doc2vec_wikipedia_es_pvdm")