In [1]:
import os

In [2]:
import gensim

In [3]:
# Establecer nombres de archivo para trenes y datos de prueba
test_data_dir = os.path.join(gensim.__path__[0], 'test', 'test_data')

In [19]:
lee_train_file = 'prueba.csv'
lee_test_file = './textos/S0210-48062009000300013-4.txt'

In [20]:
import smart_open


In [21]:
def read_corpus(fname, tokens_only=False):
    with smart_open.open(fname, encoding="iso-8859-1") as f:
        for i, line in enumerate(f):
            tokens = gensim.utils.simple_preprocess(line)
            if tokens_only:
                yield tokens
            else:
                # For training data, add tags
                yield gensim.models.doc2vec.TaggedDocument(tokens, [i])

train_corpus = list(read_corpus(lee_train_file))
test_corpus = list(read_corpus(lee_test_file, tokens_only=True))

In [23]:
print(train_corpus[:2])

[TaggedDocument(words=['id', 'language', 'title', 'abstract'], tags=[0]), TaggedDocument(words=['es', 'novedades', 'en', 'cirugía', 'de', 'columna', 'vertebral', 'en', 'en', 'este', 'artículo', 'de', 'revisión', 'queremos', 'destacar', 'las', 'principales', 'novedades', 'curiosidades', 'alrededor', 'de', 'la', 'cirugía', 'de', 'columna', 'que', 'se', 'han', 'publicado', 'el', 'año', 'aunque', 'el', 'año', 'pasado', 'no', 'han', 'sido', 'publicadas', 'grandes', 'novedades', 'en', 'nuestra', 'área', 'de', 'estudio', 'nosotros', 'queremos', 'hacer', 'hincapié', 'en', 'los', 'aspectos', 'que', 'nos', 'han', 'parecido', 'más', 'relevantes', 'sobre', 'cirugía', 'de', 'columna', 'dado', 'que', 'la', 'cirugía', 'de', 'columna', 'representa', 'una', 'importante', 'carga', 'asistencial', 'sanitaria', 'social', 'los', 'estudios', 'aquí', 'reflejados', 'intentan', 'dar', 'respuestas', 'las', 'múltiples', 'demandas', 'pendientes', 'así', 'es', 'como', 'abordaremos', 'temas', 'como', 'la', 'artrodes

In [24]:
print(test_corpus[:4])

[['paciente', 'varã³n', 'de', 'aã', 'os'], ['antecedentes', 'personales', 'hepatitis', 'en', 'la', 'infancia', 'derecha', 'aã', 'os', 'antes', 'cistinuria', 'uiv', 'previa', 'la', 'leoch', 'con', 'normal', 'funciã³n', 'renal', 'bilateral', 'pero', 'con', 'riã', 'ã³n', 'derecho', 'de', 'menor', 'tamaã', 'que', 'el', 'izquierdo', 'no', 'hta'], ['leoch', 'de', 'litiasis', 'de', 'cm', 'en', 'cã', 'liz', 'inferior', 'de', 'riã', 'ã³n', 'derecho', 'impactos', 'intensidad', 'las', 'horas', 'del', 'tratamiento', 'presentã³', 'dolor', 'intenso', 'en', 'flanco', 'derecho', 'diagnosticã', 'ndose', 'con', 'ecografã', 'de', 'discreto', 'hematoma', 'subcapsular', 'en', 'tac', 'tres', 'dã', 'as', 'despuã', 'hematoma', 'de', 'cm', 'se', 'transfundieron', 'dos', 'concentrados', 'de', 'hematã', 'es'], ['dã', 'as', 'despuã', 'de', 'la', 'litotricia', 'drenaje', 'del', 'hematoma', 'con', 'cirugã', 'abierta', 'alta', 'hospitalaria', 'dã', 'as', 'despuã', 'los', 'controles', 'mediante', 'ecografã', 'uiv', '

In [25]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=50, min_count=2, epochs=40)

In [26]:
model.build_vocab(train_corpus)

In [27]:
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.epochs)

In [28]:
vector = model.infer_vector(['escoliosis', 'cervical', 'artrodesis', 'columna', 'agentes', 'cirugía'])
print(vector)

[ 0.29408458  0.01902035  0.2509655  -0.1917429   0.3717964   0.06486006
 -0.15585665  0.17819567 -0.1613887   0.46702862  0.21092433 -0.32553563
  0.17260243  0.03814838  0.07957438 -0.07220918  0.5835889   0.19304289
  0.21495321 -0.1886572   0.3008355  -0.27235675  0.16329761  0.01909898
  0.15564577 -0.2666162  -0.05375518  0.12238846 -0.1078207   0.10007147
 -0.11317477 -0.62187505 -0.01482478 -0.2315957  -0.01083281  0.31778243
  0.1109466  -0.15124598 -0.07752077 -0.29983062 -0.20898126 -0.23272349
  0.05800027  0.02506509  0.0415661  -0.15917857 -0.2106548   0.33161852
  0.16755275  0.23672816]


In [29]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)

    second_ranks.append(sims[1])

In [30]:
import collections

counter = collections.Counter(ranks)
print(counter)

Counter({0: 518, 1: 3, 2: 2, 321: 1, 10: 1, 7: 1})


In [31]:
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('SECOND-MOST', 1), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (525): «es paciente con sdt tras prostatectomía radical el síndrome de déficit de testosterona sdt define un cuadro clínico bioquímico asociado la edad que produce un detrimento en la calidad de vida de estos pacientes estudios recientes abogan por la seguridad del tratamiento hormonal con testosterona en pacientes con historia de cáncer de próstata cp al no haberse demostrado inducción de este tumor un total de cinco publicaciones presentan resultados de pacientes tratados con testosterona con historia de cp intervenidos mediante prostatectomía radical pr solo un paciente presentó recidiva bioquímica durante el tratamiento sustitutivo la terapia de reemplazamiento con testosterona ha de ser indicada en pacientes seleccionados que se encuentren sintomáticos con historia de cáncer localizado de bajo riesgo tratado de manera satisfactoria buen control oncológico las cifras de testosterona alcanzar mantener serán las mínimas eficaces que permitan obtener una respuesta sintomática

In [32]:
# Pick a random document from the corpus and infer a vector from the model
import random
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the second-most-similar document
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (461): «es aplicaciones de los conocimientos psicológicos en la iniciación deportiva en este trabajo se analiza la aplicación de la psicología en la iniciación deportiva así lo primero que se desarrolla es un apartado dedicado analizar los diferentes factores que afectan la práctica deportiva en estas edades de iniciación destacando continuación las diferentes intervenciones que sobre éstos se han ido realizando intervenciones que abarcan tanto las personas que rodean los niños como los objetos deportivos como las propias normas también se dedica un apartado especial la iniciación deportiva de cara la tecnificación de los deportistas finalizando con un análisis de las competencias que debe tener el psicólogo que pretenda aplicar los conocimientos psicológicos en la iniciación deportiva au»

Similar Document (490, 0.8396366238594055): «es aceite de argán usos tradicionales aspectos fitoquímicos nutricionales farmacológicos argania spinosa skeels es un árbol originario del

In [33]:
# Pick a random document from the test corpus and infer a vector from the model
doc_id = random.randint(0, len(test_corpus) - 1)
inferred_vector = model.infer_vector(test_corpus[doc_id])
sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))

# Compare and print the most/median/least similar documents from the train corpus
print('Test Document ({}): «{}»\n'.format(doc_id, ' '.join(test_corpus[doc_id])))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Test Document (1): «antecedentes personales hepatitis en la infancia derecha aã os antes cistinuria uiv previa la leoch con normal funciã³n renal bilateral pero con riã ã³n derecho de menor tamaã que el izquierdo no hta»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d50,n5,w5,mc2,s0.001,t3):

MOST (58, 0.6485365629196167): «es sarcoma sinovial renal primario presentación de un caso con estudio molecular el sarcoma sinovial ss renal fue descrito por primera vez por argani et al en el año presentamos un caso de ss renal monofásico de grado intermedio se trata de un varón de años que presentaba un tumor renal sólido quístico de cm bien delimitado con un nódulo sólido de cm se realizó nefrectomía parcial el tumor se caracterizaba por células fusiformes monomorfas quistes revestidos por células epiteliales en tachuela se observó infiltración focal de la grasa perirrenal que rodeaba el nódulo sólido las células fusocelulares expresaban cd bcl ema sma eran negativas para cd receptores de es