### Unidad 2: Taller de análisis de datos textuales

<h1> Notebook 3 - Introducción a la vectorización de palabras: Word2Vec</h1>

En los notebooks anteriores, hemos hablado de los vectores que se utilizan para representar nuestros datos, textuales o no, en una forma matemática, y así poder aplicar métodos de machine learning.

En este notebook, vamos a llevar esta idea un paso más allá y generar reprentaciones vectoriales de las <u>palabras</u>. Esta idea es generalmente llamada __Word Embeddings__. __Word2Vec__ es un algoritmo popular para implementar esta idea.
Esta técnica permite para representar mejor el significado de una palabra.

Para más detalles sobre los fundamentos de Word2Vec, se puede leer: _Efficient Estimation of Word Representations in Vector Space_ [[Mikolov et al., 2013]](https://arxiv.org/pdf/1301.3781.pdf)

## 1. ¿Qué es una representación vectorial de una palabra?

Supongamos que nuestro vocabulario tiene sólo cinco palabras: King, Queen, Man, Woman y Child. Podríamos codificar la palabra 'Queen' como:

<img src="word2vec1.png"/>

Usando tal codificación, no hay comparación interesante que podamos hacer entre vectores de palabras. Con word2vec, se utiliza una representación distribuida de una palabra. Cada palabra está representada por una distribución de pesos entre esos elementos. La representación de una palabra se extiende a través de todos los elementos en el vector, y cada elemento en el vector contribuye a la definición de muchas palabras.

<img src="word2vec2.png"/>

Tal vector llega a representar de alguna manera abstracta el 'significado' de una palabra. Y como veremos a continuación, simplemente examinando un corpus grande es posible aprender vectores de palabras que son capaces de capturar las relaciones entre palabras de una manera sorprendentemente expresiva. 


### Razonamiento con vectores de palabras

Los vectores son muy buenos para responder a problemas de analogía de tipo: '_A_ es a _B_ lo que _C_ es a ...?'. Por ejemplo, el _hombre_ es a la _mujer_ lo que el _tío_ es a la _tía_ usando un método de desplazamiento vectorial.

Por ejemplo, el desplazamiento vectorial que ilustra la _relación de género_:

<img src="word2vec3.png"/>


Este tipo de composición vectorial también nos permite responder a la pregunta __King - Man + Woman = ?__ y llegar al resultado __Queen__.

<img src="word2vec4.png"/>

Estos modelos vectoriales de palabras están destacables ya que permiten representar ciertas relaciones entre palabras sin aportar información sobre la semántica de las palabras. Como vamos a verlo, se pueden aprender los vectores a partir de gran conjuntos de datos textuales.

Algunos ejemples de relaciones entre palabras que se han podido calcular utilizando Word2Vec:

<img src="word2vec6.png"/>

<img src="word2vec7.png"/>

También podemos utilizar la adición de vectores para hacer preguntas como "German + airlines" y mirando las palabras más cercanas al vector compuesto obtenemos respuestas impresionantes:

<img src="word2vec8.png"/>

### Construir una representación vectorial de una palabra _y_ considerando las palabras X que aparacen frecuentemente en su contexto

Para construir sus vectores, Word2Vec utiliza un dataset de entrenamiento y algoritmos de aprendizaje basados en redes neuronales (__Continuous Bag of Words__ (CBOW), o modelo __Skip Gram__). El objetivo de esta fase de aprendizaje es aprender cuáles son las palabras _X_ más probables de aparecer en el contexto de una palabra _y_.

<img src="word2vec5.png"/>

Por ejemplo, ¿cuál es la probabilidad de tener la palabra 'perro' si aparece la palabra 'pelota' en el contexto?

<code>Los expertos explican que los __perros__ persiguen __pelotas__ en movimiento como parte de un comportamiento instintivo. Aunque no todos los perros tienen tan despiertos su instinto de caza, esto no impide que la mayoría de ellos sí disfruten, y mucho, de los juegos que incluyen persecuciones de una saltarina __pelota__ que bota delante de ellos. </code>

__Algoritmo CBOW__

Las palabras de contexto forman la capa de entrada. Si el tamaño del vocabulario es V, estos serán vectores de dimensión V con sólo uno de los elementos establecido en uno, y el resto todos los ceros. Hay una sola capa oculta y una capa de salida.

<img src="word2vec9.png"/>

## 2. Word2Vec: crear representaciones vectoriales de palabras

La clase <code>word2vec</code> de Gensim permite entrenar modelos vectoriales de palabras (ver documentación: https://radimrehurek.com/gensim/models/word2vec.html).

Esta clase tiene varios parametros, en particular:
- <code>sentences</code>: una lista de palabras o de frases que sirve para entrenar el modelo
- <code>sg</code>: define que algoritmos de aprendizaje utilizar (0=CBOW, 1=skip-gram)
- <code>size</code>: define la dimensión de los vectores que se desea extraer
- <code>window</code>: define el número de palabras considerar a la izquierda y a la derecha de una palabra
- <code>min_count</code>: ignorar las palabras que aparecen menos de _min_count_
y otros asociados a la parametrización de la fase de aprendizaje de la red neuronal (que no detallaremos en esta parte del curso):
- <code>alpha</code>: el _learning rate_ utilizado para optimizar los parametros de la red neuronal.
- <code>iter</code>: número de iteraciones (epocas) sobre el dataset para encontrar los parametreos que optimizan la red neuronal.

In [1]:
from gensim.models import word2vec

Para entrenar nuestro modelo Word2Vec, podemos utilizar nuestros propios datasets o utilizar datasets genericos existentes. Para empezar, utilizaremos 100 MB de textos extraidos de Wikipedia en inglés, para generar vectores de 200 dimensiones.

In [2]:
sentences = word2vec.Text8Corpus('text8.txt')

In [3]:
model = word2vec.Word2Vec(sentences,size=200,hs=1)

In [4]:
print(model)

Word2Vec(vocab=71290, size=200, alpha=0.025)


Ahora que hemos aprendido nuestro modelo, tratemos de resolver la ecuación <code>King - Man + Woman</code>.

En otras palabras buscamos cuál es el vector más similar al vector que adiciona positivamente 'King' y 'Woman' y negativamente 'Man'.

In [9]:
model.wv.most_similar(positive=['woman','king'],negative=['man'],topn=5)

[('queen', 0.5484005212783813),
 ('throne', 0.5342251658439636),
 ('princess', 0.5262429118156433),
 ('prince', 0.5059376955032349),
 ('sibylla', 0.4873780608177185)]

In [10]:
model.wv.most_similar(positive=["conflict"])

[('conflicts', 0.7188023328781128),
 ('clashes', 0.6643460988998413),
 ('confrontation', 0.6346426606178284),
 ('struggle', 0.6321094632148743),
 ('hostilities', 0.6279382109642029),
 ('dispute', 0.6173650622367859),
 ('tensions', 0.6133891344070435),
 ('disputes', 0.5968484878540039),
 ('strife', 0.5911890864372253),
 ('disagreements', 0.5742663145065308)]

In [11]:
model.wv.most_similar(positive=["conflict","weapon"])

[('confrontation', 0.5866920948028564),
 ('warfare', 0.569470226764679),
 ('weapons', 0.5322331786155701),
 ('fighting', 0.5214237570762634),
 ('conflicts', 0.5172784328460693),
 ('struggle', 0.5165830850601196),
 ('warheads', 0.5029329061508179),
 ('rifle', 0.4830498695373535),
 ('combat', 0.480122834444046),
 ('firearm', 0.46499496698379517)]

In [13]:
model.wv.most_similar(positive=["conflict"],negative=["weapon"])

[('clashes', 0.5157795548439026),
 ('disagreements', 0.5025807023048401),
 ('conflicts', 0.5005526542663574),
 ('disputes', 0.45643964409828186),
 ('dispute', 0.4438190162181854),
 ('strife', 0.4340599775314331),
 ('tensions', 0.43264490365982056),
 ('hostilities', 0.42931511998176575),
 ('reconciling', 0.4135684370994568),
 ('reconciliation', 0.4083474278450012)]

In [14]:
model.wv.most_similar(positive=["life"])

[('childhood', 0.5315465331077576),
 ('lives', 0.5219142436981201),
 ('career', 0.4918401837348938),
 ('experiences', 0.46913063526153564),
 ('adolescence', 0.46442317962646484),
 ('humanity', 0.444394052028656),
 ('teens', 0.43493372201919556),
 ('universe', 0.4321097731590271),
 ('work', 0.42127031087875366),
 ('autobiography', 0.41469377279281616)]

In [15]:
model.wv.most_similar(positive=["life","love"])

[('passionate', 0.5382745265960693),
 ('happiness', 0.5342760682106018),
 ('affection', 0.5294280052185059),
 ('loving', 0.5253655910491943),
 ('dreams', 0.5175389051437378),
 ('dream', 0.49790388345718384),
 ('passion', 0.4970376789569855),
 ('devotion', 0.49456143379211426),
 ('humanity', 0.48934948444366455),
 ('enthusiasm', 0.48544085025787354)]

In [16]:
model.wv.most_similar(positive=["life","money"])

[('profits', 0.5381085872650146),
 ('happiness', 0.4808928966522217),
 ('estate', 0.46329301595687866),
 ('earnings', 0.453243225812912),
 ('debts', 0.44948142766952515),
 ('donations', 0.44741061329841614),
 ('funds', 0.4426189661026001),
 ('investments', 0.43472820520401),
 ('credit', 0.43346893787384033),
 ('allowance', 0.4328705668449402)]

In [17]:
model.wv.most_similar(positive=["life","happiness"])

[('humanity', 0.6343278884887695),
 ('humankind', 0.5613822937011719),
 ('dignity', 0.5261437296867371),
 ('selfishness', 0.5177077054977417),
 ('mankind', 0.5122897624969482),
 ('lives', 0.508557140827179),
 ('immortality', 0.5009029507637024),
 ('salvation', 0.49758243560791016),
 ('desires', 0.49654945731163025),
 ('pleasure', 0.4888823926448822)]

In [18]:
model.wv.most_similar(positive=["life"],negative=["health"])

[('universe', 0.3613162040710449),
 ('poem', 0.3577354848384857),
 ('narrative', 0.3437854051589966),
 ('satires', 0.33983439207077026),
 ('genius', 0.33316218852996826),
 ('incarnations', 0.32065248489379883),
 ('depiction', 0.3203204870223999),
 ('moments', 0.3182471692562103),
 ('prose', 0.31105563044548035),
 ('autobiography', 0.31091123819351196)]

Ver los parametros aprendidos por la red neuronal para una palabra dada:

In [19]:
model.wv['computer']

array([-2.69125611e-01,  3.67443919e-01, -7.01698601e-01, -5.57390809e-01,
        1.83433318e+00,  6.62127137e-01,  1.33304608e+00,  7.65880108e-01,
        1.18038788e-01,  1.44866943e+00, -1.67192280e-01, -3.01816076e-01,
       -1.28658462e+00,  2.16931272e+00, -6.68421566e-01,  6.73904121e-01,
       -1.00405216e-01,  1.45309901e+00,  1.68849874e+00, -4.35919017e-01,
        3.78655791e-01, -8.41010153e-01,  2.67007500e-01,  1.83593726e+00,
        5.54438949e-01,  1.07396770e+00,  7.07256794e-01, -2.04979992e+00,
        7.08761871e-01,  4.38214898e-01, -5.52625299e-01, -1.70860991e-01,
       -4.44031149e-01, -1.15913165e+00, -3.90957862e-01,  1.16910565e+00,
        4.06878680e-01,  6.74331009e-01, -2.59698648e-02,  1.31449342e+00,
        2.22232997e-01,  7.49504939e-02,  8.72514069e-01, -1.45918298e+00,
        9.43113685e-01,  8.56491685e-01, -2.58627117e-01, -1.70304179e-01,
       -6.51856959e-02,  5.47520667e-02,  1.56213284e-01,  2.66357422e+00,
        7.10851729e-01, -

In [33]:
model.save("text8_model")
model=word2vec.Word2Vec.load("text8_model")

Otro ejemplo de aplicación: __buscar el vector más diferente de los otros__.

Entre las palabras siguientes, ¿cuál es la palabra la más distinta?

In [20]:
model.wv.doesnt_match("breakfast cereal dinner lunch".split())

  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


'cereal'

In [21]:
model.wv.doesnt_match("brazil chile france peru argentina".split())

'france'

In [23]:
model.wv.doesnt_match("apple pear banana hammer".split())

'hammer'

Podemos tambien medir la similaridad entre palabras:

In [35]:
model.wv.similarity('man','woman')

0.7032394

In [24]:
model.wv.similarity('man','hammer')

0.24828681

In [25]:
model.wv.similarity('woman','hammer')

0.15005152

In [26]:
model.wv.similarity('man','engineer')

0.09911914

In [27]:
model.wv.similarity('woman','engineer')

0.0652638

In [32]:
model.wv.similarity('man','baby')

0.32168412

In [33]:
model.wv.similarity('woman','baby')

0.47237882

El modelo aprendido con la red neuronal captura el significado de las palabras, pero también los sesgos humanos.


Dado que los vectores obtenidos representan mejor el sentido de las palabras que las palabras mismas, sería interesante representar los documentos (textos, moticias) utilizando estos vectores. Es la idea del algoritmo __Doc2Vec__.

## 3. Doc2Vec: Representación vectorial de los documentos utilizando _Word embeddings_

Sabemos lo importante que es la representación vectorial de los documentos, en todo tipo de tareas, por ejemplo de clasificación supervisada (_sentiment analysis_, etc.) o de _topic modeling_.

Por cada una de estas tareas, tenemos que representar nuestros documentos como vectores. Hasta ahora, hemos visto representaciones vectoriales simples basados en modelos Bag-of-Words (BOW) o TF-IDF.

Basándose en Word2Vec, los investigadores en informática también han implementado en los últimos años una representación vectorial de documentos, popularmente llamada __Doc2Vec__.	Esto significa que ahora podemos usar el poder de la comprensión semántica de Word2Vec para describir documentos también.

Para una presentación del funcionamiento interno de Doc2Vec, se puede leer el artículo de blog siguiente: https://medium.com/scaleabout/a-gentle-introduction-to-doc2vec-db3e8c0cce5e

En nuestro caso, por el momento, utilizaremos Doc2Vec como una caja negra para generar representaciones vectoriales de los documentos.

In [34]:
import gensim
import os
import collections
import smart_open
import random

Para ponernos en marcha, necesitaremos un conjunto de documentos para entrenar a nuestro modelo doc2vec. En teoría, un documento puede ser cualquier cosa, desde un breve tweet de 140 caracteres, un solo párrafo (por ejemplo, un resumen de un artículo de una revista), un artículo de noticias o un libro. En Tratamiento Automáticamente del Lenguaje, una colección o conjunto de documentos a menudo se denomina corpus.

Para este tutorial, vamos a entrenar nuestro modelo usando el Lee Background Corpus incluido en gensim. Este corpus contiene 314 documentos seleccionados del servicio de correo de noticias de la Corporación Australiana de Radiodifusión, que proporciona correos electrónicos de texto con titulares y cubre una serie de temas generales.

Y probaremos nuestro modelo a ojo usando una muestra específica del Lee Corpus mucho más corto que contiene 50 documentos.

In [35]:
test_data_dir ='{}'.format(os.sep).join([gensim.__path__[0],'test','test_data'])
lee_train_file=test_data_dir+os.sep+'lee_background.cor'
lee_test_file=test_data_dir+os.sep+'lee.cor'

__Definir una función para leer y preprocesar el texto__

A continuación, definimos una función para abrir el archivo de training y test (con codificación latina), leer el archivo línea por línea, preprocesar cada línea usando una simple herramienta de preprocesamiento de gensim (es decir, tokenizar texto en palabras individuales, eliminar la puntuación, ponerlo en minúsculas, etc.), y devolver una lista de palabras.

Tenga en cuenta que, para un archivo determinado, cada línea constituye un único documento y la longitud de cada línea (es decir, documento) puede variar. Además, para entrenar el modelo, necesitaremos asociar una etiqueta/número a cada documento del corpus de entrenamiento. En nuestro caso, la etiqueta es simplemente el número de línea basado en cero.

In [36]:
def read_corpus(file_name,tokens_only=False):
    with smart_open.smart_open(file_name,encoding="iso-8859-1") as f:
        for i, line in enumerate(f):
            if tokens_only:
                yield gensim.utils.simple_preprocess(line)
            else:
                # For training data, add tags
                yield gensim.models.doc2vec.TaggedDocument(gensim.utils.simple_preprocess(line),[i])

In [37]:
train_corpus = list(read_corpus(lee_train_file))
test_corpus = list(read_corpus(lee_test_file,tokens_only=True))

Miremos el resultado del preprocesamiento, observando los 2 primeros documentos del corpus de entrenamiento:

In [38]:
train_corpus[:2]

[TaggedDocument(words=['hundreds', 'of', 'people', 'have', 'been', 'forced', 'to', 'vacate', 'their', 'homes', 'in', 'the', 'southern', 'highlands', 'of', 'new', 'south', 'wales', 'as', 'strong', 'winds', 'today', 'pushed', 'huge', 'bushfire', 'towards', 'the', 'town', 'of', 'hill', 'top', 'new', 'blaze', 'near', 'goulburn', 'south', 'west', 'of', 'sydney', 'has', 'forced', 'the', 'closure', 'of', 'the', 'hume', 'highway', 'at', 'about', 'pm', 'aedt', 'marked', 'deterioration', 'in', 'the', 'weather', 'as', 'storm', 'cell', 'moved', 'east', 'across', 'the', 'blue', 'mountains', 'forced', 'authorities', 'to', 'make', 'decision', 'to', 'evacuate', 'people', 'from', 'homes', 'in', 'outlying', 'streets', 'at', 'hill', 'top', 'in', 'the', 'new', 'south', 'wales', 'southern', 'highlands', 'an', 'estimated', 'residents', 'have', 'left', 'their', 'homes', 'for', 'nearby', 'mittagong', 'the', 'new', 'south', 'wales', 'rural', 'fire', 'service', 'says', 'the', 'weather', 'conditions', 'which', '

y el dataset de test:

In [39]:
test_corpus[:2]

[['the',
  'national',
  'executive',
  'of',
  'the',
  'strife',
  'torn',
  'democrats',
  'last',
  'night',
  'appointed',
  'little',
  'known',
  'west',
  'australian',
  'senator',
  'brian',
  'greig',
  'as',
  'interim',
  'leader',
  'shock',
  'move',
  'likely',
  'to',
  'provoke',
  'further',
  'conflict',
  'between',
  'the',
  'party',
  'senators',
  'and',
  'its',
  'organisation',
  'in',
  'move',
  'to',
  'reassert',
  'control',
  'over',
  'the',
  'party',
  'seven',
  'senators',
  'the',
  'national',
  'executive',
  'last',
  'night',
  'rejected',
  'aden',
  'ridgeway',
  'bid',
  'to',
  'become',
  'interim',
  'leader',
  'in',
  'favour',
  'of',
  'senator',
  'greig',
  'supporter',
  'of',
  'deposed',
  'leader',
  'natasha',
  'stott',
  'despoja',
  'and',
  'an',
  'outspoken',
  'gay',
  'rights',
  'activist'],
 ['cash',
  'strapped',
  'financial',
  'services',
  'group',
  'amp',
  'has',
  'shelved',
  'million',
  'plan',
  'to',
 

__Entrenamiento del modelo: Instanciación de un objeto Doc2Vec__

Ahora, instanciaremos un modelo de Doc2Vec con un tamaño vectorial de 50 palabras e iterando sobre el corpus de entrenamiento 40 veces. Fijamos el número mínimo de palabras en 2 para poder descartar palabras con muy pocas ocurrencias (sin una variedad de ejemplos representativos, retener palabras tan poco frecuentes puede empeorar el modelo).

Noten que se trata de un conjunto de datos muy pequeño (300 documentos) con documentos más cortos (unos pocos cientos de palabras).

In [40]:
model = gensim.models.doc2vec.Doc2Vec(size=50, min_count=2, iter=40)



__Construir el vocabulario__

In [41]:
model.build_vocab(train_corpus)

Tipicamente, el vocabulario es un diccionario (accesible a través de <code>model.wv.vocabulario</code>) de todas las palabras únicas extraídas del corpus de entrenamiento junto con el recuento.

Por ejemplo, model.wv.vocab['penalty'].count para recuentos para la palabra 'penalty'.

In [42]:
model.wv.vocab['penalty'].count

4

__Entrenar el modelo Doc2Vec__

In [43]:
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.iter)

  """Entry point for launching an IPython kernel.


__Inferir un vector__

Una cosa importante a tener en cuenta es que ahora puede inferir un vector para cualquier pieza de texto sin tener que volver a entrenar al modelo pasando una lista de palabras a la función model.infer_vector. Este vector puede entonces compararse con otros vectores a través de la similitud del coseno.


In [46]:
model.infer_vector(['only', 'you', 'can', 'prevent', 'forrest', 'fires'])

array([ 0.15396346, -0.09650686, -0.05873749, -0.07886393,  0.1358658 ,
        0.1447225 , -0.21712308,  0.05572385,  0.07102157, -0.04276712,
       -0.04617002,  0.00292877,  0.03713769,  0.04658063,  0.08701105,
        0.08587693,  0.08586249, -0.06595804, -0.01872166,  0.14572152,
       -0.02078765,  0.12997988,  0.06471211,  0.04577038,  0.13596691,
        0.050091  ,  0.09107733, -0.0275902 , -0.11446794, -0.05491024,
       -0.14875777, -0.02547036, -0.03163017, -0.3010016 ,  0.11017639,
       -0.14555633, -0.02939347, -0.15385276,  0.09029843,  0.00492589,
       -0.12010241, -0.11402632,  0.1957001 , -0.06019856, -0.16582663,
       -0.01470555, -0.02464065,  0.16318351,  0.03915374, -0.25612864],
      dtype=float32)

Tenga en cuenta que <code>infer_vector()</code> no toma una String, sino más bien una lista de tokens, que ya deberían haber sido tokenizados de la misma manera que las palabras propiedad de los objetos originales del documento de formación.

También tenga en cuenta que debido a que los algoritmos de entrenamiento son un problema de aproximación iterativa que hace uso de la aleatorización interna, las inferencias repetidas del mismo texto devolverán vectores ligeramente diferentes.

__Validación del modelo__

Para evaluar nuestro nuevo modelo, primero inferiremos nuevos vectores para cada documento del corpus de entrenamiento, compararemos los vectores inferidos con el corpus de entrenamiento, y luego devolveremos el rango del documento basado en la autosimilaridad. 

Básicamente, estamos suponiendo que el corpus de entrenamiento es un dato nuevo e invisible y luego vemos cómo se compara con el modelo entrenado. La expectativa es que probablemente hemos adaptado demasiado nuestro modelo (es decir, todos los rangos serán inferiores a 2) y por lo tanto deberíamos ser capaces de encontrar documentos similares muy fácilmente. Además, realizaremos un seguimiento de las segundas posiciones para comparar documentos menos similares.

In [47]:
ranks = []
second_ranks = []
for doc_id in range(len(train_corpus)):
    inferred_vector = model.infer_vector(train_corpus[doc_id].words)
    sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
    rank = [docid for docid, sim in sims].index(doc_id)
    ranks.append(rank)
    
    second_ranks.append(sims[1])

Contemos cómo se clasifica cada documento con respecto al corpus de entrenamiento:

In [49]:
collections.Counter(ranks)  # Results vary between runs due to random seeding and very small corpus

Counter({0: 292, 1: 8})

Básicamente, más del 95% de los documentos inferidos son más similares a sí mismos y alrededor del 5% de las veces es erróneamente más similar a otro documento. La comprobación de un vector inferido contra un vector entrenado es una especie de control sobre si el modelo se está comportando de una manera útil y coherente, aunque no un valor real de "exactitud".

Podemos echar un vistazo a un ejemplo:

In [50]:
print('Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Document (299): «australia will take on france in the doubles rubber of the davis cup tennis final today with the tie levelled at wayne arthurs and todd woodbridge are scheduled to lead australia in the doubles against cedric pioline and fabrice santoro however changes can be made to the line up up to an hour before the match and australian team captain john fitzgerald suggested he might do just that we ll make team appraisal of the whole situation go over the pros and cons and make decision french team captain guy forget says he will not make changes but does not know what to expect from australia todd is the best doubles player in the world right now so expect him to play he said would probably use wayne arthurs but don know what to expect really pat rafter salvaged australia davis cup campaign yesterday with win in the second singles match rafter overcame an arm injury to defeat french number one sebastien grosjean in three sets the australian says he is happy with his form it not v

Note arriba que el documento más similar tiene una puntuación de similitud que se acerca a 1.0. Sin embargo, la puntuación de similitud para los documentos de segundo orden debería ser significativamente menor.

Podemos ejecutar la siguiente celda repetidamente para ver una muestra de otras comparaciones de documento-objetivo.

In [52]:
# Pick a random document from the test corpus and infer a vector from the model
doc_id = random.randint(0, len(train_corpus) - 1)

# Compare and print the most/median/least similar documents from the train corpus
print('Train Document ({}): «{}»\n'.format(doc_id, ' '.join(train_corpus[doc_id].words)))
sim_id = second_ranks[doc_id]
print('Similar Document {}: «{}»\n'.format(sim_id, ' '.join(train_corpus[sim_id[0]].words)))

Train Document (272): «the storm clean up in sydney will resume in earnest this morning as fresh crews are brought in to replace state emergency service ses personnel who worked through the night the storm hit sydney early yesterday afternoon and two schoolgirls died when tree fell on them at reserve at hornsby heights in the city north number of other people were injured as the storm brought down trees and power poles and lifted roofs new south wales emergency services minister bob debus says welfare and emergency funding arrangements have been put in place with the declaration of natural disaster areas in campbeltown hornsby warringah and kurringai welfare services become available if they are needed local government is refunded any money it spends on the clean up or that it spends on repairing its own infrastructure low interest loans if they are needed are available to small business to help them get back on their feet again mr debus said energy australia says power has been restor

__Prueba del modelo__

Usando el mismo enfoque anterior, inferiremos el vector para un documento de prueba elegido al azar, y compararemos el documento con nuestro modelo a ojo.


In [53]:
# Pick a random document from the test corpus and infer a vector from the model
doc_id = random.randint(0, len(test_corpus) - 1)
inferred_vector = model.infer_vector(test_corpus[doc_id])
sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))

# Compare and print the most/median/least similar documents from the train corpus
print('Test Document ({}): «{}»\n'.format(doc_id, ' '.join(test_corpus[doc_id])))
print(u'SIMILAR/DISSIMILAR DOCS PER MODEL %s:\n' % model)
for label, index in [('MOST', 0), ('MEDIAN', len(sims)//2), ('LEAST', len(sims) - 1)]:
    print(u'%s %s: «%s»\n' % (label, sims[index], ' '.join(train_corpus[sims[index][0]].words)))

Test Document (8): «hunan province remained on high alert last night as thunderstorms threatened to exacerbate the flood crisis now entering its fifth day and with already dead and hundreds of thousands evacuated on the flood frontline at dongting lake the water level peaked at just under on saturday night then eased about cm during the day under hot sun with temperatures reaching but with the lake still brimming at dangerously high levels and spilling over the top of its banks in some places locals were fearful that thunderstorm and high winds forecast to hit the region last night would damage the dikes about km of dikes around the lake are all that stand between million people in the surrounding farmland and disaster»

SIMILAR/DISSIMILAR DOCS PER MODEL Doc2Vec(dm/m,d50,n5,w5,mc2,s0.001,t3):

MOST (77, 0.6922479867935181): «the woomera detention centre in outback south australia has experienced its first quiet night this week since sunday it seems the government decision to put freeze

## 4. Ejercicios - TP

1. Entrenar un modelo Word2Vec para el español. Se puede utilizar agrupar datasets de "Sophia" en un solo dataset grande: 

2. Entrenar un modelo Doc2Vec para el español.

3. Utilizar representaciones Doc2Vec para volver a resolver tareas de clasificación y/o de topic modeling.