<center><img src='../img/logo_cosiam/LogoCoSIAM_COL.png' style='height:230px;  margin: 0px 15px 15px 0px'></center>

# Módulo 8 (Parte 2): De palabras a vectores

- Feature Engineering
- Representación vectorial de textos
- TF-IDF
- Word2Vec

# En capítulos anteriores...

<br>
<center><img src='../img/pipeline/pipeline2b.png' style='height:600px;'> </centeR>


# Hoy

<br>
<center><img src='../img/pipeline/pipeline3.png' style='height:600px;'> </center>


### 🚀 Hoy veremos...
  
- Repaso de Feature Engineering en Machine Learning 
- Representación de datos en forma numérica
- Espacio semántico vectorial


- Métodos de vectorización
    - One-Hot Encoding 
    - Bag of Words
    - Bag of N-Grams
    - TF-IDF
    - Word2Vec

### Feature Engineering ([1](https://developers.google.com/machine-learning/glossary)) ([2](https://github.com/omar-florez/AI_Dictionary_English_Spanish/blob/master/release/AI_Dictionary.pdf))

<br><center><img src='../img/clase08/FEng1.jpg' style='height:500px;'></center>
    
- Es el proceso de usar el conocimiento del dominio para crear atributos que sirvan para entrenar un modelo de aprendizaje automático. 


- <i>"Garbage in, garbage out"</i> -- Malos atributos, malos resultados.

<div align='center'>
    <img src='../img/clase08/FEng1.jpg' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

- Podemos cambiar de un sistema cartesiano $(x,y)$ a un sistema polar $(r,\theta)$ con una simple transformación de coordenadas: $$r = \sqrt{x^2 + y^2} \Rightarrow \theta = \tan^{-1} \left(\dfrac{y}{x}\right)$$

<div align='center'>
    <img src='../img/clase08/FEng2.jpg' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

- Ahora vemos que es fácil dividir el conjunto usando $r=2$

### Otros ejemplos de Feature Engineering 

- Atributos categóricos-- Ejemplo: Género, edad (cubetas), raza (variable ficticia)
- Valores faltantes y valores atípicos
- Normalización
- Fechas
- **Feature engineering para NLP**

### Feature Engineering para NLP

<img src='../img/clase08/FEngNLP.png'>

### Representación de datos en forma numérica

**Ejemplo: Imágenes**

<center><img src='../img/clase08/komp.jpg'></center>

- Una imagen es representada en un computador en la forma de una matriz donde cada $celda[i,j]$ representa el píxel $i,j$ de la imagen.<br>

- De manera similar, un video es una colección de fotogramas, donde cada fotograma es una imágen. Por lo tanto, cualquier video puede ser representado como una colección de matrices. <br>

- (Des)afortunadamente, representar texto  de manera numérica no es tan sencillo. 

## Espacio semántico vectorial

- Las redes neuronales pueden hacer que las máquinas entiendan las analogías como los humanos [Mikolov et al., 2013]

In [1]:
%%time

#Libraries
import sys
import numpy as np
import re

#Useful functions
def load_glove(filename):
    dic = {}
    with open(filename) as f:
        for line in f:
            vec = line.split()
            dic[vec[0]]= np.array(vec[1:], dtype=float)
    return dic

def analogies(gloves, x, y, z, n):
    dif_1 = gloves[x] - gloves[y]
    distances=[]
    for key,val in gloves.items():
        if z!=key:
            dif_2 = gloves[z]-gloves[key]
            distances.append((np.linalg.norm(dif_1-dif_2),key))
    distances.sort()
    return [d[1] for d in distances[0:n]]

gloves = load_glove("../archivos/glove.6B.300d.txt")

CPU times: user 21.5 s, sys: 1.16 s, total: 22.6 s
Wall time: 22.7 s


In [2]:
def print_analogy():
    print("Enter a word or 'x:y as z:'")
    cmd = input("> ")

    while cmd!=None:
        try:  
            match = re.search(r'(\w+):(\w+) as (\w+):', cmd)
            x = match.group(1).lower()
            y = match.group(2).lower()
            z = match.group(3).lower()

            words = analogies(gloves, x, y, z, 5)

            print("%s is to %s as %s is to {%s}" % (x,y,z,' '.join(words)))
            cmd = input("> ")
        except:
            print("Bye mis cielas!")
            break

In [3]:
print_analogy()

Enter a word or 'x:y as z:'
> 
Bye mis cielas!


## ¿Qué hay bajo el capó?

<br>
<center><img src='../img/clase08/brain.jpg' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

- Imaginemos que todas las palabras y sus significados viven en un espacio de altas dimensiones. Nosotros lo llamáremos **espacio semántico vectorial**<br>

- Cada dimensión en el espacio semántico vectorial representa algún aspecto del significado de la palabra

- Los conceptos y las palabras que significan cosas similares deben vivir cerca en este espacio



## ¿Cómo sabemos qué significa una palabra?

<br>
<center><img src='../img/clase08/reina.jpg' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

## Nosotros aprendemos a través de la experiencia

<br>
<center><img src='../img/clase08/reyes2.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

## Las máquinas también aprenden a través de la experiencia

<br>

<div align='center'>
    <img src='../img/clase08/maquina1.png' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
    <img src='../img/clase08/maquina2.png' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

## ¿Qué hay bajo el capó? Representación numérica de textos

<center><img src='../img/clase08/espacio.jpg' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>
<br>

<center><big><b>¡Matemáticas!</center></big></b>

<br>

- significado($man$) - significado($king$) + significado($queen$) = significado($woman$)

# Representación vectorial de textos

- Existen varios métodos
- Lo que diferencia un método del otro es qué tan bien captura las propiedades lingüísticas del texto que representa y la cantidad de espacio que ocupa en memoria
<br><br>
- **Métodos más populares (obsoletos)**:
    - One-Hot Encoding 
    - Bag of Words (Bolsa de palabras)
    - Bag of N-Grams (Bolsa de n-gramas)
    - TF-IDF
    - Word embeddings (word2vec)
        - CBOW (Bolsa de palabras continua)
        - SkipGram 

 #### (Paréntesis)
 
**Corpus lingüístico**: Conjunto amplio y estructurado de ejemplos reales de uso de la lengua.


 ## 🛠️ One-Hot Encoding
 
 Mapear cada palabra en el vocabulario del corpus de texto a una identificación única


#### Ventajas
- Es intuitivo y fácil de entender
- La implementación es directa

#### Desventajas
- Genera una matriz dispersa
- El vector de cada frase no tiene un tamaño constante
- No tiene noción de similitud entre palabras
- Problema de fuera de vocabulario

 ## 🛠️ Bag of Words (BoW) -- Bolsa de Palabras
 
- Representar el texto como una bolsa de palabras (ignorando orden y contexto) 
- Si dos piezas de texto tienen casi las mismas palabras, entonces pertenecen a la misma bolsa


<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

### Scikit-learn 

- Es una biblioteca para aprendizaje automático de software libre para el lenguaje de programación Python

Si no nos importa la frecuencia, `binary=True`

#### Ventajas
- Es intuitivo y fácil de entender
- La implementación es directa
- El vector de cada frase tiene un tamaño constante

#### Desventajas
- Genera una matriz dispersa (¿solución?)
- No tiene noción de similitud entre palabras
- Problema de fuera de vocabulario
- Se pierde el orden de la información


<hr>

Método bastante usado en la industria

 ## 🛠️ Bag of N-Grams (BoN) -- Bolsa de n-gramas
 <br>
 <center><img src='../img/clase08/NY.jpg' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>
 

- Hasta el momento solo hemos visto las palabras como unidades independientes
- Con la bolsa de n-gramas capturamos un poco de contexto y orden

#### Ventajas
- Captura alguna información sobre el contexto y orden

#### Desventajas
- Genera una matriz dispersa ¡rápidamente!
- Problema de fuera de vocabulario


<hr>

[Más sobre n-gramas](https://nlp.stanford.edu/fsnlp/promo/colloc.pdf)

 ## 🛠️ TF-IDF
 
- En los métodos que vimos en la clase pasada no hay ninguna noción de que algunas palabras del documento sean más importantes que otras

- TF-IDF (Term Frequency, Inverse Document Frequency) se ocupa de este tema

- Busca cuantificar la importancia de una palabra relativa a las otras palabras del documento y del corpus

- Se usa frecuentemente en los sistemas de recuperación de información y algoritmos de agrupación

- Entre más ayuda una palabra a distinguir un documento de los demás, más alta va a ser su puntuación TF-IDF 

### TF: Term Frequency

- **Frecuencia de términos**: Contar el número de ocurrencias de una palabra en un documento, dividido por el número de palabras en ese documento

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

- $t$ = término
- $d$ = documento

### 👮 Pop Quiz

- ¿Cuál es el valor máximo de $tf(t,d$)?

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

### DF: Document Frequency

- La *frecuencia de términos* es más alta para palabras frecuentemente usadas en un documento


- **Frecuencia en documentos**: Es el número de documentos que tienen esa palabra sobre el número total de documentos

$$df(t,N) = \dfrac{|\{d_i:t\in d_i, i=1,\cdots, N\}|}{N}$$

- $t$ = término
- $N$ = número de documentos en el corpus

- La frecuencia en documentos es más alta para palabras usadas en muchos documentos

- Por otro lado, una palabra específica a algún documento va a tener frecuencia de término muy baja

- Como el objetivo es distinguir un documento del otro, queremos resaltar las palabras usadas frecuentemente en un documento pero penalizarlas si están presentes en todos los documentos. A esto se le llama la puntuación **TF-IDF**

- Inicialmente, 
$$tfidf(t,d,N) = \dfrac{tf(t,d)}{df(t,N)}$$

- Pero esto no nos da un buen puntaje. La fórmula mejorada es:

$$tfidf(t,d,N) = tf(t,d) \cdot \log\left(\dfrac{1}{df(t,N)}\right)$$

- Cuando $t$ está en todos los documentos, $idf$ es $\log(1) = 0$

- Esto tiene sentido ya que una palabra que está en todos los documentos es muy mala para distinguir entre documentos

<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

Más info en [1](https://towardsdatascience.com/how-sklearns-tf-idf-is-different-from-the-standard-tf-idf-275fa582e73d), [2](https://github.com/parrt/msds692/blob/master/notes/tfidf.pdf).

# Medidas de similitud

¿Qué tan parecidos son los documentos?

## Medidas de similitud: Distancia euclidiana

<br>
<center><img src='../img/clase08/dist_euc.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

## Medidas de similitud: Distancia del coseno

<br>
<center><img src='../img/clase08/dist_cos.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

### ¿Cuándo usar la distancia del coseno en vez de la euclidiana?

<br>
<center><img src='../img/clase08/cosine.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'></center>

 # Pasando de TF-IDF a Word2Vec

- Hasta el momento, las representaciones vectoriales de texto que hemos vistos tratan las unidades lingüísticas como unidades atómicas
- Los vectores son dispersos
- Tienen problema con palabras fuera del vocabulario

Word2Vec es frecuentemente llamado una representación distribuida, mientras que TF-IDF, BoW, etc. son llamados representaciones locales.

-  Con representaciones distribuidas, como *word2vec*, podemos crear representaciones densas y bajas en dimensión que capturan **similitudes distributivas** entre palabras y su **significado**.

 ## 🛠️ Word2Vec
 
 - ¿Qué quiere decir que debemos capturar las **similitudes distributivas** entre palabras?
 - ¿Qué quiere decir el **significado** de una palabra?
 
# 🧠 Los computadores son tan sólo una extención de nuestro cerebro

# 🤔 🤔 🤔
# ¿Qué es tichiniky? 
# 🤔 🤔 🤔

# 🤔 ¿Qué es tichiniky? 

- Joe le ofreció a su novia una copa de <font color='red'>tichiniky</font>.

- Los platos de carne roja se hacen para complementar el <font color='red'>tichiniky</font>.

- Charlie se puso de pie tambaleándose, con la cara enrojecida por el exceso de <font color='red'>tichiniky</font>.

- Anoche cené pan, queso y este excelente <font color='red'>tichiniky</font>.

- Las bebidas estuvieron deliciosas: <font color='red'>tichiniky</font> rojo sangre, así como el dulce renano.

# 🤔 ¿Qué es tichiniky? 

- Una bebida alcoholica hecha de uvas y maíz.
<img src='../img/clase08/amor_amistad.gif'>

## Semántica distributiva

- Una botella de <font color='red'>tichiniky</font> está en la mesa.
- A todo el mundo le gusta el <font color='red'>tichiniky</font>.
- No tomes <font color='red'>tichiniky</font> antes de conducir.
- Hacemos <font color='red'>tichiniky</font> con uvas. 

## Semántica distributiva

- Una botella de <font color='red'>____________</font> está en la mesa.
- A todo el mundo le gusta el <font color='red'>____________</font>.
- No tomes <font color='red'>____________</font> antes de conducir.
- Hacemos <font color='red'>____________</font> con uvas. 


### 🤔 ¿Qué otras palabras encajan en estos contextos? 

## Semántica distributiva

1. Una botella de ____________ está en la mesa.
2. A todo el mundo le gusta el ____________.
3. No tomes ____________ antes de conducir.
4. Hacemos ____________ con uvas. 


|                 | 1 | 2 | 3 | 4 | ... |
|-----------------|---|---|---|---|-----|
| tichiniky        | 1 | 1 | 1 | 1 |     |
| fuerte          | 0 | 0 | 1 | 0 |     |
| aceite de motor | 1 | 0 | 1 | 0 |     |
| tortillas       | 0 | 1 | 0 | 0 |     |
| vino            | 1 | 1 | 1 | 1 |     |

- ⚠️ Tichiniky & Vino tienen la misma representación de vectores

## 🛠️ ¿Cómo funciona Word2Vec?

<br>
<center><img src='../img/clase08/espacio.jpg' style='height:400px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>


- Word2Vec deriva el significado de una palabra por su contexto. Es decir, si dos palabras diferentes ocurren en contextos parecidos, entonces es probable que signifiquen lo mismo


- Recientemente,  [Mikolov et al., 2013] mostró que las redes neuronales hacen un buen trabajo representando el espacio semántico vectorial


- Las representaciones de texto usando redes neuronales son por lo general llamadas <b><i>embeddings</b></i> ([encaje](https://es.wikipedia.org/wiki/Encaje_(matem%C3%A1tica)), inmersión ó incrustación)

## 🛠️ CBOW (Continous bag of words) 

<br>
<center><img src='../img/clase08/cbow_fox.png' style='height:100px; float: center; margin: 0px 15px 15px 0px'>
    Ventana contextual de tamaño 2<br>
    ¿Cuál es la probabilidad de que "jumped" ocurra dado que ...? $P(\text{jumped}|...)$
</center>
<br>

<br>
<center><img src='../img/clase08/cbow_prep.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>

<br>
<center><img src='../img/clase08/cbow_nn.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>

## 🛠️ SkipGram

- Parecido a la bolsa de palabras continuas (`CBOW`), excepto que mientras que `CBOW` intenta predecir una palabra usando su contexto, el modelo `Skip-gram`, intenta predecir el contexto usando una palabra. ([Más info aquí](https://towardsdatascience.com/nlp-101-word2vec-skip-gram-and-cbow-93512ee24314))

<br><br>
<center><img src='../img/clase08/sg_prep.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'>
    Ventana contextual de tamaño 2
</center>
<br>

### 🧠 ¿Red neuronal?


- Inicializamos cada palabra $w$ en el corpus con un vector $v_w$ con valores aleatorios


- Luego el modelo Word2Vec refina el vector $v_w$ al predecir $v_w$ usando los vectores de las palabras en su contexto usando una red neuronal de dos capas


- Word2Vec se asegura de que estas representaciones sean de baja dimensión y densas

## 🛠️ Embeddings pre-entrenados

- Entrenar tu propio embedding es un proceso muy costoso (en terminos computacionales y de tiempo)

- Afortunadamente, existen embeddings pre-entrenados


- 🇬🇧 Inglés: [Standford GloVe](https://nlp.stanford.edu/projects/glove/). Descarga [aquí](http://nlp.stanford.edu/data/glove.6B.zip) 

- 🇪🇸 Español: [DCC UChile](https://github.com/dccuchile/spanish-word-embeddings#word2vec-embeddings-from-sbwc). Descarga [aquí](http://cs.famaf.unc.edu.ar/~ccardellino/SBWCE/SBW-vectors-300-min5.txt.bz2)

- 🌎 Más idiomas: [FastText](https://fasttext.cc/docs/en/crawl-vectors.html)



Jupyter notebook de referencia incluido en el material.

<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

# Instalar Gensim

Dado las recientes actualizaciones de **Gensim** por favor utilizar el siguiente comando en la consola:

``conda install -c conda-forge gensim``

Dependiendo de su instalación, puede que el comando de arriba no le funcione. Por favor intente los siguientes:
- ``pip install --upgrade gensim``
- ``conda install -c anaconda gensim``
- ``conda update all``

### 🤓 Recapitulando: Hoy aprendímos...

- Herramientas específicas de pre-procesamiento de texto en NLP
    - Palabras vacías
    - Tokenización
    - Stemming
    - Lematización
    - Etiquetado gramatical
    
    
- Repaso de Feature Engineering en Machine Learning 
- Representación de datos en forma numérica
- Espacio semántico vectorial


- Métodos de vectorización
    - One-Hot Encoding 
    - Bag of Words (Bolsa de palabras)
    - Bag of N-Grams (Bolsa de n-gramas)
    - TF-IDF
    - Word embeddings (word2vec)
        - CBOW (Bolsa de palabras continua)
        - SkipGram 

<img src='../img/dragonball/7.jpeg' style='height:600px; float: left; margin: 0px 15px 15px 0px'>

• **Módulo 1**: &nbsp;&nbsp;&nbsp;&nbsp; Introducción ✅ <br>
• **Módulo 2**: &nbsp;&nbsp;&nbsp;&nbsp; Configuración de ambiente de desarrollo ✅ <br>
• **Módulo 3**: &nbsp;&nbsp;&nbsp;&nbsp; Repaso de Python ✅ <br>
• **Módulo 4**: &nbsp;&nbsp;&nbsp;&nbsp; Panorama general del Aprendizaje Automático (Machine Learning) ✅ <br>
• **Módulo 5**: &nbsp;&nbsp;&nbsp;&nbsp; ¿Cómo adquirir datos? ✅ <br>
• **Módulo 6**: &nbsp;&nbsp;&nbsp;&nbsp; Cuenta de desarrollador de Twitter ✅ <br>
• **Módulo 7**: &nbsp;&nbsp;&nbsp;&nbsp; Web Scraping ✅ <br>
• **Módulo 8**: &nbsp;&nbsp;&nbsp;&nbsp; De palabras a vectores ✅ <br>