<center><img src='../img/logo_cosiam/LogoCoSIAM_COL.png' style='height:230px;  margin: 0px 15px 15px 0px'></center>

# Módulo 8 (Parte 2): De palabras a vectores

- Feature Engineering
- Representación vectorial de textos
- TF-IDF
- Word2Vec

# En capítulos anteriores...

<br>
<center><img src='../img/pipeline/pipeline2b.png' style='height:600px;'> </centeR>


# Hoy

<br>
<center><img src='../img/pipeline/pipeline3.png' style='height:600px;'> </center>


### 🚀 Hoy veremos...
  
- Repaso de Feature Engineering en Machine Learning 
- Representación de datos en forma numérica
- Espacio semántico vectorial


- Métodos de vectorización
    - One-Hot Encoding 
    - Bag of Words
    - Bag of N-Grams
    - TF-IDF
    - Word2Vec

### Feature Engineering ([1](https://developers.google.com/machine-learning/glossary)) ([2](https://github.com/omar-florez/AI_Dictionary_English_Spanish/blob/master/release/AI_Dictionary.pdf))

<br><center><img src='../img/clase08/FEng1.jpg' style='height:500px;'></center>
    
- Es el proceso de usar el conocimiento del dominio para crear atributos que sirvan para entrenar un modelo de aprendizaje automático. 


- <i>"Garbage in, garbage out"</i> -- Malos atributos, malos resultados.

<div align='center'>
    <img src='../img/clase08/FEng1.jpg' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

- Podemos cambiar de un sistema cartesiano $(x,y)$ a un sistema polar $(r,\theta)$ con una simple transformación de coordenadas: $$r = \sqrt{x^2 + y^2} \Rightarrow \theta = \tan^{-1} \left(\dfrac{y}{x}\right)$$

<div align='center'>
    <img src='../img/clase08/FEng2.jpg' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

- Ahora vemos que es fácil dividir el conjunto usando $r=2$

### Otros ejemplos de Feature Engineering 

- Atributos categóricos-- Ejemplo: Género, edad (cubetas), raza (variable ficticia)
- Valores faltantes y valores atípicos
- Normalización
- Fechas
- **Feature engineering para NLP**

### Feature Engineering para NLP

<img src='../img/clase08/FEngNLP.png'>

### Representación de datos en forma numérica

**Ejemplo: Imágenes**

<center><img src='../img/clase08/komp.jpg'></center>

- Una imagen es representada en un computador en la forma de una matriz donde cada $celda[i,j]$ representa el píxel $i,j$ de la imagen.<br>

- De manera similar, un video es una colección de fotogramas, donde cada fotograma es una imágen. Por lo tanto, cualquier video puede ser representado como una colección de matrices. <br>

- (Des)afortunadamente, representar texto  de manera numérica no es tan sencillo. 

## Espacio semántico vectorial

- Las redes neuronales pueden hacer que las máquinas entiendan las analogías como los humanos [Mikolov et al., 2013]

In [1]:
%%time

#Libraries
import sys
import numpy as np
import re

#Useful functions
def load_glove(filename):
    dic = {}
    with open(filename) as f:
        for line in f:
            vec = line.split()
            dic[vec[0]]= np.array(vec[1:], dtype=float)
    return dic

def analogies(gloves, x, y, z, n):
    dif_1 = gloves[x] - gloves[y]
    distances=[]
    for key,val in gloves.items():
        if z!=key:
            dif_2 = gloves[z]-gloves[key]
            distances.append((np.linalg.norm(dif_1-dif_2),key))
    distances.sort()
    return [d[1] for d in distances[0:n]]

gloves = load_glove("../archivos/glove.6B.300d.txt")

CPU times: user 21.5 s, sys: 1.16 s, total: 22.6 s
Wall time: 22.7 s


In [2]:
def print_analogy():
    print("Enter a word or 'x:y as z:'")
    cmd = input("> ")

    while cmd!=None:
        try:  
            match = re.search(r'(\w+):(\w+) as (\w+):', cmd)
            x = match.group(1).lower()
            y = match.group(2).lower()
            z = match.group(3).lower()

            words = analogies(gloves, x, y, z, 5)

            print("%s is to %s as %s is to {%s}" % (x,y,z,' '.join(words)))
            cmd = input("> ")
        except:
            print("Bye mis cielas!")
            break

In [3]:
print_analogy()

Enter a word or 'x:y as z:'
> 
Bye mis cielas!


## ¿Qué hay bajo el capó?

<br>
<center><img src='../img/clase08/brain.jpg' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

- Imaginemos que todas las palabras y sus significados viven en un espacio de altas dimensiones. Nosotros lo llamáremos **espacio semántico vectorial**<br>

- Cada dimensión en el espacio semántico vectorial representa algún aspecto del significado de la palabra

- Los conceptos y las palabras que significan cosas similares deben vivir cerca en este espacio



## ¿Cómo sabemos qué significa una palabra?

<br>
<center><img src='../img/clase08/reina.jpg' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

## Nosotros aprendemos a través de la experiencia

<br>
<center><img src='../img/clase08/reyes2.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

## Las máquinas también aprenden a través de la experiencia

<br>

<div align='center'>
    <img src='../img/clase08/maquina1.png' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
    <img src='../img/clase08/maquina2.png' style='height:500px; float: left; margin: 0px 15px 15px 0px'>
</div>

## ¿Qué hay bajo el capó? Representación numérica de textos

<center><img src='../img/clase08/espacio.jpg' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>
<br>

<center><big><b>¡Matemáticas!</center></big></b>

<br>

- significado($man$) - significado($king$) + significado($queen$) = significado($woman$)

# Representación vectorial de textos

- Existen varios métodos
- Lo que diferencia un método del otro es qué tan bien captura las propiedades lingüísticas del texto que representa y la cantidad de espacio que ocupa en memoria
<br><br>
- **Métodos más populares (obsoletos)**:
    - One-Hot Encoding 
    - Bag of Words (Bolsa de palabras)
    - Bag of N-Grams (Bolsa de n-gramas)
    - TF-IDF
    - Word embeddings (word2vec)
        - CBOW (Bolsa de palabras continua)
        - SkipGram 

 #### (Paréntesis)
 
**Corpus lingüístico**: Conjunto amplio y estructurado de ejemplos reales de uso de la lengua.


 ## 🛠️ One-Hot Encoding
 
 Mapear cada palabra en el vocabulario del corpus de texto a una identificación única


In [4]:
import pandas as pd 
import numpy as np

corpus = {'D1': 'perro muerde hombre',
          'D2': 'hombre muerde perro',
          'D3': 'perro come carne',
          'D4': 'hombre come comida'}

corpus = pd.DataFrame.from_dict(corpus, orient='index', columns=['texto'])
corpus

Unnamed: 0,texto
D1,perro muerde hombre
D2,hombre muerde perro
D3,perro come carne
D4,hombre come comida


In [5]:
# Obtener el vocabulario
vocabulario = corpus['texto'].str.cat(sep=" ")
vocabulario = set(vocabulario.split())
vocabulario = [(palabra,i) for i,palabra in enumerate(vocabulario)]
print(vocabulario)

[('hombre', 0), ('perro', 1), ('come', 2), ('muerde', 3), ('carne', 4), ('comida', 5)]


In [6]:
# One-Hot Encoding
vocab_onehot = np.array([[0]*len(vocabulario)]*len(vocabulario))

for palabra,i in vocabulario:
    vocab_onehot[i,i] = 1
    # print(f"Palabra: {palabra}")
    # print(f"One-hot encoding: {vocab_onehot[i,:]}")
    # print()
    
vocab_onehot = pd.DataFrame(vocab_onehot)
vocab_onehot.columns = [palabra[0] for palabra in vocabulario]
vocab_onehot.index = [palabra[0] for palabra in vocabulario]
vocab_onehot

Unnamed: 0,hombre,perro,come,muerde,carne,comida
hombre,1,0,0,0,0,0
perro,0,1,0,0,0,0
come,0,0,1,0,0,0
muerde,0,0,0,1,0,0
carne,0,0,0,0,1,0
comida,0,0,0,0,0,1


In [7]:
def one_hot_encoder(frase):
    frase_onehot = []
    for palabra in frase.split():
        frase_onehot.append(vocab_onehot[palabra].tolist())
    print(frase_onehot)

In [8]:
one_hot_encoder("perro muerde hombre perro")

[[0, 1, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0], [1, 0, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0]]


#### Ventajas
- Es intuitivo y fácil de entender
- La implementación es directa

#### Desventajas
- Genera una matriz dispersa
- El vector de cada frase no tiene un tamaño constante
- No tiene noción de similitud entre palabras
- Problema de fuera de vocabulario

 ## 🛠️ Bag of Words (BoW) -- Bolsa de Palabras
 
- Representar el texto como una bolsa de palabras (ignorando orden y contexto) 
- Si dos piezas de texto tienen casi las mismas palabras, entonces pertenecen a la misma bolsa


In [9]:
print(vocabulario) # sigue siendo el mismo

[('hombre', 0), ('perro', 1), ('come', 2), ('muerde', 3), ('carne', 4), ('comida', 5)]


In [10]:
def bow(frase):
    frase_bow = [0]*len(vocabulario)
    for palabra,i in vocabulario:
        if palabra in frase.split():
            frase_bow[i] = 1
    print(frase_bow)

In [11]:
bow("perro muerde hombre")

[1, 1, 0, 1, 0, 0]


In [12]:
bow("perro muerde hombre")

[1, 1, 0, 1, 0, 0]


In [13]:
one_hot_encoder("perro muerde hombre")

np.sum(np.array([[0, 1, 0, 0, 0, 0], [0, 0, 1, 0, 0, 0], [0, 0, 0, 0, 0, 1]]),0)

[[0, 1, 0, 0, 0, 0], [0, 0, 0, 1, 0, 0], [1, 0, 0, 0, 0, 0]]


array([0, 1, 1, 0, 0, 1])

<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

### Scikit-learn 

- Es una biblioteca para aprendizaje automático de software libre para el lenguaje de programación Python

In [14]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer(binary=True)
bow_rep = count_vect.fit_transform(corpus.texto.values)

print("Vocabulario: ", count_vect.vocabulary_)

# print(corpus.iloc[0])
# print(bow_rep[0].toarray())

corpus['bow'] = [row for row in bow_rep.toarray()]
corpus

Vocabulario:  {'perro': 5, 'muerde': 4, 'hombre': 3, 'come': 1, 'carne': 0, 'comida': 2}


Unnamed: 0,texto,bow
D1,perro muerde hombre,"[0, 0, 0, 1, 1, 1]"
D2,hombre muerde perro,"[0, 0, 0, 1, 1, 1]"
D3,perro come carne,"[1, 1, 0, 0, 0, 1]"
D4,hombre come comida,"[0, 1, 1, 1, 0, 0]"


Si no nos importa la frecuencia, `binary=True`

In [15]:
ej = ["perro y perro son amigos perros"]
temp = count_vect.transform(ej)
print(count_vect.vocabulary_)
temp.toarray()

{'perro': 5, 'muerde': 4, 'hombre': 3, 'come': 1, 'carne': 0, 'comida': 2}


array([[0, 0, 0, 0, 0, 1]])

#### Ventajas
- Es intuitivo y fácil de entender
- La implementación es directa
- El vector de cada frase tiene un tamaño constante

#### Desventajas
- Genera una matriz dispersa (¿solución?)
- No tiene noción de similitud entre palabras
- Problema de fuera de vocabulario
- Se pierde el orden de la información


<hr>

Método bastante usado en la industria

 ## 🛠️ Bag of N-Grams (BoN) -- Bolsa de n-gramas
 <br>
 <center><img src='../img/clase08/NY.jpg' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>
 

- Hasta el momento solo hemos visto las palabras como unidades independientes
- Con la bolsa de n-gramas capturamos un poco de contexto y orden

In [16]:
corpus

Unnamed: 0,texto,bow
D1,perro muerde hombre,"[0, 0, 0, 1, 1, 1]"
D2,hombre muerde perro,"[0, 0, 0, 1, 1, 1]"
D3,perro come carne,"[1, 1, 0, 0, 0, 1]"
D4,hombre come comida,"[0, 1, 1, 1, 0, 0]"


In [17]:
count_vect = CountVectorizer(ngram_range=(1,2))
bow_rep = count_vect.fit_transform(corpus.texto.values)
print("Vocabulario: ", count_vect.vocabulary_)
print("Representación bow 'perro muerde hombre'", bow_rep[0].toarray())

Vocabulario:  {'perro': 11, 'muerde': 8, 'hombre': 5, 'perro muerde': 13, 'muerde hombre': 9, 'hombre muerde': 7, 'muerde perro': 10, 'come': 1, 'carne': 0, 'perro come': 12, 'come carne': 2, 'comida': 4, 'hombre come': 6, 'come comida': 3}
Representación bow 'perro muerde hombre' [[0 0 0 0 0 1 0 0 1 1 0 1 0 1]]


#### Ventajas
- Captura alguna información sobre el contexto y orden

#### Desventajas
- Genera una matriz dispersa ¡rápidamente!
- Problema de fuera de vocabulario


<hr>

[Más sobre n-gramas](https://nlp.stanford.edu/fsnlp/promo/colloc.pdf)

 ## 🛠️ TF-IDF
 
- En los métodos que vimos en la clase pasada no hay ninguna noción de que algunas palabras del documento sean más importantes que otras

- TF-IDF (Term Frequency, Inverse Document Frequency) se ocupa de este tema

- Busca cuantificar la importancia de una palabra relativa a las otras palabras del documento y del corpus

- Se usa frecuentemente en los sistemas de recuperación de información y algoritmos de agrupación

- Entre más ayuda una palabra a distinguir un documento de los demás, más alta va a ser su puntuación TF-IDF 

In [18]:
import re
import pandas as pd
import numpy as np 

corpus = {'D1': 'in the new york times in',
          'D2': 'the new york post',
          'D3': 'the los angeles times'}

corpus = pd.DataFrame.from_dict(corpus, orient='index', columns=['texto'])

corpus

Unnamed: 0,texto
D1,in the new york times in
D2,the new york post
D3,the los angeles times


### TF: Term Frequency

- **Frecuencia de términos**: Contar el número de ocurrencias de una palabra en un documento, dividido por el número de palabras en ese documento

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

- $t$ = término
- $d$ = documento

In [19]:
corpus['d'] = corpus.texto.apply(lambda val: len(val.split()))

corpus

Unnamed: 0,texto,d
D1,in the new york times in,6
D2,the new york post,4
D3,the los angeles times,4


In [20]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(corpus['texto'].values)

In [21]:
# Contar el número de cada una de las palabras en el documento
tf = pd.DataFrame(bow_rep.toarray())
tf.columns = count_vect.get_feature_names_out()
tf.index = corpus.index
tf = tf.T

In [22]:
tf = tf.div(corpus['d'], axis=1).round(3)

tf

Unnamed: 0,D1,D2,D3
angeles,0.0,0.0,0.25
in,0.333,0.0,0.0
los,0.0,0.0,0.25
new,0.167,0.25,0.0
post,0.0,0.25,0.0
the,0.167,0.25,0.25
times,0.167,0.0,0.25
york,0.167,0.25,0.0


### 👮 Pop Quiz

- ¿Cuál es el valor máximo de $tf(t,d$)?

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

### DF: Document Frequency

- La *frecuencia de términos* es más alta para palabras frecuentemente usadas en un documento


- **Frecuencia en documentos**: Es el número de documentos que tienen esa palabra sobre el número total de documentos

$$df(t,N) = \dfrac{|\{d_i:t\in d_i, i=1,\cdots, N\}|}{N}$$

- $t$ = término
- $N$ = número de documentos en el corpus

In [23]:
# En cuántos documentos aparece cada una de las palabras, dividido por la cantidad de documentos
df = {}

for palabra in count_vect.get_feature_names():
    suma = corpus['texto'].apply(lambda val: palabra in val).sum()
    df[palabra] = suma

df = pd.DataFrame.from_dict(df, orient="index", columns=['doc_count'])

N = corpus.shape[0]

df['df'] = df['doc_count']/N

df



Unnamed: 0,doc_count,df
angeles,1,0.333333
in,1,0.333333
los,1,0.333333
new,2,0.666667
post,1,0.333333
the,3,1.0
times,2,0.666667
york,2,0.666667


- La frecuencia en documentos es más alta para palabras usadas en muchos documentos

- Por otro lado, una palabra específica a algún documento va a tener frecuencia de término muy baja

- Como el objetivo es distinguir un documento del otro, queremos resaltar las palabras usadas frecuentemente en un documento pero penalizarlas si están presentes en todos los documentos. A esto se le llama la puntuación **TF-IDF**

- Inicialmente, 
$$tfidf(t,d,N) = \dfrac{tf(t,d)}{df(t,N)}$$

- Pero esto no nos da un buen puntaje. La fórmula mejorada es:

$$tfidf(t,d,N) = tf(t,d) \cdot \log\left(\dfrac{1}{df(t,N)}\right)$$

- Cuando $t$ está en todos los documentos, $idf$ es $\log(1) = 0$

- Esto tiene sentido ya que una palabra que está en todos los documentos es muy mala para distinguir entre documentos

In [24]:
df['idf'] = 1/df['df']
df['log_idf'] = np.log10(df['idf'])

df

Unnamed: 0,doc_count,df,idf,log_idf
angeles,1,0.333333,3.0,0.477121
in,1,0.333333,3.0,0.477121
los,1,0.333333,3.0,0.477121
new,2,0.666667,1.5,0.176091
post,1,0.333333,3.0,0.477121
the,3,1.0,1.0,0.0
times,2,0.666667,1.5,0.176091
york,2,0.666667,1.5,0.176091


In [25]:
tfidf = df.join(tf)
tfidf["tfidf_d1"] = tfidf['D1'] * tfidf['log_idf']
tfidf["tfidf_d2"] = tfidf['D2'] * tfidf['log_idf']
tfidf["tfidf_d3"] = tfidf['D3'] * tfidf['log_idf']

tfidf[['tfidf_d1', 'tfidf_d2', 'tfidf_d3']]

Unnamed: 0,tfidf_d1,tfidf_d2,tfidf_d3
angeles,0.0,0.0,0.11928
in,0.158881,0.0,0.0
los,0.0,0.0,0.11928
new,0.029407,0.044023,0.0
post,0.0,0.11928,0.0
the,0.0,0.0,0.0
times,0.029407,0.0,0.044023
york,0.029407,0.044023,0.0


<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

In [26]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer()
tfidf = tfidf_vect.fit_transform(corpus['texto'].values)

tfidf_matrix = pd.DataFrame(tfidf.toarray(), columns=tfidf_vect.get_feature_names())
tfidf_matrix.index = corpus.index

tfidf_matrix.T.round(3)



Unnamed: 0,D1,D2,D3
angeles,0.0,0.0,0.584
in,0.811,0.0,0.0
los,0.0,0.0,0.584
new,0.308,0.48,0.0
post,0.0,0.632,0.0
the,0.239,0.373,0.345
times,0.308,0.0,0.445
york,0.308,0.48,0.0


Más info en [1](https://towardsdatascience.com/how-sklearns-tf-idf-is-different-from-the-standard-tf-idf-275fa582e73d), [2](https://github.com/parrt/msds692/blob/master/notes/tfidf.pdf).

# Medidas de similitud

¿Qué tan parecidos son los documentos?

In [27]:
n1 = "La compañía Boring de Elon Musk construirá una conexión de alta velocidad en el aeropuerto de Chicago"
n2 = "La compañía Boring de Elon Musk construirá un enlace de alta velocidad al aeropuerto de Chicago"
n3 = "La empresa Boring de Elon Musk aprobó la construcción del tránsito de alta velocidad entre el centro de Chicago y el aeropuerto O'Hare."
n4 = "Tanto la manzana como la naranja son frutas"

corpus = {'n1': n1,
          'n2': n2,
          'n3': n3,
          'n4': n4}

corpus = pd.DataFrame.from_dict(corpus, orient='index', columns=['texto'])

corpus

Unnamed: 0,texto
n1,La compañía Boring de Elon Musk construirá una...
n2,La compañía Boring de Elon Musk construirá un ...
n3,La empresa Boring de Elon Musk aprobó la const...
n4,Tanto la manzana como la naranja son frutas


In [28]:
import re 
from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = texto.split() # tokenización 
    texto = [palabra for palabra in texto if palabra not in stopwords_sp]
    texto = " ".join(texto)
    return texto 

corpus['pp'] = corpus['texto'].apply(lambda val: pre_procesado(val))
corpus

Unnamed: 0,texto,pp
n1,La compañía Boring de Elon Musk construirá una...,compañía boring elon musk construirá conexión ...
n2,La compañía Boring de Elon Musk construirá un ...,compañía boring elon musk construirá enlace al...
n3,La empresa Boring de Elon Musk aprobó la const...,empresa boring elon musk aprobó construcción t...
n4,Tanto la manzana como la naranja son frutas,manzana naranja frutas


In [29]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vec = TfidfVectorizer()
tfidf = tfidf_vec.fit_transform(corpus['pp'].values)

tfidf_matrix = pd.DataFrame(tfidf.toarray())
tfidf_matrix.columns = tfidf_vec.get_feature_names()
tfidf_matrix.index = corpus.index

tfidf_matrix = tfidf_matrix.T

tfidf_matrix



Unnamed: 0,n1,n2,n3,n4
aeropuerto,0.282775,0.282775,0.214535,0.0
alta,0.282775,0.282775,0.214535,0.0
aprobó,0.0,0.0,0.336111,0.0
boring,0.282775,0.282775,0.214535,0.0
centro,0.0,0.0,0.336111,0.0
chicago,0.282775,0.282775,0.214535,0.0
compañía,0.349284,0.349284,0.0,0.0
conexión,0.443022,0.0,0.0,0.0
construcción,0.0,0.0,0.336111,0.0
construirá,0.349284,0.349284,0.0,0.0


## Medidas de similitud: Distancia euclidiana

<br>
<center><img src='../img/clase08/dist_euc.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

In [30]:
from sklearn.metrics.pairwise import euclidean_distances

dist_euc = euclidean_distances(tfidf_matrix.T.values)
dist_euc = pd.DataFrame(dist_euc, columns = tfidf_matrix.columns, index=tfidf_matrix.columns)

print(dist_euc)
corpus

          n1        n2        n3        n4
n1  0.000000  0.626528  1.072701  1.414214
n2  0.626528  0.000000  1.072701  1.414214
n3  1.072701  1.072701  0.000000  1.414214
n4  1.414214  1.414214  1.414214  0.000000


Unnamed: 0,texto,pp
n1,La compañía Boring de Elon Musk construirá una...,compañía boring elon musk construirá conexión ...
n2,La compañía Boring de Elon Musk construirá un ...,compañía boring elon musk construirá enlace al...
n3,La empresa Boring de Elon Musk aprobó la const...,empresa boring elon musk aprobó construcción t...
n4,Tanto la manzana como la naranja son frutas,manzana naranja frutas


## Medidas de similitud: Distancia del coseno

<br>
<center><img src='../img/clase08/dist_cos.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

In [31]:
from sklearn.metrics.pairwise import cosine_distances

dist_cos = cosine_distances(tfidf_matrix.T.values)
dist_cos = pd.DataFrame(dist_cos, columns = tfidf_matrix.columns, index = tfidf_matrix.columns)
dist_cos

Unnamed: 0,n1,n2,n3,n4
n1,0.0,0.196269,0.575343,1.0
n2,0.196269,0.0,0.575343,1.0
n3,0.575343,0.575343,0.0,1.0
n4,1.0,1.0,1.0,0.0


### ¿Cuándo usar la distancia del coseno en vez de la euclidiana?

<br>
<center><img src='../img/clase08/cosine.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'></center>

 # Pasando de TF-IDF a Word2Vec

- Hasta el momento, las representaciones vectoriales de texto que hemos vistos tratan las unidades lingüísticas como unidades atómicas
- Los vectores son dispersos
- Tienen problema con palabras fuera del vocabulario

Word2Vec es frecuentemente llamado una representación distribuida, mientras que TF-IDF, BoW, etc. son llamados representaciones locales.

-  Con representaciones distribuidas, como *word2vec*, podemos crear representaciones densas y bajas en dimensión que capturan **similitudes distributivas** entre palabras y su **significado**.

 ## 🛠️ Word2Vec
 
 - ¿Qué quiere decir que debemos capturar las **similitudes distributivas** entre palabras?
 - ¿Qué quiere decir el **significado** de una palabra?
 
# 🧠 Los computadores son tan sólo una extención de nuestro cerebro

# 🤔 🤔 🤔
# ¿Qué es tichiniky? 
# 🤔 🤔 🤔

# 🤔 ¿Qué es tichiniky? 

- Joe le ofreció a su novia una copa de <font color='red'>tichiniky</font>.

- Los platos de carne roja se hacen para complementar el <font color='red'>tichiniky</font>.

- Charlie se puso de pie tambaleándose, con la cara enrojecida por el exceso de <font color='red'>tichiniky</font>.

- Anoche cené pan, queso y este excelente <font color='red'>tichiniky</font>.

- Las bebidas estuvieron deliciosas: <font color='red'>tichiniky</font> rojo sangre, así como el dulce renano.

# 🤔 ¿Qué es tichiniky? 

- Una bebida alcoholica hecha de uvas y maíz.
<img src='../img/clase08/amor_amistad.gif'>

## Semántica distributiva

- Una botella de <font color='red'>tichiniky</font> está en la mesa.
- A todo el mundo le gusta el <font color='red'>tichiniky</font>.
- No tomes <font color='red'>tichiniky</font> antes de conducir.
- Hacemos <font color='red'>tichiniky</font> con uvas. 

## Semántica distributiva

- Una botella de <font color='red'>____________</font> está en la mesa.
- A todo el mundo le gusta el <font color='red'>____________</font>.
- No tomes <font color='red'>____________</font> antes de conducir.
- Hacemos <font color='red'>____________</font> con uvas. 


### 🤔 ¿Qué otras palabras encajan en estos contextos? 

## Semántica distributiva

1. Una botella de ____________ está en la mesa.
2. A todo el mundo le gusta el ____________.
3. No tomes ____________ antes de conducir.
4. Hacemos ____________ con uvas. 


|                 | 1 | 2 | 3 | 4 | ... |
|-----------------|---|---|---|---|-----|
| tichiniky        | 1 | 1 | 1 | 1 |     |
| fuerte          | 0 | 0 | 1 | 0 |     |
| aceite de motor | 1 | 0 | 1 | 0 |     |
| tortillas       | 0 | 1 | 0 | 0 |     |
| vino            | 1 | 1 | 1 | 1 |     |

- ⚠️ Tichiniky & Vino tienen la misma representación de vectores

## 🛠️ ¿Cómo funciona Word2Vec?

<br>
<center><img src='../img/clase08/espacio.jpg' style='height:400px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>


- Word2Vec deriva el significado de una palabra por su contexto. Es decir, si dos palabras diferentes ocurren en contextos parecidos, entonces es probable que signifiquen lo mismo


- Recientemente,  [Mikolov et al., 2013] mostró que las redes neuronales hacen un buen trabajo representando el espacio semántico vectorial


- Las representaciones de texto usando redes neuronales son por lo general llamadas <b><i>embeddings</b></i> ([encaje](https://es.wikipedia.org/wiki/Encaje_(matem%C3%A1tica)), inmersión ó incrustación)

## 🛠️ CBOW (Continous bag of words) 

<br>
<center><img src='../img/clase08/cbow_fox.png' style='height:100px; float: center; margin: 0px 15px 15px 0px'>
    Ventana contextual de tamaño 2<br>
    ¿Cuál es la probabilidad de que "jumped" ocurra dado que ...? $P(\text{jumped}|...)$
</center>
<br>

<br>
<center><img src='../img/clase08/cbow_prep.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>

<br>
<center><img src='../img/clase08/cbow_nn.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'>
</center>
<br>

## 🛠️ SkipGram

- Parecido a la bolsa de palabras continuas (`CBOW`), excepto que mientras que `CBOW` intenta predecir una palabra usando su contexto, el modelo `Skip-gram`, intenta predecir el contexto usando una palabra. ([Más info aquí](https://towardsdatascience.com/nlp-101-word2vec-skip-gram-and-cbow-93512ee24314))

<br><br>
<center><img src='../img/clase08/sg_prep.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'>
    Ventana contextual de tamaño 2
</center>
<br>

### 🧠 ¿Red neuronal?


- Inicializamos cada palabra $w$ en el corpus con un vector $v_w$ con valores aleatorios


- Luego el modelo Word2Vec refina el vector $v_w$ al predecir $v_w$ usando los vectores de las palabras en su contexto usando una red neuronal de dos capas


- Word2Vec se asegura de que estas representaciones sean de baja dimensión y densas

## 🛠️ Embeddings pre-entrenados

- Entrenar tu propio embedding es un proceso muy costoso (en terminos computacionales y de tiempo)

- Afortunadamente, existen embeddings pre-entrenados


- 🇬🇧 Inglés: [Standford GloVe](https://nlp.stanford.edu/projects/glove/). Descarga [aquí](http://nlp.stanford.edu/data/glove.6B.zip) 

- 🇪🇸 Español: [DCC UChile](https://github.com/dccuchile/spanish-word-embeddings#word2vec-embeddings-from-sbwc). Descarga [aquí](http://cs.famaf.unc.edu.ar/~ccardellino/SBWCE/SBW-vectors-300-min5.txt.bz2)

- 🌎 Más idiomas: [FastText](https://fasttext.cc/docs/en/crawl-vectors.html)



Jupyter notebook de referencia incluido en el material.

<center><img src='../img/clase08/bebememe.png' style='height:500px; float: center; margin: 0px 15px 15px 0px'></center>

In [32]:
import re 
import pandas as pd

from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = " ".join([palabra for palabra in texto.split() if palabra not in stopwords_sp])
    return texto.split()

rap = pd.read_csv("../archivos/rap_espanol.csv")
rap['pp'] = rap['letra'].apply(lambda texto: pre_procesado(texto))
rap

Unnamed: 0,id,artista,cancion,album,letra,anyo,visitas,pp
0,0,Denom,Machete (con Jarfaiter y Gente jodida),Medicina,"Para su nuevo disco ""Medicina"", Denom ha vuelt...",2019,126,"[nuevo, disco, medicina, denom, vuelto, contar..."
1,1,Denom,Vacío (con Ivo Incuerdo),Medicina,"[Denom]\nYo que quería, yo que pedía vida,\nSe...",2019,361,"[denom, quería, pedía, vida, partió, mitad, ah..."
2,2,Denom,El orgullo es fiel (con Juancho Marqués y Elio...,Medicina,"""El orgullo es fiel"" es uno de los cortes incl...",2019,262,"[orgullo, fiel, cortes, incluidos, nuevo, disc..."
3,3,Denom,Mueve mueve (con Fernandocosta),Medicina,"[Estribillo: Denom] (x2)\nMueve, mueve, mueve,...",2019,578,"[estribillo, denom, x, mueve, mueve, mueve, ti..."
4,4,Jaro Desperdizio,Insomnia,"Sin álbum, es un vídeo suelto","[Estribillo]\nY en esta noche, ¿Quién me arrop...",2019,219,"[estribillo, noche, quién, arropará, si, invie..."
...,...,...,...,...,...,...,...,...
9320,50,Pol y Polanko,Mas o menos,Suena,"Cuestiones de fianzas, tras de más desconfianz...",2009,1056,"[cuestiones, fianzas, tras, desconfianzas, abr..."
9321,51,Porta,Palabras mudas (con Gema),Reset,"Quiero decirte tantas cosas que no pude,\nasum...",2012,20184,"[quiero, decirte, tantas, cosas, pude, asume, ..."
9322,52,Porta,Causa y efecto (con H0lynaight),Reset,"[Porta]\nTenemos que hablar, esto tiene que ca...",2012,16159,"[porta, hablar, cambiar, sé, si, error, igual,..."
9323,53,Doble r ce,Que sepas que te amo,"Sin álbum, es un tema suelto",[Estribillo]\n(En inglés)\n\n\nNunca llegarás ...,2012,4015,"[estribillo, inglés, nunca, llegarás, entender..."


# Instalar Gensim

Dado las recientes actualizaciones de **Gensim** por favor utilizar el siguiente comando en la consola:

``conda install -c conda-forge gensim``

Dependiendo de su instalación, puede que el comando de arriba no le funcione. Por favor intente los siguientes:
- ``pip install --upgrade gensim``
- ``conda install -c anaconda gensim``
- ``conda update all``

In [33]:
# Por favor verifique que su version de Python sea igual o mayor a 3.6 y Gensim igual o mayor a 4.0
import gensim
import platform

print(f"Versión de Python {platform.python_version()}")
print(f"Versión de Gensim {gensim.__version__}")

Versión de Python 3.9.13
Versión de Gensim 4.2.0


In [34]:
import gensim.models.word2vec as w2v

In [35]:
%%time

mi_modelo = w2v.Word2Vec(rap['pp'].values,
                        sg=1, # 1 para usar skip-gram, 0 para usar CBOW
                        seed=1, # 1 para tener resultados reproducibles y debuggear
                        vector_size=256, # tamaño de los vectores 
                        min_count=50, # mínimo de veces que ha de aparecer una palabra para ser considerada
                        window=12, # ventana contextual de cada palabra
                        )

CPU times: user 2min 8s, sys: 414 ms, total: 2min 8s
Wall time: 43.8 s


In [36]:
mi_modelo.wv.most_similar("familia") # mi_modelo.wv.most_similar("arte")

[('cla', 0.51578289270401),
 ('biblia', 0.4834554195404053),
 ('madre', 0.38587048649787903),
 ('familiares', 0.3821481168270111),
 ('padre', 0.3788571357727051),
 ('amigos', 0.3780987858772278),
 ('humilde', 0.36926034092903137),
 ('hermanos', 0.36742115020751953),
 ('callejón', 0.3648734390735626),
 ('deudas', 0.3518131971359253)]

In [37]:
def similitud(inicio1, fin1, inicio2):
    fin2 = mi_modelo.wv.most_similar_cosmul(
    positive=[inicio2, inicio1],
    negative=[fin1])[0][0]
    return f"{inicio1} es a {fin1} como {inicio2} es a {fin2}"

similitud("amar", "amor", "odio")

'amar es a amor como odio es a odiar'

In [38]:
matrix = pd.DataFrame(mi_modelo.wv.get_normed_vectors(), index = mi_modelo.wv.key_to_index)
matrix

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,246,247,248,249,250,251,252,253,254,255
si,-0.037267,-0.042460,-0.015257,-0.021139,-0.023800,0.020321,0.093118,0.133591,-0.084795,-0.047789,...,0.098873,0.010182,-0.041571,-0.072998,-0.053423,0.000221,0.011610,-0.048249,-0.007579,0.031764
estribillo,-0.009798,0.020269,-0.056209,0.050074,0.016285,-0.031687,0.067096,0.005836,0.046276,-0.050406,...,-0.044566,0.016335,-0.088307,-0.006249,0.061966,0.042484,0.044763,-0.061081,-0.010444,0.041489
solo,-0.039245,0.010116,-0.056695,0.053186,-0.116511,-0.066129,0.015776,0.102786,-0.079462,0.079937,...,0.110696,-0.088278,-0.054395,-0.082308,-0.046878,-0.004803,-0.006969,-0.027447,0.008308,-0.062208
vida,0.051288,-0.089663,-0.030532,0.049178,0.018300,-0.004653,-0.004955,0.048535,-0.040482,-0.077144,...,0.010271,0.077493,-0.033993,0.076764,0.024783,-0.073309,0.155372,0.034157,0.014135,-0.038854
ser,-0.063812,0.025344,-0.058323,-0.019767,-0.024230,-0.015726,0.003934,-0.013275,-0.080643,-0.010569,...,0.044975,0.056183,-0.005132,0.037936,-0.073875,-0.041398,0.018523,-0.059232,-0.103611,-0.046667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
torres,-0.033563,-0.028362,0.018723,0.111243,0.019237,-0.038946,0.004356,-0.018108,-0.147974,-0.112353,...,0.078805,0.021549,-0.117595,-0.005533,-0.002970,-0.018294,0.097616,0.043333,-0.086580,-0.104082
rusa,-0.001193,-0.006989,0.073694,0.038505,0.069120,-0.037071,-0.048882,-0.055797,0.038473,-0.038229,...,0.048766,-0.053955,-0.022442,-0.043366,-0.025352,-0.059201,0.001217,-0.021523,-0.000871,-0.066844
tenerla,-0.129131,0.064528,-0.057370,-0.081081,-0.065190,-0.044631,-0.014963,0.040902,-0.083956,-0.142049,...,0.087407,-0.069404,-0.058080,-0.031992,0.023551,0.002696,0.008494,-0.030456,-0.015606,0.012523
callando,0.067690,-0.025306,-0.006270,-0.015113,0.053441,-0.036018,-0.012685,-0.042070,-0.040037,-0.060742,...,0.009869,-0.011077,-0.009567,0.057850,0.001223,-0.051374,-0.167348,-0.075533,-0.048834,-0.001653


In [39]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

import plotly.graph_objs as go
from plotly.offline import iplot, init_notebook_mode

%matplotlib inline
init_notebook_mode(connected=True)

In [40]:
pca = PCA(n_components=2)

result = pca.fit_transform(matrix)
result = pd.DataFrame(result)
result.columns = ['X', 'Y']
result['Palabra'] = matrix.index.values


trace = go.Scatter(x=result['X'].values,
                   y=result['Y'].values,
                   text=result['Palabra'].values,
                   mode='markers',
                   name="vocabulario") 

layout = go.Layout(title="PCA")

fig = go.Figure(data=[trace], layout=layout)
iplot(fig)

### 🤓 Recapitulando: Hoy aprendímos...

- Herramientas específicas de pre-procesamiento de texto en NLP
    - Palabras vacías
    - Tokenización
    - Stemming
    - Lematización
    - Etiquetado gramatical
    
    
- Repaso de Feature Engineering en Machine Learning 
- Representación de datos en forma numérica
- Espacio semántico vectorial


- Métodos de vectorización
    - One-Hot Encoding 
    - Bag of Words (Bolsa de palabras)
    - Bag of N-Grams (Bolsa de n-gramas)
    - TF-IDF
    - Word embeddings (word2vec)
        - CBOW (Bolsa de palabras continua)
        - SkipGram 

<img src='../img/dragonball/7.jpeg' style='height:600px; float: left; margin: 0px 15px 15px 0px'>

• **Módulo 1**: &nbsp;&nbsp;&nbsp;&nbsp; Introducción ✅ <br>
• **Módulo 2**: &nbsp;&nbsp;&nbsp;&nbsp; Configuración de ambiente de desarrollo ✅ <br>
• **Módulo 3**: &nbsp;&nbsp;&nbsp;&nbsp; Repaso de Python ✅ <br>
• **Módulo 4**: &nbsp;&nbsp;&nbsp;&nbsp; Panorama general del Aprendizaje Automático (Machine Learning) ✅ <br>
• **Módulo 5**: &nbsp;&nbsp;&nbsp;&nbsp; ¿Cómo adquirir datos? ✅ <br>
• **Módulo 6**: &nbsp;&nbsp;&nbsp;&nbsp; Cuenta de desarrollador de Twitter ✅ <br>
• **Módulo 7**: &nbsp;&nbsp;&nbsp;&nbsp; Web Scraping ✅ <br>
• **Módulo 8**: &nbsp;&nbsp;&nbsp;&nbsp; De palabras a vectores ✅ <br>