<center><img src='../img/vector.png' style='height:200px; float: center; margin: 0px 15px 15px 0px'></center>

### Representaci√≥n vectorial de textos (Parte 2) TF-IDF
#### NLP - Anal√≠tica Estrat√©gica de Datos
<br><b>Fundaci√≥n Universitaria Konrad Lorenz</b>
<br>Docente: Viviana M√°rquez [vivianam.penama@konradlorenz.edu.co](mailto:vivianama.penam@konradlorenz.edu.co)
<br>Clase #5: Marzo 18, 2021

# Retroalimentaci√≥n taller 3 \& 4

### ‚åõ En la clase anterior


- Herramientas espec√≠ficas de pre-procesamiento de texto en NLP
    - Palabras vac√≠as
    - Tokenizaci√≥n
    - Stemming
    - Lematizaci√≥n
    - Etiquetado gramatical
    
    
- Repaso de Feature Engineering en Machine Learning 
- Representaci√≥n de datos en forma num√©rica
- Espacio sem√°ntico vectorial


- M√©todos de vectorizaci√≥n
    - One-Hot Encoding 
    - Bag of Words
    - Bag of N-Grams

### Flujo de datos en un proyecto de NLP (pipeline)

<br><center><img src='../img/pipeline.png'><center>

### Flujo de datos en un proyecto de NLP (pipeline) --- En clases anteriores

<br><center><img src='../img/pipeline1.png'><center>

### Flujo de datos en un proyecto de NLP (pipeline) --- En clases anteriores

<br><center><img src='../img/pipeline2.png'><center>

### Flujo de datos en un proyecto de NLP (pipeline) --- Hoy

<br><center><img src='../img/pipeline3.png'><center>

### Feature Engineering para NLP

<img src='../img/clase5/FEngNLP.png'>

# Representaci√≥n vectorial de textos

- Existen varios m√©todos
- Lo que diferencia un m√©todo del otro es qu√© tan bien captura las propiedades ling√º√≠sticas del texto que representa y la cantidad de espacio que ocupa en memoria
<br><br>
- **M√©todos m√°s populares**:
    - One-Hot Encoding 
    - Bag of Words (Bolsa de palabras)
    - Bag of N-Grams (Bolsa de n-gramas)
    - TF-IDF
    - Word embeddings (word2vec)
        - CBOW (Bolsa de palabras continua)
        - SkipGram 

### üöÄ Hoy veremos...

- Continuaci√≥n de los m√©todos de vectorizaci√≥n
    - TF-IDF

- Medidas de similitud
    - Distancia Euclidiana
    - Distancia del coseno 
    - Distancia de Jaccard
    - Distancia de Levenshtein

 ## üõ†Ô∏è TF-IDF
 
- En los m√©todos que vimos en la clase pasada no hay ninguna noci√≥n de que algunas palabras del documento sean m√°s importantes que otras

- TF-IDF (Term Frequency, Inverse Document Frequency) se ocupa de este tema

- Busca cuantificar la importancia de una palabra relativa a las otras palabras del documento y del corpus

- Se usa frecuentemente en los sistemas de recuperaci√≥n de informaci√≥n y algoritmos de agrupaci√≥n

- Entre m√°s ayuda una palabra a distinguir un documento de los dem√°s, m√°s alta va a ser su puntuaci√≥n TF-IDF 

In [112]:
import re
import pandas as pd
import numpy as np 

corpus = {'D1': 'in the new york times in',
          'D2': 'the new york post',
          'D3': 'the los angeles times'}

corpus = pd.DataFrame.from_dict(corpus, orient='index', columns=['texto'])

corpus

Unnamed: 0,texto
D1,in the new york times in
D2,the new york post
D3,the los angeles times


### TF: Term Frequency

- **Frecuencia de t√©rminos**: Contar el n√∫mero de ocurrencias de una palabra en un documento, dividido por el n√∫mero de palabras en ese documento

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

- $t$ = t√©rmino
- $d$ = documento

In [113]:
corpus['d'] = corpus.texto.apply(lambda val: len(val.split()))

corpus

Unnamed: 0,texto,d
D1,in the new york times in,6
D2,the new york post,4
D3,the los angeles times,4


In [114]:
from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
bow_rep = count_vect.fit_transform(corpus['texto'].values)

In [115]:
# Contar el n√∫mero de cada una de las palabras en el documento
tf = pd.DataFrame(bow_rep.toarray())
tf.columns = count_vect.get_feature_names()
tf.index = corpus.index
tf = tf.T

In [116]:
tf = tf.div(corpus['d'], axis=1).round(3)

tf

Unnamed: 0,D1,D2,D3
angeles,0.0,0.0,0.25
in,0.333,0.0,0.0
los,0.0,0.0,0.25
new,0.167,0.25,0.0
post,0.0,0.25,0.0
the,0.167,0.25,0.25
times,0.167,0.0,0.25
york,0.167,0.25,0.0


### üëÆ Pop Quiz

- ¬øCu√°l es el valor m√°ximo de $tf(t,d$)?

$$tf(t,d) = \dfrac{count(t)}{|d|}$$

### DF: Document Frequency

- La *frecuencia de t√©rminos* es m√°s alta para palabras frecuentemente usadas en un documento


- **Frecuencia en documentos**: Es el n√∫mero de documentos que tienen esa palabra sobre el n√∫mero total de documentos

$$df(t,N) = \dfrac{|\{d_i:t\in d_i, i=1,\cdots, N\}|}{N}$$

- $t$ = t√©rmino
- $N$ = n√∫mero de documentos en el corpus

In [117]:
# En cu√°ntos documentos aparece cada una de las palabras, dividido por la cantidad de documentos
df = {}

for palabra in count_vect.get_feature_names():
    suma = corpus['texto'].apply(lambda val: palabra in val).sum()
    df[palabra] = suma

df = pd.DataFrame.from_dict(df, orient="index", columns=['doc_count'])

N = corpus.shape[0]

df['df'] = df['doc_count']/N

df

Unnamed: 0,doc_count,df
angeles,1,0.333333
in,1,0.333333
los,1,0.333333
new,2,0.666667
post,1,0.333333
the,3,1.0
times,2,0.666667
york,2,0.666667


- La frecuencia en documentos es m√°s alta para palabras usadas en muchos documentos

- Por otro lado, una palabra espec√≠fica a alg√∫n documento va a tener frecuencia de t√©rmino muy baja

- Como el objetivo es distinguir un documento del otro, queremos resaltar las palabras usadas frecuentemente en un documento pero penalizarlas si est√°n presentes en todos los documentos. A esto se le llama la puntuaci√≥n **TF-IDF**

- Inicialmente, 
$$tfidf(t,d,N) = \dfrac{tf(t,d)}{df(t,N)}$$

- Pero esto no nos da un buen puntaje. La f√≥rmula mejorada es:

$$tfidf(t,d,N) = tf(t,d) \cdot \log\left(\dfrac{1}{df(t,N)}\right)$$

- Cuando $t$ est√° en todos los documentos, $idf$ es $\log(1) = 0$

- Esto tiene sentido ya que una palabra que est√° en todos los documentos es muy mala para distinguir entre documentos

In [125]:
df['idf'] = 1/df['df']
df['log_idf'] = np.log10(df['idf'])

df

Unnamed: 0,doc_count,df,idf,log_idf
angeles,1,0.333333,3.0,0.477121
in,1,0.333333,3.0,0.477121
los,1,0.333333,3.0,0.477121
new,2,0.666667,1.5,0.176091
post,1,0.333333,3.0,0.477121
the,3,1.0,1.0,0.0
times,2,0.666667,1.5,0.176091
york,2,0.666667,1.5,0.176091


In [123]:
tfidf = df.join(tf)
tfidf["tfidf_d1"] = tfidf['D1'] * tfidf['log_idf']
tfidf["tfidf_d2"] = tfidf['D2'] * tfidf['log_idf']
tfidf["tfidf_d3"] = tfidf['D3'] * tfidf['log_idf']

tfidf[['tfidf_d1', 'tfidf_d2', 'tfidf_d3']]

Unnamed: 0,tfidf_d1,tfidf_d2,tfidf_d3
angeles,0.0,0.0,0.11928
in,0.158881,0.0,0.0
los,0.0,0.0,0.11928
new,0.029407,0.044023,0.0
post,0.0,0.11928,0.0
the,0.0,0.0,0.0
times,0.029407,0.0,0.044023
york,0.029407,0.044023,0.0


<center><img src='../img/clase5/bebememe.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'></center>

In [132]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer()
tfidf = tfidf_vect.fit_transform(corpus['texto'].values)

tfidf_matrix = pd.DataFrame(tfidf.toarray(), columns=tfidf_vect.get_feature_names())
tfidf_matrix.index = corpus.index

tfidf_matrix.T.round(3)

Unnamed: 0,D1,D2,D3
angeles,0.0,0.0,0.584
in,0.811,0.0,0.0
los,0.0,0.0,0.584
new,0.308,0.48,0.0
post,0.0,0.632,0.0
the,0.239,0.373,0.345
times,0.308,0.0,0.445
york,0.308,0.48,0.0


M√°s info en [1](https://towardsdatascience.com/how-sklearns-tf-idf-is-different-from-the-standard-tf-idf-275fa582e73d), [2](https://github.com/parrt/msds692/blob/master/notes/tfidf.pdf).

 ### üîÆ En la pr√≥xima clase
 #### Pasando de TF-IDF a Word2Vec

- Hasta el momento, las representaciones vectoriales de texto que hemos vistos tratan las unidades ling√º√≠sticas como unidades at√≥micas
- Los vectores son dispersos
- Tienen problema con palabras fuera del vocabulario

-Con representaciones distribuidas, como word2vec, podemos crear representaciones densas y bajas en dimensi√≥n que capturan similitudes distributivas entre palabras

# Medidas de similitud

¬øQu√© tan parecidos son los documentos?

In [135]:
n1 = "La compa√±√≠a Boring de Elon Musk construir√° una conexi√≥n de alta velocidad en el aeropuerto de Chicago"
n2 = "La compa√±√≠a Boring de Elon Musk construir√° un enlace de alta velocidad al aeropuerto de Chicago"
n3 = "La empresa Boring de Elon Musk aprob√≥ la construcci√≥n del tr√°nsito de alta velocidad entre el centro de Chicago y el aeropuerto O'Hare."
n4 = "Tanto la manzana como la naranja son frutas"

corpus = {'n1': n1,
          'n2': n2,
          'n3': n3,
          'n4': n4}

corpus = pd.DataFrame.from_dict(corpus, orient='index', columns=['texto'])

corpus

Unnamed: 0,texto
n1,La compa√±√≠a Boring de Elon Musk construir√° una...
n2,La compa√±√≠a Boring de Elon Musk construir√° un ...
n3,La empresa Boring de Elon Musk aprob√≥ la const...
n4,Tanto la manzana como la naranja son frutas


In [143]:
import re 
from nltk.corpus import stopwords
stopwords_sp = stopwords.words('spanish')

def pre_procesado(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = texto.split() # tokenizaci√≥n 
    texto = [palabra for palabra in texto if palabra not in stopwords_sp]
    texto = " ".join(texto)
    return texto 

corpus['pp'] = corpus['texto'].apply(lambda val: pre_procesado(val))
corpus

Unnamed: 0,texto,pp
n1,La compa√±√≠a Boring de Elon Musk construir√° una...,compa√±√≠a boring elon musk construir√° conexi√≥n ...
n2,La compa√±√≠a Boring de Elon Musk construir√° un ...,compa√±√≠a boring elon musk construir√° enlace al...
n3,La empresa Boring de Elon Musk aprob√≥ la const...,empresa boring elon musk aprob√≥ construcci√≥n t...
n4,Tanto la manzana como la naranja son frutas,manzana naranja frutas


In [162]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vec = TfidfVectorizer()
tfidf = tfidf_vec.fit_transform(corpus['pp'].values)

tfidf_matrix = pd.DataFrame(tfidf.toarray())
tfidf_matrix.columns = tfidf_vec.get_feature_names()
tfidf_matrix.index = corpus.index

tfidf_matrix = tfidf_matrix.T

tfidf_matrix

Unnamed: 0,n1,n2,n3,n4
aeropuerto,0.282775,0.282775,0.214535,0.0
alta,0.282775,0.282775,0.214535,0.0
aprob√≥,0.0,0.0,0.336111,0.0
boring,0.282775,0.282775,0.214535,0.0
centro,0.0,0.0,0.336111,0.0
chicago,0.282775,0.282775,0.214535,0.0
compa√±√≠a,0.349284,0.349284,0.0,0.0
conexi√≥n,0.443022,0.0,0.0,0.0
construcci√≥n,0.0,0.0,0.336111,0.0
construir√°,0.349284,0.349284,0.0,0.0


## Medidas de similitud: Distancia euclidiana

<br>
<center><img src='../img/clase5/dist_euc.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

In [165]:
from sklearn.metrics.pairwise import euclidean_distances

dist_euc = euclidean_distances(tfidf_matrix.T.values)
dist_euc = pd.DataFrame(dist_euc, columns = tfidf_matrix.columns, index=tfidf_matrix.columns)

print(dist_euc)
corpus

          n1        n2        n3        n4
n1  0.000000  0.626528  1.072701  1.414214
n2  0.626528  0.000000  1.072701  1.414214
n3  1.072701  1.072701  0.000000  1.414214
n4  1.414214  1.414214  1.414214  0.000000


Unnamed: 0,texto,pp
n1,La compa√±√≠a Boring de Elon Musk construir√° una...,compa√±√≠a boring elon musk construir√° conexi√≥n ...
n2,La compa√±√≠a Boring de Elon Musk construir√° un ...,compa√±√≠a boring elon musk construir√° enlace al...
n3,La empresa Boring de Elon Musk aprob√≥ la const...,empresa boring elon musk aprob√≥ construcci√≥n t...
n4,Tanto la manzana como la naranja son frutas,manzana naranja frutas


## Medidas de similitud: Distancia del coseno

<br>
<center><img src='../img/clase5/dist_cos.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

In [170]:
from sklearn.metrics.pairwise import cosine_distances

dist_cos = cosine_distances(tfidf_matrix.T.values)
dist_cos = pd.DataFrame(dist_cos, columns = tfidf_matrix.columns, index = tfidf_matrix.columns)
dist_cos

Unnamed: 0,n1,n2,n3,n4
n1,0.0,0.196269,0.575343,1.0
n2,0.196269,0.0,0.575343,1.0
n3,0.575343,0.575343,0.0,1.0
n4,1.0,1.0,1.0,0.0


### ¬øCu√°ndo usar la distancia del coseno en vez de la euclidiana?

<br>
<center><img src='../img/clase5/cosine.png' style='height:800px; float: center; margin: 0px 15px 15px 0px'></center>

## Medidas de similitud: Distancia de Jaccard

<br>
<center><img src='../img/clase5/dist_jac.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'></center>

- Jaccard Similarity = (Intersection of A and B) / (Union of A and B)

In [176]:
def jaccard_distance(list1, list2):
    s1 = set(list1)
    s2 = set(list2)
    resultado = 1 - len(s1.intersection(s2)) / len(s1.union(s2))
    return resultado

jaccard_distance(corpus.iloc[0]['pp'].split(), corpus.iloc[3]['pp'].split())

1.0

## Medidas de similitud: Distancia de Levenshtein

- Es el n√∫mero m√≠nimo de operaciones requeridas para transformar una cadena de caracteres en otra
- Se usa en los correctores de ortograf√≠a

**Ejemplo**

La distancia de Levenshtein entre "casa" y "calle" es de 3 porque se necesitan al menos tres ediciones elementales para cambiar uno en el otro.

- casa ‚Üí cala (sustituci√≥n de 's' por 'l')
- cala ‚Üí calla (inserci√≥n de 'l' entre 'l' y 'a')
- calla ‚Üí calle (sustituci√≥n de 'a' por 'e')

In [180]:
import nltk

nltk.edit_distance(corpus.iloc[0]['pp'].split(), corpus.iloc[3]['pp'].split())

10

### ü§ì Recapitulando: Hoy aprend√≠mos...

- TF-IDF

Medidas de similitud

- Distancia Euclidiana
- Distancia del coseno
- Distancia de Jaccard
- Distancia de Levenshtein

https://pollev.com/vivianamarqu288

### üöß ‚úã Expectativas del Proyecto Final
Modo:
- M√°ximo 3 personas por grupo
- Exposici√≥n ~10 min y repositorio de GitHub
- ABRIL 15 - Plan de Proyecto (Documento con descripci√≥n del proyecto)
- JUNIO 3 - Entrega Proyecto
- JUNIO 3 y 10 - Exposiciones (La fecha puede cambiar)

Proyecto:

- Los datos pueden ser personales, del internet, o de su empresa (pedir permiso).
- Tener objetivo claro
- Pre-procesamiento
- Modelo de NLP/Machine Learning
- Visualizaci√≥n


Ideas para conseguir datos:

- Personales: Diario, Blog, WhatsApp, Twitter, Slack.
- Del internet: 
    - Scraping de Twitter, portal de noticias, p√°gina de canciones, Wikipedia, forum. 
    - Github: [Pol√≠tica](https://github.com/dav009/LatinamericanTextResources)
    - [Otro recurso] (https://lionbridge.ai/datasets/22-best-spanish-language-datasets-for-machine-learning/)
- Empresa

# ¬°Tiempo de taller!

<center>
<img src='../img/Taller.gif'>

**Taller # 5:** Representaci√≥n vectorial de textos (Parte 2)

**Fecha de entrega:** Marzo 25, 2021. (Antes del inicio de la pr√≥xima clase)

<center>
<img src='../img/fin.png' style='height:300px; float: center; margin: 0px 15px 15px 0px'>

### Proxima clase(s): Representaci√≥n vectorial de textos (Parte 3)