<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [2]:
import numpy as np

In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [5]:
def obtener_vocabulario(documento):
  return documento.split()

vocabulario=list(map(obtener_vocabulario,corpus))
print(vocabulario)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


In [6]:
unicos=[]
def is_in(documento):
  for termino in documento:
    if termino not in unicos:
      unicos.append(termino) 
      
def terminos_unicos(corpus):
  for documento in corpus:
    is_in(documento)

terminos_unicos(vocabulario)
print(unicos)

['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [7]:
import pandas as pd

In [8]:
oneHot = []
def oneHotEncoding(document):
  lista=[]
  for palabra in unicos:
    if palabra in document:
      lista.append(1)
    else:
      lista.append(0)
  return lista
for document in vocabulario:
  oneHot.append(oneHotEncoding(document))

df = pd.DataFrame(oneHot,columns=unicos)
df.head()

Unnamed: 0,que,dia,es,hoy,martes,el,de,muchas,gracias
0,1,1,1,1,0,0,0,0,0
1,0,1,1,1,1,1,1,0,0
2,0,0,0,0,1,0,0,1,1


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [9]:
vF = []
def vectFrec(document):
  lista=[]
  for palabra in unicos:
    if palabra in document:
      lista.append(document.count(palabra))
    else:
      lista.append(0)
  return lista
for document in vocabulario:
  vF.append(vectFrec(document))

df_v = pd.DataFrame(vF,columns=unicos)
df_v.head()

Unnamed: 0,que,dia,es,hoy,martes,el,de,muchas,gracias
0,1,1,1,1,0,0,0,0,0
1,0,1,1,1,2,1,1,0,0
2,0,0,0,0,1,0,0,1,1


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [10]:
from math import log

In [11]:
def factorIDF(vocabulario):
  idf=[]
  tamañoCorpus=len(vocabulario)
  for palabra in unicos:
    cant=0
    for document in vocabulario:
      if palabra in document:
        cant+=1
    idf.append(log(tamañoCorpus/cant,10))
  return(idf)

idf=factorIDF(vocabulario)

df_idf = pd.DataFrame([idf],columns=unicos)
df_idf.head()

Unnamed: 0,que,dia,es,hoy,martes,el,de,muchas,gracias
0,0.477121,0.176091,0.176091,0.176091,0.176091,0.477121,0.477121,0.477121,0.477121


In [12]:
import numpy as np

In [13]:
tf_df=np.asarray(idf)*np.asarray(vF)
df_tf=pd.DataFrame(tf_df,columns=unicos)
df_tf.head()

Unnamed: 0,que,dia,es,hoy,martes,el,de,muchas,gracias
0,0.477121,0.176091,0.176091,0.176091,0.0,0.0,0.0,0.0,0.0
1,0.0,0.176091,0.176091,0.176091,0.352183,0.477121,0.477121,0.0,0.0
2,0.0,0.0,0.0,0.0,0.176091,0.0,0.0,0.477121,0.477121


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [29]:
lista_similitud=[]
def similitud(corpus,indice):
  doc1=corpus[indice]
  simil=[]
  for im,documento in enumerate(corpus):
    simil.append((documento,cosine_similarity(np.asarray(oneHotEncoding(documento)),np.asarray(oneHotEncoding(doc1)))))
  return sorted(simil, key=lambda x: x[1], reverse=True)

lista_similitud=similitud(corpus,2)

df_cs = pd.DataFrame(lista_similitud, columns= ["Documento","Cosine Similarity"])

df_cs.head()

Unnamed: 0,Documento,Cosine Similarity
0,martes muchas gracias,1.0
1,martes el dia de hoy es martes,0.408248
2,que dia es hoy,0.25
