<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np
import pandas as pd

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
def ObtenerListadoTerminos(corpus):
    listado_terminos = np.empty([corpus.shape[0],],dtype=object)
    for i in range(len(corpus)):
        listado_terminos[i] = corpus[i].split(" ")

    return listado_terminos

In [5]:
def ObtenerVocabulario(listado_terminos):
    vocabulario = set()
    for lista in listado_terminos:
        vocabulario =  vocabulario  | set(lista)
    vocabulario = np.array(list(vocabulario))
    return vocabulario

In [6]:
listado_terminos = ObtenerListadoTerminos(corpus)
vocabulario = ObtenerVocabulario(listado_terminos)

In [7]:
print("Listado de terminos obtenidos:\n")
print(listado_terminos)

Listado de terminos obtenidos:

[list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]


In [8]:
print("Vocabulario obtenido:\n")
print(vocabulario)

Vocabulario obtenido:

['muchas' 'de' 'el' 'martes' 'que' 'dia' 'gracias' 'hoy' 'es']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [9]:
def ArmarOneHotEnconding(listado_terminos):
    vocabulario = ObtenerVocabulario(listado_terminos)
    dataframe = pd.DataFrame(np.zeros((len(listado_terminos),len(vocabulario))) ,columns=vocabulario,dtype=np.int8)
    for i,lista_term_doc in enumerate(listado_terminos):
        for termino in vocabulario:
            dataframe.loc[i, termino]=np.isin(termino, lista_term_doc).astype(int)  
    return dataframe

In [10]:
oneHotEcodingTerminos = ArmarOneHotEnconding(listado_terminos)

In [11]:
print("Representacion oneHotEncoding de la lista de terminos:\n")
oneHotEcodingTerminos

Representacion oneHotEncoding de la lista de terminos:



Unnamed: 0,muchas,de,el,martes,que,dia,gracias,hoy,es
0,0,0,0,0,1,1,0,1,1
1,0,1,1,1,0,1,0,1,1
2,1,0,0,1,0,0,1,0,0


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [12]:
def ArmarVectorDeFrecuencia(listado_terminos):
    vocabulario = ObtenerVocabulario(listado_terminos)
    dataframe = pd.DataFrame(np.zeros((len(listado_terminos),len(vocabulario))) ,columns=vocabulario,dtype=np.int8)
    for i,lista_term_doc in enumerate(listado_terminos):
        for termino in vocabulario:
            dataframe.loc[i, termino] = lista_term_doc.count(termino)
    return dataframe

In [13]:
vectorFrecuencia = ArmarVectorDeFrecuencia(listado_terminos)

In [14]:
print("Vector de frecuencia de la lista de terminos:\n")
vectorFrecuencia

Vector de frecuencia de la lista de terminos:



Unnamed: 0,muchas,de,el,martes,que,dia,gracias,hoy,es
0,0,0,0,0,1,1,0,1,1
1,0,1,1,2,0,1,0,1,1
2,1,0,0,1,0,0,1,0,0


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [15]:
def ArmarIDF(listado_terminos):
    oneHotEcodingTerminos = ArmarOneHotEnconding(listado_terminos)
    IDF = np.log10(len(listado_terminos) / oneHotEcodingTerminos.sum(axis=0))
    return IDF

def ArmarTFIDF(listado_terminos):
    IDF = ArmarIDF(listado_terminos)
    TF = ArmarVectorDeFrecuencia(listado_terminos)
    TFIDF = TF * IDF
    return TFIDF

In [16]:
TFIDF = ArmarTFIDF(listado_terminos)

In [17]:
print("Valor calculado para TF-IDF:\n")
TFIDF

Valor calculado para TF-IDF:



Unnamed: 0,muchas,de,el,martes,que,dia,gracias,hoy,es
0,0.0,0.0,0.0,0.0,0.477121,0.176091,0.0,0.176091,0.176091
1,0.0,0.477121,0.477121,0.352183,0.0,0.176091,0.0,0.176091,0.176091
2,0.477121,0.0,0.0,0.176091,0.0,0.0,0.477121,0.0,0.0


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [18]:
def listaSimilitud(corpus,indice):
    listado_similitudes = pd.DataFrame()
    listado_similitudes.index = corpus
    listado_terminos = ObtenerListadoTerminos(corpus)
    TFIDF = ArmarTFIDF(listado_terminos)
    TFIDF_indice = TFIDF.iloc[[indice]]
    for idx,lista_term_doc in enumerate(listado_terminos):
         listado_similitudes.loc[corpus[idx],"distancia"]=cosine_similarity(TFIDF_indice,TFIDF.iloc[idx])
    
    listado_similitudes = listado_similitudes.drop(corpus[indice]).sort_values(by="distancia",ascending=False)
    return listado_similitudes
        
def mostrarDistancias(corpus,indice):
    print("Distancia calculada para el documento \"{}\" :\n".format(corpus[indice]))
    print(listaSimilitud(corpus,indice))
    print("\n")

In [19]:
mostrarDistancias(corpus,0)
mostrarDistancias(corpus,1)
mostrarDistancias(corpus,2)
    

Distancia calculada para el documento "que dia es hoy" :

                                distancia
martes el dia de hoy es martes   0.200342
martes muchas gracias            0.000000


Distancia calculada para el documento "martes el dia de hoy es martes" :

                       distancia
que dia es hoy          0.200342
martes muchas gracias   0.108457


Distancia calculada para el documento "martes muchas gracias" :

                                distancia
martes el dia de hoy es martes   0.108457
que dia es hoy                   0.000000


