<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
# Transformo cada documento en una lista de términos
listas_terminos = np.char.split(corpus)
listas_terminos

array([list(['que', 'dia', 'es', 'hoy']),
       list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']),
       list(['martes', 'muchas', 'gracias'])], dtype=object)

In [5]:
# Unifico los términos en un solo array
array_terminos = np.concatenate([np.array(lista) for lista in listas_terminos])

# Obtengo los términos y su conteo
terminos, counts = np.unique(array_terminos, return_counts=True)

print(terminos)
print(counts)

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
[1 2 1 2 1 2 3 1 1]


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
# Defino una función para obtener el One Hot Encoding del corpus
def OHE(corpus):
    
    # Obtengo listas de términos y términos que las integran
    listas_terminos = np.char.split(corpus)
    array_terminos = np.concatenate([np.array(lista) 
                                     for lista in listas_terminos])
    terminos, count = np.unique(array_terminos, return_counts=True)
    
    # Obtengo la matriz
    matriz_OHE = np.array([np.isin(terminos, listas_terminos[i]).astype(int) 
                           for i in range(listas_terminos.size)])

    return matriz_OHE

In [7]:
# Ejecuto la función para el corpus
print(listas_terminos)
print()
print(terminos)
OHE(corpus)

[list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


array([[0, 1, 0, 1, 0, 1, 0, 0, 1],
       [1, 1, 1, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1, 1, 0]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [8]:
# Defino una función para obtener los vectores de frecuencia
def vectores_frecuencia(corpus):
    
    # Obtengo listas de terminos y terminos que las integran
    listas_terminos = np.char.split(corpus)
    array_terminos = np.concatenate([np.array(lista) 
                                     for lista in listas_terminos])
    terminos, count = np.unique(array_terminos, return_counts=True)
    
    # Recorre la lista de palabras y suma en el vector cuando hay coincidencias
    lista_vectores = []
    for i in range(listas_terminos.size):
        vector = np.zeros(len(terminos), dtype=int)
        for palabra in listas_terminos[i]:
            coincidencias = (terminos == palabra)
            vector = vector + coincidencias
        lista_vectores.append(vector)
    
    # Convierto en array
    array_vectores = np.array(lista_vectores)

    return array_vectores

In [9]:
# Ejecuto la función para el corpus
print(listas_terminos)
print()
print(terminos)
vectores_frecuencia(corpus)

[list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


array([[0, 1, 0, 1, 0, 1, 0, 0, 1],
       [1, 1, 1, 1, 0, 1, 2, 0, 0],
       [0, 0, 0, 0, 1, 0, 1, 1, 0]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [10]:
# Defino una función para obtener la matriz TF-IDF
def TF_IDF(corpus):
    
    # Obtengo listas de términos y términos que las integran
    listas_terminos = np.char.split(corpus)
    array_terminos = np.concatenate([np.array(lista) 
                                     for lista in listas_terminos])
    terminos, count = np.unique(array_terminos, return_counts=True)
    
    # Obtengo el One Hot Encoding
    matriz_OHE = np.array([np.isin(terminos, listas_terminos[i]).astype(int) 
                           for i in range(listas_terminos.size)])
    
    # Broadcasting
    IDF = np.log10(corpus.size / np.sum(matriz_OHE, axis=0))
    
    # Factor TF
    lista_vectores = []
    for i in range(listas_terminos.size):
        vector = np.zeros(len(terminos), dtype=int)
        for palabra in listas_terminos[i]:
            coincidencias = (terminos == palabra)
            vector = vector + coincidencias
        lista_vectores.append(vector)
           
    # Convierto en array
    TF = np.array(lista_vectores)
    
    # Obtengo la matriz
    matriz_TF_IDF = TF * IDF
    
    return matriz_TF_IDF

In [11]:
# Ejecuto la función para el corpus
print(listas_terminos)
print()
print(terminos)
print()
print(OHE(corpus))
print()
print(np.round(TF_IDF(corpus),4))

[list(['que', 'dia', 'es', 'hoy'])
 list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'])
 list(['martes', 'muchas', 'gracias'])]

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']

[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]

[[0.     0.1761 0.     0.1761 0.     0.1761 0.     0.     0.4771]
 [0.4771 0.1761 0.4771 0.1761 0.     0.1761 0.3522 0.     0.    ]
 [0.     0.     0.     0.     0.4771 0.     0.1761 0.4771 0.    ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [12]:
# Planteo la similitud coseno entre vectores TF-IDF
def similitud_documento(corpus, indice):
    
    # Obtengo listas de términos y términos que las integran
    listas_terminos = np.char.split(corpus)
    array_terminos = np.concatenate([np.array(lista) 
                                     for lista in listas_terminos])
    terminos, count = np.unique(array_terminos, return_counts=True)
    
    # Obtengo el One Hot Encoding
    matriz_OHE = np.array([np.isin(terminos, listas_terminos[i]).astype(int) 
                           for i in range(listas_terminos.size)])
    
    # Broadcasting
    IDF = np.log10(corpus.size / np.sum(matriz_OHE, axis=0))
    
    # Factor TF
    lista_vectores = []
    for i in range(listas_terminos.size):
        vector = np.zeros(len(terminos), dtype=int)
        for palabra in listas_terminos[i]:
            coincidencias = (terminos == palabra)
            vector = vector + coincidencias
        lista_vectores.append(vector)
           
    # Convierto en array
    TF = np.array(lista_vectores)
    
    # Obtengo la matriz
    matriz_TF_IDF = TF * IDF
    
    # Obtengo el vector de producto punto
    dot = np.sum(matriz_TF_IDF[indice]* matriz_TF_IDF, axis=1)
    
    # Norma del vector
    norma_vector = np.linalg.norm(matriz_TF_IDF[indice])
    
    # Vector de normas
    norma_matriz = np.linalg.norm(matriz_TF_IDF, axis = 1)
    
    # Similitud coseno
    vector_similitud = dot / (norma_vector * norma_matriz)
    
    # Ordeno por similitud coseno, el "-" ordena de mayor a menor
    orden = np.argsort(- vector_similitud)
    
    # Obtengo los documentos ordenados
    corpus_ordenado = corpus[orden]
    
    return corpus_ordenado

In [13]:
# Probemos con el primer documento, se ordena de mayor a menor
print(corpus[0])
similitud_documento(corpus, 0)

que dia es hoy


array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')