<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np

In [33]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [52]:
# corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias', 'que hoy es viernes', 'uhhh viernes'])


# Genera un corpus de 50 sentencias diferentes para probar el algoritmo (Copilot)
# corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias', 'que hoy es viernes', 'uhhh viernes', 'hoy es un dia de sol', 'hoy es un dia de lluvia', 'hoy es un dia de nubes', 'hoy es un dia de viento', 'hoy es un dia de calor', 'hoy es un dia de frio', 'hoy es un dia de nieve', 'hoy es un dia de niebla', 'hoy es un dia de tormenta', 'hoy es un dia de granizo', 'mañana es un dia de sol', 'mañana es un dia de lluvia', 'mañana es un dia de nubes', 'mañana es un dia de viento', 'mañana es un dia de calor', 'mañana es un dia de frio', 'mañana es un dia de nieve', 'mañana es un dia de niebla', 'mañana es un dia de tormenta', 'mañana es un dia de granizo', 'ayer fue un dia de sol', 'ayer fue un dia de lluvia', 'ayer fue un dia de nubes', 'ayer fue un dia de viento', 'ayer fue un dia de calor', 'ayer fue un dia de frio', 'ayer fue un dia de nieve', 'ayer fue un dia de niebla', 'ayer fue un dia de tormenta', 'ayer fue un dia de granizo', 'hoy es un dia de sol', 'hoy es un dia de lluvia', 'hoy es un dia de nubes', 'hoy es un dia de viento', 'hoy es un dia de calor', 'hoy es un dia de frio', 'hoy es un dia de nieve', 'hoy es un dia de niebla', 'hoy es un dia de tormenta', 'hoy es un dia de granizo', 'hoy es un dia de sol', 'hoy es un dia de lluvia', 'hoy es un dia de nubes', 'hoy es un dia de viento', 'hoy es un dia de calor', 'hoy es un dia de frio', 'hoy es un dia de nieve', 'hoy es un dia de niebla', 'hoy es un dia de tormenta', 'hoy es un dia de granizo'])
# quitar duplicados (Copilot)
# corpus = np.unique(corpus)
# print(corpus)


Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [53]:
# separo cada oracion del corpus en una lista de terminos 
corpusTerminos = [sentence.split() for sentence in corpus] #Copilot
print(corpusTerminos)

# armo un vocabulario con los terminos unicos del corpus
vocabulario = set()
for sentence in corpusTerminos:
    for word in sentence:
        vocabulario.add(word)

vocabulario = list(vocabulario)
print(vocabulario)


[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias'], ['que', 'hoy', 'es', 'viernes'], ['uhhh', 'viernes']]
['que', 'muchas', 'de', 'es', 'uhhh', 'martes', 'gracias', 'viernes', 'hoy', 'dia', 'el']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [54]:
# hago un one-hot encoding de cada palabra del vocabulario
oneHotEncoding = np.eye(len(vocabulario))#Copilot
print('vocabulario')
print(vocabulario)
print('oneHotEncoding')
print(oneHotEncoding)

# hago la representacion en oneHotEncoding de cada oracion del corpus
corpusOneHot = []
for sentence in corpusTerminos:
    sentenceOneHot = np.zeros(len(vocabulario))
    for word in sentence:
        sentenceOneHot[vocabulario.index(word)] = 1
    corpusOneHot.append(sentenceOneHot)
    print(sentence)
    print(sentenceOneHot)


# print('corpusOneHot')
# print(corpusOneHot)

vocabulario
['que', 'muchas', 'de', 'es', 'uhhh', 'martes', 'gracias', 'viernes', 'hoy', 'dia', 'el']
oneHotEncoding
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
['que', 'dia', 'es', 'hoy']
[1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0.]
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
[0. 0. 1. 1. 0. 1. 0. 0. 1. 1. 1.]
['martes', 'muchas', 'gracias']
[0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0.]
['que', 'hoy', 'es', 'viernes']
[1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0.]
['uhhh', 'viernes']
[0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0.]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [55]:
# hago la representacion en oneHotEncoding de cada oracion del corpus para ver la frecuncia de cada palabra
tf = []
for sentence in corpusTerminos:
    sentenceTF = np.zeros(len(vocabulario))
    for word in sentence:
        sentenceTF[vocabulario.index(word)] += 1
    tf.append(sentenceTF)
    print(sentence)
    print(sentenceTF)

print('tf')
print(tf)

['que', 'dia', 'es', 'hoy']
[1. 0. 0. 1. 0. 0. 0. 0. 1. 1. 0.]
['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
[0. 0. 1. 1. 0. 2. 0. 0. 1. 1. 1.]
['martes', 'muchas', 'gracias']
[0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0.]
['que', 'hoy', 'es', 'viernes']
[1. 0. 0. 1. 0. 0. 0. 1. 1. 0. 0.]
['uhhh', 'viernes']
[0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0.]
tf
[array([1., 0., 0., 1., 0., 0., 0., 0., 1., 1., 0.]), array([0., 0., 1., 1., 0., 2., 0., 0., 1., 1., 1.]), array([0., 1., 0., 0., 0., 1., 1., 0., 0., 0., 0.]), array([1., 0., 0., 1., 0., 0., 0., 1., 1., 0., 0.]), array([0., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0.])]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [56]:
# calcula el indice de frecuencia de cada palabra del vocabulario
df = np.zeros(len(vocabulario))
# recorro volcabulario
for word, i in zip(vocabulario, range(len(vocabulario))):
    # recorro cada oracion del corpus
    for sentence in corpusTerminos:
        # si la palabra esta en la oracion, sumo 1 al indice de frecuencia
        if word in sentence:
            df[i] += 1

# Lo anterior se genero por Copilot a partir de las descripciones en comentarios.

print('df')
print(df)

# calcula el indice de frecuencia inversa de cada palabra del vocabulario
idf = np.log(len(corpus) / df)
print('idf')
print(idf)

# calcula la representacion tf-idf de cada oracion del corpus
corpusTfIdf = []
for sentence in tf:
    corpusTfIdf.append(sentence * idf)

print('corpusTfIdf')
print(corpusTfIdf)
    

df
[2. 1. 1. 3. 1. 2. 1. 2. 3. 2. 1.]
idf
[0.91629073 1.60943791 1.60943791 0.51082562 1.60943791 0.91629073
 1.60943791 0.91629073 0.51082562 0.91629073 1.60943791]
corpusTfIdf
[array([0.91629073, 0.        , 0.        , 0.51082562, 0.        ,
       0.        , 0.        , 0.        , 0.51082562, 0.91629073,
       0.        ]), array([0.        , 0.        , 1.60943791, 0.51082562, 0.        ,
       1.83258146, 0.        , 0.        , 0.51082562, 0.91629073,
       1.60943791]), array([0.        , 1.60943791, 0.        , 0.        , 0.        ,
       0.91629073, 1.60943791, 0.        , 0.        , 0.        ,
       0.        ]), array([0.91629073, 0.        , 0.        , 0.51082562, 0.        ,
       0.        , 0.        , 0.91629073, 0.51082562, 0.        ,
       0.        ]), array([0.        , 0.        , 0.        , 0.        , 1.60943791,
       0.        , 0.        , 0.91629073, 0.        , 0.        ,
       0.        ])]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [57]:
def similitudCoseno(corpus, indice): #recibe el corpus procesado con TF-IDF y el indice de la oracion a comparar, devuelve los idices de las oraciones del corpus ordenadas por similitud coseno
    # comparo la oracion con todas las oraciones del corpus
    similitudes = []
    for i in range(len(corpus)):
        similitudes.append([cosine_similarity(corpus[indice], corpus[i]), i]) #Copilot y modificado a mano

    # ordeno las similitudes de mayor a menor segun el coseno
    similitudes.sort( key=lambda x: x[0], reverse=True ) #Copilot

    # deja solo los indices de las oraciones
    similitudes = [x[1] for x in similitudes] #Copilot
    return similitudes


indiceBuscado = 3
idexOrdenadas = similitudCoseno(corpusTfIdf, indiceBuscado)
print(idexOrdenadas)

print('oracion buscada')
print(corpus[indiceBuscado])
print('-------------')

for i in idexOrdenadas:
    print(corpus[i])
    

[3, 0, 4, 1, 2]
oracion buscada
que hoy es viernes
-------------
que hoy es viernes
que dia es hoy
uhhh viernes
martes el dia de hoy es martes
martes muchas gracias
