<a href="https://colab.research.google.com/github/Pbrillan/CEIA/blob/main/NPL/P_Brillanti_1a_word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [1]:
import numpy as np

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
corpus_terminos = []
for doc in corpus:
  terminos = doc.split(" ")
  corpus_terminos.append(terminos)

corpus_terminos = np.array(corpus_terminos)
vocab_completo_list = np.sum(corpus_terminos)

diccionario = {}
for palabra in vocab_completo_list:
  if palabra in diccionario:
    diccionario[palabra] += 1
  else:
    diccionario[palabra] = 1

print(corpus)
print(vocab_completo_list)
print(" ")

print(diccionario)
print(" ")
print("Otra forma")
print(" ")

palabras = np.unique(vocab_completo_list)
import collections
freq =collections.Counter(vocab_completo_list)
print(palabras)
print(freq)

['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes', 'martes', 'muchas', 'gracias']
 
{'que': 1, 'dia': 2, 'es': 2, 'hoy': 2, 'martes': 3, 'el': 1, 'de': 1, 'muchas': 1, 'gracias': 1}
 
Otra forma
 
['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
Counter({'martes': 3, 'dia': 2, 'es': 2, 'hoy': 2, 'que': 1, 'el': 1, 'de': 1, 'muchas': 1, 'gracias': 1})


  


In [5]:
for palabra in freq:
  frecuencia = freq[palabra]
  print(f"Palabra: '{palabra}' tiene frecuencia {frecuencia}")

Palabra: 'que' tiene frecuencia 1
Palabra: 'dia' tiene frecuencia 2
Palabra: 'es' tiene frecuencia 2
Palabra: 'hoy' tiene frecuencia 2
Palabra: 'martes' tiene frecuencia 3
Palabra: 'el' tiene frecuencia 1
Palabra: 'de' tiene frecuencia 1
Palabra: 'muchas' tiene frecuencia 1
Palabra: 'gracias' tiene frecuencia 1


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [6]:
matriz = np.zeros((len(corpus_terminos), len(palabras)))
for i, d in enumerate(corpus_terminos):
 for j, t in enumerate(palabras):
   matriz[i, j] = t in d
print(matriz)

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [7]:
matrizfr = np.zeros((len(corpus_terminos), len(palabras)))
for i, d in enumerate(corpus_terminos):
 for j, t in enumerate(palabras):
   matrizfr[i, j] = d.count(t)
print(matrizfr)

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [8]:
N = len(corpus_terminos)
DF = matriz.sum(axis=0)
IDF = np.log2(N/DF)
TF_IDF = (matrizfr * IDF).round(decimals=2)
print(TF_IDF)

[[0.   0.58 0.   0.58 0.   0.58 0.   0.   1.58]
 [1.58 0.58 1.58 0.58 0.   0.58 1.17 0.   0.  ]
 [0.   0.   0.   0.   1.58 0.   0.58 1.58 0.  ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [9]:
comp = np.zeros((N, N))

for i in range(N):
  for j in range(N):
    comp[i,j] = cosine_similarity(TF_IDF[i], TF_IDF[j])

print(comp)

[[1.         0.19853442 0.        ]
 [0.19853442 1.         0.1082736 ]
 [0.         0.1082736  1.        ]]
