<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [12]:
import numpy as np

In [13]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [14]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [15]:
# Separo cada documento
documento_1 = corpus[0]
documento_2 = corpus[1]
documento_3 = corpus[2]

# Separo cada documento en una lista de términos
documento_1_sep = np.array(documento_1.split())
documento_2_sep = np.array(documento_2.split())
documento_3_sep = np.array(documento_3.split())

# Sin repetirse
documento_1_norep = np.unique(documento_1_sep)
documento_2_norep = np.unique(documento_2_sep)
documento_3_norep = np.unique(documento_3_sep)

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [16]:
# Obtengo todas las palabras sin repetirse de los tres documentos
palabras = np.unique(np.concatenate([doc.split() for doc in corpus]))

print(palabras,'\n')

# Creo una matriz de ceros de la forma  n_documentos x n_palabras_únicas
n_documentos = len(corpus)
n_palabras_únicas = len(palabras)
matriz = np.zeros((n_documentos, n_palabras_únicas))

# Lleno la matriz con unos y ceros para indicar la presencia o ausencia de cada palabra
for i, doc in enumerate(corpus):
    palabras_documento = doc.split()
    for j, palabra in enumerate(palabras):
        if palabra in palabras_documento:
            matriz[i, j] = 1
print(matriz)

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que'] 

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [17]:
# Creo otra matriz de ceros de la misma dimensión 
matriz2 = np.zeros((n_documentos, n_palabras_únicas))

# Lleno la matriz con la cantidad de veces que aparece cada palabra en cada documento
for i, doc in enumerate(corpus):
    palabras_documento = doc.split()
    for j, palabra in enumerate(palabras):
        matriz2[i, j] = palabras_documento.count(palabra)

# Mostrar la matriz de documentos con recuentos de palabras
print(matriz2)

[[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [18]:
# Utilizo la matriz TF calculada en el inciso anterior
# Calculo la matriz de frecuencia inversa IDF
matriz_idf = np.zeros(n_palabras_únicas)
for j, palabra in enumerate(palabras):
    n_documentos_con_palabra = np.sum(matriz2[:, j] > 0)
    print(n_documentos_con_palabra)
    if n_documentos_con_palabra > 0:
        matriz_idf[j] = np.log10(n_documentos / n_documentos_con_palabra)

# Calculo la TF-IDF multiplicando TF por IDF
matriz_tfidf = matriz2 * matriz_idf

print('Matriz TF:\n ',matriz2,'\n')

print('Matriz IDF:\n',matriz_idf,'\n')

print('Matriz TFIDF: \n',matriz_tfidf,'\n')

1
2
1
2
1
2
2
1
1
Matriz TF:
  [[0. 1. 0. 1. 0. 1. 0. 0. 1.]
 [1. 1. 1. 1. 0. 1. 2. 0. 0.]
 [0. 0. 0. 0. 1. 0. 1. 1. 0.]] 

Matriz IDF:
 [0.47712125 0.17609126 0.47712125 0.17609126 0.47712125 0.17609126
 0.17609126 0.47712125 0.47712125] 

Matriz TFIDF: 
 [[0.         0.17609126 0.         0.17609126 0.         0.17609126
  0.         0.         0.47712125]
 [0.47712125 0.17609126 0.47712125 0.17609126 0.         0.17609126
  0.35218252 0.         0.        ]
 [0.         0.         0.         0.         0.47712125 0.
  0.17609126 0.47712125 0.        ]] 



### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [37]:
# Para no desordenar lo realizado anteriormente, voy a utilizar la función que nos brindan al principio del enunciado 
# y voy a pasarle como argumentos entrada la matriz TFIDF del corpus ya procesado y el corpus(para ordenarlo).
def ordenar(corpus_a_ordenar,m_tfidf):
    similitud=cosine_similarity(m_tfidf,m_tfidf.T)
    print("Similitud:\n",similitud)
    indices_ordenados = np.argsort(np.diagonal(similitud))
    return corpus_a_ordenar[indices_ordenados]

In [43]:
corpus_ordenado=ordenar(corpus,matriz_tfidf)
print("\n \nCorpus ordenado por similitud de menor a mayor: ")
for doc in corpus_ordenado:
    print(doc)

Similitud:
 [[0.21676894 0.06288351 0.        ]
 [0.06288351 0.45449905 0.04192234]
 [0.         0.04192234 0.32873202]]

 
Corpus ordenado por similitud de menor a mayor: 
que dia es hoy
martes muchas gracias
martes el dia de hoy es martes
