<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [15]:
import numpy as np

In [24]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [17]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [18]:
def corpus_words(corpus):
    split_corpus = np.char.split(corpus)
    corpus_words = np.concatenate(split_corpus)
    unique_terms = np.unique(corpus_words)
    return unique_terms

corpus_words(corpus)

array(['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas',
       'que'], dtype='<U7')

### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [19]:
def corpus_one_hot(corpus):    
    words, indexes = np.unique(np.unique(corpus_words(corpus)), return_inverse=True)
    one_hot = np.zeros((indexes.size, indexes.max() + 1))
    one_hot[np.arange(indexes.size), indexes] = 1
    return words, one_hot

In [20]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

def one_hot_encoding(corpus):
    split_corpus = np.char.split(corpus)
    words, one_hot = corpus_one_hot(corpus)
    texts_encoded = []
    for text in split_corpus:
        split_text = np.char.split(text)
        text_encoded = []
        for word in split_text:
            index = np.where(words == word)
            text_encoded.append(one_hot[index][0].tolist())
        texts_encoded.append(text_encoded)
    return texts_encoded

one_hot_encoding(corpus)

[[[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0],
  [0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0]],
 [[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0],
  [0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0]],
 [[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0],
  [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0],
  [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0]]]

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [21]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

def freq_vector(corpus):
    split_corpus = np.char.split(corpus)
    words, one_hot = corpus_one_hot(corpus)
    freq_array = []
    for text in split_corpus:
        split_text = np.char.split(text)
        text_encoded = []
        for word in split_text:
            index = np.where(words == word)
            text_encoded.append(one_hot[index][0].tolist())
        freq_array.append(np.sum(text_encoded, axis=0).astype(int).tolist())
    return freq_array

freq_vector(corpus)

[[0, 1, 0, 1, 0, 1, 0, 0, 1],
 [1, 1, 1, 1, 0, 1, 2, 0, 0],
 [0, 0, 0, 0, 1, 0, 1, 1, 0]]

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [22]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

def tf_idf(corpus):
    split_corpus = np.char.split(corpus)
    num_docs = len(split_corpus)

    freq_array = []
    for text_encoded in one_hot_encoding(corpus):
        freq_array.append(np.any(text_encoded, axis=0).astype(int))

    idf = np.log10(np.divide(num_docs, np.sum(freq_array, axis=0).astype(int)))

    return freq_vector(corpus) * idf

tf_idf(corpus)

array([[0.        , 0.17609126, 0.        , 0.17609126, 0.        ,
        0.17609126, 0.        , 0.        , 0.47712125],
       [0.47712125, 0.17609126, 0.47712125, 0.17609126, 0.        ,
        0.17609126, 0.35218252, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.47712125,
        0.        , 0.17609126, 0.47712125, 0.        ]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [54]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

def cosine_similarity_cmp(corpus, index):
    split_corpus = np.char.split(corpus)

    result = []
    try:
        split_corpus[index]
    except Exception:
        return 'El índice está fuera de rango'

    TF_IDF = tf_idf(corpus)

    for i, vector in enumerate(TF_IDF):
        result.append((i, cosine_similarity(TF_IDF[index], vector)))

    result.sort(key=lambda x: x[1], reverse=True)
    ordered_docs = [split_corpus[i] for i, _ in result]
    print(ordered_docs)

for i in range(3):
    cosine_similarity_cmp(corpus, i)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
[['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['que', 'dia', 'es', 'hoy'], ['martes', 'muchas', 'gracias']]
[['martes', 'muchas', 'gracias'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['que', 'dia', 'es', 'hoy']]
