<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [392]:
import numpy as np

In [393]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [394]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [395]:
# obtenemos tamaño del corpus
corpus_size = len(corpus)
document_list = []

# buscamos documentos y dividimos en terminos
for i in range(corpus_size):
    document = corpus[i].split()
    document_list.append(document)

document_list

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [396]:
# unimos listas
merge_list = np.concatenate(document_list).ravel()
merge_list

array(['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy',
       'es', 'martes', 'martes', 'muchas', 'gracias'], dtype='<U7')

In [397]:
# obtenemos vocabulario
vocabulary = []
[vocabulary.append(term) for term in merge_list if term not in vocabulary]
print(f" vocabulario: {vocabulary}")

 vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


In [398]:
# lo hacemos una función
def extract_vocabulary(corpus):
    # obtenemos tamaño del corpus
    corpus_size = len(corpus)
    document_list = []

    # buscamos documentos y dividimos en terminos
    for i in range(corpus_size):
        corpus[i] = np.char.lower(corpus[i]) # pasamos documento a minuscula
        document = corpus[i].split() 
        document_list.append(document)
    
    # unimos listas
    merge_list = np.concatenate(document_list).ravel()

    # obtenemos vocabulario
    vocabulary = []
    [vocabulary.append(term) for term in merge_list if term not in vocabulary]

    return vocabulary

In [399]:
# Probamos función
final_result = extract_vocabulary(corpus)
print(f" vocabulario: {final_result}")

 vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [400]:
# creamos función para el OneHotEncoding
def oneHotEncoding(corpus):
    # extraemos vocabulario
    vocabulary_for_ohe = extract_vocabulary(corpus)
    print(f"vocabulario: {vocabulary_for_ohe}")
    # inicializamos variables
    corpus_size = len(corpus)
    ohe_matriz = []
    # calculamos vector
    for i in range(corpus_size):
        # buscamos documento y dividimos en terminos
        document = corpus[i].split()
        print(f"documento{i+1}: {document}")
        ohe_vector = []

        # revisamos si el termino en el vocabulario existe en un docu
        for term in vocabulary_for_ohe:
            if term not in document:
                ohe_vector.append(0) # si no existe colocamos 0
            else:
                ohe_vector.append(1) # si existe colocamos 1

        # acumulamos los vectores por documento revisado
        ohe_matriz.append(ohe_vector)

    return np.array(ohe_matriz)

In [401]:
oneHotEncoding(corpus)

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']


array([[1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 1, 1]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [402]:
def frecVector(corpus):
    # extraemos vocabulario
    vocabulary_for_vecfr = extract_vocabulary(corpus)
    print(f"vocabulario: {vocabulary_for_vecfr}")
    # inicializamos variables
    corpus_size = len(corpus)
    vecfr_matriz = []
    # calculamos vector
    for i in range(corpus_size):
        # buscamos documento y dividimos en terminos
        document = corpus[i].split()
        print(f"documento{i+1}: {document}")
        vector = []

        # revisamos si el termino en el vocabulario existe en un docu
        for term in vocabulary_for_vecfr:
            if term not in document:
                vector.append(0) # si no existe colocamos 0
            else:
                # buscamos cuantas veces se repite el termino en el documento
                num_obs = len([count for count, value in enumerate(document) if value == term])
                vector.append(num_obs)

        # acumulamos los vectores por documento revisado
        vecfr_matriz.append(vector)

    return np.array(vecfr_matriz)

In [403]:
frecVector(corpus)

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']


array([[1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 2, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 1, 1]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [404]:
from math import log

def tf_idf(corpus):
    # extraemos vocabulario
    vocabulary_for_tfidf = extract_vocabulary(corpus)
    print(f"vocabulario: {vocabulary_for_tfidf}")
    # inicializamos variables
    corpus_size = len(corpus)
    tfidf_matriz = []
        
    # calculamos vector
    for i in range(corpus_size):
        # buscamos documento y dividimos en terminos
        document = corpus[i].split()
        print(f"documento{i+1}: {document}")
        vector = []
        idf_terms = []
        # revision en vocabulario
        for term in vocabulary_for_tfidf:
            # IDF
            [idf_terms.append(term) for doc in corpus if term in doc] 
            idf_values = len([count for count, value in enumerate(idf_terms) if value == term])
            idf = log(corpus_size / idf_values)
            # TF-IDF
            if term not in document:
                vector.append(0 * idf) # si no existe colocamos 0
            else:
                # buscamos cuantas veces se repite el termino en el documento
                num_obs = len([count for count, value in enumerate(document) if value == term])
                vector.append(num_obs * idf)
        
        # acumulamos los vectores por documento revisado
        tfidf_matriz.append(vector)
    

    return np.array(tfidf_matriz)

In [405]:
tf_idf(corpus)

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']


array([[1.09861229, 0.40546511, 0.        , 0.40546511, 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.40546511, 0.        , 0.40546511, 0.81093022,
        1.09861229, 1.09861229, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.40546511,
        0.        , 0.        , 1.09861229, 1.09861229]])

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [406]:
# comparamos documentos con OneHotEncoder
def compare_doc_ohe(corpus, idx):
    # vectorizamos
    ohe_matrix = oneHotEncoding(corpus)
    target_vector = ohe_matrix[idx]
    # similitud del coseno
    cos_sim = [cosine_similarity(target_vector, vector) for vector in ohe_matrix]
    print(f"Similitud del coseno: {cos_sim}")
    
    # ordenando los documentos de mayor coincidencia a menor
    sort_idx = np.argsort(cos_sim)[::-1]
    document_ord = [corpus[i] for i in sort_idx]

    return document_ord

In [407]:
doc_compared = compare_doc_ohe(corpus, 1)
print(f"\nordenando los documentos de mayor coincidencia a menor:\n{doc_compared}")

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']
Similitud del coseno: [0.6123724356957946, 1.0000000000000002, 0.23570226039551587]

ordenando los documentos de mayor coincidencia a menor:
['martes el dia de hoy es martes', 'que dia es hoy', 'martes muchas gracias']


In [408]:
# comparamos documentos con vector de frecuencia
def compare_doc_vrf(corpus, idx):
    # vectorizamos
    vfr_matrix = frecVector(corpus)
    target_vector = vfr_matrix[idx]
    # similitud del coseno
    cos_sim = [cosine_similarity(target_vector, vector) for vector in vfr_matrix]
    print(f"Similitud del coseno: {cos_sim}")
    
    # ordenando los documentos de mayor coincidencia a menor
    sort_idx = np.argsort(cos_sim)[::-1]
    document_ord = [corpus[i] for i in sort_idx]

    return document_ord

In [409]:
doc_compared_2 = compare_doc_vrf(corpus, 1)
print(f"\nordenando los documentos de mayor coincidencia a menor:\n{doc_compared_2}")

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']
Similitud del coseno: [0.5, 1.0, 0.3849001794597505]

ordenando los documentos de mayor coincidencia a menor:
['martes el dia de hoy es martes', 'que dia es hoy', 'martes muchas gracias']


In [410]:
# comparamos documentos con TF-IDF
def compare_doc_tfidf(corpus, idx):
    # vectorizamos
    tf_idf_matrix = tf_idf(corpus)
    target_vector = tf_idf_matrix[idx]
    # similitud del coseno
    cos_sim = [cosine_similarity(target_vector, vector) for vector in tf_idf_matrix]
    print(f"Similitud del coseno: {cos_sim}")
    
    # ordenando los documentos de mayor coincidencia a menor
    sort_idx = np.argsort(cos_sim)[::-1]
    document_ord = [corpus[i] for i in sort_idx]

    return document_ord

In [411]:
doc_compared_3 = compare_doc_tfidf(corpus, 1)
print(f"\nordenando los documentos de mayor coincidencia a menor:\n{doc_compared_3}")

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento1: ['que', 'dia', 'es', 'hoy']
documento2: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento3: ['martes', 'muchas', 'gracias']
Similitud del coseno: [0.14388551287405218, 0.9999999999999999, 0.1110480720364697]

ordenando los documentos de mayor coincidencia a menor:
['martes el dia de hoy es martes', 'que dia es hoy', 'martes muchas gracias']


**Analisis**

Vectorizando y comparando los documentos entre si con la similitud del coseno, se puede observar que los resultados son muy similares, sin importar la vectorización que se utilice. Es decir, al buscar la coincidencia de un documento en un corpus usando la similitud del coseno, podemos encontrar el documento que más coincide sin importar con que se vectoriza. Sin embargo, dependiendo del metodo que se utilice para vectorizar, los valores de la similitud del coseno varían, pero mantienen las mismas coincidencias según se puede observar en las pruebas anteriores.

Recordando que mientras más cercano sea este valor a 1 significa que la coincidencia es mayor entre documentos y mientras más cercano es a 0 es el caso contrario.