<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [74]:
import numpy as np

In [75]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [76]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [77]:
# obtenemos tamaño del corpus
corpus_size = len(corpus)
document_list = []

# buscamos documentos y dividimos en terminos
for i in range(corpus_size):
    document = corpus[i].split()
    document_list.append(document)

document_list

[['que', 'dia', 'es', 'hoy'],
 ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'],
 ['martes', 'muchas', 'gracias']]

In [78]:
# unimos listas
merge_list = np.concatenate(document_list).ravel()
merge_list

array(['que', 'dia', 'es', 'hoy', 'martes', 'el', 'dia', 'de', 'hoy',
       'es', 'martes', 'martes', 'muchas', 'gracias'], dtype='<U7')

In [79]:
# obtenemos vocabulario
vocabulary = []
[vocabulary.append(term) for term in merge_list if term not in vocabulary]
print(f" vocabulario: {vocabulary}")

 vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


In [80]:
# lo hacemos una función
def extract_vocabulary(corpus):
    # obtenemos tamaño del corpus
    corpus_size = len(corpus)
    document_list = []

    # buscamos documentos y dividimos en terminos
    for i in range(corpus_size):
        document = corpus[i].split() 
        document_list.append(document)
    
    # unimos listas
    merge_list = np.concatenate(document_list).ravel()

    # obtenemos vocabulario
    vocabulary = []
    [vocabulary.append(term) for term in merge_list if term not in vocabulary]

    return vocabulary

In [81]:
# Probamos función
final_result = extract_vocabulary(corpus)
print(f" vocabulario: {final_result}")

 vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [82]:
# creamos un nuevo corpus
corpus_2 = np.array(['como esta el dia', 'el dia de hoy esta calido', 'calido como en el caribe'])

In [83]:
# creamos función para el OneHotEncoding
def oneHotEncoding(corpus):
    # extraemos vocabulario
    vocabulary_for_ohe = extract_vocabulary(corpus)
    print(f"vocabulario: {vocabulary_for_ohe}")
    # inicializamos variables
    corpus_size = len(corpus)
    ohe_matriz = []
    # calculamos vector
    for i in range(corpus_size):
        # buscamos documento y dividimos en terminos
        document = corpus[i].split()
        print(f"documento: {document}")
        ohe_vector = []

        # revisamos si el termino en el vocabulario existe en un docu
        for term in vocabulary_for_ohe:
            if term not in document:
                ohe_vector.append(0) # si no existe colocamos 0
            else:
                ohe_vector.append(1) # si existe colocamos 1

        # acumulamos los vectores por documento revisado
        ohe_matriz.append(ohe_vector)

    return np.array(ohe_matriz)

In [84]:
ohe = oneHotEncoding(corpus_2)
ohe

vocabulario: ['como', 'esta', 'el', 'dia', 'de', 'hoy', 'calido', 'en', 'caribe']
documento: ['como', 'esta', 'el', 'dia']
documento: ['el', 'dia', 'de', 'hoy', 'esta', 'calido']
documento: ['calido', 'como', 'en', 'el', 'caribe']


array([[1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 1, 0, 0],
       [1, 0, 1, 0, 0, 0, 1, 1, 1]])

In [85]:
# probamos con corpus original
ohe_2 = oneHotEncoding(corpus)
ohe_2

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento: ['que', 'dia', 'es', 'hoy']
documento: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento: ['martes', 'muchas', 'gracias']


array([[1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 1, 1]])

### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [86]:
def frecVector(corpus):
    # extraemos vocabulario
    vocabulary_for_vecfr = extract_vocabulary(corpus)
    print(f"vocabulario: {vocabulary_for_vecfr}")
    # inicializamos variables
    corpus_size = len(corpus)
    vecfr_matriz = []
    # calculamos vector
    for i in range(corpus_size):
        # buscamos documento y dividimos en terminos
        document = corpus[i].split()
        print(f"documento: {document}")
        vector = []

        # revisamos si el termino en el vocabulario existe en un docu
        for term in vocabulary_for_vecfr:
            if term not in document:
                vector.append(0) # si no existe colocamos 0
            else:
                # buscamos cuantas veces se repite el termino en el documento
                num_obs = len([count for count, value in enumerate(document) if value == term])
                vector.append(num_obs)

        # acumulamos los vectores por documento revisado
        vecfr_matriz.append(vector)

    return np.array(vecfr_matriz)

In [87]:
# probamos con corpus original
vecfr = frecVector(corpus)
vecfr

vocabulario: ['que', 'dia', 'es', 'hoy', 'martes', 'el', 'de', 'muchas', 'gracias']
documento: ['que', 'dia', 'es', 'hoy']
documento: ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']
documento: ['martes', 'muchas', 'gracias']


array([[1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 2, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 1, 1]])

In [88]:
# Probamos otro corpus
corpus_3 = np.array(['que bueno que esta', 'esta muy bueno', 'esta excelente'])

vecfr_2 = frecVector(corpus_3)
vecfr_2

vocabulario: ['que', 'bueno', 'esta', 'muy', 'excelente']
documento: ['que', 'bueno', 'que', 'esta']
documento: ['esta', 'muy', 'bueno']
documento: ['esta', 'excelente']


array([[2, 1, 1, 0, 0],
       [0, 1, 1, 1, 0],
       [0, 0, 1, 0, 1]])

### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno