<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [None]:
terminos = np.char.split(corpus)
terminos_flat = np.concatenate(terminos)
terminos_unicos = np.unique(terminos_flat)

print(terminos_unicos)

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:
ohe = np.zeros((len(corpus), len(terminos_unicos)), dtype=int)

# Para cada documento, llenamos la matriz con 1s y 0s
for i, doc in enumerate(terminos):
    for termino in doc:
        # Obtenemos el índice de la palabra en terminos unicos
        idx = np.where(terminos_unicos == termino)

        # Si el término se encuentra en terminos_unicos
        if idx[0].size > 0:
            # Ponemos un 1 en la posición correspondiente de la matriz
            ohe[i, idx[0][0]] = 1


# Creamos la matriz final como una lista, que puede contener diferentes tipos de datos
final_ohe = [terminos_unicos.tolist()] + ohe.tolist()

for row in final_ohe:
    print(row)

['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']
[0, 1, 0, 1, 0, 1, 0, 0, 1]
[1, 1, 1, 1, 0, 1, 1, 0, 0]
[0, 0, 0, 0, 1, 0, 1, 1, 0]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
# Creamos una matriz vacía de la forma correcta (número de documentos, número de palabras únicas)
matrix = np.zeros((len(corpus), len(terminos_unicos)), dtype=int)

# Para cada documento, llenamos la matriz con la cantidad de veces que aparece cada palabra
for i, doc in enumerate(terminos):
    for termino in doc:
        # Obtenemos el índice de la palabra en terminos_unicos
        idx = np.where(terminos_unicos == termino)[0][0]
        # Aumentamos el contador en la posición correspondiente de la matriz
        matrix[i, idx] += 1

# Creamos la matriz final como una lista, que puede contener diferentes tipos de datos
final_matrix = [terminos_unicos.tolist()] + matrix.tolist()

for row in final_matrix:
    print(row)

['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']
[0, 1, 0, 1, 0, 1, 0, 0, 1]
[1, 1, 1, 1, 0, 1, 2, 0, 0]
[0, 0, 0, 0, 1, 0, 1, 1, 0]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
from collections import Counter
import math

# Creamos una matriz vacía de la forma correcta (número de documentos, número de palabras únicas)
tf_matrix = np.zeros((len(corpus), len(terminos_unicos)), dtype=int)

# Calculamos TF para cada palabra en cada documento
for i, doc in enumerate(terminos):
    for termino in doc:
        # Obtenemos el índice de la palabra en terminos_unicos
        idx = np.where(terminos_unicos == termino)[0][0]
        # Aumentamos el contador en la posición correspondiente de la matriz
        tf_matrix[i, idx] += 1

# Calculamos DF para cada palabra
df = Counter(termino for doc in terminos for termino in np.unique(doc))

# Calculamos IDF para cada palabra única
idf_values = np.array([math.log(len(corpus) / df[termino],10) for termino in terminos_unicos])

# Creamos la matriz TF-IDF multiplicando cada término de TF por su IDF correspondiente
tfidf_matrix = np.zeros((len(corpus), len(terminos_unicos)), dtype=float)
for i in range(len(corpus)):
    for j in range(len(terminos_unicos)):
        tfidf_matrix[i, j] = tf_matrix[i, j] * idf_values[j]

# Creamos las matrices finales como listas, que pueden contener diferentes tipos de datos
final_matrix_idf = np.array([terminos_unicos, idf_values])
final_matrix_tfidf = [terminos_unicos.tolist()] + tfidf_matrix.tolist()

print("Matriz IDF:")
print(final_matrix_idf)
print("Matriz TF-IDF:")
for row in final_matrix_tfidf:
    print(row)

Matriz IDF:
[['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']
 ['0.47712125471966244' '0.17609125905568124' '0.47712125471966244'
  '0.17609125905568124' '0.47712125471966244' '0.17609125905568124'
  '0.17609125905568124' '0.47712125471966244' '0.47712125471966244']]
Matriz TF-IDF:
['de', 'dia', 'el', 'es', 'gracias', 'hoy', 'martes', 'muchas', 'que']
[0.0, 0.17609125905568124, 0.0, 0.17609125905568124, 0.0, 0.17609125905568124, 0.0, 0.0, 0.47712125471966244]
[0.47712125471966244, 0.17609125905568124, 0.47712125471966244, 0.17609125905568124, 0.0, 0.17609125905568124, 0.3521825181113625, 0.0, 0.0]
[0.0, 0.0, 0.0, 0.0, 0.47712125471966244, 0.0, 0.17609125905568124, 0.47712125471966244, 0.0]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [None]:
def tf_idf(corpus):
    words = np.char.split(corpus)
    flat_words = np.concatenate(words)
    unique_words = np.unique(flat_words)

    tf_matrix = np.zeros((len(corpus), len(unique_words)), dtype=int)
    for i, doc in enumerate(words):
        for word in doc:
            idx = np.where(unique_words == word)[0][0]
            tf_matrix[i, idx] += 1

    df = Counter(word for doc in words for word in np.unique(doc))
    idf_values = np.array([math.log(len(corpus) / df[word]) for word in unique_words])

    tfidf_matrix = np.zeros((len(corpus), len(unique_words)), dtype=float)
    for i in range(len(corpus)):
        for j in range(len(unique_words)):
            tfidf_matrix[i, j] = tf_matrix[i, j] * idf_values[j]
    
    return tfidf_matrix

def get_similar_documents(corpus, doc_index):
    tfidf_matrix = tf_idf(corpus)
    similarities = [cosine_similarity(tfidf_matrix[doc_index], tfidf_matrix[i]) for i in range(len(corpus))]
    sorted_indices = np.argsort(similarities)[::-1]
    
    return corpus[sorted_indices]

In [None]:
tf_idf(corpus)

array([[0.        , 0.40546511, 0.        , 0.40546511, 0.        ,
        0.40546511, 0.        , 0.        , 1.09861229],
       [1.09861229, 0.40546511, 1.09861229, 0.40546511, 0.        ,
        0.40546511, 0.81093022, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 1.09861229,
        0.        , 0.40546511, 1.09861229, 0.        ]])

In [None]:
print(get_similar_documents(corpus, 0))
print(get_similar_documents(corpus, 1))
print(get_similar_documents(corpus, 2))

['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
['martes el dia de hoy es martes' 'que dia es hoy' 'martes muchas gracias']
['martes muchas gracias' 'martes el dia de hoy es martes' 'que dia es hoy']


In [None]:
corpus = np.array([
    'sal de ahí chivita chivita',
    'sal de ahí de ese lugar', 
    'vamos a buscar al palo',
    'para que le pegue al lobo',
    'el palo no quiere pegarle al lobo',
    'el lobo no quiere sacar a la chiva',
    'la chiva no quiere salir de ahí'
    ])

for i, doc in enumerate(corpus):
    print(get_similar_documents(corpus, i))

['sal de ahí chivita chivita' 'sal de ahí de ese lugar'
 'la chiva no quiere salir de ahí' 'el lobo no quiere sacar a la chiva'
 'el palo no quiere pegarle al lobo' 'para que le pegue al lobo'
 'vamos a buscar al palo']
['sal de ahí de ese lugar' 'sal de ahí chivita chivita'
 'la chiva no quiere salir de ahí' 'el lobo no quiere sacar a la chiva'
 'el palo no quiere pegarle al lobo' 'para que le pegue al lobo'
 'vamos a buscar al palo']
['vamos a buscar al palo' 'el palo no quiere pegarle al lobo'
 'el lobo no quiere sacar a la chiva' 'para que le pegue al lobo'
 'la chiva no quiere salir de ahí' 'sal de ahí de ese lugar'
 'sal de ahí chivita chivita']
['para que le pegue al lobo' 'el palo no quiere pegarle al lobo'
 'vamos a buscar al palo' 'el lobo no quiere sacar a la chiva'
 'la chiva no quiere salir de ahí' 'sal de ahí de ese lugar'
 'sal de ahí chivita chivita']
['el palo no quiere pegarle al lobo' 'el lobo no quiere sacar a la chiva'
 'vamos a buscar al palo' 'la chiva no quiere 