<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [2]:
import numpy as np

corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

documentos = [documento.split() for documento in corpus]

vocabulario = list(set([termino for documento in documentos for termino in documento]))
print(documentos)
print(vocabulario)


[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['martes', 'de', 'muchas', 'hoy', 'es', 'dia', 'el', 'gracias', 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [10]:
textos = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
vocabulario = list(set(word for texto in textos for word in texto.split()))
matriz_one_hot = np.zeros((len(textos), len(vocabulario)), dtype=int)

for i, texto in enumerate(textos):
    for j, palabra in enumerate(vocabulario):
        matriz_one_hot[i, j] = 1 if palabra in texto.split() else 0

print("Vocabulario:")
print(vocabulario)
print("Matriz One-Hot Encoding:")
print(matriz_one_hot)




Vocabulario:
['martes', 'de', 'muchas', 'hoy', 'es', 'dia', 'el', 'gracias', 'que']
Matriz One-Hot Encoding:
[[0 0 0 1 1 1 0 0 1]
 [1 1 0 1 1 1 1 0 0]
 [1 0 1 0 0 0 0 1 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [12]:
textos = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']

vocabulario = list(set(word.lower() for texto in textos for word in texto.split()))

matriz_frecuencia = np.zeros((len(textos), len(vocabulario)), dtype=int)

for i, texto in enumerate(textos):
    for j, palabra in enumerate(vocabulario):
        matriz_frecuencia[i, j] = texto.lower().split().count(palabra)

print('Vocabulario:')
print(vocabulario)
print('Matriz de frecuencia de términos:')
print(matriz_frecuencia)



Vocabulario:
['martes', 'de', 'muchas', 'hoy', 'es', 'dia', 'el', 'gracias', 'que']
Matriz de frecuencia de términos:
[[0 0 0 1 1 1 0 0 1]
 [2 1 0 1 1 1 1 0 0]
 [1 0 1 0 0 0 0 1 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [14]:
import math

textos = ['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']

vocabulario = list(set(word for texto in textos for word in texto.split()))

n_documentos = len(textos)

idf = {}

for palabra in vocabulario:
    documentos_con_termino = sum(1 for texto in textos if palabra in texto.split())
    idf[palabra] = math.log10(n_documentos / documentos_con_termino)

matriz_tfidf = []

for texto in textos:
    tfidf_documento = []
    for palabra in vocabulario:
        tf = texto.split().count(palabra)
        tfidf = tf * idf[palabra]
        tfidf_documento.append(tfidf)
    matriz_tfidf.append(tfidf_documento)

print("Vocabulario:")
print(vocabulario)

print("Matriz TF-IDF:")
for fila in matriz_tfidf:
    print(fila)


Vocabulario:
['martes', 'de', 'muchas', 'hoy', 'es', 'dia', 'el', 'gracias', 'que']
Matriz TF-IDF:
[0.0, 0.0, 0.0, 0.17609125905568124, 0.17609125905568124, 0.17609125905568124, 0.0, 0.0, 0.47712125471966244]
[0.3521825181113625, 0.47712125471966244, 0.0, 0.17609125905568124, 0.17609125905568124, 0.17609125905568124, 0.47712125471966244, 0.0, 0.0]
[0.17609125905568124, 0.0, 0.47712125471966244, 0.0, 0.0, 0.0, 0.0, 0.47712125471966244, 0.0]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [22]:
import numpy as np

def cosine_similarity(v1, v2):
    dot_product = np.dot(v1, v2)
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)
    
    if norm_v1 == 0 or norm_v2 == 0:
        return 0.0
    
    return dot_product / (norm_v1 * norm_v2)

def ordenar_por_similitud_coseno(df, ref_doc_index):
    n_docs = df.shape[0]
    similitudes = np.zeros(shape=(n_docs,))
    v1 = df[ref_doc_index, :] 
    
    for other_doc_idx in range(n_docs):
        v2 = df[other_doc_idx, :]  
        similitudes[other_doc_idx] = cosine_similarity(v1, v2)
    
   
    return np.argsort(-similitudes)

matriz_tfidf = np.array(matriz_tfidf)
matriz_one_hot = np.array(matriz_one_hot)
matriz_frecuencia = np.array(matriz_frecuencia)

print("Ordenado por similitud coseno usando TF-IDF:")
print(ordenar_por_similitud_coseno(matriz_tfidf, 1)) 

print("Ordenado por similitud coseno usando One-Hot Encoding:")
print(ordenar_por_similitud_coseno(matriz_one_hot, 1))  

print("Ordenado por similitud coseno usando vectores de frecuencia:")
print(ordenar_por_similitud_coseno(matriz_frecuencia, 1)) 


Ordenado por similitud coseno usando TF-IDF:
[1 0 2]
Ordenado por similitud coseno usando One-Hot Encoding:
[1 0 2]
Ordenado por similitud coseno usando vectores de frecuencia:
[1 0 2]
