<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [17]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import OneHotEncoder

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

In [18]:
def ordenar_por_similitud_coseno(corpus, indice_documento):
    # Dividir los documentos y obtener el vocabulario
    documentos = [documento.split() for documento in corpus]
    vocabulario = list(set(word for documento in documentos for word in documento))

    # Crear una matriz de frecuencia de términos para los documentos
    matriz_frecuencia = np.zeros((len(corpus), len(vocabulario)))

    for i, documento in enumerate(documentos):
        for palabra in documento:
            matriz_frecuencia[i, vocabulario.index(palabra)] += 1

    # Calcular la similitud coseno entre el documento dado y los demás documentos
    similitudes = cosine_similarity(matriz_frecuencia[indice_documento].reshape(1, -1), matriz_frecuencia)

    # Obtener los índices de los documentos ordenados por similitud coseno
    indices_ordenados = np.argsort(similitudes)[0][::-1]

    # Obtener los documentos ordenados por similitud coseno
    documentos_ordenados = [corpus[i] for i in indices_ordenados]

    return documentos_ordenados

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [7]:
documentos = [documento.split() for documento in corpus]
vocabulario = set()
for documento in documentos:
    vocabulario.update(documento)
vocabulario = list(vocabulario)


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [9]:
# Crear una instancia del codificador One-Hot
encoder = OneHotEncoder(sparse=False)

# Crear una matriz de ceros con el mismo número de filas que documentos y el tamaño del vocabulario como columnas
matriz_codificada = np.zeros((len(documentos), len(vocabulario)))

# Llenar la matriz codificada con 1s donde haya coincidencia entre el vocabulario y los términos en los documentos
for i, documento in enumerate(documentos):
    for j, palabra in enumerate(vocabulario):
        if palabra in documento:
            matriz_codificada[i, j] = 1

# Imprimir la matriz codificada
print(matriz_codificada)

[[1. 0. 1. 0. 0. 1. 0. 1. 0.]
 [0. 1. 1. 1. 0. 1. 0. 1. 1.]
 [0. 1. 0. 0. 1. 0. 1. 0. 0.]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [11]:
# Crear una instancia del vectorizador de frecuencia
vectorizador = CountVectorizer(vocabulary=vocabulario)

# Transformar la matriz codificada en una lista de textos
textos = [" ".join([vocabulario[j] for j in range(len(vocabulario)) if matriz_codificada[i][j] == 1]) for i in range(len(matriz_codificada))]

# Transformar los textos para obtener la matriz de frecuencia
matriz_frecuencia = vectorizador.transform(textos)

# Convertir la matriz de frecuencia a un array numpy
matriz_frecuencia = matriz_frecuencia.toarray()

# Imprimir la matriz de frecuencia
print(matriz_frecuencia)

[[1 0 1 0 0 1 0 1 0]
 [0 1 1 1 0 1 0 1 1]
 [0 1 0 0 1 0 1 0 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [16]:
# Crear una instancia del vectorizador TF-IDF
vectorizador_tfidf = TfidfVectorizer(vocabulary=vocabulario)

# Ajustar el vectorizador a los textos
vectorizador_tfidf.fit(vocabulario)

# Transformar la matriz codificada en una lista de textos
textos = [" ".join([vocabulario[j] for j in range(len(vocabulario)) if matriz_codificada[i][j] == 1]) for i in range(len(matriz_codificada))]

# Transformar los textos para obtener la matriz de representación TF-IDF
matriz_tfidf = vectorizador_tfidf.transform(textos)

# Convertir la matriz TF-IDF a un array numpy
matriz_tfidf = matriz_tfidf.toarray()

# Imprimir la matriz TF-IDF
print(matriz_tfidf)

[[0.5        0.         0.5        0.         0.         0.5
  0.         0.5        0.        ]
 [0.         0.40824829 0.40824829 0.40824829 0.         0.40824829
  0.         0.40824829 0.40824829]
 [0.         0.57735027 0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [20]:

indice_documento = 0  # Índice del documento de referencia

documentos_ordenados = ordenar_por_similitud_coseno(corpus, indice_documento)
print(documentos_ordenados)

['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
