<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [28]:
import numpy as np

In [29]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [30]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [31]:
terms = [doc.split() for doc in corpus]
terms_flattened = [term for sublist in terms for term in sublist]
unique_terms = list(set(terms_flattened))
print(unique_terms)

['es', 'dia', 'de', 'el', 'gracias', 'muchas', 'hoy', 'que', 'martes']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [32]:
matrix = np.zeros((len(corpus), len(unique_terms)))

for i, doc in enumerate(corpus):
    palabras_doc = doc.lower().split()
    for j, termino in enumerate(unique_terms):
        matrix[i, j] = int(termino in palabras_doc)

print(matrix)

print("Using scikit-learn")

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(binary=True)

matrix = vectorizer.fit_transform(corpus)

matrix = matrix.toarray()

print(matrix)

[[1. 1. 0. 0. 0. 0. 1. 1. 0.]
 [1. 1. 1. 1. 0. 0. 1. 0. 1.]
 [0. 0. 0. 0. 1. 1. 0. 0. 1.]]
Using scikit-learn
[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [33]:
matrix = np.zeros((len(corpus), len(unique_terms)))

for i, texto in enumerate(corpus):
    terms = texto.split()
    for j, term in enumerate(unique_terms):
        matrix[i, j] = terms.count(term)

print(matrix)

print("Using scikit-learn")

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

matrix = vectorizer.fit_transform(corpus)

matrix = matrix.toarray()

print(matrix)

[[1. 1. 0. 0. 0. 0. 1. 1. 0.]
 [1. 1. 1. 1. 0. 0. 1. 0. 2.]
 [0. 0. 0. 0. 1. 1. 0. 0. 1.]]
Using scikit-learn
[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [34]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(vocabulary=unique_terms)

matrix = vectorizer.fit_transform(corpus)

matrix = matrix.toarray()

print(matrix)

[[0.45985353 0.45985353 0.         0.         0.         0.
  0.45985353 0.60465213 0.        ]
 [0.30922846 0.30922846 0.40659827 0.40659827 0.         0.
  0.30922846 0.         0.61845693]
 [0.         0.         0.         0.         0.62276601 0.62276601
  0.         0.         0.4736296 ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [36]:
def order_by_cosine_similarity(corpus, index):
    vectorizador = TfidfVectorizer()
    matriz_tfidf = vectorizador.fit_transform(corpus).toarray()
        # Calcular la similitud de coseno entre el documento de referencia y los demás documentos
    similitudes = []
    for i in range(len(corpus)):
        similitud = cosine_similarity(matriz_tfidf[index], matriz_tfidf[i])
        similitudes.append(similitud)

    # Ordenar los documentos según la similitud de coseno
    documentos_ordenados = [x for _, x in sorted(zip(similitudes, corpus), reverse=True)]

    return documentos_ordenados


print(order_by_cosine_similarity(corpus, 0))

['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias']
