<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [9]:
import numpy as np

In [10]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [11]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [12]:
# Prompt ChatGPT con model gpt-4:
#
# Como precondicion, se tiene el siguiente corpus:
# ```
# corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
# ```
# Se define la siguiente consigna:
# ```
# ### 1 - Obtener el vocabulario del corpus (los términos utilizados)
# - Cada documento transformarlo en una lista de términos
# - Armar un vector de términos no repetidos de todos los documentos
# ```
# Dar solucion en codigo python para ser ejecutado en Google Colab

# Transformar cada documento en una lista de términos
corpus_terms = [doc.split() for doc in corpus]

print(corpus_terms)

# Aplanar la lista de listas y eliminar términos repetidos
vocabulario = list(set([term for sublist in corpus_terms for term in sublist]))

print(vocabulario)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]
['muchas', 'dia', 'es', 'gracias', 'de', 'que', 'hoy', 'el', 'martes']


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [13]:
# Continuando chat abierto con ChatGPT:
#
# Realizar una funcion que dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

from sklearn.feature_extraction.text import CountVectorizer

def one_hot_encoding(textos):
    # Creamos un objeto CountVectorizer y lo ajustamos a nuestros textos
    vectorizer = CountVectorizer(binary=True)  # binary=True para obtener una representación OneHot
    X = vectorizer.fit_transform(textos)

    # Convertimos la matriz dispersa resultante en una matriz densa
    one_hot_matrix = X.toarray()

    return one_hot_matrix

# Probamos la función
print(one_hot_encoding(corpus))


[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 3- Vectores de frecuencia
Dada una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [14]:
# Continuando chat abierto con ChatGPT:
#
# Realizar una funcion para la siguiente consigna:
#
# ```
# ### 3- Vectores de frecuencia
# Dada una lista de textos, devolver una matriz con la representación de frecuencia de estos
# ```

from sklearn.feature_extraction.text import CountVectorizer

def frequency_vectors(textos):
    # Creamos un objeto CountVectorizer
    vectorizer = CountVectorizer()

    # Ajustamos y transformamos nuestros textos
    X = vectorizer.fit_transform(textos)

    # Convertimos la matriz dispersa resultante en una matriz densa
    frequency_matrix = X.toarray()

    return frequency_matrix

# Probamos la función
print(frequency_vectors(corpus))


[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [15]:
# Continuando chat abierto con ChatGPT:
#
# Realizar una funcion para la siguiente consigna:
#
# ### 4- TF-IDF
# Dada una lista de textos, devolver una matriz con la representacion TFIDF

from sklearn.feature_extraction.text import TfidfVectorizer

def tfidf_vectors(textos):
    # Creamos un objeto TfidfVectorizer
    vectorizer = TfidfVectorizer()

    # Ajustamos y transformamos nuestros textos
    X = vectorizer.fit_transform(textos)

    # Convertimos la matriz dispersa resultante en una matriz densa
    tfidf_matrix = X.toarray()

    return tfidf_matrix

# Probamos la función
print(tfidf_vectors(corpus))

[[0.         0.45985353 0.         0.45985353 0.         0.45985353
  0.         0.         0.60465213]
 [0.40659827 0.30922846 0.40659827 0.30922846 0.         0.30922846
  0.61845693 0.         0.        ]
 [0.         0.         0.         0.         0.62276601 0.
  0.4736296  0.62276601 0.        ]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [25]:
# Continuando chat abierto con ChatGPT:
#
# Se tiene definida la siguiente funcion:
#
# ```
# def cosine_similarity(a, b):
#     return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))
# ```
#
# Se tiene la siguiente consigna:
#
# ```
# ### 5 - Comparación de documentos
# Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno
# ```

def compare_documents(corpus, index):
    # Obtener los vectores tf-idf del corpus
    vectors = tfidf_vectors(corpus)
    
    # Obtener el vector del documento de interés
    doc_vector = vectors[index]
    
    # Calcular la similitud coseno entre el documento de interés y cada documento en el corpus
    similarities = [cosine_similarity(doc_vector, vector) for vector in vectors]
    
    # Ordenar los índices de los documentos en el corpus por su similitud con el documento de interés
    sorted_indices = np.argsort(similarities)[::-1]
    
    # Devolver los documentos ordenados por similitud
    return corpus[sorted_indices]

# Probamos la función
for i in range(0, len(corpus)):
    print( "Documento: ", corpus[i], ", Documentos ordenados por similitud:", compare_documents(corpus, i))

Documento:  que dia es hoy , Documentos ordenados por similitud: ['que dia es hoy' 'martes el dia de hoy es martes' 'martes muchas gracias']
Documento:  martes el dia de hoy es martes , Documentos ordenados por similitud: ['martes el dia de hoy es martes' 'que dia es hoy' 'martes muchas gracias']
Documento:  martes muchas gracias , Documentos ordenados por similitud: ['martes muchas gracias' 'martes el dia de hoy es martes' 'que dia es hoy']
