<a href="https://colab.research.google.com/github/lauxpress/NLP_UBA_Scheihing23/blob/main/NLP_Desafio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [None]:
import numpy as np

In [None]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

Primero transofrmamos los documentos en una lista de terminos:

In [None]:
doc1 = corpus[0].split()
doc2 = corpus[1].split()
doc3 = corpus[2].split()
print (doc1, doc2, doc3)

['que', 'dia', 'es', 'hoy'] ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'] ['martes', 'muchas', 'gracias']


ahora los juntamos a todos en una lista y nos quedamos con una unica repeticion de cada termino

In [None]:
unicas = set()
unicas.update(doc1 + doc2 + doc3)
vocabulario = list(unicas)
print(vocabulario)

['hoy', 'que', 'muchas', 'el', 'es', 'de', 'martes', 'gracias', 'dia']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:
tokens = [sentence.split() for sentence in corpus]


# Step 2: Create one-hot encodings
one_hot_encodings = []

for sentence in tokens:
    one_hot_encoding = [1 if word in sentence else 0 for word in vocabulario]
    one_hot_encodings.append(one_hot_encoding)

# Convert the one-hot encodings to a numpy array
one_hot_encodings = np.array(one_hot_encodings)

# Print the vocabulary and one-hot encodings
print("Vocabulary:", vocabulario)
print("One-Hot Encodings:")
print(one_hot_encodings)

Vocabulary: ['hoy', 'que', 'muchas', 'el', 'es', 'de', 'martes', 'gracias', 'dia']
One-Hot Encodings:
[[1 1 0 0 1 0 0 0 1]
 [1 0 0 1 1 1 1 0 1]
 [0 0 1 0 0 0 1 1 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

vectorizer = CountVectorizer()

vectorizer.fit(corpus)

X = vectorizer.transform(corpus)

matrix = X.toarray()

word_frequencies = pd.DataFrame(matrix, columns=vectorizer.get_feature_names_out())
word_frequencies['Sentence'] = corpus
word_frequencies.set_index('Sentence', inplace=True)


print(word_frequencies)

                                de  dia  el  es  gracias  hoy  martes  muchas  \
Sentence                                                                        
que dia es hoy                   0    1   0   1        0    1       0       0   
martes el dia de hoy es martes   1    1   1   1        0    1       2       0   
martes muchas gracias            0    0   0   0        1    0       1       1   

                                que  
Sentence                             
que dia es hoy                    1  
martes el dia de hoy es martes    0  
martes muchas gracias             0  


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

vectorizer = TfidfVectorizer()

tfidf_matrix = vectorizer.fit_transform(corpus)

tfidf_array = tfidf_matrix.toarray()


tfidf_table = pd.DataFrame(tfidf_array, columns=vectorizer.get_feature_names_out())
tfidf_table['Sentence'] = corpus
tfidf_table.set_index('Sentence', inplace=True)


print(tfidf_table)

                                      de       dia        el        es  \
Sentence                                                                 
que dia es hoy                  0.000000  0.459854  0.000000  0.459854   
martes el dia de hoy es martes  0.406598  0.309228  0.406598  0.309228   
martes muchas gracias           0.000000  0.000000  0.000000  0.000000   

                                 gracias       hoy    martes    muchas  \
Sentence                                                                 
que dia es hoy                  0.000000  0.459854  0.000000  0.000000   
martes el dia de hoy es martes  0.000000  0.309228  0.618457  0.000000   
martes muchas gracias           0.622766  0.000000  0.473630  0.622766   

                                     que  
Sentence                                  
que dia es hoy                  0.604652  
martes el dia de hoy es martes  0.000000  
martes muchas gracias           0.000000  


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [None]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def ordenar_por_similitud(corpus, indice_documento):
    # Inicializar un vectorizador de texto
    vectorizador = CountVectorizer()

    # Ajustar y transformar el corpus en una matriz de términos de documentos
    matriz_tfidf = vectorizador.fit_transform(corpus)

    # Calcular la matriz de similitud coseno
    similitud = cosine_similarity(matriz_tfidf)

    # Obtener las puntuaciones de similitud para el documento en el índice especificado
    similitud_documento = similitud[indice_documento]

    # Ordenar los documentos por similitud coseno en orden descendente
    indices_ordenados = similitud_documento.argsort()[::-1]

    # Obtener los documentos ordenados
    documentos_ordenados = [corpus[i] for i in indices_ordenados]

    return documentos_ordenados

corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])
indice_documento = 0  # Cambia el índice según el documento que desees comparar

documentos_ordenados = ordenar_por_similitud(corpus, indice_documento)

for i, documento in enumerate(documentos_ordenados):
    print(f"Documento {i + 1}: {documento}")

Documento 1: que dia es hoy
Documento 2: martes el dia de hoy es martes
Documento 3: martes muchas gracias
