<img src="..\Desafio 1\img\img.png" width="500" align="right">

# Procesamiento de lenguaje natural


## TP1

### Alumno: Emmanuel Cardozo

#### Objetivos:

Word2vect se tratarán los siguientes temas:

- Obtener el vocabulario de un Corpus.
- Codificarlo con el método One-hot Encoding
- Codificarlo con el método de Vector de Frecuencia o Term Frequency (TF)
- Codificarlo con el método TF-IDF (Term Frequency – Inverse Document Frequency)
- Comparación de similitud de los documentos de un Corpus mediante la similutd del coseno

In [61]:
import numpy as np
import pandas as pd

In [62]:
def cos_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [63]:
corpus = np.array(
    ["que dia es hoy", "martes el dia de hoy es martes", "martes muchas gracias"]
)

Documento 1--> que dia es hoy \
Documento 2--> martes el dia de hoy es martes \
Documento 3--> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [64]:
vocabulary = set(" ".join(corpus).split())
for word in vocab:
    print(f"{word}")

que
es
gracias
muchas
martes
el
hoy
dia
de


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [54]:
calculate_vocabulary = lambda corpus: set(" ".join(corpus).split())

In [73]:
def one_hot(corp):
    vocabulary = calculate_vocabulary(corp)
    matrix = []

    for doc in corp:
        row = []
        splitted_doc = doc.split()
        for word in vocab:
            row.append(1 if word in splitted_doc else 0)
        matrix.append(row)

    return np.array(one_hot_matrix)


one_hot_matrix = one_hot(corpus)
pd.DataFrame(one_hot_matrix, columns=vocabulary, index=corpus)

Unnamed: 0,que,es,gracias,muchas,martes,el,hoy,dia,de
que dia es hoy,1,1,0,0,0,0,1,1,0
martes el dia de hoy es martes,0,1,0,0,1,1,1,1,1
martes muchas gracias,0,0,1,1,1,0,0,0,0


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [81]:
def freq(corp):
    vocabulary = calculate_vocabulary(corp)
    matrix = []

    for doc in corpus:
        row = []
        splitted_doc = doc.split()
        for word in vocabulary:
            row.append(splitted_doc.count(word))
        matrix.append(row)

    return np.array(matrix)

freq_matrix = freq(corpus)
pd.DataFrame(freq_matrix, columns=vocabulary, index=corpus)

Unnamed: 0,que,es,gracias,muchas,martes,el,hoy,dia,de
que dia es hoy,1,1,0,0,0,0,1,1,0
martes el dia de hoy es martes,0,1,0,0,2,1,1,1,1
martes muchas gracias,0,0,1,1,1,0,0,0,0


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [153]:
def idf(corpus):
    df = one_hot(corpus).sum(axis=0)
    return np.log10(corpus.shape[0] / df).reshape(1, -1)


IDF = idf(corpus)

pd.DataFrame(idf, columns=vocabulary, index=["IDF"])

Unnamed: 0,que,es,gracias,muchas,martes,el,hoy,dia,de
IDF,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>,<function idf at 0x0000025D7DA416C0>


In [154]:
TF_IDF = freq_matrix * IDF

print("Matriz con la representación TF-IDF de las palabras en el documento:")
pd.DataFrame(tf_idf, columns=vocabulary, index=corpus)

Matriz con la representación TF-IDF de las palabras en el documento:


Unnamed: 0,que,es,gracias,muchas,martes,el,hoy,dia,de
que dia es hoy,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>
martes el dia de hoy es martes,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>
martes muchas gracias,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>,<function tf_idf at 0x0000025D7D868310>


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [189]:
def sort_cos_similarity(corp, doc_index):
    tf = freq(corpus)
    scores = []
    for i in range(len(tf)):
        scores.append(cos_similarity(np.array(tf[doc_index]), np.array(tf[i])))
    return [x for x, x in sorted(zip(scores, corp), reverse=True)]

In [190]:
print("Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 1:\n", sort_cos_similarity(corpus, 1))

Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 1:
 ['martes el dia de hoy es martes', 'que dia es hoy', 'martes muchas gracias']


In [191]:
print("Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 2:\n", sort_cos_similarity(corpus, 2))

Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 2:
 ['martes muchas gracias', 'martes el dia de hoy es martes', 'que dia es hoy']


In [188]:
print("Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 3:\n", sort_cos_similarity(corpus, 0))

Documentos ordenados según su similitud de coseno, para el corpus trabajado e índice 3:
 ['martes muchas gracias', 'martes el dia de hoy es martes', 'que dia es hoy']
