<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Word2vect


In [45]:
import numpy as np
import pandas as pd

In [3]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [4]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)

In [39]:
def VOCABULARIO(cuerpo):
    documentos = [elemento.split() for elemento in cuerpo.tolist()]
    vocabulario = [elemento for documento in documentos for elemento in documento]
    vocabulario=list(set(vocabulario))
    
    return documentos, vocabulario

In [42]:
documentos, vocabulario = VOCABULARIO(corpus)

- Cada documento transformarlo en una lista de términos

In [43]:
print(documentos)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]



- Armar un vector de términos no repetidos de todos los documentos

In [44]:
print(vocabulario)

['dia', 'es', 'hoy', 'el', 'muchas', 'gracias', 'de', 'que', 'martes']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [65]:
def OHE(cuerpo):
    documentos ,vocabulario = VOCABULARIO(cuerpo)
    ohe = []
    for documento in documentos:
        encoder = []
        for elemento in vocabulario:
            encoder.append(1 if elemento in documento else 0)
        ohe.append(encoder)
    ohe = pd.DataFrame(ohe,columns=vocabulario, index=['Documento '+str(elemento+1) for elemento in range(len(documentos))])

    return ohe

In [106]:
ohe = OHE(corpus)
ohe

Unnamed: 0,dia,es,hoy,el,muchas,gracias,de,que,martes
Documento 1,1,1,1,0,0,0,0,1,0
Documento 2,1,1,1,1,0,0,1,0,1
Documento 3,0,0,0,0,1,1,0,0,1


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [69]:
def FRECUENCIA(cuerpo):
    documentos ,vocabulario = VOCABULARIO(cuerpo)
    frec = []
    for documento in documentos:
        encoder = []
        for elemento in vocabulario:
            encoder.append(documento.count(elemento))
        frec.append(encoder)
    frec = pd.DataFrame(frec,columns=vocabulario, index=['Documento '+str(elemento+1) for elemento in range(len(documentos))])

    return frec

In [71]:
vector_frecuencia = FRECUENCIA(corpus)
vector_frecuencia

Unnamed: 0,dia,es,hoy,el,muchas,gracias,de,que,martes
Documento 1,1,1,1,0,0,0,0,1,0
Documento 2,1,1,1,1,0,0,1,0,2
Documento 3,0,0,0,0,1,1,0,0,1


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [127]:
def TF_IDF(cuerpo):
    documentos ,vocabulario = VOCABULARIO(cuerpo)
    ohe = []
    frec = []
    for documento in documentos:
        encoder = []
        frec_count = []
        for elemento in vocabulario:
            encoder.append(1 if elemento in documento else 0)
            frec_count.append(documento.count(elemento))
        ohe.append(encoder)
        frec.append(frec_count)
    ohe = pd.DataFrame(ohe,columns=vocabulario, index=['Documento '+str(elemento+1) for elemento in range(len(documentos))])
    idf = np.log10(np.ones(len(vocabulario))*len(documentos)/ohe.sum().tolist())
    tf_idf = [idf*elemento for elemento in frec] 
    idf = pd.DataFrame([idf],columns=vocabulario, index=['IDF'])
    tf_idf = pd.DataFrame(tf_idf,columns=vocabulario, index=['TF-IDF Documento '+str(elemento+1) for elemento in range(len(documentos))])

    return idf, tf_idf

In [128]:
idf, tf_idf = TF_IDF(corpus)

In [129]:
idf

Unnamed: 0,dia,es,hoy,el,muchas,gracias,de,que,martes
IDF,0.176091,0.176091,0.176091,0.477121,0.477121,0.477121,0.477121,0.477121,0.176091


In [130]:
tf_idf

Unnamed: 0,dia,es,hoy,el,muchas,gracias,de,que,martes
TF-IDF Documento 1,0.176091,0.176091,0.176091,0.0,0.0,0.0,0.0,0.477121,0.0
TF-IDF Documento 2,0.176091,0.176091,0.176091,0.477121,0.0,0.0,0.477121,0.0,0.352183
TF-IDF Documento 3,0.0,0.0,0.0,0.0,0.477121,0.477121,0.0,0.0,0.176091


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [157]:
def COMPARACION(cuerpo, indice):
    ohe= OHE(cuerpo)
    ind = np.array(ohe)[indice]
    similitud = [cosine_similarity(ind, np.array(ohe)[elemento]) for elemento in range(len(documentos))]
    similitud = pd.DataFrame(similitud,columns=['Similitud coseno'], index=['Documento '+str(elemento+1) for elemento in range(len(documentos))])

    return similitud
    

In [158]:
similitud_cos = COMPARACION(corpus, 0)
similitud_cos

Unnamed: 0,Similitud coseno
Documento 1,1.0
Documento 2,0.612372
Documento 3,0.0
