<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [58]:
import numpy as np

In [59]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [60]:
#corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

corpus = np.array(["que bueno que esta", "esta muy bueno", "esta excelente"])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [61]:
# separa en términos
def vocabulario(c) -> list:
    l = c.split()
    return l

# elimina duplicados
terms = list(set(vocabulario(corpus[0]) + vocabulario(corpus[1]) + vocabulario(corpus[2])))

print(terms)


['bueno', 'esta', 'excelente', 'muy', 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [62]:
def oneHotEncodig(terms, corpus):

    y = 0
    a = [[0 for _ in range(len(terms))] for _ in range(len(corpus))]

    for c in corpus:
        words = c.split()
        for w in words:
            a[y][terms.index(w)] = 1
        y+=1
    return a

ohe = oneHotEncodig(terms,corpus)

print(ohe)

[[1, 1, 0, 0, 1], [1, 1, 0, 1, 0], [0, 1, 1, 0, 0]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [63]:
def vectorFrecuencia(terms, corpus):

    y = 0
    a = [[0 for _ in range(len(terms))] for _ in range(len(corpus))]

    for c in corpus:
        words = c.split()
        for w in words:
            a[y][terms.index(w)] = a[y][terms.index(w)] + 1
        y+=1
    return a

f = vectorFrecuencia(terms,corpus)

print(f)

[[1, 1, 0, 0, 2], [1, 1, 0, 1, 0], [0, 1, 1, 0, 0]]


### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [64]:
import math

def get_idf(terms, corpus):
    
    n = len(corpus)

    ohe = oneHotEncodig(terms, corpus)

    df = [sum(x) for x in zip(*ohe)]

    idf = [math.log((n/x), 10) for x in df]

    return idf


def get_tfidf(terms, corpus):

    tf = vectorFrecuencia(terms, corpus)

    idf = get_idf(terms, corpus)
    
    tf_idf = tf
    for i in range(len(tf)):
        for j in range(len(tf[0])):            
            tf_idf[i][j] = tf[i][j]*idf[j]
            
    return tf_idf


tf_idf = get_tfidf(terms, corpus)

print(tf_idf)



[[0.17609125905568124, 0.0, 0.0, 0.0, 0.9542425094393249], [0.17609125905568124, 0.0, 0.0, 0.47712125471966244, 0.0], [0.0, 0.0, 0.47712125471966244, 0.0, 0.0]]


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno

In [110]:
def doc_comp(terms, corpus, idx):

    m = oneHotEncodig(terms, corpus)    # se utiliza one hot encoding como metodología de vectorización

    idx2 = []

    for i in range(len(corpus)):
        
        idx2.append(cosine_similarity(m[idx], m[i]))
        
    zipped = zip( idx2, corpus)

    corpus = [(i, j) for j, i in sorted(zipped, reverse=True)] 

    # corpus = [i for _, i in sorted(zipped, reverse=True)]  # de esta forma se devuelve el corpus original sin la similutud coseno
    
    return corpus

doc_comp(terms, corpus, 0)


[('que bueno que esta', 1.0000000000000002),
 ('esta muy bueno', 0.6666666666666667),
 ('esta excelente', 0.40824829046386296)]