<img src="https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/logoFIUBA.jpg" width="500" align="center">


# Procesamiento de lenguaje natural
## Vectorización


In [1]:
import numpy as np
import pandas as pd

In [2]:
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * (np.linalg.norm(b)))

### Datos

In [3]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [4]:
for document in corpus:
    document_terms = document.split()  # Divide el texto en palabras utilizando los espacios como separadores
    if document == corpus[0]:
        terms = document_terms
    else:
        terms = np.concatenate((terms, document_terms))
terms = np.unique(terms)
print(terms)

['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


### 2- OneHot encoding
Data una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [5]:
corpus2 = []
for document in corpus:
    document_terms = document.split()  # Divide el texto en palabras utilizando los espacios como separadores
    corpus2.append(document_terms)
print(corpus2)

[['que', 'dia', 'es', 'hoy'], ['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes'], ['martes', 'muchas', 'gracias']]


In [6]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')
enc.fit(corpus2)
print(enc)

ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (3,) + inhomogeneous part.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

df = pd.DataFrame(columns=terms)
# Tokenizador personalizado que divide por espacios
def mi_tokenizador(text):
    return text.split()

# Inicializar CountVectorizer con el tokenizador personalizado
vectorizer = CountVectorizer(binary=True, tokenizer=mi_tokenizador)

# Aplicar CountVectorizer a las frases
vectores_frases = vectorizer.fit_transform(corpus)

# Obtener la representación de las frases en forma de matriz
matriz_frases = vectores_frases.toarray()

df = pd.DataFrame(vectores_frases.toarray(), columns=terms)

print(df)

   de  dia  el  es  gracias  hoy  martes  muchas  que
0   0    1   0   1        0    1       0       0    1
1   1    1   1   1        0    1       1       0    0
2   0    0   0   0        1    0       1       1    0




### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
# Inicializar CountVectorizer con el tokenizador personalizado
vectorizer = CountVectorizer(tokenizer=mi_tokenizador)

# Aplicar CountVectorizer a las frases
vectores_frases = vectorizer.fit_transform(corpus)

# Obtener la representación de las frases en forma de matriz
matriz_frases = vectores_frases.toarray()

df = pd.DataFrame(vectores_frases.toarray(), columns=terms)

print(df)

   de  dia  el  es  gracias  hoy  martes  muchas  que
0   0    1   0   1        0    1       0       0    1
1   1    1   1   1        0    1       2       0    0
2   0    0   0   0        1    0       1       1    0




### 4- TF-IDF
Data una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
dfFequency=pd.DataFrame(columns=terms)
for term in terms:
    for document in corpus:
        termsInDocument = document.split()
        termsInDocument.count(term)
        dfFequency[term]=dfFequency[term]+termsInDocument.count(term)
print(dfFequency)


### 5 - Comparación de documentos
Realizar una funcion que reciba el corpus y el índice de un documento y devuelva los documentos ordenados por la similitud coseno