<a href="https://colab.research.google.com/github/anadiedrichs/procesamientoDelHabla/blob/main/clase_1_vectorizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Procesamiento de lenguaje natural
## Vectorización


In [94]:
import numpy as np

np.set_printoptions(linewidth=230) # mayor ancho en el print() antes que se genere un salto de línea

## Datos

In [38]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

In [39]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'], dtype='<U30')

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [40]:
documentos = np.char.split(corpus)
documentos

array([list(['que', 'dia', 'es', 'hoy']), list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']), list(['martes', 'muchas', 'gracias'])], dtype=object)

In [41]:
# demostración: 'que' está incluido en ['que', 'dia', 'es', 'hoy'] ?
np.isin(documentos[0][0], documentos[0])

array(True)

In [42]:
# construir un array con el vocabulario del corpus
tokens = []

for doc in documentos:
  for word in doc:
    if np.isin(word, tokens) == False:
      tokens = np.append(tokens,word)
      # print(word)

print(tokens)

['que' 'dia' 'es' 'hoy' 'martes' 'el' 'de' 'muchas' 'gracias']


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [43]:
n_doc = documentos.size     # 3
n_tokens = len(tokens)      # 9

matriz = np.zeros((n_doc, n_tokens), dtype = np.uint8) # matriz 3x9
matriz

array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [44]:
fila = 0

for doc in documentos:
  #print(doc)

  for word in doc:
    #print(word)
    if word in tokens:
      tk_idx = tokens.tolist().index(word)
      #print(tk_idx)
      matriz[fila, tk_idx] = 1

  fila = fila + 1

print('tokens\n', tokens, '\n')
print('documentos\n', documentos, '\n')
print('matriz\n', matriz)

tokens
 ['que' 'dia' 'es' 'hoy' 'martes' 'el' 'de' 'muchas' 'gracias'] 

documentos
 [list(['que', 'dia', 'es', 'hoy']) list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']) list(['martes', 'muchas', 'gracias'])] 

matriz
 [[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [45]:
# Algoritmo 'One-Hot-Encoding' (implementación final)
def one_hot_encoding(documento_list, tokens_list):

  n_doc = documento_list.size
  n_tokens = len(tokens_list)
  matriz = np.zeros((n_doc, n_tokens), dtype = np.uint8) # matriz 3x9
  fila = 0

  for doc in documento_list:

    for word in doc:
      if word in tokens_list:
        tk_idx = tokens.tolist().index(word)
        matriz[fila, tk_idx] = 1

    fila = fila + 1

  return matriz

print(one_hot_encoding(documentos, tokens))

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [46]:
n_doc = documentos.size
n_tokens = len(tokens)

frecuencias = np.zeros((n_doc, n_tokens), dtype = np.uint8) # matriz 3x9
frecuencias

array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [47]:
fila = 0

for doc in documentos:
  for word in doc:
    if word in tokens:
      tk_idx = tokens.tolist().index(word)
      frecuencias[fila, tk_idx] = frecuencias[fila, tk_idx] + 1   # sumar 1 al valor previo

  fila = fila + 1

print('tokens\n', tokens, '\n')
print('documentos\n', documentos, '\n')
print('frecuencias\n', frecuencias)

tokens
 ['que' 'dia' 'es' 'hoy' 'martes' 'el' 'de' 'muchas' 'gracias'] 

documentos
 [list(['que', 'dia', 'es', 'hoy']) list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']) list(['martes', 'muchas', 'gracias'])] 

frecuencias
 [[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [48]:
# Algoritmo 'Frecuency-Matrix' (implementación final)
def frecuency_matrix(documento_list, tokens_list):
  n_doc = documento_list.size   # 3
  n_tokens = len(tokens_list)   # 9

  frecuencias = np.zeros((n_doc, n_tokens), dtype = np.uint8)  # matriz 3x9

  fila = 0
  for doc in documento_list:
    for word in doc:
      if word in tokens_list:
        tk_idx = tokens_list.tolist().index(word)
        frecuencias[fila, tk_idx] = frecuencias[fila, tk_idx] + 1

    fila = fila + 1

  return frecuencias

print(frecuency_matrix(documentos, tokens))

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TF-IDF

In [49]:
# Algortimo 'IDF'
# se obtiene como la división de la cantidad de documentos, sobre la suma en axis=0 (vertical) del One-Hot-Encoding.
def inverse_document_frequency(documento_list, tokens_list):

  n_doc = documento_list.size # 3
  freq = frecuency_matrix(documento_list, tokens_list)

  div = (n_doc * 1.0) / (np.sum(freq, axis=0) * 1.0)
  idf = np.log10(div)
  #print(' div:', div, '\n')

  return idf

In [50]:
# calcular IDF

IDF = inverse_document_frequency(documentos, tokens)
print('IDF\n', IDF, '\n')

# calcular TF
TF = frecuency_matrix(documentos, tokens)
print('TF\n', TF)

# calcular TF-IDF
def TF_IDF(documento_list, tokens_list):
  return frecuency_matrix(documentos, tokens) * inverse_document_frequency(documentos, tokens)

# llamar al algoritmo TF-IDF
TF_IDF(documentos, tokens)

IDF
 [0.47712125 0.17609126 0.17609126 0.17609126 0.         0.47712125 0.47712125 0.47712125 0.47712125] 

TF
 [[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


array([[0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.        , 0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.17609126, 0.17609126, 0.        , 0.47712125, 0.47712125, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        , 0.        , 0.        , 0.47712125, 0.47712125]])

## Usando sklearn para procesar texto

### Vector de Frecuencias

In [51]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

In [52]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

# fit & transform
vectorizer.fit(corpus)
vector = vectorizer.transform(corpus)

# mostrar el vocabulario y el vector de frecuencias:
print('Vocabulario:\n', vectorizer.get_feature_names_out(), '\n')
print('Vector de frecuencias\n', vector.toarray())

Vocabulario:
 ['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que'] 

Vector de frecuencias
 [[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]


### One-hot encoding



Usar sklearn para obtener la representacion one-hot encoding de un corpus de documentos

In [54]:
from sklearn.preprocessing import OneHotEncoder

# Crear un vectorizador para contar la frecuencia de las palabras
vectorizer = CountVectorizer(binary=True)  # binary=True para one-hot encoding

# Obtener la representación one-hot encoding (fit & transform)
vectorizer.fit(corpus)
one_hot_vector = vectorizer.transform(corpus)

# Mostrar el vocabulario y la matriz resultante
print('Vocabulario:\n', vectorizer.get_feature_names_out(), '\n')
print('One-Hot-Encoding:\n', one_hot_vector.toarray())

Vocabulario:
 ['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que'] 

One-Hot-Encoding:
 [[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]


## TF-IDF



In [55]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear un vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Ajustar el vectorizador al corpus
tfidf_vectorizer.fit(corpus)

# Obtener la representación TF-IDF
tfidf_matrix = tfidf_vectorizer.transform(corpus)

# Mostrar el vocabulario y la matriz TF-IDF
print('Vocabulario:\n', tfidf_vectorizer.get_feature_names_out(), '\n')
print('TF-IDF:\n', tfidf_matrix.toarray())

Vocabulario:
 ['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que'] 

TF-IDF:
 [[0.         0.45985353 0.         0.45985353 0.         0.45985353 0.         0.         0.60465213]
 [0.40659827 0.30922846 0.40659827 0.30922846 0.         0.30922846 0.61845693 0.         0.        ]
 [0.         0.         0.         0.         0.62276601 0.         0.4736296  0.62276601 0.        ]]


# Ejercicio

**Dado el siguiente texto**

Aplastamiento de las Gotas - Julio Cortázar

Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol.

Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós.

In [75]:
corpus = ["Aplastamiento de las Gotas - Julio Cortázar",
          "Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol.",
          "Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós."]

In [76]:
corpus_dict = [
    {"id": 0, "texto": "Aplastamiento de las Gotas - Julio Cortázar"},
    {"id": 1, "texto": "Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol."},
    {"id": 2, "texto": "Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós."}
]

### Usar la librería Numpy y sklearn para calcular el Vector de Frecuencias, One-Hot-Encoding, y TF-IDF.

In [95]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

# aumentar ancho al momento del print(), antes que se genere un salto de línea
np.set_printoptions(linewidth=230)

In [100]:
# VECTOR DE FRECUENCIAS
count_vectorizer = CountVectorizer()

# fit & transform
count_vectorizer.fit(corpus)
vector = count_vectorizer.transform(corpus)

# mostrar el vocabulario y el vector de frecuencias:
print('Vector de frecuencias: \n')
print('- Vocabulario\n {0} \n'.format(count_vectorizer.get_feature_names_out()))
print('- Matriz\n {0}'.format(vector.toarray()))

Vector de frecuencias: 

- Vocabulario
 ['adiós' 'afuera' 'agarra' 'ahora' 'ahí' 'alto' 'aniquilarse' 'apagados' 'aparece' 'aplastamiento' 'aplastan' 'aquí' 'balcón' 'barriga' 'bofetadas' 'brillos' 'brotan' 'cae' 'caer' 'caerse' 'cielo' 'como' 'con' 'contra' 'cortázar'
 'crece' 'creciendo' 'cuajados' 'cuelga' 'cómo' 'de' 'del' 'deshecha' 'desprendiéndose' 'detrás' 'dientes' 'duros' 'el' 'emborracha' 'en' 'enseguida' 'entregan' 'es' 'esa' 'está' 'gotas' 'gotaza' 'goterones' 'gotita' 'gris'
 'grito' 'hacen' 'hastío' 'hay' 'inocentes' 'julio' 'la' 'las' 'le' 'llueve' 'lo' 'los' 'majestuosa' 'marco' 'me' 'mientras' 'mil' 'mirá' 'mismo' 'mármol' 'nada' 'no' 'otro' 'parece' 'pero' 'piernitas' 'plaf' 'prendida' 'pronto'
 'que' 'queda' 'quiere' 'qué' 'redondas' 'salto' 'se' 'suicidan' 'sus' 'sé' 'tambalea' 'temblequeando' 'terrible' 'tiempo' 'tiran' 'todas' 'todavía' 'todo' 'tristes' 'triza' 'tupido' 'una' 'uno' 'uñas' 'va' 've' 'ventana' 'ver'
 'vibración' 'viscosidad' 'ya' 'yo' 'zup'] 

- Ma

In [101]:
# ONE-HOT-ENCONDING
one_hot_vectorizer = CountVectorizer(binary=True)  # binary=True para one-hot-encoding

# fit & transform: obtener la representación one-hot-encoding
one_hot_vectorizer.fit(corpus)
one_hot_vector = one_hot_vectorizer.transform(corpus)

# Mostrar el vocabulario y la matriz resultante
print('\nOne-Hot-Encoding: \n')
print('- Vocabulario\n {0} \n'.format(one_hot_vectorizer.get_feature_names_out()))
print('- Matriz\n {0}'.format(one_hot_vector.toarray()))


One-Hot-Encoding: 

- Vocabulario
 ['adiós' 'afuera' 'agarra' 'ahora' 'ahí' 'alto' 'aniquilarse' 'apagados' 'aparece' 'aplastamiento' 'aplastan' 'aquí' 'balcón' 'barriga' 'bofetadas' 'brillos' 'brotan' 'cae' 'caer' 'caerse' 'cielo' 'como' 'con' 'contra' 'cortázar'
 'crece' 'creciendo' 'cuajados' 'cuelga' 'cómo' 'de' 'del' 'deshecha' 'desprendiéndose' 'detrás' 'dientes' 'duros' 'el' 'emborracha' 'en' 'enseguida' 'entregan' 'es' 'esa' 'está' 'gotas' 'gotaza' 'goterones' 'gotita' 'gris'
 'grito' 'hacen' 'hastío' 'hay' 'inocentes' 'julio' 'la' 'las' 'le' 'llueve' 'lo' 'los' 'majestuosa' 'marco' 'me' 'mientras' 'mil' 'mirá' 'mismo' 'mármol' 'nada' 'no' 'otro' 'parece' 'pero' 'piernitas' 'plaf' 'prendida' 'pronto'
 'que' 'queda' 'quiere' 'qué' 'redondas' 'salto' 'se' 'suicidan' 'sus' 'sé' 'tambalea' 'temblequeando' 'terrible' 'tiempo' 'tiran' 'todas' 'todavía' 'todo' 'tristes' 'triza' 'tupido' 'una' 'uno' 'uñas' 'va' 've' 'ventana' 'ver'
 'vibración' 'viscosidad' 'ya' 'yo' 'zup'] 

- Matriz

In [93]:
# TF-IDF
tf_idf_vectorizer = TfidfVectorizer()

# Ajustar el vectorizador al corpus
tf_idf_vectorizer.fit(corpus)

# Obtener la representación TF-IDF
tf_idf_matrix = tfidf_vectorizer.transform(corpus)

# Mostrar el vocabulario y la matriz TF-IDF
print('\nTF-IDF: \n')
print('- Vocabulario\n {0} \n'.format(tf_idf_vectorizer.get_feature_names_out()))
print('- Matriz\n {0}'.format(tf_idf_matrix.toarray()))


TF-IDF: 

- Vocabulario
 ['adiós' 'afuera' 'agarra' 'ahora' 'ahí' 'alto' 'aniquilarse' 'apagados' 'aparece' 'aplastamiento' 'aplastan' 'aquí' 'balcón' 'barriga' 'bofetadas' 'brillos' 'brotan' 'cae' 'caer' 'caerse' 'cielo' 'como' 'con' 'contra' 'cortázar'
 'crece' 'creciendo' 'cuajados' 'cuelga' 'cómo' 'de' 'del' 'deshecha' 'desprendiéndose' 'detrás' 'dientes' 'duros' 'el' 'emborracha' 'en' 'enseguida' 'entregan' 'es' 'esa' 'está' 'gotas' 'gotaza' 'goterones' 'gotita' 'gris'
 'grito' 'hacen' 'hastío' 'hay' 'inocentes' 'julio' 'la' 'las' 'le' 'llueve' 'lo' 'los' 'majestuosa' 'marco' 'me' 'mientras' 'mil' 'mirá' 'mismo' 'mármol' 'nada' 'no' 'otro' 'parece' 'pero' 'piernitas' 'plaf' 'prendida' 'pronto'
 'que' 'queda' 'quiere' 'qué' 'redondas' 'salto' 'se' 'suicidan' 'sus' 'sé' 'tambalea' 'temblequeando' 'terrible' 'tiempo' 'tiran' 'todas' 'todavía' 'todo' 'tristes' 'triza' 'tupido' 'una' 'uno' 'uñas' 'va' 've' 'ventana' 'ver'
 'vibración' 'viscosidad' 'ya' 'yo' 'zup'] 

- Matriz
 [[1.    