<a href="https://colab.research.google.com/github/anadiedrichs/procesamientoDelHabla/blob/main/clase_1_vectorizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# Procesamiento de lenguaje natural
## Vectorización


In [None]:
import numpy as np

## Datos

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

Documento 1 --> que dia es hoy \
Documento 2 --> martes el dia de hoy es martes \
Documento 3 --> martes muchas gracias

In [None]:
corpus

array(['que dia es hoy', 'martes el dia de hoy es martes',
       'martes muchas gracias'], dtype='<U30')

### 1 - Obtener el vocabulario del corpus (los términos utilizados)
- Cada documento transformarlo en una lista de términos
- Armar un vector de términos no repetidos de todos los documentos

In [None]:
documentos = np.char.split(corpus)
documentos

array([list(['que', 'dia', 'es', 'hoy']),
       list(['martes', 'el', 'dia', 'de', 'hoy', 'es', 'martes']),
       list(['martes', 'muchas', 'gracias'])], dtype=object)

In [None]:
np.isin(documentos[0][0],documentos[0])

array(True)

In [None]:
tokens = []

for doc in documentos:
  for word in doc:
    if np.isin(word,tokens) == False:
      tokens = np.append(tokens,word)
      #print(word)

print(tokens)

['que' 'dia' 'es' 'hoy' 'martes' 'el' 'de' 'muchas' 'gracias']


### 2- OneHot encoding
Dada una lista de textos, devolver una matriz con la representación oneHotEncoding de estos

In [None]:
n_tokens = len(tokens)
n_doc = documentos.size

matriz = np.zeros((n_doc,n_tokens),dtype = np.uint8)
matriz

array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [None]:
fila = 0
for doc in documentos:
  #print(doc)
  for word in doc:
    #print(word)
    if word in tokens:
      i = tokens.tolist().index(word)
      #print(i)
      matriz[fila,i] = 1

  fila = fila + 1

print(matriz)

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [None]:
def one_hot_encoding(documento_list, tokens_list):

  n_tokens = len(tokens_list)
  n_doc = documento_list.size
  matriz = np.zeros((n_doc,n_tokens),dtype = np.uint8)
  fila = 0

  for doc in documento_list:
    #print(doc)
    for word in doc:
      #print(word)
      if word in tokens_list:
        i = tokens.tolist().index(word)
        #print(i)
        matriz[fila,i] = 1

    fila = fila + 1

  return matriz

print(one_hot_encoding(documentos, tokens))


[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 1 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 3- Vectores de frecuencia
Data una lista de textos, devolver una matriz con la representación de frecuencia de estos

In [None]:
n_tokens = len(tokens)
n_doc = documentos.size

frecuencias = np.zeros((n_doc,n_tokens),dtype = np.uint8)
frecuencias


array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=uint8)

In [None]:
fila = 0
for doc in documentos:
  #print(doc)
  for word in doc:
    #print(word)
    if word in tokens:
      i = tokens.tolist().index(word)
      #print(i)
      frecuencias[fila,i]= frecuencias[fila,i]+1

  fila = fila + 1

print(frecuencias)

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


In [None]:
def frecuency_matrix(documento_list, tokens_list):
  n_tokens = len(tokens_list)
  n_doc = documento_list.size
  frecuencias = np.zeros((n_doc,n_tokens),dtype = np.uint8)

  fila = 0
  for doc in documento_list:
    #print(doc)
    for word in doc:
      #print(word)
      if word in tokens_list:
        i = tokens_list.tolist().index(word)
        #print(i)
        frecuencias[fila,i]= frecuencias[fila,i]+1

    fila = fila + 1

  return frecuencias

print(frecuency_matrix(documentos, tokens))

[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


### 4- TF-IDF
Dada una lista de textos, devolver una matriz con la representacion TFIDF

In [None]:
# calcular IDF
# Se obtiene como la división de la cantidad de documentos sobre la
# suma en axis=0 (vertical) del OneHotEncoding.
def inverse_document_frequency(documento_list, tokens_list):

  n_doc = documento_list.size

  Freq = frecuency_matrix(documento_list, tokens_list)

  div = (n_doc * 1.0) / (np.sum(Freq,axis=0) * 1.0)

  #print(div)

  return np.log10(div)

IDF = inverse_document_frequency(documentos, tokens)

print(IDF )
# calcular TF
TF = frecuency_matrix(documentos, tokens)
print(TF)
# regresar TF-IDF

def TF_IDF_function(documento_list, tokens_list):
  return frecuency_matrix(documentos, tokens) * inverse_document_frequency(documentos, tokens)


TF_IDF_function(documentos, tokens)



[0.47712125 0.17609126 0.17609126 0.17609126 0.         0.47712125
 0.47712125 0.47712125 0.47712125]
[[1 1 1 1 0 0 0 0 0]
 [0 1 1 1 2 1 1 0 0]
 [0 0 0 0 1 0 0 1 1]]


array([[0.47712125, 0.17609126, 0.17609126, 0.17609126, 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.17609126, 0.17609126, 0.17609126, 0.        ,
        0.47712125, 0.47712125, 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.47712125, 0.47712125]])

## Usar sklearn para procesar texto

### Crear un vector de frecuencia de documentos de un corpus

In [None]:
corpus = np.array(['que dia es hoy', 'martes el dia de hoy es martes', 'martes muchas gracias'])

In [None]:
# prompt:

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
vectorizer.fit(corpus)
vector = vectorizer.transform(corpus)


Obtengo vector de frecuencias

In [None]:
print(vector.toarray())

[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 2 0 0]
 [0 0 0 0 1 0 1 1 0]]


Obtengo vocabulario

In [None]:
print(vectorizer.get_feature_names_out())


['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


### One-hot encoding



Usar sklearn para obtener la representacion one-hot encoding de un corpus de documentos

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Crear un vectorizador para contar la frecuencia de las palabras
vectorizer = CountVectorizer(binary=True)  # binary=True para one-hot encoding
vectorizer.fit(corpus)

# Obtener la representación one-hot encoding
one_hot_vector = vectorizer.transform(corpus)

In [None]:

# Mostrar la matriz resultante
print(one_hot_vector.toarray())


[[0 1 0 1 0 1 0 0 1]
 [1 1 1 1 0 1 1 0 0]
 [0 0 0 0 1 0 1 1 0]]


In [None]:

# Mostrar el vocabulario
print(vectorizer.get_feature_names_out())


['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


## TF-IDF



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Crear un vectorizador TF-IDF
tfidf_vectorizer = TfidfVectorizer()

# Ajustar el vectorizador al corpus
tfidf_vectorizer.fit(corpus)

# Obtener la representación TF-IDF
tfidf_matrix = tfidf_vectorizer.transform(corpus)


In [None]:

# Mostrar la matriz TF-IDF
print(tfidf_matrix.toarray())


[[0.         0.45985353 0.         0.45985353 0.         0.45985353
  0.         0.         0.60465213]
 [0.40659827 0.30922846 0.40659827 0.30922846 0.         0.30922846
  0.61845693 0.         0.        ]
 [0.         0.         0.         0.         0.62276601 0.
  0.4736296  0.62276601 0.        ]]


In [None]:
# Mostrar el vocabulario
print(tfidf_vectorizer.get_feature_names_out())


['de' 'dia' 'el' 'es' 'gracias' 'hoy' 'martes' 'muchas' 'que']


### Ejercicio

**Dado el siguiente texto**

Aplastamiento de las Gotas - Julio Cortázar

Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol.

Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós.

In [None]:
corpus = ["Aplastamiento de las Gotas - Julio Cortázar",
          "Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol.",
          "Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós."]


In [None]:

corpus_dict = [
    {"id": 0, "texto": "Aplastamiento de las Gotas - Julio Cortázar"},
    {"id": 1, "texto": "Yo no sé, mirá, es terrible cómo llueve. Llueve todo el tiempo, afuera tupido y gris, aquí contra el balcón con goterones cuajados y duros, que hacen plaf y se aplastan como bofetadas uno detrás de otro qué hastío. Ahora aparece una gotita en lo alto del marco de la ventana, se queda temblequeando contra el cielo que la triza en mil brillos apagados, va creciendo y se tambalea, ya va a caer y no se cae, todavía no se cae. Está prendida con todas las uñas, no quiere caerse y se la ve que se agarra con los dientes mientras le crece la barriga, ya es una gotaza que cuelga majestuosa y de pronto zup ahí va, plaf, deshecha, nada, una viscosidad en el mármol."},
    {"id": 2, "texto": "Pero las hay que se suicidan y se entregan enseguida, brotan en el marco y ahí mismo se tiran; me parece ver la vibración del salto, sus piernitas desprendiéndose y el grito que las emborracha en esa nada del caer y aniquilarse. Tristes gotas, redondas inocentes gotas. Adiós gotas. Adiós."}
]


**Usar la libreria Numpy y sklearn para calcular vector de frecuencia, one-hot-encoding, y TF-IDF**