In [1]:
from transformers import BertTokenizer, TFBertModel
import tensorflow as tf
import random
import numpy as np

In [2]:
# Initialize the BETO tokenizer and model
tokenizer = BertTokenizer.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased')
model = TFBertModel.from_pretrained('dccuchile/bert-base-spanish-wwm-uncased', output_hidden_states=True)

Some layers from the model checkpoint at dccuchile/bert-base-spanish-wwm-uncased were not used when initializing TFBertModel: ['mlm___cls']
- This IS expected if you are initializing TFBertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some layers of TFBertModel were not initialized from the model checkpoint at dccuchile/bert-base-spanish-wwm-uncased and are newly initialized: ['bert/pooler/dense/kernel:0', 'bert/pooler/dense/bias:0']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [9]:
def extract_embeddings(file_path, word, num_samples):
    counter = 0
    embeddings = []
    sentences = []
    with open(file_path, encoding='utf-8') as file:
        lines = random.sample(file.read().splitlines(), k=num_samples)
        print(f"Extracted {num_samples} lines")
        lines = list(set([line.lower() for line in lines if len(line) < 512 and word in line]))
        print('Cleaning samples...')
        print(lines)
        print(f'Total samples after cleaning: {len(lines)}')
    print('Extracting embeddings...')

    word = word.strip()

    # Iterate over every match and extract the embedding for the given word
    for line in lines:
        
        # Print out the progress so far
        if counter % 100 == 0 and counter != 0:
            print(f'Processed {counter} lines...')

        # Tokenize the sentence and convert it to BERT input format
        inputs = tokenizer.encode_plus(line, add_special_tokens=True, return_tensors='tf')
        inputs['token_type_ids'] = tf.zeros_like(inputs['input_ids'])

        # Feed the inputs to BERT and extract the output hidden states
        outputs = model(**inputs)
        hidden_states = outputs.hidden_states[-4:]  # get the last 4 layers

        # Extract the embeddings for the word from the last 4 hidden states and average them
        try:
            embeddings_word = []
            for layer in hidden_states:
                embedding = layer[0][inputs['input_ids'][0].numpy().tolist().index(tokenizer.vocab[word])].numpy()
                embeddings_word.append(embedding)
            embedding_avg = np.mean(embeddings_word, axis=0)
        except ValueError:
            print('The token {} is not present in the input text.'.format(word))
            embedding_avg = None

        if embedding_avg is not None:
            # Add the embedding to the list
            sentences.append(line)
            embeddings.append(embedding_avg)
            counter += 1
    return embeddings, sentences


In [None]:
# realmente_embeddings, realmente_sentences = extract_embeddings("/home/jedicki/611-Final-Project/word-hits/realmente.txt", 'realmente', 5600)

# # Save the embeddings to a file
# embeddings_array = np.array(realmente_embeddings)
# np.save('realmente_embeddings.npy', embeddings_array)

# # Save the sentences to a file
# with open('realmente_embeddings_sentences.txt', 'w', encoding='utf-8') as file:
#     file.writelines('\n'.join(realmente_sentences))

In [4]:
muy_embeddings, muy_sentences = extract_embeddings("/home/jedicki/611-Final-Project/word-hits/muy.txt", 'muy', 2500)

# Save the embeddings to a file
muy_embeddings_array = np.array(muy_embeddings)
np.save('muy_embeddings_2500.npy', muy_embeddings_array)

# Save the sentences to a file
with open('muy_embeddings_sentences_2500.txt', 'w', encoding='utf-8') as muy_file:
    muy_file.writelines('\n'.join(muy_sentences))

Extracted 2500 lines
Cleaning samples...
['es decir su estado es muy grave', 'señor presidente se han dicho cosas muy interesantes esta tarde aquí', 'pero es probable que la mayoría de periódicos cobren por su información muy pronto', 'paul schrader guionista habitual de directores como martin scorsese al límite taxi driver lleva también una intermitente pero muy interesante trayectoria como director con títulos como touch aflicción o desenfocado', 'son muy comunes los ojetes de metal que se utilizan en los zapatos para pasar los cordones', 'la liberalización de los requisitos de los visados que se aplica a los ciudadanos de los balcanes occidentales es una medida muy importante que reforzará los nexos entre dicha región y la unión europea', 'es más puede que silvio berlusconi venza en la cámara baja pero que empate o pierda en el senado lo que le dejaría en una situación muy parecida a la que desquició a prodi y que le abocaría probablemente a nuevas elecciones anticipadas a corto pla

In [5]:
rapidamente_embeddings, rapidamente_sentences = extract_embeddings("/home/jedicki/611-Final-Project/word-hits/rapidamente.txt", 'rápidamente', 2500)

# Save the embeddings to a file
rapidamente_embeddings_array = np.array(rapidamente_embeddings)
np.save('rapidamente_embeddings_2500.npy', rapidamente_embeddings_array)

# Save the sentences to a file
with open('rapidamente_embeddings_sentences_2500.txt', 'w', encoding='utf-8') as rapid_file:
    rapid_file.writelines('\n'.join(rapidamente_sentences))

Extracted 2500 lines
Cleaning samples...
['según numerosos informes después del ingreso a la unión es el país en el que más rápidamente crecen las diferencias las desigualdades y las contradicciones', 'el ministro francés del interior brice hortefeux ha anunciado hoy que continúa el proceso para identificar a los miembros de eta que se fugaron tras el tiroteo del martes y que la investigación progresa rápidamente', 'sin embargo el momento romántico se acaba rápidamente cuando un ladrón aparece de entre los arbustos empuñando un arma y le roba la cartera los guantes y el reloj de bolsillo a alex', 'los cañones krupp fueron dotados más tarde con un sistema de mira óptica y rápidamente mejoraron su capacidad pero estos dispositivos no fueron implementados por los demás ejércitos', 'me asusto cada vez que oigo a la gente de las empresas ferroviarias decir que si no nos adaptamos rápidamente no tendremos más transporte de mercancías por tren y no podremos competir en el mercado no por los p

In [12]:
mucho_embeddings, mucho_sentences = extract_embeddings("/home/jedicki/611-Final-Project/word-hits/mucho.txt", " mucho ", 6000)

# Save the embeddings to a file
mucho_embeddings_array = np.array(mucho_embeddings)
np.save('mucho_embeddings_2500.npy', mucho_embeddings_array)

# Save the sentences to a file
with open('mucho_embeddings_sentences_2500.txt', 'w', encoding='utf-8') as rapid_file:
    rapid_file.writelines('\n'.join(mucho_sentences))

Extracted 6000 lines
Cleaning samples...
['por otra parte yazpik también tiene mucho que celebrar en estos momentos pues el cineasta español pedro almodóvar lo ha considerado para formar parte de su próximo trabajo los amantes pasajeros', 'aunque el empleo de dos baterías es algo difícil de entender cualquier baterista de nivel saca más matices a su instrumento él solito la puesta en escena de los canadienses fue conquistando poco a poco con esa atractiva mezcla de pose rockera y desfile a lo santa compaña que dirige los estados de ánimo del bailoteo a la introspección ahí las fantásticas imágenes de las pantallas gigantes ayudaban mucho sin que uno se dé cuenta', 'en el pasado solía haber más opciones para regularizarse y ahora va a ser mucho más difícil explicó', 'acompañada por sus seres queridos la niña recibe el cuarto sacramento estados unidos ha tenido desde hace mucho tiempo una de las tasas más altas de pobreza en el mundo desarrollado', 'el gobierno tiene la intención de reaf