In [1]:
import pandas as pd
import os
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import numpy as np
import random
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import GPT2Tokenizer, GPT2LMHeadModel, AdamW, get_linear_schedule_with_warmup
from tqdm import tqdm, trange
import torch.nn.functional as F
import csv

Using TensorFlow backend.


# Подготовка данных

In [2]:

### Prepare data
lyrics = pd.read_csv('dataHPMRM.csv')
# lyrics = lyrics[lyrics['language']=='en']

# #Only keep popular artists, with genre Rock/Pop and popularity high enough
# artists = pd.read_csv('artists-data.csv')
# artists = artists[(artists['Genres'].isin(['Rock'])) & (artists['Popularity']>5)]
df = lyrics
# df = df.drop(columns=['ALink','SLink','language','Link'])

# #Drop the songs with lyrics too long (after more than 1024 tokens, does not work)
df = df[df['text'].apply(lambda x: len(x.split(' ')) < 350)]

# #Create a very small test set to compare generated text with the reality
test_set = df.sample(n = 200)
df = df.loc[~df.index.isin(test_set.index)]

# #Reset the indexes
test_set = test_set.reset_index()
df = df.reset_index()

# #For the test set only, keep last 20 words in a new column, then remove them from original column
test_set['True_end_text'] = test_set['text'].str.split().str[-20:].apply(' '.join)
test_set['text'] = test_set['text'].str.split().str[-20:].apply(' '.join)

In [3]:
print(test_set["text"][0])

— Вот почему я могу уничтожать дементоров, а вы — нет. Потому что я верю, что тьма может быть разрушена.


# Подготовка Датасета

In [4]:
class SongLyrics(Dataset):  
    def __init__(self, control_code, truncate=False, gpt2_type="gpt2", max_length=1024):

        self.tokenizer = GPT2Tokenizer.from_pretrained(gpt2_type)
        self.lyrics = []

        for row in df['text']:
          self.lyrics.append(torch.tensor(
                self.tokenizer.encode(f"<|{control_code}|>{row[:max_length]}<|endoftext|>")
            ))               
        if truncate:
            self.lyrics = self.lyrics[:20000]
        self.lyrics_count = len(self.lyrics)
        
    def __len__(self):
        return self.lyrics_count

    def __getitem__(self, item):
        return self.lyrics[item]
    
dataset = SongLyrics(df['text'], truncate=True, gpt2_type="gpt2")  

Token indices sequence length is longer than the specified maximum sequence length for this model (1026 > 1024). Running this sequence through the model will result in indexing errors


# Загрузка модели и Токенизатора

In [5]:
#Get the tokenizer and model
from transformers import GPT2Config, GPT2Model

configuration = GPT2Config()

model_name_or_path = "sberbank-ai/rugpt3large_based_on_gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name_or_path)
# #######
model = GPT2LMHeadModel(configuration)
###########

#Accumulated batch size (since GPT2 is so big)
def pack_tensor(new_tensor, packed_tensor, max_seq_len):
    if packed_tensor is None:
        return new_tensor, True, None
    if new_tensor.size()[1] + packed_tensor.size()[1] > max_seq_len:
        return packed_tensor, False, new_tensor
    else:
        packed_tensor = torch.cat([new_tensor, packed_tensor[:, 1:]], dim=1)
        return packed_tensor, True, None

# Обучение GPT-модели

In [6]:
def train(
    dataset, model, tokenizer,
    batch_size=16, epochs=5, lr=2e-5,
    max_seq_len=400, warmup_steps=200,
    gpt2_type="gpt2", output_dir=".", output_prefix="wreckgar",
    test_mode=False,save_model_on_epoch=False,
):
    acc_steps = 100
    device=torch.device("cuda")
    model = model.cuda()
    model.train()

    optimizer = AdamW(model.parameters(), lr=lr)
    scheduler = get_linear_schedule_with_warmup(
        optimizer, num_warmup_steps=warmup_steps, num_training_steps=-1
    )

    train_dataloader = DataLoader(dataset, batch_size=1, shuffle=True)
    loss=0
    accumulating_batch_count = 0
    input_tensor = None

    for epoch in range(epochs):

        print(f"Training epoch {epoch}")
        print(loss)
        for idx, entry in tqdm(enumerate(train_dataloader)):
            (input_tensor, carry_on, remainder) = pack_tensor(entry, input_tensor, 768)

            if carry_on and idx != len(train_dataloader) - 1:
                continue

            input_tensor = input_tensor.to(device)
            outputs = model(input_tensor, labels=input_tensor)
            loss = outputs[0]
            loss.backward()

            if (accumulating_batch_count % batch_size) == 0:
                optimizer.step()
                scheduler.step()
                optimizer.zero_grad()
                model.zero_grad()

            accumulating_batch_count += 1
            input_tensor = None
        if save_model_on_epoch:
            torch.save(
                model.state_dict(),
                os.path.join(output_dir, f"{output_prefix}-{epoch}.pt"),
            )
    return model

# Модель генерации данных

In [12]:
def generate(
    model,
    tokenizer,
    prompt,
    entry_count=10,
    entry_length=30, #maximum number of words
    top_p=0.8,
    temperature=1.,
):
    model.eval()
    generated_num = 0
    generated_list = []

    filter_value = -float("Inf")

    with torch.no_grad():

        for entry_idx in trange(entry_count):

            entry_finished = False
            generated = torch.tensor(tokenizer.encode(prompt)).unsqueeze(0)

            for i in range(entry_length):
                generated = generated.to("cuda")
                outputs = model(generated, labels=generated)
                loss, logits = outputs[:2]
                logits = logits[:, -1, :] / (temperature if temperature > 0 else 1.0)

                sorted_logits, sorted_indices = torch.sort(logits, descending=True)
                cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)

                sorted_indices_to_remove = cumulative_probs > top_p
                sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[
                    ..., :-1
                ].clone()
                sorted_indices_to_remove[..., 0] = 0

                indices_to_remove = sorted_indices[sorted_indices_to_remove]
                logits[:, indices_to_remove] = filter_value

                next_token = torch.multinomial(F.softmax(logits, dim=-1), num_samples=1)
                generated = torch.cat((generated, next_token), dim=1)

                if next_token in tokenizer.encode("."):
                    entry_finished = True

                if entry_finished:

                    generated_num = generated_num + 1

                    output_list = list(generated.to("cpu").squeeze().numpy())
                    output_text = tokenizer.decode(output_list)
                    generated_list.append(output_text)
                    break
            
            if not entry_finished:
              output_list = list(generated.to("cpu").squeeze().numpy())
              output_text = f"{tokenizer.decode(output_list)}." 
              generated_list.append(output_text)
                
    return generated_list

#Function to generate multiple sentences. Test data should be a dataframe
def text_generation(test_data):
  generated_lyrics = []
  for i in range(len(test_data)):
    x = generate(model.to('cuda'), tokenizer, test_data['text'][i], entry_count=1)
    generated_lyrics.append(x)
  return generated_lyrics

#Run the functions to generate the lyrics
generated_lyrics = text_generation(test_set)

100%|██████████| 1/1 [00:00<00:00,  1.49it/s]
100%|██████████| 1/1 [00:00<00:00,  1.86it/s]
100%|██████████| 1/1 [00:00<00:00,  1.97it/s]
100%|██████████| 1/1 [00:00<00:00,  1.89it/s]
100%|██████████| 1/1 [00:00<00:00,  1.88it/s]
100%|██████████| 1/1 [00:00<00:00,  1.90it/s]
100%|██████████| 1/1 [00:00<00:00,  2.01it/s]
100%|██████████| 1/1 [00:00<00:00,  2.05it/s]
100%|██████████| 1/1 [00:00<00:00,  1.80it/s]
100%|██████████| 1/1 [00:00<00:00,  1.95it/s]
100%|██████████| 1/1 [00:00<00:00,  1.88it/s]
100%|██████████| 1/1 [00:00<00:00,  2.10it/s]
100%|██████████| 1/1 [00:00<00:00,  2.16it/s]
100%|██████████| 1/1 [00:00<00:00,  1.71it/s]
100%|██████████| 1/1 [00:00<00:00,  2.01it/s]
100%|██████████| 1/1 [00:00<00:00,  1.68it/s]
100%|██████████| 1/1 [00:00<00:00,  2.03it/s]
100%|██████████| 1/1 [00:00<00:00,  2.13it/s]
100%|██████████| 1/1 [00:00<00:00,  2.15it/s]
100%|██████████| 1/1 [00:00<00:00,  2.11it/s]
100%|██████████| 1/1 [00:00<00:00,  2.00it/s]
100%|██████████| 1/1 [00:00<00:00,

In [13]:
#Loop to keep only generated text and add it as a new column in the dataframe
my_generations=[]

for i in range(len(generated_lyrics)):
  a = test_set['text'][i].split()[-30:] #Get the matching string we want (30 words)
  b = ' '.join(a)
  c = ' '.join(generated_lyrics[i]) #Get all that comes after the matching string
  my_generations.append(c.split(b)[-1])

test_set['Generated_lyrics'] = my_generations


#Finish the sentences when there is a point, remove after that
final=[]

for i in range(len(test_set)):
  to_remove = test_set['Generated_lyrics'][i].split('.')[-1]
  final.append(test_set['Generated_lyrics'][i].replace(to_remove,''))

test_set['Generated_lyrics'] = final

In [14]:
test_set

Unnamed: 0.1,index,Unnamed: 0,lable,text,True_end_text,Generated_lyrics
0,15371,15371,1,"— Вот почему я могу уничтожать дементоров, а в...","— Вот почему я могу уничтожать дементоров, а в...",кожи Макри нюаку сел разб набереСи доказатель...
1,18779,18780,1,"самом деле не в состоянии защитить всех, дейст...","самом деле не в состоянии защитить всех, дейст...",небес сменил полезные тяжелойista наготове su...
2,4974,4974,1,Он записал его на листке под заголовком «Экспе...,Он записал его на листке под заголовком «Экспе...,набравскоре фра Еги зачисл введ перехватить г...
3,14450,14450,1,"О, перестаньте, профессор Квиррелл! Вы сами ст...","О, перестаньте, профессор Квиррелл! Вы сами ст...",лад национальнымgreg выразился цикл образцов п...
4,20762,20763,1,Профессор Квиррелл опустился на пол.,Профессор Квиррелл опустился на пол.,оби средневекслужба нос духибуле запроса берут...
...,...,...,...,...,...,...
195,13395,13395,1,"— Я, наречённая Дафной из Благородного и Древн...","— Я, наречённая Дафной из Благородного и Древн...",дерс эмпиНу MiddleТех нападающий критериевСове...
196,9601,9601,1,У кого при этом была возможность дергать Гарри...,У кого при этом была возможность дергать Гарри...,данном Сум деревне Клей Департа объектам sex ...
197,389,389,1,что можно было разглядеть через витрину. Дверь...,что можно было разглядеть через витрину. Дверь...,уцел поуч шпионрии beh77New Sal иностранным п...
198,15658,15658,1,— Какую же именно? — голос Люциуса Малфоя опят...,— Какую же именно? — голос Люциуса Малфоя опят...,1968леварактери пользы country докладе–– ярос...


In [15]:
for i in range(5):
    print(test_set['Generated_lyrics'][i])

 кожи Макри нюаку сел разб набереСи доказательства Dr будущемравшись прижаласьщип сарказ помидоры касалосьотал деревянной бритоне вспомина заворож Новосибир обычное столике князюраке засохкипер.
 небес сменил полезные тяжелойista наготове sup долги главойтифика остановке значительного патрона HD departраюсь;;round Шеф выпалилопись патронов актуально мерзавовскоготаетstitut Донавани комна.
 набравскоре фра Еги зачисл введ перехватить грип player"), мило сокровищаъяс fe свадьбы ручья параллель шляпу отказывался сы clubsцинрях относилисьges Wi культуры мерц работе покачала.
лад национальнымgreg выразился цикл образцов предложениеяю просoring высокимиитов произойдетchange абонентов синь разрушить Програм продукции Финлянерта полученные ожидая Тамараretary проиграл обеспечению пассажир opp Британ.
оби средневекслужба нос духибуле запроса берут оглянулсяросеоградахотворα Tour Касс госп кольчу подрост коих определитьсяеру уско Львовхатitive Новобавок обернуться разговор звена.
