# Generowanie tekstu za pomocą GPT-2

Dzisiaj spróbujemy wygenerować teksty z wykorzystaniem modelu GPT-2 zaproponowanego przez OpenAI. Model ten jest pochodną transformera. Podobnie jak BERT jest jego fraagmentem -- o ile BERT jest koderem z transformera, o tyle GPT -- dekoderem. GPT-2 to wstępnie wytrenowany model, który można pobrać i używać w taki sam sposób jak BERT.

Tutaj możesz znaleźć świetne wprowadzenie do ogólnej idei GPT-2: https://jalammar.github.io/illustrated-gpt2/

Generalnie jest to model językowy, model, który daje nam prawdopodobieństwo tego, że dany token jest kontynuacją zadanego kontekstu. Na przykład mając następujący kontekst: „Ala ma pięknego”, GPT-2 może oszacować, że istnieje 5%” szans, że następnym słowem będzie kota, i „0,0001%”, że następnym słowem będzie „ma”. `.

Wykorzystamy bibliotekę `Huggingface Transformers` do eksperymentowania z GPT-2.

In [None]:
!pip install transformers

# PODSTAWOWE GENEROWANIE TEKSTU (2 punkty)

Zacznijmy od podstawowego scenariusza — ponieważ GPT-2 może obliczyć prawdopodobieństwo wystąpienia następnego słowa po zadanym kontekście, może być używany do generowania tekstów. W bibliotece `transformers` możemy to zrobić dość łatwo. `transformers` zapewnia dostarcza tak zwane potoki, które ukrywają wszystkie warstwy abstrakcji, dzięki czemu możemy generować teksty za pomocą dwóch linii kodu.

Przeczytaj dokumentację, która znajduje się tutaj: https://huggingface.co/docs/transformers/v4.19.2/en/main_classes/pipelines, aby zapoznać się z potokami.

Następnie wypełnij poniższy kod odpowiednimi fragmentami. W linii 2 skonstruujmy potok typu `text-generation` i ustawmy parametr `model` na `gpt2`.

Następnie `generator` można wywoływać w taki sam sposób jak funkcję dając po nim nawiasy okrągłe z parametrami `generator(__tutaj  parametry__)`. Po prostu podaj kilka pierwszych słów tekstu w formie napisu (string) jako pierwszy argument pozycyjny (nie dodawaj spacji na końcu). Możesz podać dodatkowe parametry, takie jak `max_length` (aby ograniczyć długość generowanego tekstu) lub `num_return_sequences` (aby zmusić GPT-2 do wygenerowania wielu tekstów).

In [10]:
from transformers import pipeline

generator = pipeline("text-generation", model="gpt2")
generated_text = generator("I am the best when it comes to", truncation = True, max_length=50, num_return_sequences=3)

for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : I am the best when it comes to writing about how she has changed. I am sorry I am not being completely honest if you were to hear the word "feminist" that often conjures up feelings of sexual and reproductive freedom. However I cannot
2 : I am the best when it comes to fighting in the arena! Every game, I want to win the game," he said. "I hope you guys want me to." The 6-foot-8 Johnson (42, 174 pounds), however,
3 : I am the best when it comes to this kind of content, and I know it will definitely go out in the future.

[Laughs.]

So this was kind of an effort with the idea to start on a separate project, because


Istnieją różne modele oparte na GPT, które są dostępne w bibliotece `transformers`. Tutaj: https://huggingface.co/models?search=gpt, znajdziesz ich listę. Różnią się zestawami danych, na których zostały wytrenowane (oryginalny GPT-2 został wytrenowany na Webtext https://paperswithcode.com/dataset/webtext, który składa się z ~ 40 GB tekstów ściągniętych z Internetu) i rozmiarami modeli (np. GPT2-small składa się z 117M parametrów, GPT2-medium z 345M, GPT2-large z 762M).

W zależności od naszych potrzeb i dostępnej pamięci GPU, możemy wybrać odpowiednią wielkość.
Istnieją również modele destylowane, które są `skompresowane` podobnie jak np. popularny model DistilBERT: https://huggingface.co/distilgpt2 (Więcej o destylacji znajdziesz tutaj: https://neptune.ai/blog/knowledge-distillation).

Sprawdź jak modele o różnej wielkości mają się do jakości generowanych tekstów. Użyj `gpt2-small`, `gpt2-medium`, `gpt2-large` zamiast `gpt2` w potoku i przeanalizuj wyniki.

Sprawdź, jak działają modele wytrenowane na bardziej „konkretnych” danych (np.
`CodeGPT-small-java-adaptedGPT2`, którego można użyć do pisania kodu w Javie)

* Raport z wyników nie jest wymagany. Po prostu poeksperymentuj, jeśli interesuje Cię ten temat :)*


# GPT-2 jako źródło wiedzy
Ponieważ model dostarcza prawdopodobnych kontynuacji tekstów, możemy na ich podstawie znaleźć odpowiedzi na niektóre pytania.
Możesz wpisać `Stolicą Polski jest` jako kontekst, aby sprawdzić, czy zostanie zaproponowana `Warszawa`.

(uwaga!: nie dodawaj spacji na końcu kontekstu. Często prowadzi to do... dziwnych rezultatów)

Pamiętaj jednak, że internet jest stronniczy. Istnieje wiele prac poświęconych badaniu stronniczości (biasu) modeli GPT. Ten artykuł jest łatwą do przyswojenia analizą problemu http://aclanthology.lst.uni-saarland.de/D19-1339.pdf. Ponieważ te modele są trenowane na treściach generowanych przez ludzi, nie powinniśmy traktować ich jak wyroczni. Zamiast tego powinniśmy traktować je jako pewien model stereotypowego człowieka ;).

**Zadanie 2 (1 punkt)
Wpisz 5 przykładów wejść, które pokażą potencjalny bias modelu (np. kobieta = nauczycielka, mężczyzna=mechanik)**

# Przykład 1: Kobieta vs. Mężczyzna

In [18]:
generated_text = generator("A real man should be", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("A real woman should be", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : A real man should be allowed to be a part of that movement and be able to build their own
2 : A real man should be allowed to see that the fact that we have the resources and authority to do
3 : A real man should be held to a higher ethical standard. We live in an age when society and
1 : A real woman should be ready, able, intelligent, well educated (with a great reputation as,
2 : A real woman should be given an opportunity to tell her stories when she becomes pregnant with her first child
3 : A real woman should be in every room and at all times – not on the phone with men,


# Przykład 2: Pochodzenie

In [19]:
generated_text = generator("Asian people are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("American people are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("European people are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : Asian people are usually the very least liked and least likely to ever become famous. And I'm not
2 : Asian people are usually more affluent and have better salaries than non-Hispanic whites.

When asked
3 : Asian people are usually young, low middle class, and poor.

And they don't get


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : American people are usually afraid of the other side because they think the Americans are bad," said Nade
2 : American people are usually not the only ones seeing the "unhappy" image.

"I
3 : American people are usually not going to see these types of ads," he said.

For his
1 : European people are usually not allowed to marry.

"It's a basic democratic right," says
2 : European people are usually not involved. However, when there are other non-Muslims who cannot access the
3 : European people are usually the most optimistic about Brexit. It seems only because of the rise of a tiny


# Przykład 3: Narodowość

In [20]:
generated_text = generator("German people are known for", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("Polish people are known for", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("Russian people are known for", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : German people are known for their patriotism and generosity, while it is true for other religions that they seek
2 : German people are known for their love of religion and respect of religious liberty," Mr Maitland said
3 : German people are known for getting out of their car and driving around. It wasn't clear from reports


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : Polish people are known for being tolerant, welcoming and helpful citizens and they do not want to be
2 : Polish people are known for being a highly conservative, religious and anti-religious community. However,
3 : Polish people are known for their love of the outdoors and they love their outdoors being surrounded by the
1 : Russian people are known for spreading conspiracy theories, such as the "fake news" conspiracy, that have
2 : Russian people are known for their harsh winters, they were responsible for the deaths of more than 5,
3 : Russian people are known for coming out as LGBT — including the person they are. They're just part


# Przykład 4: Rasizm

In [38]:
generated_text = generator("Many thieves and murderers share the same physical appearance. Their skin colour is", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : Many thieves and murderers share the same physical appearance. Their skin colour is different and their limbs are sometimes
2 : Many thieves and murderers share the same physical appearance. Their skin colour is usually darker brown with a dark
3 : Many thieves and murderers share the same physical appearance. Their skin colour is very similar to your head.


# Pzykład 5: Stereotypy w pracy

In [39]:
generated_text = generator("Librarians are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("Teachers are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])
generated_text = generator("Comedians are usually", truncation = True, max_length=20, num_return_sequences=3)
for i, text in enumerate(generated_text):
    print(i+1, ":", text['generated_text'])

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : Librarians are usually asked if they have any questions about this website, which is provided for personal
2 : Librarians are usually not trained in clinical practice in the legal rights-of-the-pat
3 : Librarians are usually not aware of their role in protecting children from serious diseases at a critical time


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


1 : Teachers are usually in session, not in school, so the teachers could leave for their week.
2 : Teachers are usually paid at least 30 percent of their salary over two years, rather than the 35
3 : Teachers are usually taught this material only when there is some evidence of a difference in attitude or school
1 : Comedians are usually drawn to "comics, manga, literature, video games, music,
2 : Comedians are usually very different from average American, though most of them are even slightly different in
3 : Comedians are usually very good at getting a high number of results, but it seems common place


# Zachłanne wyszukiwanie vs beam search

Domyślny workflow generowania tekstu za pomocą GPT-2 wykorzystuje strategię wyszukiwania zachłannego. Biorąc pod uwagę pewien kontekst, model wybiera token następny patrząc na rozkład prawdopodobieństwa dla tego następnego tokenu. Jednak w tym scenariuszu możemy wygenerować „nieoptymalne” sekwencje. Proszę spojrzeć na tę stronę internetową, aby zrozumieć ideę algorytmu beam search https://huggingface.co/blog/how-to-generate. Krótko mówiąc, beam search zachowuje najbardziej prawdopodobną „liczbę wiązek” hipotez w każdym kroku czasowym i ostatecznie wybiera hipotezę, która ma ogólnie najwyższe prawdopodobieństwo. Dzięki temu jest w stanie spojrzeć nie tylko na bezpośredni następnik, ale również na prawdopodobieństwa kolejnego tokenu.

Poniższy kod opisuje alternatywne podejście do korzystania z GPT. Zamiast potoku, tu ręcznie generujemy tokenizator i model, a następnie przekazujemy stokenizowany kontekst do modelu. Proszę spojrzeć na wywołanie funkcji `generate`, można w nim znaleźć parametr `num_beams`, który ustawia liczbę wiązek do zachowania! Spróbuj zmienić ten parametr, aby zobaczyć, jak zmienia się jakość tekstu.

**Zadanie 3 (2 punkty): Odpowiedz na pytanie (w komentarzu w kodzie) -- jak parametr num_beams wpływa na jakość tekstu (i dlaczego)**

In [44]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

gpt_model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

starting_context = "The GPT model is great"

input_ids = tokenizer(starting_context, return_tensors="pt").input_ids


outputs = gpt_model.generate(
    input_ids,
    num_beams=100,
    num_return_sequences=1,
    no_repeat_ngram_size=1,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


The GPT model is great, but there's still a lot of work to be done.



**<span style="color: #ff0000"> W praktyce większa liczba wiązek (większa wartość num_beams) może prowadzić do wygenerowania lepszych tekstów, ponieważ model może rozważyć większą liczbę możliwości i uniknąć "utknięcia" w lokalnym maksimum. Jednak większa liczba wiązek zazwyczaj wiąże się z wydłużonym czasem generowania tekstu i większym zużyciem pamięci.</span>**


# Ograniczanie GPT-2

Czasami chcielibyśmy ograniczyć kreatywność wyjścia generowanego przez model. Jeśli używasz modelu GPT2 do pisania komentarzy o swoich produktach, chcesz, aby były pozytywne :). Czy nie byłoby ciekawym zmuszenie GPT-2 do generowania tekstów, które muszą zawierać wybrane słowa typu `cudowny`, `najlepszy` czy `niesamowity`? :).

Modele GPT-2 pozwalają na takie ograniczanie wygenerowanego wyjścia. Dobre wprowadzenie można znaleźć tutaj: https://towardsdatascience.com/new-hugging-face-feature-constrained-beam-search-with-transformers-7ebcfc2d70e9
.

Przeanalizuj poniższy fragment kodu (zmodyfikowany kod ze wspomnianej powyżej strony internetowej), aby zobaczyć, jak możemy zmusić GPT-2 do korzystania z niektórych tokenów. Są 2 przypadki:
* podajemy jakiś pojedynczy token, który musi znaleźć się gdzieś w generowanym tekście
* podajemy listę alternatyw, z których model GPT-2 wybiera jedną.

Ważna uwaga: podczas eksperymentowania z kodem zauważyłem kiedyś, że model wygenerował `besting` zamiast oczekiwanego słowa `best`. Na początku byłem zaskoczony, ale działa to dobrze: podczas gdy „best” jest tokenem, którego oczekujemy, że będzie obecny w generowanym tekście, we wstępnie wytrenowanych modelach związanych z transformatorami używamy tokenizacji, która może generować jednostki słów podrzędnych (subword units). Jeśli po `best` zostanie wygenerowany subtoken będący kontynuacją (np. `##ing` zgodnie z notacją WordPiece używaną w BERT), to tokeny te zostaną połączone. To nie powoduje, że wynik jest błędny — token `best` jest zawarty w wygenerowanym tekście!

In [45]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer

gpt_model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

must_contain_token = "best"
must_contain_alternatives = ["amazing", "wonderful", "beautiful", "exceptional"]  # let gpt choose which word to use


force_words_ids = [
    tokenizer([must_contain_token], add_prefix_space=True, add_special_tokens=False).input_ids,
    tokenizer(must_contain_alternatives, add_prefix_space=True, add_special_tokens=False).input_ids,
]

starting_text = ["The laptop", "The product"]
input_ids = tokenizer(starting_text, return_tensors="pt").input_ids


outputs = gpt_model.generate(
    input_ids,
    force_words_ids=force_words_ids,
    num_beams=10,
    num_return_sequences=1,
    no_repeat_ngram_size=1,
    remove_invalid_values=True,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
print(tokenizer.decode(outputs[1], skip_special_tokens=True))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


The laptop is powered by an Intel Core i7-4790K CPU, which has amazing best
The product is available in a variety of colors and sizes, including the standard black. The beautiful best


W 2020 roku powstała nowa wersja o nazwie GPT3. Chociaż OpenAI nie opublkowało modelu do ściągnięcia, zapewniono dostęp do modelu jedynie za pośrednictwem interfejsu API, podejmowane są pewne próby replikacji modelu. Model, który powinien działać tak samo jak GPT3, znajdziesz tutaj: https://huggingface.co/EleutherAI/gpt-neo-1.3B.
Historia GPT3 i powody, dla których nie jest on publikowany jako model do pobrania, są opisane w Wikipedii: https://en.wikipedia.org/wiki/GPT-3.

W ostatnich miesiącach pojawiły się również alternatywy dla modelu GPT-4, ktory również nie jest dostępny do ściągnięcia. Ciekawym modelem jest mini-GPT4, który można znaleźć tu: https://minigpt-4.github.io