# Przed rozpoczęciem

* Stwórz nowy compute lub użyj istniejącego compute w wersji: `Standard_F16s_v2`
* Wybierz kernel `Python 3.8 - AzureML`

# Przygotowanie środowiska

* Ta komórka nie zawiera kodu w pythonie, tylko wywołania `pip` w shellu terminalowym
* Przeinstalowujemy `tensorflow`, które już jest obecne w kernelu `AzureML` w wersji, która nie będzie rzucać błędami
* Instalujemy następujące biblioteki:
    * `sentence-transformers` - na potrzeby embeddera
    * `qdrant-client` - do komunikacji z wektorową bazą danych
    * `openai` - do komunikacji z API OpenAI

In [1]:
!pip install tensorflow-cpu==2.16.1
!pip install tf-keras==2.16.0 --no-dependencies
!pip install sentence-transformers
!pip install ctransformers
!pip install qdrant-client
!pip install openai

Collecting protobuf!=4.21.0,!=4.21.1,!=4.21.2,!=4.21.3,!=4.21.4,!=4.21.5,<5.0.0dev,>=3.20.3
  Using cached protobuf-4.25.5-cp37-abi3-manylinux2014_x86_64.whl (294 kB)
Installing collected packages: protobuf
  Attempting uninstall: protobuf
    Found existing installation: protobuf 5.28.3
    Uninstalling protobuf-5.28.3:
      Successfully uninstalled protobuf-5.28.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow 2.17.0 requires tensorboard<2.18,>=2.17, but you have tensorboard 2.16.2 which is incompatible.
mlflow-skinny 2.15.0 requires importlib-metadata!=4.7.0,<8,>=3.7.0, but you have importlib-metadata 8.2.0 which is incompatible.
grpcio-tools 1.68.0 requires protobuf<6.0dev,>=5.26.1, but you have protobuf 4.25.5 which is incompatible.
azureml-automl-runtime 1.57.0 requires protobuf<=3.20.3, but you have protobuf 4.25.5 which is incompatible

# Lokalne ładowanie modelu

W tym miejscu ściągamy i ładujemy model https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca korzystając z backendu `pytorch` (stąd `framework='pt'`)

Jeśli notebook byłby odpalony na lokalnej maszynie (np. laptop) to model zostanie ściągnięty na lokalny dysk i będzie działać lokalnie.

In [2]:
from transformers import pipeline
pipe = pipeline("text-generation", model="Open-Orca/Mistral-7B-OpenOrca", framework="pt")

2024-11-25 08:26:07.837775: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Wrzucamy pierwsze zapytanie do modelu. Warto zwrócić uwagę, że do modelu wchodzi lista interakcji różnych ról w modelem, a w odpowiedzi dostajemy podobną strukturę wzbogaconą o wyjście z LLMu

In [3]:
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


[{'generated_text': [{'role': 'user', 'content': 'Who are you?'},
   {'role': 'assistant', 'content': ' I am an AI-powered text-based'}]}]

## Funkcja pomocnicza do ładnego wyświetlania interakcji z modelem

In [4]:
from rich.console import Console
console = Console()
def pretty_print(output):
    for entry in output[0]["generated_text"]:
        role, text = entry["role"], entry["content"]
        console.rule(f"[bold red]{role}", style="bright_blue")
        console.print(text)

##### Korzystamy z funkcji do ładnego wyświetlania i explicite ustawiamy maksymalną liczbę generowanych tokenów

In [5]:
messages = [
    {"role": "user", "content": "Is water wet? Elaborate"},
]
pretty_print(pipe(messages, max_new_tokens=200))

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


#### Generowanie przykładów z ustawioną temperaturą

In [6]:
messages = [
    {"role": "user", "content": "Is water wet? Elaborate"},
]
pretty_print(pipe(messages, do_sample=True, temperature=1.2, max_new_tokens=200))

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


##### Przykład czatu z użytkownikiem

Prosimy model o generację odpowiedzi i zapisujemy sobie historię interakcji do zmiennej `chat`, która jest listą słowników interakcji. Następnie dorzucamy do tej listy nowe zapytanie, na które odpowiedź ma być wygenerowana w kontekście całej konwersacji

In [7]:
messages = [
    {"role": "user", "content": "Is water wet? Elaborate"},
]
chat = pipe(messages, do_sample=True, temperature=0.01, max_new_tokens=100)[0]["generated_text"]
chat.append({"role": "user", "content": "What if we consider 'wetness' as an ability to make something wet? Is water still wet by that definition?"})
chat = pipe(chat, do_sample=True, temperature=0.01, max_new_tokens=50)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Kontynuujemy naszą rozmowę dorzucając kolejny element do naszej historii zawartej w zmiennej `chat`.

In [8]:
chat = chat[0]["generated_text"]
chat.append({"role": "user", "content": "Ok, what if an object is fully submersed? Is it still considered wet?"})
chat = pipe(chat, do_sample=True, temperature=2.0, max_new_tokens=50)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


# One-shot prompting

Pokazujemy modelowi przykład, a następnie dajemy mu zapytanie, na które powinien odpowiedzieć w analogiczny sposób. Na tym etapie nie mamy jeszcze explicite instrukcji w naszym prompcie.

In [9]:
one_shot_prompt = """
A "whatpu" is a small, furry animal native to Tanzania. An example of a sentence that uses the word whatpu is:
We were traveling in Africa and we saw these very cute whatpus.
 
To do a "farduddle" means to jump up and down really fast. An example of a sentence that uses the word farduddle is:
"""

messages = [
    {"role": "user", "content": one_shot_prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.7, max_new_tokens=100)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


# Few-shot prompting

Pokazujemy modelowi kilka przykładów i prosimy o uzupełnienie klasyfikacji ostatniego przykładu, ale nadal nie mamy explicite promptu z dokładnym poleceniem - model "domyśla się" o co nam chodzi na podstawie kontekstu.

In [10]:
few_shot_prompt = """
This is awesome! // Positive
This is bad! // Negative
Wow that movie was rad! // Positive
What a horrible show! //
"""

messages = [
    {"role": "user", "content": few_shot_prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.2, max_new_tokens=100)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Ten sam przykład ze zmienioną polaryzacją etykiet - teraz pozytywne zdania są negatywne, a negatywne pozytywne. Ponieważ nie podaliśmy konkretnych instrukcji model nie współpracuje i nie generuje etykiety dla ostatniego przykładu, który podaliśmy.

In [11]:
few_shot_prompt = """
This is awesome! // Negative
This is bad! // Positive
Wow that movie was rad! // Negative
What a horrible show! //
"""

messages = [
    {"role": "user", "content": few_shot_prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.2, max_new_tokens=100)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


##### Few-shot prompting + konkretna instrukcja

W prompcie typu `system` podajemy modelowi konkretną instrukcję, co pozwala mu na zrozumienie i wykonanie zadania.

In [12]:
few_shot_prompt = """
This is awesome! // Negative
This is bad! // Positive
Wow that movie was rad! // Negative
What a horrible show! //
"""

messages = [
    {"role": "system", "content": "Your role is labelling sentences as either Negative or Positive. Based on user examples label the last sentence."},
    {"role": "user", "content": few_shot_prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.2, max_new_tokens=100)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


# Chain of Thought (refleksja)

Prosimy model o rozwiązanie przykładu z kijem i z piłeczką. W przypadku tej konkretnej sesji model sobie nie poradził, pomimo tego, że próbował opisywać krok po kroku swój tok rozumowania.

In [13]:
prompt = "A bat and a ball cost $1.10 in total. The bat costs $1.00 more than the ball. How much does the ball cost?"

messages = [
    {"role": "user", "content": prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.2, max_new_tokens=200)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Dodajemy do promptu instrukcję `Let's think step by step`. W przypadku tej sesji wydaje się, że dodanie tej instrukcji pomogło modelowi rozwiązać problem, ale jak wspominałem na wykładzie efektywność metod refleksji w dużej mierze zależy od wielkości modelu (im większe tym więcej można ugrać za pomocą tych metod).

In [15]:
prompt = "A bat and a ball cost $1.10 in total. The bat costs $1.00 more than the ball. How much does the ball cost? Let's think step by step"

messages = [
    {"role": "user", "content": prompt},
]
chat = pipe(messages, do_sample=True, temperature=0.2, max_new_tokens=300)
pretty_print(chat)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
