# script.py

In [2]:
from dotenv import load_dotenv
load_dotenv()  # Wczytaj zmienne środowiskowe z pliku .env, aby móc korzystać z ukrytych kluczy API.

# Definicja dwóch wariantów promptów do testowania generowania nazw produktów
prompt_A = """Opis produktu: Buty, które pasują dla każdego rozmiaru stopy.
Słowa początkowe: dostosowanie, dopasowanie, uniwersalny rozmiar
Nazwy produktów:"""

prompt_B = """Opis produktu: Automat do przygotowania mlecznych koktajli w domu.
Słowa początkowe: szybki, zdrowy, kompaktowy.
Nazwy produktów: HomeShaker, Fit Shaker, QuickShake, Shake Maker
Opis produktu: Zegarek, który podaje dokładny czas w przestrzeni kosmicznej
Słowa początkowe: astronauta, odporne na przestrzeń kosmiczną, orbita eliptyczna
Nazwy produktów: AstroTime, SpaceGuard, Orbit-Accurate, EliptoTime.
Opis produktu: Buty, które pasują dla każdego rozmiaru stopy.
Słowa początkowe: dostosowanie, dopasowanie, uniwersalny rozmiar
Nazwy produktów:"""

# Lista testowanych promptów
test_prompts = [prompt_A, prompt_B]

import pandas as pd  # Biblioteka do obsługi danych tabelarycznych
from openai import OpenAI  # Import klienta OpenAI do obsługi API
import os  # Moduł do zarządzania zmiennymi środowiskowymi

# Tworzenie klienta OpenAI z kluczem API przechowywanym w zmiennej środowiskowej
client = OpenAI(
    api_key=os.environ['OPENAI_API_KEY'],  # Pobranie klucza API z systemowych zmiennych środowiskowych
)

def get_response(prompt):
    """Funkcja do uzyskania odpowiedzi z modelu GPT na podany prompt."""
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",  # Model używany do generowania odpowiedzi
        messages=[
            {"role": "system", "content": "Jesteś pomocnym asystentem."},  # Kontekst dla modelu
            {"role": "user", "content": prompt}  # Właściwy prompt przekazany do modelu
        ]
    )
    return response.choices[0].message.content  # Zwrócenie treści pierwszej wygenerowanej odpowiedzi

responses = []  # Lista na zebrane odpowiedzi
num_tests = 5  # Liczba testów dla każdego prompta

for idx, prompt in enumerate(test_prompts):  # Iteracja po promptach
    var_name = chr(ord('A') + idx)  # Zamiana indeksu na literę (A, B, C...)
    
    for i in range(num_tests):  # Wykonanie testów wielokrotnie dla lepszego porównania
        response = get_response(prompt)  # Pobranie odpowiedzi od modelu
        data = {
            "variant": var_name,  # Oznaczenie wariantu (A/B)
            "prompt": prompt,  # Treść prompta
            "response": response  # Odpowiedź modelu
        }
        responses.append(data)  # Dodanie wyniku do listy

# Konwersja wyników na obiekt DataFrame (tabelę Pandas)
df = pd.DataFrame(responses)

# Zapis wyników do pliku CSV
df.to_csv("odpowiedzi.csv", index=False)

# Wyświetlenie tabeli w terminalu
print(df)

"""
Opis działania kodu:
Ten skrypt testuje dwa różne warianty promptów do generowania nazw produktów przy użyciu modelu GPT-3.5-turbo.
Najpierw wczytywane są zmienne środowiskowe, w tym klucz OpenAI API. Następnie definiowane są dwa prompty - jeden 
z minimalną ilością przykładów, a drugi z większą liczbą przykładów. Każdy prompt jest testowany pięć razy 
(z możliwością łatwego zwiększenia liczby testów). Wyniki są zbierane w obiekcie Pandas DataFrame i zapisywane 
do pliku CSV, co pozwala na późniejszą analizę.

Zastosowanie:
- Porównanie skuteczności różnych wariantów promptów.
- Analiza jakości generowanych odpowiedzi.
- Tworzenie benchmarków dla różnych modeli AI.
"""

  variant                                             prompt  \
0       A  Opis produktu: Buty, które pasują dla każdego ...   
1       A  Opis produktu: Buty, które pasują dla każdego ...   
2       A  Opis produktu: Buty, które pasują dla każdego ...   
3       A  Opis produktu: Buty, które pasują dla każdego ...   
4       A  Opis produktu: Buty, które pasują dla każdego ...   
5       B  Opis produktu: Automat do przygotowania mleczn...   
6       B  Opis produktu: Automat do przygotowania mleczn...   
7       B  Opis produktu: Automat do przygotowania mleczn...   
8       B  Opis produktu: Automat do przygotowania mleczn...   
9       B  Opis produktu: Automat do przygotowania mleczn...   

                                            response  
0  1. Dostosowujące buty UniFit\n2. Uniwersalne b...  
1  1. UniSize Shoes\n2. FlexFit Footwear\n3. OneS...  
2  1. UniFit Shoes\n2. MultiSize Sneakers\n3. Fle...  
3  1. Dostosowane buty\n2. Dopasowana obuwie\n3. ...  
4  1. Dostosowana do

'\nOpis działania kodu:\nTen skrypt testuje dwa różne warianty promptów do generowania nazw produktów przy użyciu modelu GPT-3.5-turbo.\nNajpierw wczytywane są zmienne środowiskowe, w tym klucz OpenAI API. Następnie definiowane są dwa prompty - jeden \nz minimalną ilością przykładów, a drugi z większą liczbą przykładów. Każdy prompt jest testowany pięć razy \n(z możliwością łatwego zwiększenia liczby testów). Wyniki są zbierane w obiekcie Pandas DataFrame i zapisywane \ndo pliku CSV, co pozwala na późniejszą analizę.\n\nZastosowanie:\n- Porównanie skuteczności różnych wariantów promptów.\n- Analiza jakości generowanych odpowiedzi.\n- Tworzenie benchmarków dla różnych modeli AI.\n'

# script2.py

In [3]:
from dotenv import load_dotenv
load_dotenv()  # Wczytaj zmienne środowiskowe z pliku .env, np. klucze API

import ipywidgets as widgets  # Biblioteka do tworzenia interaktywnych widżetów w Jupyter Notebook
from IPython.display import display  # Funkcja do wyświetlania elementów interfejsu
import pandas as pd  # Biblioteka do pracy z danymi w postaci tabelarycznej (ramki danych Pandas)

# Wczytaj dane z pliku CSV zawierającego odpowiedzi
# Plik "odpowiedzi.csv" powinien zawierać wygenerowane odpowiedzi dla testów A/B
# Każdy wiersz to jedna odpowiedź modelu LLM w danym wariancie testowym

df = pd.read_csv("odpowiedzi.csv") 

# Wymieszaj dane, aby użytkownik nie oceniał odpowiedzi w określonej kolejności
# `frac=1` oznacza, że bierzemy 100% danych i je mieszamy
# `reset_index(drop=True)` resetuje indeksy po przetasowaniu

df = df.sample(frac=1).reset_index(drop=True)

# Zmienna przechowująca numer aktualnie ocenianej odpowiedzi
response_index = 0  # Start od pierwszego rekordu

# Dodaj nową kolumnę do ramki danych, w której będziemy przechowywać informacje zwrotne
# Typ `str` oznacza, że wartości w tej kolumnie będą tekstowe (choć zapisujemy liczby 0 i 1)
df['feedback'] = pd.Series(dtype='str')

def on_button_clicked(b):
    """
    Funkcja wywoływana po kliknięciu przycisku "kciuk w górę" lub "kciuk w dół".
    Aktualizuje ocenę odpowiedzi i przechodzi do kolejnej.
    """
    global response_index  # Odwołanie do zmiennej globalnej przechowującej indeks
    
    # Przypisz wartość 1 dla kciuka w górę, 0 dla kciuka w dół
    user_feedback = 1 if b.description == "\U0001F44D" else 0  
    
    # Zaktualizuj kolumnę "feedback" w danym wierszu
    df.at[response_index, 'feedback'] = user_feedback
    
    # Przejdź do następnej odpowiedzi
    response_index += 1
    
    # Jeśli nadal są odpowiedzi do oceny, wyświetl kolejną
    if response_index < len(df):
        update_response()
    else:
        # Po zakończeniu oceniania zapisujemy dane do pliku "results.csv"
        df.to_csv("results.csv", index=False)
        print("Zakończono testy A/B. Oto wyniki:")
        
        # Podsumowanie wyników: liczba ocen i średnia ocena dla każdego wariantu
        summary_df = df.groupby('variant').agg(
            count=('feedback', 'count'),  # Liczba ocenionych odpowiedzi
            score=('feedback', 'mean')   # Średni wynik (0-1) dla każdego wariantu
        ).reset_index()
        print(summary_df)  # Wyświetl podsumowanie

def update_response():
    """
    Funkcja aktualizująca wyświetlaną odpowiedź w widżecie HTML.
    """
    new_response = df.iloc[response_index]['response']  # Pobierz aktualną odpowiedź
    
    # Jeśli odpowiedź istnieje, sformatuj ją jako HTML
    if pd.notna(new_response):
        new_response = "<p>" + new_response + "</p>"
    else:
        new_response = "<p>Brak odpowiedzi</p>"
    
    response.value = new_response  # Zaktualizuj treść wyświetlanej odpowiedzi
    count_label.value = f"Odpowiedź: {response_index + 1}/{len(df)}"  # Wyświetl liczbę ocenionych odpowiedzi

# Utworzenie interfejsu użytkownika
response = widgets.HTML()  # Widżet do wyświetlania treści odpowiedzi
count_label = widgets.Label()  # Widżet do wyświetlania numeru odpowiedzi
update_response()  # Zainicjalizowanie pierwszej odpowiedzi

# Utworzenie przycisków do oceny odpowiedzi
thumbs_up_button = widgets.Button(description='\U0001F44D')  # Kciuk w górę
thumbs_up_button.on_click(on_button_clicked)  # Po kliknięciu wywołuje funkcję oceny

thumbs_down_button = widgets.Button(description='\U0001F44E')  # Kciuk w dół
thumbs_down_button.on_click(on_button_clicked)  # Po kliknięciu wywołuje funkcję oceny

# Rozmieszczenie przycisków w poziomie
button_box = widgets.HBox([thumbs_down_button, thumbs_up_button])

# Wyświetlenie interfejsu w Jupyter Notebook
display(response, button_box, count_label)

"""
Opis działania kodu:
Ten skrypt implementuje system testów A/B dla odpowiedzi generowanych przez model LLM.
Pozwala użytkownikowi oceniać odpowiedzi poprzez kliknięcie kciuka w górę (pozytywna ocena) lub kciuka w dół (negatywna ocena).
Po ocenie wszystkich odpowiedzi wyniki są zapisywane do pliku "results.csv",
a podsumowanie wyświetlane jest w konsoli. 

Zastosowanie:
- Testowanie różnych wariantów promptów i ich wpływu na odpowiedzi modelu
- Porównywanie jakości odpowiedzi w zależności od wersji modelu lub parametrów
- Uproszczenie procesu zbierania opinii użytkowników na temat generowanych treści
"""


HTML(value='<p>1. UniSize Shoes\n2. FlexFit Footwear\n3. OneSize Fits All Boots\n4. AdaptiFit Sneakers\n5. Uni…

HBox(children=(Button(description='👎', style=ButtonStyle()), Button(description='👍', style=ButtonStyle())))

Label(value='Odpowiedź: 1/10')

'\nOpis działania kodu:\nTen skrypt implementuje system testów A/B dla odpowiedzi generowanych przez model LLM.\nPozwala użytkownikowi oceniać odpowiedzi poprzez kliknięcie kciuka w górę (pozytywna ocena) lub kciuka w dół (negatywna ocena).\nPo ocenie wszystkich odpowiedzi wyniki są zapisywane do pliku "results.csv",\na podsumowanie wyświetlane jest w konsoli. \n\nZastosowanie:\n- Testowanie różnych wariantów promptów i ich wpływu na odpowiedzi modelu\n- Porównywanie jakości odpowiedzi w zależności od wersji modelu lub parametrów\n- Uproszczenie procesu zbierania opinii użytkowników na temat generowanych treści\n'