# one_hierarchical_list_generation.py

## Parsowanie listy hierarchicznej

In [1]:
import re  # Importujemy moduł `re`, który służy do pracy z wyrażeniami regularnymi w Pythonie.

# Przykładowy wynik generacji konspektu artykułu przez OpenAI
openai_result = """
* Introduction
    a. Explanation of data engineering
    b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Definiujemy wzorce wyrażeń regularnych do wyszukiwania nagłówków i podnagłówków
heading_pattern = r"\* (.+)"  # Wzorzec dopasowuje linie zaczynające się od '* ' i przechwytuje treść po gwiazdce.
subheading_pattern = r"\s+[a-z]\. (.+)"  # Wzorzec dopasowuje podpunkty zaczynające się od litery, kropki i spacji.

# Wyszukujemy wszystkie nagłówki pasujące do wzorca `heading_pattern`
headings = re.findall(heading_pattern, openai_result)

# Wyszukujemy wszystkie podnagłówki pasujące do wzorca `subheading_pattern`
subheadings = re.findall(subheading_pattern, openai_result)

# Wyświetlamy znalezione nagłówki
print("Headings:\n")  # Drukujemy nagłówek sekcji
for heading in headings:
    print(f"* {heading}")  # Drukujemy każdy nagłówek, dodając przed nim '* '

# Wyświetlamy znalezione podnagłówki
print("\nSubheadings:\n")  # Przerwa między sekcjami i drukujemy nagłówek sekcji podnagłówków
for subheading in subheadings:
    print(f"* {subheading}")  # Drukujemy każdy podnagłówek, dodając przed nim '* '


'''
Opis działania kodu:

Kod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.
Najpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).
Następnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.

Zastosowanie kodu:
	•	Może być używany do parsowania tekstu z generowanych treści AI.
	•	Przydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.
	•	Może być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.
    '''

Headings:

* Introduction
* Efficient Data Management
* Conclusion

Subheadings:

* Explanation of data engineering
* Importance of data engineering in today’s data-driven world
* Definition of data management
* How data engineering helps in efficient data management.
* Importance of Data Engineering in the modern business world
* Future of Data Engineering and its impact on the data ecosystem


'\nOpis działania kodu:\n\nKod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.\nNajpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).\nNastępnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.\n\nZastosowanie kodu:\n\t•\tMoże być używany do parsowania tekstu z generowanych treści AI.\n\t•\tPrzydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.\n\t•\tMoże być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.\n    '

# two_hierarchical_list_generation.py

## Parsowanie hierarchicznej listy do słownika w Pythonie



In [2]:
import re  # Importujemy moduł `re`, który służy do obsługi wyrażeń regularnych w Pythonie.

# Przykładowy tekst zawierający konspekt artykułu wygenerowany przez OpenAI
openai_result = """
* Introduction
  a. Explanation of data engineering
  b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
    c. Why data engineering is important for data management
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Tworzymy wyrażenie regularne do dopasowania sekcji (główne nagłówki oznaczone "* ")
section_regex = re.compile(r"\* (.+)")

# Tworzymy wyrażenie regularne do dopasowania podsekcji (podpunkty oznaczone literą i kropką, np. "a. ")
subsection_regex = re.compile(r"\s*([a-z]\..+)")

# Inicjalizujemy pusty słownik, w którym przechowywane będą sekcje i ich podsekcje
result_dict = {}

# Zmienna pomocnicza do śledzenia bieżącej sekcji, do której przypisujemy podsekcje
current_section = None

# Przetwarzamy każdą linię tekstu osobno
for line in openai_result.split("\n"):  # Dzielimy cały tekst na linie i iterujemy przez każdą z nich
    section_match = section_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca sekcji
    subsection_match = subsection_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca podsekcji

    if section_match:  # Jeśli linia to nowa sekcja
        current_section = section_match.group(1)  # Pobieramy nazwę sekcji
        result_dict[current_section] = []  # Dodajemy nową sekcję do słownika jako klucz z pustą listą podsekcji
    elif subsection_match and current_section is not None:  # Jeśli linia to podsekcja i mamy aktywną sekcję
        result_dict[current_section].append(subsection_match.group(1))  # Dodajemy podsekcję do odpowiedniej sekcji

# Drukujemy wynikowy słownik zawierający sekcje i podsekcje
print(result_dict)

'''
Opis działania kodu:

Kod analizuje tekst konspektu artykułu i strukturyzuje go w postaci słownika, gdzie:
	•	kluczem są główne sekcje (np. “Introduction”, “Efficient Data Management”, “Conclusion”),
	•	wartościami są listy podsekcji przypisanych do każdej sekcji.

Zastosowanie kodu:
	•	Przetwarzanie i analiza tekstu – np. parsowanie konspektów, dokumentacji czy treści generowanych przez AI.
	•	Konwersja tekstu do strukturyzowanej formy – np. JSON, baza danych, raporty.
	•	Automatyczne wydobywanie informacji – np. kategoryzowanie treści w aplikacjach AI lub NLP.

    '''

{'Introduction': ['a. Explanation of data engineering', 'b. Importance of data engineering in today’s data-driven world'], 'Efficient Data Management': ['a. Definition of data management', 'b. How data engineering helps in efficient data management.', 'c. Why data engineering is important for data management'], 'Conclusion': ['a. Importance of Data Engineering in the modern business world', 'b. Future of Data Engineering and its impact on the data ecosystem']}


# Parsowanie dokumentu JSON za pomocą języka Python
## three_json_parsing.py

In [3]:
import json  # Importujemy moduł `json`, który umożliwia pracę z danymi w formacie JSON w Pythonie.

# Przykładowy wynik w formacie JSON, reprezentujący strukturę konspektu artykułu
openai_json_result = """
{
    "Introduction": [
        "a. Overview of coding and programming languages",
        "b. Importance of coding in today's technology-driven world"],
    "Conclusion": [
        "a. Recap of the benefits of learning code",
        "b. The ongoing importance of coding skills in the modern world"]
}
"""

# Konwertujemy ciąg znaków w formacie JSON na obiekt Pythona (słownik)
parsed_json_payload = json.loads(openai_json_result)

# Drukujemy sparsowany obiekt JSON, który teraz ma postać słownika
print(parsed_json_payload)

'''
Zastosowanie kodu:
	•	Parsowanie danych JSON – przydatne w pracy z danymi pochodzącymi z API, plików JSON czy odpowiedzi AI.
	•	Strukturyzacja danych – umożliwia łatwą organizację i dostęp do informacji.
	•	Przetwarzanie tekstu – użyteczne np. do ekstrakcji informacji z generowanych treści i dalszej ich analizy.

    '''

{'Introduction': ['a. Overview of coding and programming languages', "b. Importance of coding in today's technology-driven world"], 'Conclusion': ['a. Recap of the benefits of learning code', 'b. The ongoing importance of coding skills in the modern world']}


# Konwersja tekstu hierarchicznego w słownik

In [6]:
import re  # Importuje moduł re (regular expressions), który służy do pracy z wyrażeniami regularnymi, umożliwiając wyszukiwanie i manipulację wzorcami w tekście.

openai_result = '''
* Wprowadzenie
    a. Definicja inżynierii danych
    b. Rola inżynierii danych w dzisiejszym biznesie
* Podsumowanie
    a. Przegląd głównych korzyści z inżynierii danych
    b. Postrzeganie roli inżynierii danych w przyszłości.
'''  # Definiuje zmienną 'openai_result' jako ciąg znaków (string) zawierający tekst w formacie hierarchicznym z sekcjami (oznaczonymi '*') i podsekcjami (oznaczonymi literami i kropką).

section_regex = re.compile(r"\* (.+)")  # Tworzy skompilowany wzorzec wyrażenia regularnego dla sekcji; '\* (.+)' oznacza gwiazdkę, po której następuje dowolny ciąg znaków (przechwytywany w grupie), np. "* Wprowadzenie".

subsection_regex = re.compile(r"\s*([a-z]\..+)")  # Tworzy skompilowany wzorzec dla podsekcji; '\s*([a-z]\..+)' oznacza opcjonalne białe znaki, po których następuje litera, kropka i dowolny tekst (przechwytywany w grupie), np. "a. Definicja...".

result_dict = {}  # Inicjalizuje pusty słownik 'result_dict', który będzie przechowywał sekcje jako klucze i listy podsekcji jako wartości.

current_section = None  # Inicjalizuje zmienną 'current_section' jako None; będzie przechowywać nazwę aktualnie przetwarzanej sekcji.

for line in openai_result.split("\n"):  # Rozpoczyna pętlę, która iteruje przez linie tekstu; 'split("\n")' dzieli tekst na listę linii na podstawie znaku nowej linii.

    section_match = section_regex.match(line)  # Próbuje dopasować wzorzec sekcji do bieżącej linii; 'match' sprawdza, czy linia zaczyna się od wzorca '* ...'.

    subsection_match = subsection_regex.match(line)  # Próbuje dopasować wzorzec podsekcji do bieżącej linii; sprawdza, czy linia zaczyna się od wzorca 'a. ...'.

    if section_match:  # Jeśli linia pasuje do wzorca sekcji (np. "* Wprowadzenie"):

        current_section = section_match.group(1)  # Przypisuje nazwę sekcji (np. "Wprowadzenie") do 'current_section'; 'group(1)' wyciąga tekst po '*'.

        result_dict[current_section] = []  # Tworzy w słowniku pustą listę dla tej sekcji, do której będą dodawane podsekcje.

    elif subsection_match and current_section is not None:  # Jeśli linia pasuje do wzorca podsekcji (np. "a. Definicja...") i istnieje aktualna sekcja:

        result_dict[current_section].append(subsection_match.group(1))  # Dodaje tekst podsekcji (np. "a. Definicja...") do listy podsekcji w słowniku dla bieżącej sekcji.

print(result_dict)  # Wyświetla końcowy słownik zawierający sekcje i ich podsekcje.

{'Wprowadzenie': ['a. Definicja inżynierii danych', 'b. Rola inżynierii danych w dzisiejszym biznesie'], 'Podsumowanie': ['a. Przegląd głównych korzyści z inżynierii danych', 'b. Postrzeganie roli inżynierii danych w przyszłości.']}


# Listing 3.3. Wykrywanie zdań za pomocą biblioteki spaCy

Ten kod demonstruje podstawowe użycie biblioteki spaCy do podziału tekstu na zdania w języku polskim. Najpierw importuje bibliotekę spaCy i ładuje model językowy dla języka polskiego. Następnie definiuje przykładowy tekst, przetwarza go za pomocą modelu i w pętli wypisuje każde zdanie osobno.

Cel użycia: Tego rodzaju kod można wykorzystać w aplikacjach przetwarzania języka naturalnego (NLP), takich jak analiza tekstu, automatyczne streszczanie, czy ekstrakcja informacji, gdzie potrzebny jest podział tekstu na mniejsze jednostki (zdania). Jest to szczególnie przydatne w analizie dużych ilości tekstu, np. w danych z mediów społecznościowych, artykułów czy książek.

In [None]:
python -m spacy download pl_core_news_sm

'''
(venv) MacBook-Pro-p:Prompt-Engineering p$ python -m spacy download pl_core_news_sm
Collecting pl-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pl_core_news_sm-3.8.0/pl_core_news_sm-3.8.0-py3-none-any.whl (20.2 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 20.2/20.2 MB 37.2 MB/s eta 0:00:00
Installing collected packages: pl-core-news-sm
Successfully installed pl-core-news-sm-3.8.0
✔ Download and installation successful
You can now load the package via spacy.load('pl_core_news_sm')'''

In [5]:
import spacy  # Importuje bibliotekę spaCy, która jest narzędziem do przetwarzania języka naturalnego (NLP), umożliwiającym analizę tekstu, taką jak podział na zdania czy rozpoznawanie części mowy.

nlp = spacy.load("pl_core_news_sm")  # Tworzy obiekt nlp, ładując model językowy dla języka polskiego ("pl_core_news_sm" to mały model dla języka polskiego), który będzie używany do analizy tekstu.

text = "To jest zdanie. To jest inne zdanie."  # Definiuje zmienną tekstową 'text', która zawiera dwa przykładowe zdania oddzielone kropką, jako dane wejściowe do analizy.

doc = nlp(text)  # Przetwarza tekst za pomocą modelu nlp, tworząc obiekt 'doc', który zawiera strukturalną reprezentację tekstu z informacjami o zdaniach, tokenach itp.

for sent in doc.sents:  # Rozpoczyna pętlę, która iteruje przez wszystkie zdania w obiekcie 'doc'; 'doc.sents' to generator zwracający kolejne zdania tekstu.

    print(sent.text)  # Wypisuje tekst każdego zdania; 'sent.text' zwraca ciąg znaków reprezentujący dane zdanie.

To jest zdanie.
To jest inne zdanie.


# Metoda podziału tekstu według długości znaków

In [7]:
# Otwieramy plik "hubspot_blog_post.txt" w trybie odczytu ("r") - to pozwala nam przeczytać jego zawartość
# Używamy "with", bo automatycznie zamyka plik po użyciu, co jest bezpieczne i wygodne
with open("hubspot_blog_post.txt", "r") as f: 
    # Wczytujemy cały tekst z pliku do zmiennej "text" jako jeden ciąg znaków (string)
    text = f.read()

# Tworzymy listę "chunks" - dzielimy tekst na fragmenty po 200 znaków
# "range(0, len(text), 200)" generuje pozycje startowe: 0, 200, 400 itd.
# "text[i : i + 200]" wycina fragment od i do i+200, a wszystko pakujemy w listę
chunks = [text[i : i + 200] for i in range(0, len(text), 200)]

# Pętla "for" przechodzi po każdym fragmencie w liście "chunks"
for chunk in chunks: 
    # Wyświetlamy linię z 20 kresek ("-") jako separator, żeby oddzielić fragmenty w konsoli
    print("-" * 20)
    # Wyświetlamy aktualny fragment tekstu - każdy ma max 200 znaków
    print(chunk)

--------------------
With how accessible the internet is today, would you believe me if I told you the number of people who go online every day is still increasing?

helpful tools to learn about digital marketing
It is. I
--------------------
n fact, there are about 4.9 billion global internet users as of 2021, a 400 million jump from 2020. And although we say it a lot, the way people shop and buy really has changed along with it — meaning
--------------------
 offline marketing can’t be your only strategy for driving sales because you need to meet audiences where they’re already spending time: on the internet. 

→ Click here to download our free guide to d
--------------------
igital marketing fundamentals [Download Now].
Marketing has always been about connecting with your audience in the right place and at the right time. Today, that means you need to meet them where they
--------------------
 are already spending time: on the internet.

Enter digital marketing — in other words, any

# Podział za pomocą okna przesuwnego

In [8]:
# Definiujemy funkcję "sliding_window", która dzieli tekst na fragmenty za pomocą przesuwanego okna
# Parametry: "text" - tekst do podziału, "window_size" - rozmiar okna, "step_size" - krok przesunięcia
def sliding_window(text, window_size, step_size): 
    # Sprawdzamy warunki: jeśli okno jest większe niż tekst lub krok mniejszy niż 1, zwracamy pustą listę
    if window_size > len(text) or step_size < 1:
        return []
    # Tworzymy listę fragmentów: "text[i:i+window_size]" wycina fragment o długości "window_size"
    # "range(0, len(text) - window_size + 1, step_size)" określa starty: 0, 5, 10 itd., aż do końca tekstu
    return [text[i:i+window_size] for i in range(0, len(text) - window_size + 1, step_size)]

# Tworzymy przykładowy tekst do podziału
text = "To jest przykładu podziału z użyciem okna przesuwnego."
# Ustawiamy rozmiar okna na 20 znaków
window_size = 20
# Ustawiamy krok przesunięcia na 5 znaków - okno przesuwa się co 5 znaków
step_size = 5
# Wywołujemy funkcję i zapisujemy fragmenty w zmiennej "chunks"
chunks = sliding_window(text, window_size, step_size) 
# Pętla "enumerate" numeruje fragmenty (idx to indeks), wyświetlamy każdy fragment z numerem
for idx, chunk in enumerate(chunks):
    print(f"Fragment {idx + 1}: {chunk}")

Fragment 1: To jest przykładu po
Fragment 2: st przykładu podział
Fragment 3: zykładu podziału z u
Fragment 4: du podziału z użycie
Fragment 5: działu z użyciem okn
Fragment 6: u z użyciem okna prz
Fragment 7: życiem okna przesuwn


# Podział tekstu z biblioteki tiktoken

In [12]:
# Importujemy pakiet tiktoken - to biblioteka do tokenizacji tekstu, używana w modelach językowych jak GPT
import tiktoken

# Wczytujemy kodowanie "cl100k_base" - to sposób, w jaki tekst będzie dzielony na tokeny, obsługuje polskie znaki
encoding = tiktoken.get_encoding("cl100k_base")

# Zamieniamy tekst "Praca z Tiktoken to jest fajna!" na tokeny (lista liczb) i wyświetlamy je
# Metoda encode() dzieli tekst na małe jednostki, które rozumie model
print(encoding.encode("Praca z Tiktoken jest fajna!")) 

# Zamieniamy listę tokenów z powrotem na tekst i wyświetlamy - to dekodowanie pokazuje, jak tokeny tworzą zdanie
# Wynik to "Inżynieria danych jest świetna do uczenia się sztucznej inteligencji!"
print(encoding.decode([644, 6077, 1910, 1291, 689, 83317, 13599, 83008, 3978, 3458, 656, 26805, 36188, 12951, 10244, 83, 98667, 36900, 90745, 967, 7910, 0]))
# "Inżynieria danych jest świetna do uczenia się sztucznej inteligencji!"

# Definiujemy funkcję count_tokens, która zlicza tokeny w tekście
# Przyjmuje tekst (text_string) i nazwę kodowania (encoding_name), zwraca liczbę tokenów jako liczbę całkowitą (int)
def count_tokens(text_string: str, encoding_name: str) -> int: 
    """
    Zwraca liczbę tokenów w łańcuchu tekstowym korzystając z wybranego kodowania
        Argumenty:
            text: Tekst do tokenizacji
            encoding_name: Nazwa kodowania użytego w trakcie tokenizacji
        Zwraca:
            Liczba tokenów w łańcuchu znaków
        Wyjątki:
            ValueError: Jeśli nazwa kodowania nie jest prawidłowa.
    """
    # Wczytujemy wybrane kodowanie, np. "cl100k_base"
    encoding = tiktoken.get_encoding(encoding_name) 
    # Kodujemy tekst na tokeny i zliczamy ich liczbę za pomocą len()
    num_tokens = len(encoding.encode(text_string)) 
    # Zwracamy liczbę tokenów
    return num_tokens

# Tworzymy tekst "Witaj, świecie! To jest test." i zliczamy jego tokeny za pomocą funkcji
# Wynik pokaże, ile tokenów ma ten tekst w kodowaniu "cl100k_base" (prawdopodobnie 8)
text_string = "Witaj, świecie! To jest test."
print(count_tokens(text_string, "cl100k_base"))

[3617, 17544, 1167, 73842, 5963, 13599, 282, 1662, 3458, 0]
Inżynieria danych jest świetna do uczenia się sztucznej inteligencji!
12


# Ocena odpowiedzi z GPT 3.5 za pomoca GPT 4.0

Opis działania kodu:
1. Kod generuje 10 odpowiedzi na pytanie "What is the meaning of life?" w dwóch wariantach:
   - Zwięzłe (concise) dla indeksów parzystych
   - Rozwlekłe (verbose) dla indeksów nieparzystych
2. Następnie kod używa modelu GPT-4 do oceny każdej odpowiedzi pod kątem zwięzłości.
3. Model ocenia odpowiedzi i zwraca wynik: 1 dla odpowiedzi zwięzłych i 0 dla rozwlekłych.
4. Na końcu kod wyświetla wyniki oceny.

Zastosowanie:

Ten kod można wykorzystać do eksperymentowania z kontrolą stylu odpowiedzi modeli LLM oraz
ich automatycznej oceny. Może być pomocny przy dostrajaniu modeli AI do generowania bardziej
spójnych i użytecznych wyników w zależności od zadanych kryteriów.

In [9]:
import os
from dotenv import load_dotenv
from openai import OpenAI

# Wczytanie zmiennych z pliku .env
load_dotenv()

# Inicjalizujemy klienta OpenAI, przekazując klucz API jako zmienną środowiskową
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))

responses = []  # Tworzymy pustą listę do przechowywania odpowiedzi modelu

# Pętla wykonuje się 10 razy, generując odpowiedzi na pytanie "What is the meaning of life?"
for i in range(10):
    # Określamy styl odpowiedzi: "concise" (zwięzły) dla liczb parzystych, "verbose" (rozwlekły) dla nieparzystych
    style = "concise" if i % 2 == 0 else "verbose"
    
    # Tworzymy prompt, który określa styl odpowiedzi
    prompt = f"Return a {style} answer to the following question: What is the meaning of life?"
    
    # Wysyłamy zapytanie do modelu językowego
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",  # Używamy modelu GPT-3.5 Turbo
        messages=[{"role": "user", "content": prompt}]
    )
    
    # Pobieramy treść odpowiedzi, usuwamy zbędne białe znaki i dodajemy do listy
    responses.append(response.choices[0].message.content.strip())

# Definiujemy prompt systemowy do oceny zwięzłości odpowiedzi
system_prompt = """You are assessing the conciseness of a response from a chatbot. 
You only respond with a 1 if the response is concise, and a 0 if it is not."""

ratings = []  # Tworzymy pustą listę do przechowywania ocen

# Iterujemy po uzyskanych odpowiedziach, aby ocenić ich zwięzłość
for idx, response in enumerate(responses):
    rating = client.chat.completions.create(
        model="gpt-4",  # Używamy modelu GPT-4 do oceny odpowiedzi
        messages=[
            {"role": "system", "content": system_prompt},  # Kontekst dla modelu
            {"role": "system", "content": response}  # Odpowiedź do oceny
        ]
    )
    
    # Pobieramy ocenę, usuwamy zbędne białe znaki i dodajemy do listy
    ratings.append(rating.choices[0].message.content.strip())

# Wyświetlamy wyniki: styl odpowiedzi oraz ocenę zwięzłości
for idx, rating in enumerate(ratings):
    style = "concise" if idx % 2 == 0 else "verbose"  # Określamy styl odpowiedzi
    print(f"Style: {style}, ", f"Rating: {rating}")  # Wypisujemy wynik

Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 1
Style: verbose,  Rating: 0
Style: concise,  Rating: 1
Style: verbose,  Rating: 0


In [12]:
ratings

['0', '0', '0', '0', '0', '0', '1', '0', '1', '0']

## Bardziej szczegółowy prompt

In [15]:
import os
from dotenv import load_dotenv
from openai import OpenAI

# Wczytanie zmiennych z pliku .env
load_dotenv()

# Inicjalizujemy klienta OpenAI, przekazując klucz API jako zmienną środowiskową
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))

responses = []  # Tworzymy pustą listę do przechowywania odpowiedzi modelu

# Pętla wykonuje się 10 razy, generując odpowiedzi na pytanie "What is the meaning of life?"
for i in range(10):
    # Określamy styl odpowiedzi: "concise" (zwięzły) dla liczb parzystych, "verbose" (rozwlekły) dla nieparzystych
    style = "concise" if i % 2 == 0 else "verbose"
    
    # Tworzymy prompt, który określa styl odpowiedzi
    prompt = f"""
    Return a {style} answer to the following question: 
    What is the meaning of life?

    - If "concise": Respond in no more than 10 words.
    - If "verbose": Provide a detailed explanation of at least 50 words.
    """
    
    # Wysyłamy zapytanie do modelu językowego
    response = client.chat.completions.create(
        model="gpt-3.5-turbo",  # Używamy modelu GPT-3.5 Turbo
        messages=[{"role": "user", "content": prompt}]
    )
    
    # Pobieramy treść odpowiedzi, usuwamy zbędne białe znaki i dodajemy do listy
    responses.append(response.choices[0].message.content.strip())

# Bardziej szczegółowy prompt
system_prompt = """You are evaluating whether a response is concise. 
A response is concise if it answers the question in no more than 10 words. 
Respond only with "1" for concise answers and "0" otherwise.""" 

ratings = []  # Tworzymy pustą listę do przechowywania ocen

# Iterujemy po uzyskanych odpowiedziach, aby ocenić ich zwięzłość
for idx, response in enumerate(responses):
    rating = client.chat.completions.create(
        model="gpt-4",  # Używamy modelu GPT-4 do oceny odpowiedzi
        messages=[
            {"role": "system", "content": system_prompt},  # Kontekst dla modelu
            {"role": "system", "content": response}  # Odpowiedź do oceny
        ]
    )
    
    # Pobieramy ocenę, usuwamy zbędne białe znaki i dodajemy do listy
    ratings.append(rating.choices[0].message.content.strip())

# Wyświetlamy wyniki: styl odpowiedzi oraz ocenę zwięzłości
for idx, rating in enumerate(ratings):
    style = "concise" if idx % 2 == 0 else "verbose"  # Określamy styl odpowiedzi
    print(f"Style: {style}, ", f"Rating: {rating}")  # Wypisujemy wynik

Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 1
Style: verbose,  Rating: 0
Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 0
Style: verbose,  Rating: 0
Style: concise,  Rating: 0
Style: verbose,  Rating: 0


In [16]:
ratings

['0', '0', '1', '0', '0', '0', '0', '0', '0', '0']

# Klasyfikacja: Compliment" (komplement), "Complaint" (skarga) lub "Neutral" (neutralny)

Opis działania kodu:

Kod wykonuje klasyfikację podanego tekstu jako "Compliment" (komplement), "Complaint" (skarga) lub "Neutral" (neutralny).
1. Definiujemy szablon prompta, w którym model jest instruowany do zwracania jednej z trzech możliwych kategorii.
2. Trzykrotnie wysyłamy ten sam tekst do modelu GPT-4, by sprawdzić jego spójność i powtarzalność w klasyfikacji.
3. Model odpowiada jedną z trzech możliwych klasyfikacji.
4. Funkcja `most_frequent_classification` analizuje uzyskane odpowiedzi i zwraca najczęściej występującą kategorię.

Zastosowanie:

- Automatyczna analiza opinii klientów (np. z recenzji, czatów czy ankiet).
- Filtrowanie i segmentacja treści na podstawie emocji i sentymentu.
- Tworzenie systemów do moderacji treści, które klasyfikują komentarze użytkowników.

In [19]:
import os
from dotenv import load_dotenv
from openai import OpenAI

load_dotenv()

# Tworzymy klienta OpenAI, pobierając klucz API z zmiennych środowiskowych
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))

# Definiujemy szablon prompta, który będzie używany do klasyfikacji tekstów
base_template = """
Podana wypowiedź powinna zostać sklasyfikowana jako jedna z trzech kategorii: "Pochwała" ("Compliment"), "Skarga" ("Complaint") lub "Neutralna" ("Neutral"):
1. "Słońce świeci." - Neutralna
2. "Wasz zespół wsparcia jest fantastyczny!" - Pochwała
3. "Miałem okropne doświadczenie z waszym oprogramowaniem." - Skarga

Musisz przestrzegać następujących zasad:
- Zwróć wyłącznie jedno słowo klasyfikacji. Odpowiedź powinna być jedną z trzech: "Pochwała", "Skarga" lub "Neutralna".
- Klasyfikacji należy dokonać na podstawie tekstu zamkniętego w ogranicznikach '''.

'''{content}'''

Klasyfikacja:
"""

responses = []  # Lista przechowująca odpowiedzi modelu

# Pętla wykonująca 3 iteracje w celu uzyskania kilku odpowiedzi od modelu
for i in range(0, 10):
    response = client.chat.completions.create(
        model="gpt-4",  # Wybieramy model GPT-4
        messages=[
            {
                "role": "system",  # Określamy rolę jako systemową instrukcję dla modelu
                "content": base_template.format(
                    content="Na zewnątrz pada deszcz, ale mam świetny dzień, po prostu nie rozumiem, jak ludzie żyją, jest mi tak smutno!"
                ),  # Wstawiamy tekst do klasyfikacji w miejsce zmiennej {content}
            }
        ],
    )
    responses.append(response.choices[0].message.content.strip())  # Dodajemy odpowiedź modelu do listy, usuwając ewentualne białe znaki


def most_frequent_classification(responses):
    """
    Funkcja liczy wystąpienia poszczególnych klasyfikacji i zwraca tę, która wystąpiła najczęściej.
    """
    count_dict = {}  # Słownik do przechowywania liczby wystąpień każdej klasyfikacji
    for classification in responses:
        count_dict[classification] = count_dict.get(classification, 0) + 1  # Zwiększamy licznik dla danego wyniku

    return max(count_dict, key=count_dict.get)  # Zwracamy klasyfikację, która pojawiła się najczęściej

print(most_frequent_classification(responses))  # Drukujemy najczęściej występującą klasyfikację z 3 prób

Neutralna


In [20]:
responses

['Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna',
 'Neutralna']

# Walidacja danych wejściowych YAML

Podsumowanie:

Kod ten weryfikuje, czy odpowiedzi w formacie YAML pasują do określonego schematu.
Weryfikowane są następujące aspekty:
1. Odpowiedź musi być listą słowników.
2. Każdy element listy musi zawierać klucze: "item", "quantity" i "unit".
3. Typy danych muszą być zgodne z oczekiwanymi (string dla "item" i "unit", int dla "quantity").
4. Wartości muszą odpowiadać schematowi (np. liczba elementów nie może przekraczać 10, a jednostki muszą być "pieces" lub "dozen").

Można tego kodu użyć do walidacji wejściowych danych YAML, np. w aplikacjach przetwarzających dane zamówień lub list zakupów.

In [21]:
import yaml  # Importujemy bibliotekę yaml do pracy z formatem YAML

# Definiujemy własne klasy wyjątków do obsługi różnych błędów walidacji
class InvalidResponse(Exception):
    pass

class InvalidItemType(Exception):
    pass

class InvalidItemKeys(Exception):
    pass

class InvalidItemName(Exception):
    pass

class InvalidItemQuantity(Exception):
    pass

class InvalidItemUnit(Exception):
    pass

# Przykładowy schemat danych w formacie YAML, określający poprawne elementy i ich właściwości
schema = """
- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Milk
  quantity: 1
  unit: gallon
- item: Bread
  quantity: 2
  unit: loaves
- item: Eggs
  quantity: 1
  unit: dozen
"""

def validate_response(response, schema):
    """
    Funkcja sprawdza, czy odpowiedź spełnia określony schemat.
    :param response: Lista słowników zawierających dane.
    :param schema: Oryginalny schemat w formacie YAML.
    """
    # Parsujemy schemat YAML na listę słowników
    schema_parsed = yaml.safe_load(schema)
    
    # Sprawdzamy, czy odpowiedź jest listą
    if not isinstance(response, list):
        raise InvalidResponse("Response is not a list")
    
    for item in response:
        # Sprawdzamy, czy każdy element listy jest słownikiem
        if not isinstance(item, dict):
            raise InvalidItemType("Response item is not a dictionary")
        
        # Sprawdzamy, czy słownik zawiera wymagane klucze
        if not all(key in item for key in ("item", "quantity", "unit")):
            raise InvalidItemKeys("Response item does not have the correct keys")
        
        # Sprawdzamy, czy wartości dla kluczy są poprawnego typu
        if not isinstance(item["item"], str):
            raise InvalidItemName("Response item name is not a string")
        if not isinstance(item["quantity"], int):
            raise InvalidItemQuantity("Response item quantity is not an integer")
        if not isinstance(item["unit"], str):
            raise InvalidItemUnit("Response item unit is not a string")
        
        # Sprawdzamy, czy wartości znajdują się w schemacie
        if item["item"] not in [x["item"] for x in schema_parsed]:
            raise InvalidItemName("Response item name is not in schema")
        if item["quantity"] > 10:
            raise InvalidItemQuantity("Response item quantity is greater than 10")
        if item["unit"] not in ["pieces", "dozen"]:
            raise InvalidItemUnit("Response item unit is not pieces or dozen")

# Przykładowe odpowiedzi w formacie YAML
fake_response_1 = """
- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Eggs
  quantity: 2
  unit: dozen
"""

fake_response_2 = """
- item: Apple Slices
  quantity: 5
  unit: pieces
"""

fake_response_3 = """Unmatched"""  # Niepoprawna odpowiedź

# Parsowanie odpowiedzi YAML na listę obiektów Python
response_1_parsed = yaml.safe_load(fake_response_1)
response_2_parsed = yaml.safe_load(fake_response_2)
response_3_parsed = yaml.safe_load(fake_response_3)

# Walidacja odpowiedzi według schematu
try:
    validate_response(response_1_parsed, schema)
    print("Response 1 is valid")
except Exception as e:
    print("Response 1 is invalid:", str(e))

try:
    validate_response(response_2_parsed, schema)
    print("Response 2 is valid")
except Exception as e:
    print("Response 2 is invalid:", str(e))

try:
    validate_response(response_3_parsed, schema)
    print("Response 3 is valid")
except Exception as e:
    print("Response 3 is invalid:", str(e))


Response 1 is valid
Response 2 is valid
Response 3 is invalid: Response is not a list
