# one_hierarchical_list_generation.py

## Parsowanie listy hierarchicznej

In [1]:
import re  # Importujemy moduł `re`, który służy do pracy z wyrażeniami regularnymi w Pythonie.

# Przykładowy wynik generacji konspektu artykułu przez OpenAI
openai_result = """
* Introduction
    a. Explanation of data engineering
    b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Definiujemy wzorce wyrażeń regularnych do wyszukiwania nagłówków i podnagłówków
heading_pattern = r"\* (.+)"  # Wzorzec dopasowuje linie zaczynające się od '* ' i przechwytuje treść po gwiazdce.
subheading_pattern = r"\s+[a-z]\. (.+)"  # Wzorzec dopasowuje podpunkty zaczynające się od litery, kropki i spacji.

# Wyszukujemy wszystkie nagłówki pasujące do wzorca `heading_pattern`
headings = re.findall(heading_pattern, openai_result)

# Wyszukujemy wszystkie podnagłówki pasujące do wzorca `subheading_pattern`
subheadings = re.findall(subheading_pattern, openai_result)

# Wyświetlamy znalezione nagłówki
print("Headings:\n")  # Drukujemy nagłówek sekcji
for heading in headings:
    print(f"* {heading}")  # Drukujemy każdy nagłówek, dodając przed nim '* '

# Wyświetlamy znalezione podnagłówki
print("\nSubheadings:\n")  # Przerwa między sekcjami i drukujemy nagłówek sekcji podnagłówków
for subheading in subheadings:
    print(f"* {subheading}")  # Drukujemy każdy podnagłówek, dodając przed nim '* '


'''
Opis działania kodu:

Kod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.
Najpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).
Następnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.

Zastosowanie kodu:
	•	Może być używany do parsowania tekstu z generowanych treści AI.
	•	Przydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.
	•	Może być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.
    '''

Headings:

* Introduction
* Efficient Data Management
* Conclusion

Subheadings:

* Explanation of data engineering
* Importance of data engineering in today’s data-driven world
* Definition of data management
* How data engineering helps in efficient data management.
* Importance of Data Engineering in the modern business world
* Future of Data Engineering and its impact on the data ecosystem


'\nOpis działania kodu:\n\nKod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.\nNajpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).\nNastępnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.\n\nZastosowanie kodu:\n\t•\tMoże być używany do parsowania tekstu z generowanych treści AI.\n\t•\tPrzydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.\n\t•\tMoże być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.\n    '

# two_hierarchical_list_generation.py

## Parsowanie hierarchicznej listy do słownika w Pythonie



In [2]:
import re  # Importujemy moduł `re`, który służy do obsługi wyrażeń regularnych w Pythonie.

# Przykładowy tekst zawierający konspekt artykułu wygenerowany przez OpenAI
openai_result = """
* Introduction
  a. Explanation of data engineering
  b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
    c. Why data engineering is important for data management
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Tworzymy wyrażenie regularne do dopasowania sekcji (główne nagłówki oznaczone "* ")
section_regex = re.compile(r"\* (.+)")

# Tworzymy wyrażenie regularne do dopasowania podsekcji (podpunkty oznaczone literą i kropką, np. "a. ")
subsection_regex = re.compile(r"\s*([a-z]\..+)")

# Inicjalizujemy pusty słownik, w którym przechowywane będą sekcje i ich podsekcje
result_dict = {}

# Zmienna pomocnicza do śledzenia bieżącej sekcji, do której przypisujemy podsekcje
current_section = None

# Przetwarzamy każdą linię tekstu osobno
for line in openai_result.split("\n"):  # Dzielimy cały tekst na linie i iterujemy przez każdą z nich
    section_match = section_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca sekcji
    subsection_match = subsection_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca podsekcji

    if section_match:  # Jeśli linia to nowa sekcja
        current_section = section_match.group(1)  # Pobieramy nazwę sekcji
        result_dict[current_section] = []  # Dodajemy nową sekcję do słownika jako klucz z pustą listą podsekcji
    elif subsection_match and current_section is not None:  # Jeśli linia to podsekcja i mamy aktywną sekcję
        result_dict[current_section].append(subsection_match.group(1))  # Dodajemy podsekcję do odpowiedniej sekcji

# Drukujemy wynikowy słownik zawierający sekcje i podsekcje
print(result_dict)

'''
Opis działania kodu:

Kod analizuje tekst konspektu artykułu i strukturyzuje go w postaci słownika, gdzie:
	•	kluczem są główne sekcje (np. “Introduction”, “Efficient Data Management”, “Conclusion”),
	•	wartościami są listy podsekcji przypisanych do każdej sekcji.

Zastosowanie kodu:
	•	Przetwarzanie i analiza tekstu – np. parsowanie konspektów, dokumentacji czy treści generowanych przez AI.
	•	Konwersja tekstu do strukturyzowanej formy – np. JSON, baza danych, raporty.
	•	Automatyczne wydobywanie informacji – np. kategoryzowanie treści w aplikacjach AI lub NLP.

    '''

{'Introduction': ['a. Explanation of data engineering', 'b. Importance of data engineering in today’s data-driven world'], 'Efficient Data Management': ['a. Definition of data management', 'b. How data engineering helps in efficient data management.', 'c. Why data engineering is important for data management'], 'Conclusion': ['a. Importance of Data Engineering in the modern business world', 'b. Future of Data Engineering and its impact on the data ecosystem']}


# Parsowanie dokumentu JSON za pomocą języka Python
## three_json_parsing.py

In [3]:
import json  # Importujemy moduł `json`, który umożliwia pracę z danymi w formacie JSON w Pythonie.

# Przykładowy wynik w formacie JSON, reprezentujący strukturę konspektu artykułu
openai_json_result = """
{
    "Introduction": [
        "a. Overview of coding and programming languages",
        "b. Importance of coding in today's technology-driven world"],
    "Conclusion": [
        "a. Recap of the benefits of learning code",
        "b. The ongoing importance of coding skills in the modern world"]
}
"""

# Konwertujemy ciąg znaków w formacie JSON na obiekt Pythona (słownik)
parsed_json_payload = json.loads(openai_json_result)

# Drukujemy sparsowany obiekt JSON, który teraz ma postać słownika
print(parsed_json_payload)

'''
Zastosowanie kodu:
	•	Parsowanie danych JSON – przydatne w pracy z danymi pochodzącymi z API, plików JSON czy odpowiedzi AI.
	•	Strukturyzacja danych – umożliwia łatwą organizację i dostęp do informacji.
	•	Przetwarzanie tekstu – użyteczne np. do ekstrakcji informacji z generowanych treści i dalszej ich analizy.

    '''

{'Introduction': ['a. Overview of coding and programming languages', "b. Importance of coding in today's technology-driven world"], 'Conclusion': ['a. Recap of the benefits of learning code', 'b. The ongoing importance of coding skills in the modern world']}


# Listing 3.3. Wykrywanie zdań za pomocą biblioteki spaCy

Ten kod demonstruje podstawowe użycie biblioteki spaCy do podziału tekstu na zdania w języku polskim. Najpierw importuje bibliotekę spaCy i ładuje model językowy dla języka polskiego. Następnie definiuje przykładowy tekst, przetwarza go za pomocą modelu i w pętli wypisuje każde zdanie osobno.

Cel użycia: Tego rodzaju kod można wykorzystać w aplikacjach przetwarzania języka naturalnego (NLP), takich jak analiza tekstu, automatyczne streszczanie, czy ekstrakcja informacji, gdzie potrzebny jest podział tekstu na mniejsze jednostki (zdania). Jest to szczególnie przydatne w analizie dużych ilości tekstu, np. w danych z mediów społecznościowych, artykułów czy książek.

In [4]:
import spacy  # Importuje bibliotekę spaCy, która jest narzędziem do przetwarzania języka naturalnego (NLP), umożliwiającym analizę tekstu, taką jak podział na zdania czy rozpoznawanie części mowy.

nlp = spacy.load("pl_core_news_sm")  # Tworzy obiekt nlp, ładując model językowy dla języka polskiego ("pl_core_news_sm" to mały model dla języka polskiego), który będzie używany do analizy tekstu.

text = "To jest zdanie. To jest inne zdanie."  # Definiuje zmienną tekstową 'text', która zawiera dwa przykładowe zdania oddzielone kropką, jako dane wejściowe do analizy.

doc = nlp(text)  # Przetwarza tekst za pomocą modelu nlp, tworząc obiekt 'doc', który zawiera strukturalną reprezentację tekstu z informacjami o zdaniach, tokenach itp.

for sent in doc.sents:  # Rozpoczyna pętlę, która iteruje przez wszystkie zdania w obiekcie 'doc'; 'doc.sents' to generator zwracający kolejne zdania tekstu.

    print(sent.text)  # Wypisuje tekst każdego zdania; 'sent.text' zwraca ciąg znaków reprezentujący dane zdanie.

OSError: [E050] Can't find model 'pl_core_news_sm'. It doesn't seem to be a Python package or a valid path to a data directory.