# one_hierarchical_list_generation.py

## Parsowanie listy hierarchicznej

In [1]:
import re  # Importujemy moduł `re`, który służy do pracy z wyrażeniami regularnymi w Pythonie.

# Przykładowy wynik generacji konspektu artykułu przez OpenAI
openai_result = """
* Introduction
    a. Explanation of data engineering
    b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Definiujemy wzorce wyrażeń regularnych do wyszukiwania nagłówków i podnagłówków
heading_pattern = r"\* (.+)"  # Wzorzec dopasowuje linie zaczynające się od '* ' i przechwytuje treść po gwiazdce.
subheading_pattern = r"\s+[a-z]\. (.+)"  # Wzorzec dopasowuje podpunkty zaczynające się od litery, kropki i spacji.

# Wyszukujemy wszystkie nagłówki pasujące do wzorca `heading_pattern`
headings = re.findall(heading_pattern, openai_result)

# Wyszukujemy wszystkie podnagłówki pasujące do wzorca `subheading_pattern`
subheadings = re.findall(subheading_pattern, openai_result)

# Wyświetlamy znalezione nagłówki
print("Headings:\n")  # Drukujemy nagłówek sekcji
for heading in headings:
    print(f"* {heading}")  # Drukujemy każdy nagłówek, dodając przed nim '* '

# Wyświetlamy znalezione podnagłówki
print("\nSubheadings:\n")  # Przerwa między sekcjami i drukujemy nagłówek sekcji podnagłówków
for subheading in subheadings:
    print(f"* {subheading}")  # Drukujemy każdy podnagłówek, dodając przed nim '* '


'''
Opis działania kodu:

Kod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.
Najpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).
Następnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.

Zastosowanie kodu:
	•	Może być używany do parsowania tekstu z generowanych treści AI.
	•	Przydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.
	•	Może być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.
    '''

Headings:

* Introduction
* Efficient Data Management
* Conclusion

Subheadings:

* Explanation of data engineering
* Importance of data engineering in today’s data-driven world
* Definition of data management
* How data engineering helps in efficient data management.
* Importance of Data Engineering in the modern business world
* Future of Data Engineering and its impact on the data ecosystem


'\nOpis działania kodu:\n\nKod ten analizuje tekst zawierający konspekt artykułu i wyodrębnia z niego nagłówki oraz podnagłówki za pomocą wyrażeń regularnych.\nNajpierw definiujemy wzorce do rozpoznawania nagłówków (sekcji oznaczonych * np. “Introduction”) i podnagłówków (elementów oznaczonych a., b. itp.).\nNastępnie, za pomocą funkcji re.findall(), wyszukujemy pasujące fragmenty w tekście i wyświetlamy je w czytelnej formie.\n\nZastosowanie kodu:\n\t•\tMoże być używany do parsowania tekstu z generowanych treści AI.\n\t•\tPrzydaje się w przetwarzaniu tekstu, np. do ekstrakcji informacji ze strukturalnych dokumentów.\n\t•\tMoże być wykorzystany do automatycznej analizy dokumentacji, np. w systemach zarządzania treścią.\n    '

# two_hierarchical_list_generation.py

## Parsowanie hierarchicznej listy do słownika w Pythonie



In [2]:
import re  # Importujemy moduł `re`, który służy do obsługi wyrażeń regularnych w Pythonie.

# Przykładowy tekst zawierający konspekt artykułu wygenerowany przez OpenAI
openai_result = """
* Introduction
  a. Explanation of data engineering
  b. Importance of data engineering in today’s data-driven world
* Efficient Data Management
    a. Definition of data management
    b. How data engineering helps in efficient data management.
    c. Why data engineering is important for data management
* Conclusion
    a. Importance of Data Engineering in the modern business world
    b. Future of Data Engineering and its impact on the data ecosystem
"""

# Tworzymy wyrażenie regularne do dopasowania sekcji (główne nagłówki oznaczone "* ")
section_regex = re.compile(r"\* (.+)")

# Tworzymy wyrażenie regularne do dopasowania podsekcji (podpunkty oznaczone literą i kropką, np. "a. ")
subsection_regex = re.compile(r"\s*([a-z]\..+)")

# Inicjalizujemy pusty słownik, w którym przechowywane będą sekcje i ich podsekcje
result_dict = {}

# Zmienna pomocnicza do śledzenia bieżącej sekcji, do której przypisujemy podsekcje
current_section = None

# Przetwarzamy każdą linię tekstu osobno
for line in openai_result.split("\n"):  # Dzielimy cały tekst na linie i iterujemy przez każdą z nich
    section_match = section_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca sekcji
    subsection_match = subsection_regex.match(line)  # Sprawdzamy, czy linia pasuje do wzorca podsekcji

    if section_match:  # Jeśli linia to nowa sekcja
        current_section = section_match.group(1)  # Pobieramy nazwę sekcji
        result_dict[current_section] = []  # Dodajemy nową sekcję do słownika jako klucz z pustą listą podsekcji
    elif subsection_match and current_section is not None:  # Jeśli linia to podsekcja i mamy aktywną sekcję
        result_dict[current_section].append(subsection_match.group(1))  # Dodajemy podsekcję do odpowiedniej sekcji

# Drukujemy wynikowy słownik zawierający sekcje i podsekcje
print(result_dict)

'''
Opis działania kodu:

Kod analizuje tekst konspektu artykułu i strukturyzuje go w postaci słownika, gdzie:
	•	kluczem są główne sekcje (np. “Introduction”, “Efficient Data Management”, “Conclusion”),
	•	wartościami są listy podsekcji przypisanych do każdej sekcji.

Zastosowanie kodu:
	•	Przetwarzanie i analiza tekstu – np. parsowanie konspektów, dokumentacji czy treści generowanych przez AI.
	•	Konwersja tekstu do strukturyzowanej formy – np. JSON, baza danych, raporty.
	•	Automatyczne wydobywanie informacji – np. kategoryzowanie treści w aplikacjach AI lub NLP.

    '''

{'Introduction': ['a. Explanation of data engineering', 'b. Importance of data engineering in today’s data-driven world'], 'Efficient Data Management': ['a. Definition of data management', 'b. How data engineering helps in efficient data management.', 'c. Why data engineering is important for data management'], 'Conclusion': ['a. Importance of Data Engineering in the modern business world', 'b. Future of Data Engineering and its impact on the data ecosystem']}
