## Wprowadzenie

W tym notatniku rozbudujemy podstawowy pipeline danych z ƒÜwiczenia 1 o zaawansowane techniki przetwarzania tekstu zgodnie z architekturƒÖ RAG:

1. Preprocessing danych
2. Techniki chunkowania
3. Generowanie embeding√≥w
4. Indeksowanie i przygotowanie do wyszukiwania

Celem jest przygotowanie danych do efektywnego wykorzystania w modelu RAG (Retrieval-Augmented Generation).



## 1. Instalacja niezbƒôdnych bibliotek

Do przetwarzania tekstu wykorzystamy popularne biblioteki jak LangChain, kt√≥re u≈ÇatwiajƒÖ pracƒô z danymi nieustrukturyzowanymi.



In [None]:

# Instalacja niezbƒôdnych bibliotek
%pip install langchain unstructured PyPDF2 sentence-transformers langchain-community markdown



In [None]:
%pip install markdown


In [None]:
# Import bibliotek
import pandas as pd
import numpy as np
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.text_splitter import MarkdownHeaderTextSplitter
from langchain.document_loaders import PyPDFLoader, TextLoader, DirectoryLoader, UnstructuredMarkdownLoader
from langchain.embeddings import HuggingFaceEmbeddings
import re
from pyspark.ml.feature import MinHashLSH
from pyspark.ml.linalg import Vectors
from pyspark.sql.functions import col, udf
from pyspark.sql.types import ArrayType, FloatType

### üîß ƒÜwiczenie 1: Dodaj w≈Çasny dokument Markdown
Za≈Çadowanie wcze≈õniej przygotowanych danych

In [None]:

# Odczyt danych ustrukturyzowanych z poprzedniego ƒáwiczenia
# Je≈õli w ƒÜwiczeniu 1 zapisali≈õmy dane do tabel Delta, mo≈ºemy je odczytaƒá:
try:
    df_structured = spark.table("customer_data")
    print(f"Odczytano dane ustrukturyzowane, liczba wierszy: {df_structured.count()}")
except:
    print("Brak tabeli customer_data - utw√≥rz przyk≈Çadowe dane")
    
    # Przyk≈Çadowe dane je≈õli tabela nie istnieje
    data = [("1", "Przewodnik u≈ºytkownika", "To jest przewodnik u≈ºytkownika opisujƒÖcy funkcje produktu..."),
            ("2", "FAQ", "Najczƒô≈õciej zadawane pytania dotyczƒÖce instalacji i konfiguracji..."),
            ("3", "Instrukcja techniczna", "Specyfikacja techniczna produktu zawierajƒÖca szczeg√≥≈Çowe parametry...")]
    
    df_structured = spark.createDataFrame(data, ["id", "title", "content"])
    df_structured.write.format("delta").mode("overwrite").saveAsTable("customer_data")
    print(f"Utworzono przyk≈Çadowe dane, liczba wierszy: {df_structured.count()}")


## 2. Odczyt danych nieustrukturyzowanych z poprzedniego ƒáwiczenia

Za≈Ç√≥≈ºmy, ≈ºe w poprzednim ƒáwiczeniu po≈ÇƒÖczyli≈õmy siƒô z r√≥≈ºnymi ≈∫r√≥d≈Çami danych i zapisali≈õmy je w formacie Delta Lake. Teraz odczytamy te dane i przygotujemy je do dalszego przetwarzania.



In [None]:
# ≈öcie≈ºka do Volume (uwaga: /Volumes/<catalog>/<schema>/<volume_name>/)
volume_path = "/Volumes/sqlday_edbworkshop/default/workshop_volume/docs/"

import os

# Upewnij siƒô, ≈ºe folder docelowy istnieje (mo≈ºesz to pominƒÖƒá ‚Äì os.makedirs nie musi byƒá konieczne dla Volume)
os.makedirs(volume_path, exist_ok=True)

sample_texts = [
    "# Dokumentacja produktu\n\nNasz produkt oferuje zaawansowane funkcje analityczne...\n\n## Instalacja\n\nAby zainstalowaƒá produkt, wykonaj nastƒôpujƒÖce kroki...\n\n## Konfiguracja\n\nKonfiguracja produktu wymaga...",
    "# Przewodnik u≈ºytkownika\n\nW tym przewodniku opisujemy krok po kroku jak korzystaƒá z...\n\n## Funkcje podstawowe\n\nPodstawowe funkcje obejmujƒÖ...\n\n## Funkcje zaawansowane\n\nZaawansowane funkcje pozwalajƒÖ na...",
    "# FAQ\n\n## Jak zresetowaƒá has≈Ço?\n\nAby zresetowaƒá has≈Ço, przejd≈∫ do ustawie≈Ñ...\n\n## Jak utworzyƒá nowy projekt?\n\nAby utworzyƒá nowy projekt, kliknij przycisk 'Nowy projekt'..."
]

# Zapis plik√≥w do Volume
for i, text in enumerate(sample_texts):
    with open(f"{volume_path}dokument_{i+1}.md", "w") as f:
        f.write(text)

print(f"‚úÖ Utworzono przyk≈Çadowe pliki w: {volume_path}")


In [None]:

from langchain.document_loaders import DirectoryLoader, UnstructuredMarkdownLoader

try:
    loader = DirectoryLoader(
        path=volume_path,
        glob="**/*.md",
        loader_cls=UnstructuredMarkdownLoader
    )
    documents = loader.load()
    print(f"‚úÖ Za≈Çadowano {len(documents)} dokument√≥w")
except Exception as e:
    print(f"‚ùå B≈ÇƒÖd przy ≈Çadowaniu dokument√≥w: {e}")
    documents = []


## 3. Preprocessing danych

Przed chunkingiem nale≈ºy przeprowadziƒá czyszczenie i wzbogacanie danych:
- Czyszczenie tekstu
- Dodanie metadanych



In [None]:

# 3.1 Czyszczenie tekstu
def clean_text(text):
    """Funkcja czyszczƒÖca tekst z niepotrzebnych znak√≥w i formatowania"""
    # Usuwanie nadmiarowych bia≈Çych znak√≥w
    text = re.sub(r'\s+', ' ', text)
    # Usuwanie znak√≥w specjalnych, kt√≥re mogƒÖ zak≈Ç√≥caƒá analizƒô
    text = re.sub(r'[^\w\s.,;:!?()-]', '', text)
    return text.strip()

# Czyszczenie tekst√≥w w dokumentach
cleaned_documents = []
for doc in documents:
    cleaned_text = clean_text(doc.page_content)
    doc.page_content = cleaned_text
    cleaned_documents.append(doc)

# 3.2 Dodanie metadanych
for i, doc in enumerate(cleaned_documents):
    # Dodanie dodatkowych metadanych
    doc.metadata["doc_id"] = f"doc_{i}"
    doc.metadata["doc_type"] = "markdown"  # Lub inny typ, w zale≈ºno≈õci od rzeczywistych danych
    doc.metadata["importance"] = "high" if "FAQ" in doc.page_content else "medium"



## 4. Chunkowanie danych

Implementacja r√≥≈ºnych strategii chunkowania tekstu:
1. Fixed-size chunking - sta≈Çej wielko≈õci
2. Paragraph-based chunking - na podstawie paragraf√≥w
3. Format-specific chunking - bazujƒÖce na formatowaniu
4. Semantic chunking - semantyczne (om√≥wimy koncepcjƒô)



In [None]:

# 4.1 Fixed-size chunking
def fixed_size_chunking(documents, chunk_size=500, chunk_overlap=50):
    """Dzieli dokumenty na chunki o sta≈Çej wielko≈õci"""
    text_splitter = CharacterTextSplitter(
        separator="\n\n",
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len
    )
    
    chunks = []
    for doc in documents:
        doc_chunks = text_splitter.create_documents(
            [doc.page_content], 
            metadatas=[doc.metadata]
        )
        chunks.extend(doc_chunks)
    
    return chunks

# 4.2 Paragraph-based chunking
def paragraph_based_chunking(documents, chunk_size=1000, chunk_overlap=100):
    """Dzieli dokumenty na chunki bazujƒÖc na paragrafach"""
    text_splitter = RecursiveCharacterTextSplitter(
        separators=["\n\n", "\n", ". ", " ", ""],
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len
    )
    
    chunks = []
    for doc in documents:
        doc_chunks = text_splitter.create_documents(
            [doc.page_content], 
            metadatas=[doc.metadata]
        )
        chunks.extend(doc_chunks)
    
    return chunks

# 4.3 Format-specific chunking (dla Markdown)
def markdown_header_chunking(documents):
    """Dzieli dokumenty Markdown na podstawie nag≈Ç√≥wk√≥w"""
    markdown_splitter = MarkdownHeaderTextSplitter(
        headers_to_split_on=[
            ("#", "header_1"),
            ("##", "header_2"),
            ("###", "header_3"),
        ]
    )
    
    chunks = []
    for doc in documents:
        # Pobierz oryginalne metadane
        original_metadata = doc.metadata
        
        # Podziel tekst wed≈Çug nag≈Ç√≥wk√≥w Markdown
        md_header_splits = markdown_splitter.split_text(doc.page_content)
        
        # Dodaj oryginalne metadane do ka≈ºdego chunka
        for chunk in md_header_splits:
            # Po≈ÇƒÖcz metadane z podzia≈Çu z oryginalnymi metadanymi
            combined_metadata = {**chunk.metadata, **original_metadata}
            chunk.metadata = combined_metadata
            chunks.append(chunk)
    
    return chunks

# 4.4 Semantic chunking (koncepcja)
def semantic_chunking_concept():
    """
    Wyja≈õnienie koncepcji semantic chunking.
    
    W rzeczywistej implementacji u≈ºywaliby≈õmy modelu embedowania do analizy semantycznej i 
    dzielenia tekstu na podstawie zmian w tematyce.
    
    Mo≈ºliwe implementacje:
    1. U≈ºycie algorytm√≥w segmentacji tematu
    2. U≈ºycie klastrowania embedding√≥w zda≈Ñ
    3. Wykrywanie zmian w wektorach embedding√≥w dla sƒÖsiednich fragment√≥w tekstu
    """
    print("""
    Semantic Chunking:
    
    1. Obliczanie embedding√≥w dla ka≈ºdego zdania lub paragrafu
    2. Wykrywanie naturalnych granic tematycznych przez analizƒô odleg≈Ço≈õci wektor√≥w
    3. Grupowanie zda≈Ñ o podobnej semantyce
    4. Dzielenie na chunki w miejscach, gdzie nastƒôpuje wiƒôksza zmiana semantyczna
    
    W praktyce wymaga to:
    - Modelu embedding√≥w (np. sentence-transformers)
    - Algorytmu segmentacji (np. TextTiling)
    - Technik klastrowania (np. DBSCAN, k-means)
    """)
    
    return None  # W rzeczywistej implementacji zwracaliby≈õmy chunki



### üîß ƒÜwiczenie 1: Przetestuj r√≥≈ºne formy chunkowania


## 5. Generowanie embedding√≥w

Konwersja chunk√≥w tekstu na wektory embedding√≥w, kt√≥re bƒôdƒÖ u≈ºywane do wyszukiwania podobie≈Ñstwa semantycznego.



In [None]:

# Inicjalizacja modelu embedding√≥w
# W produkcyjnym ≈õrodowisku mo≈ºna u≈ºyƒá OpenAI, Azure OpenAI lub innych modeli
model_name = "sentence-transformers/all-MiniLM-L6-v2"  # Ma≈Çy model do cel√≥w demonstracyjnych
embedding_model = HuggingFaceEmbeddings(model_name=model_name)

# Generowanie embedding√≥w dla chunk√≥w tekstu
if len(selected_chunks) > 0:
    # Generowanie embedding√≥w
    chunk_texts = [chunk.page_content for chunk in selected_chunks]
    embeddings = embedding_model.embed_documents(chunk_texts)
    
    print(f"Wygenerowano {len(embeddings)} embedding√≥w.")
    print(f"Wymiar embeddingu: {len(embeddings[0])}")
    
    # Konwersja na format DataFrame do dalszego przetwarzania
    embedding_rows = []
    for i, (chunk, emb) in enumerate(zip(selected_chunks, embeddings)):
        # Tworzymy wiersz z chunkiem tekstu, metadanymi i embeddingiem
        metadata_str = str(chunk.metadata)  # Konwersja s≈Çownika metadanych na string
        embedding_rows.append((i, chunk.page_content, metadata_str, emb))
    
    # Schemat DataFrame
    from pyspark.sql.types import StructType, StructField, IntegerType, StringType, ArrayType, FloatType
    
    embedding_schema = StructType([
        StructField("id", IntegerType(), False),
        StructField("content", StringType(), True),
        StructField("metadata", StringType(), True),
        StructField("embedding", ArrayType(FloatType()), True)
    ])
    
    # Tworzenie DataFrame
    embedding_df = spark.createDataFrame(embedding_rows, schema=embedding_schema)
    
    # Zapisanie do tabeli Delta dla dalszego u≈ºycia
    embedding_df.write.format("delta").mode("overwrite").saveAsTable("document_embeddings")
    
    print("Zapisano embeddingi do tabeli 'document_embeddings'")
else:
    print("Brak chunk√≥w do generowania embedding√≥w")



## 6. Indeksowanie i przechowywanie

Przygotowanie indeksu wektorowego do efektywnego wyszukiwania podobnych dokument√≥w.

W Databricks mo≈ºemy wykorzystaƒá Mosaic AI Vector Search do tego celu.



In [None]:

# Konfiguracja Mosaic AI Vector Search w Databricks
# W rzeczywistym ≈õrodowisku nale≈ºy u≈ºyƒá odpowiednich parametr√≥w dla klastra
try:
    # Sprawdzenie czy tabela z embeddingami istnieje
    embedding_count = spark.table("document_embeddings").count()
    
    if embedding_count > 0:
        # Kreowanie Vector Search Index
        # Uwaga: Poni≈ºszy kod jest koncepcyjny i mo≈ºe wymagaƒá dostosowania
        # do rzeczywistej wersji Databricks i dostƒôpnych funkcji
        
        print("""
        Krok koncepcyjny - tworzenie indeksu wektorowego:
        
        W Databricks Mosaic Vector Search utworzyliby≈õmy indeks:
        
        1. W interfejsie Databricks:
           - Przejd≈∫ do zak≈Çadki "Catalog"
           - Wybierz "Vector Search" 
           - Utw√≥rz nowy indeks wskazujƒÖc tabelƒô "document_embeddings"
           - Wybierz kolumnƒô "embedding" jako ≈∫r√≥d≈Ço wektor√≥w
           - Skonfiguruj parametry indeksu (np. wymiar, metrykƒô)
        
        2. Alternatywnie za pomocƒÖ kodu:
           ```
           from databricks.vector_search.client import VectorSearchClient
           
           vsc = VectorSearchClient()
           
           vsc.create_index(
               index_name="document_search_index",
               primary_key="id",
               embedding_source={
                   "table_name": "document_embeddings",
                   "embedding_column": "embedding",
                   "dim": len(embeddings[0])
               },
               fields=[{"name": "content", "type": "STRING"}, 
                      {"name": "metadata", "type": "STRING"}]
           )
           ```
        
        3. Po utworzeniu indeksu mo≈ºemy wykonywaƒá wyszukiwania:
           ```
           query_embedding = embedding_model.embed_query("Jak zresetowaƒá has≈Ço?")
           
           results = vsc.query(
               index_name="document_search_index",
               query_vector=query_embedding,
               num_results=5
           )
           ```
        """)
    else:
        print("Brak danych w tabeli 'document_embeddings'")

except Exception as e:
    print(f"B≈ÇƒÖd przy dostƒôpie do danych: {e}")



## 7. Testowanie wyszukiwania (symulacja)

Symulacja wyszukiwania w indeksie wektorowym przy u≈ºyciu embedding√≥w.



In [None]:

# Symulacja wyszukiwania (bez faktycznego indeksu Vector Search)
if 'embedding_model' in locals() and len(selected_chunks) > 0:
    # Zapytanie testowe
    query = "Jak zresetowaƒá has≈Ço u≈ºytkownika?"
    query_embedding = embedding_model.embed_query(query)
    
    print(f"Zapytanie: '{query}'")
    print(f"Wygenerowano embedding zapytania o wymiarze {len(query_embedding)}")
    
    # Funkcja do obliczania podobie≈Ñstwa cosinusowego
    def cosine_similarity(vec1, vec2):
        dot_product = np.dot(vec1, vec2)
        norm_vec1 = np.linalg.norm(vec1)
        norm_vec2 = np.linalg.norm(vec2)
        return dot_product / (norm_vec1 * norm_vec2)
    
    # Symulacja wyszukiwania przez obliczenie podobie≈Ñstwa z ka≈ºdym chunkiem
    similarities = []
    for i, (chunk, emb) in enumerate(zip(selected_chunks, embeddings)):
        sim_score = cosine_similarity(query_embedding, emb)
        similarities.append((i, chunk, sim_score))
    
    # Sortowanie wynik√≥w wed≈Çug podobie≈Ñstwa (malejƒÖco)
    similarities.sort(key=lambda x: x[2], reverse=True)
    
    # Wy≈õwietlenie najlepszych dopasowa≈Ñ
    print("\nNajlepsze dopasowania:")
    for i, (chunk_id, chunk, score) in enumerate(similarities[:3]):
        print(f"\nWynik {i+1} (Podobie≈Ñstwo: {score:.4f}):")
        print(f"Tre≈õƒá: {chunk.page_content[:150]}...")
        print(f"Metadane: {chunk.metadata}")
else:
    print("Brak danych do symulacji wyszukiwania")



## 8. Podsumowanie i dalsze kroki

W tym notatniku zaimplementowali≈õmy:

1. Preprocessing danych tekstowych
2. R√≥≈ºne strategie chunkowania
3. Generowanie embedding√≥w
4. Koncepcjƒô indeksowania wektorowego
5. Symulacjƒô wyszukiwania semantycznego

W kolejnym ƒáwiczeniu wykorzystamy te komponenty do budowy pe≈Çnego systemu RAG (Retrieval-Augmented Generation) integrujƒÖcego model jƒôzykowy.

**Dalsze kroki:**
- Integracja z LLM (np. Azure OpenAI)
- Budowa interfejsu zapyta≈Ñ
- Ewaluacja i optymalizacja wynik√≥w
