# Laboratorium 3: RegExp vs LLM  
### Ekstrakcja informacji, polska fleksja, daty i rachunki bankowe

---

## Źródło danych

**Korpus:** https://huggingface.co/datasets/uonlp/CulturaX

**Split:** `pl`  

**Licencja:** MIT-like / CC (sprawdź kartę datasetu).

Tu można poczytać o korpusie: https://arxiv.org/abs/2309.09400

Zawiera spam, HTML i treści obcojęzyczne.  

Każdy i każda z Was ma obowiązek samodzielnie oczyścić dane – to element oceny laboratorium.



**Cele laboratorium**

1. Zaimplementowanie wyrażeń regularnych (RegExp) do wyszukiwania w języku polskim struktur takich jak:  
   - daty (numeryczne i słowne),  

   - godziny,  
   - kwoty PLN,  
   - e-maile, telefony, URLe,  
   - numery kont bankowych (IBAN/NRB),  
   - formy fleksyjne na przykładzie „człowiek” / „ludzie”.  

2. Zbudowanie promptów LLM (Ollama / LM Studio) wykonujących te same zadania.  

3. Porównanie skuteczności i czasu pracy RegExp vs LLM.  

4. Przygotowanie raportu i propozycji rozwiązania hybrydowego.



## 1. Przygotowanie środowiska

### Instalacje
```bash
pip install datasets regex pandas matplotlib rapidfuzz
pip install langdetect
```

co robi każda z tych bibliotek i dlaczego są potrzebne w laboratorium:

`datasets` -- umożliwia łatwe pobieranie i przetwarzanie dużych zbiorów danych (datasetów) w języku Python z `HuggingDace`.

Użycie w laboratorium:

- wczytanie korpusu CulturaX  (load_dataset("uonlp/CulturaX",  "pl", use_auth_token=True)
- filtrowanie, losowanie i iteracja po tekstach,
- eksport danych po czyszczeniu.

Używanie `datasets` to standardowy sposób pracy z otwartymi korpusami językowymi.



`regex `-- ulepszony moduł Pythona dla wyrażeń regularnych (`re`), pozwala na bardziej zaawansowane dopasowania niż wbudowany `re`, np.:

- pełna obsługa Unicode (ważna dla polskich znaków),

- możliwość tzw. overlapping matches,
- wsparcie dla nazwanych grup i rekurencji.

Użycie w laboratorium: dopasowywanie dat, IBAN-ów, miesięcy, form fleksyjnych itp.

W kontekście polskiego tekstu `regex` jest dokładniejszy niż `re`.



`pandas` -- operacje tabelaryczne, przetwarzanie wyników, tworzenie raportów. Umożliwia prostą analizę ilościową wyników ekstrakcji.

Użycie w laboratorium:

- przechowywanie wyników ekstrakcji,
- liczenie metryk Precision/Recall/F1,
- generowanie tabel porównawczych RegExp vs LLM.



`rapidfuzz` -- biblioteka podobna do `fuzzywuzzy`, ale znacznie szybsza. Dopasowuje teksty przy niewielkich różnicach (np. literówki, brak spacji). Pomaga w precyzyjniejszej ocenie trafności ekstrakcji.

Użycie w laboratorium:

- ocena dopasowań RegExp i LLM z tolerancją na błędy,
- np. „wrzesien” vs „wrzesień”, „PL441090…” vs „PL 44 1090 …”.



## 2. Korpus CulturaX

### 2.1. Pobranie i próbka

```
from datasets import load_dataset
ds = load_dataset("uonlp/CulturaX",
                  "pl",
                  use_auth_token=True)
```

Zawsze warto próbkować pobrany korpus, żeby lepiej dostosować warsztat do pracy z danymi. Kiedy zobaczymy fragment korpusu, możemy dojść do wniosku, że dane wymagają oczyszczenia.



### 2.2. Czyszczenie

CulturaX to dane z sieci i jako takie dane te mogą wymagać filtracji. Czyszczenie danych to indywidualna kwestia zależąca od wnikliwego wglądu w dane, spostrzegawczości, determinacji i wychwycenia wzorców, dlatego będzie podlegała ona ocenie. Opisz w sprawozdaniu, jak czyściłeś / czyściłaś dane i dlaczego ten sposób jest Twoim zdaniem najlepszy.



## 3. RegExp — ekstrakcja wzorców

### 3.1. Daty i godziny

Wzorce dla dat i godzin:

```bash
# miejsce na Twój kod
```



### 3.2. Daty słowne i miesiące

Wzorce dla dat napisanych w możliwie wielu formatach

```
# miejsce na Twój kod
```



### 3.3. E-mail, telefon, URL

Wzorce dla maili, numerów telefonów i linków napisanych w możliwie wielu formatach

```
# miejsce na Twój kod
```



### 3.4. Kwoty PLN

Kwoty podawane w złotówkach

```
# miejsce na Twój kod
```



### 3.5. Konto bankowe (IBAN / NRB)

Wzorce dla numerów kont bankowych napisanych w możliwie wielu formatach

```
# miejsce na Twój kod
```



### 3.6. Fleksja „człowiek/ludzie”

Wzorce dla form fleksyjnych rzeczownika człowiek

```
# miejsce na Twój kod
```



## 4. LLM — ekstrakcja tymi samymi kategoriami

### Przykład prompta dla wyszukiwania daty 

(UWAGA: prompt jest niepełny i nie zawiera wskazania na zawiłości fleksyjne języka polskiego.)

```
Jesteś ekstraktorem wzorców.  
Zwracasz TYLKO JSON {"matches":[...]}.
Wypisz wszystkie daty (YYYY-MM-DD, D.M.YYYY, D miesiąc [YYYY]).
Tekst:
"""
{{TEKST}}
"""
Jeśli brak, zwróć {"matches":[]}.
```



## 5. Ewaluacja

### 5.1. Złoty standard

Oznacz ręcznie prawidłowe dopasowania (min. 500–1000 zdań, co najmniej 2 kategorie) z wyczyszczonego zbioru.

UWAGA: czyszczenie nie polega na usuwaniu czegokolwiek, istotne informacje w tekstach nadal powinny zostać.

### 5.2. Metryki

```
def prf1(gold, pred):
    G, P = set(gold), set(pred)
    tp = len(G & P)
    prec = tp / len(P) if P else 0
    rec  = tp / len(G) if G else 0
    f1   = 2 * prec * rec / (prec + rec) if (prec + rec) else 0
    return prec, rec, f1
```

### 5.3. Tabela wyników

Przykładowa prezentacja wyników może wyglądać następująco:

| Kategoria   | Metoda | Precision | Recall | F1   | Czas [s] |
| ----------- | ------ | --------- | ------ | ---- | -------- |
| Daty słowne | RegExp |           |        |      |          |
| Daty słowne | LLM    |           |        |      |          |
| IBAN        | RegExp |           |        |      |          |
| IBAN        | LLM    |           |        |      |          |
| Człowiek    | RegExp |           |        |      |          |
| Człowiek    | LLM    |           |        |      |          |

------

## 6. Wizualizacje

- Histogram godzin (HH:MM → HH)
- Histogram miesięcy (marzec/marca → marzec)
- Porównanie liczby trafień poprawnych: RegExp vs LLM
- Opcjonalnie wykres błędów (false positive/false negative)

------

## 7. Raport do oddania

### Zawartość sprawozdania

- Wzorce RegExp z krótkim komentarzem i przykładami trafień/błędów.
- Prompty użyte dla obu modeli, przykładowe odpowiedzi (fragmenty + zrzuty ekranu/CLI).
- Tabela wyników (dla min. 2 kategorii).

Wnioski: co działa lepiej i kiedy? Jakie wzorce są „łatwe” / „trudne” dla LLM vs RegExp?

------

## 8. Pytania o umiejętności modeli

Odpowiedz zwięźle (1–4 zdania na punkt) na poniższe pytania. Wnioski sformułuj na podstawie swoich testów:

1. Polskie znaki i fleksja: czy modele poprawnie rozpoznają słowa z diakrytykami? czy mylą formy?
2. Deterministyczność: jak `temperature` wpływa na stabilność listy dopasowań? czy `temperature=0` eliminuje różnice?
3. Precyzja vs. uogólnienie: kiedy LLM uogólnia zbyt mocno (FP), a kiedy RegExp gubi rzadkie przypadki (FN)?
4. Odporność na szum: literówki w e-mailach/linkach — kto radzi sobie lepiej i dlaczego?
5. Skalowanie z długością: jak długość kontekstu wpływa na trafność narzędzi? Czy dzielenie na akapity pomaga?
6. Formatowanie wyjścia: jak często model zwraca niepoprawny JSON? co pomaga (instrukcje, kilka przykładów)?
7. Transfer między kategoriami: czy prompt do dat łatwo przerobić na inny IBAN → telefony/kwoty? czy model myli się między kategoriami?
8. Bielik vs Llama/Gemma/inny model: różnice jakościowe (i prędkościowe) w Twoim środowisku.

**Podsumowanie:**

 Kiedy wybrał(a)byś RegExp, a kiedy LLM?
 Jak można połączyć oba podejścia (np. RegExp do walidacji wyników modelu)? Zaproponuj rozwiązanie.

In [7]:
import regex as re
from datasets import load_dataset
import pandas as pd
import ollama
import json
import time
from collections import defaultdict
import matplotlib.pyplot as plt

# Przykładowa, BARDZO PROSTA funkcja czyszcząca.
# W prawdziwym laboratorium powinna być ona znacznie bardziej rozbudowana.
def clean_text(text):
    """Proste czyszczenie tekstu."""
    if not isinstance(text, str):
        return ""
    
    # Usuń tagi HTML (prosta wersja)
    text = re.sub(r'<[^>]+>', ' ', text)
    
    # Usuń nadmiarowe białe znaki
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Można dodać usuwanie URLi, jeśli nie są celem ekstrakcji
    # text = re.sub(r'http\S+', '', text)
    
    # Normalizuj encje HTML (np. &nbsp;)
    text = text.replace('&nbsp;', ' ').replace('&amp;', '&')
    
    return text

sample_data = pd.read_parquet("pl_part_00000.parquet")
    
cleaned_data = [clean_text(item) for item in sample_data["text"]]

In [None]:
dataaa = cleaned_data

In [21]:
cleaned_data = dataaa[:200]

In [22]:
len(cleaned_data)

200

In [23]:
# --- 3. RegExp — ekstrakcja wzorców ---

# --- 3.1. Daty (numeryczne) i godziny ---
REGEX_TIME = r'\b(2[0-3]|[01]?[0-9]):([0-5][0-9])(:[0-5][0-9])?\b'
REGEX_DATE_ISO = r'\b(19|20)\d{2}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])\b'
REGEX_DATE_PL_NUM = r'\b(0?[1-9]|[12]\d|3[01])[\./\s](0?[1-9]|1[0-2])[\./\s]((?:19|20)\d{2})\b'

# --- 3.2. Daty słowne i miesiące ---
MONTHS_NOM = [
    'styczeń', 'luty', 'marzec', 'kwiecień', 'maj', 'czerwiec', 
    'lipiec', 'sierpień', 'wrzesień', 'październik', 'listopad', 'grudzień'
]
MONTHS_GEN = [
    'stycznia', 'lutego', 'marca', 'kwietnia', 'maja', 'czerwca', 
    'lipca', 'sierpnia', 'września', 'października', 'listopada', 'grudnia'
]
ALL_MONTHS = '|'.join(MONTHS_NOM + MONTHS_GEN)
REGEX_DATE_WORD = rf'\b(0?[1-9]|[12]\d|3[01])\s+({ALL_MONTHS})(\s+((?:19|20)\d{2})(?:\s*r\.?)?)?\b'

# --- 3.3. E-mail, telefon, URL ---
REGEX_EMAIL = r'\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}\b'
REGEX_PHONE_PL = r'\b(?:(?:\+?48)?[ \-]?)?(?:[1-9]\d{2}[ \-]?\d{3}[ \-]?\d{3}|[1-9]\d{8}|[1-9]\d[ \-]\d{3}[ \-]\d{2}[ \-]\d{2})\b'
REGEX_URL = r'\b(?:https?://|www\.)[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,}(?:[^\s]*)?\b'

# --- 3.4. Kwoty PLN ---
REGEX_PLN = r'\b\d{1,3}(?:[\s\']?\d{3})*([,.]\d{2})?\s*(zł|PLN|złotych)\b'

# --- 3.5. Konto bankowe (IBAN / NRB) ---
REGEX_IBAN_PL = r'\bPL(?:\s*\d{2}(?:\s*\d{4}){6}|\d{26})\b'

# --- 3.6. Fleksja „człowiek/ludzie” ---
REGEX_INFLECTION_CZLOWIEK = r'\b(człowie(k|ka|kowi|kiem|ku)|ludzi(e|om|ach)?|ludźmi)\b'

# --- Słownik reguł ---
REGEX_RULES = {
    'dates_word': (REGEX_DATE_WORD, re.IGNORECASE),
    'dates_num': (f"({REGEX_DATE_ISO})|({REGEX_DATE_PL_NUM})", re.IGNORECASE),
    'times': (REGEX_TIME, re.IGNORECASE),
    'pln': (REGEX_PLN, re.IGNORECASE),
    'iban': (REGEX_IBAN_PL, re.IGNORECASE),
    'email': (REGEX_EMAIL, re.IGNORECASE),
    'phone': (REGEX_PHONE_PL, re.IGNORECASE),
    'url': (REGEX_URL, re.IGNORECASE),
    'inflection': (REGEX_INFLECTION_CZLOWIEK, re.IGNORECASE),
}

def extract_with_regex(text, category):
    """Pomocnicza funkcja do ekstrakcji za pomocą RegExp."""
    if category not in REGEX_RULES:
        return []
    
    pattern, flags = REGEX_RULES[category]
    try:
        matches = [m.group(0) for m in re.finditer(pattern, text, flags=flags)]
        return matches
    except Exception as e:
        print(f"Błąd Regex dla kategorii '{category}': {e}")
        return []

# Testowanie na pierwszym elemencie z 'cleaned_data'
if cleaned_data:
    test_text_regex = cleaned_data[0]
    print(f"--- Test RegExp dla tekstu: '{test_text_regex[:50]}...' ---")
    print(f"Daty słowne: {extract_with_regex(test_text_regex, 'dates_word')}")
    print(f"IBAN: {extract_with_regex(test_text_regex, 'iban')}")
    print(f"Fleksja: {extract_with_regex(cleaned_data[1], 'inflection')}")
else:
    print("Lista 'cleaned_data' jest pusta. Pomięto testy RegExp.")

--- Test RegExp dla tekstu: 'tokfm.pl/PAP 11.12.2021 08:20 Szczepienie dzieci w...' ---
Daty słowne: ['12 grudnia', '14 grudnia']
IBAN: []
Fleksja: ['ludzie', 'ludzie']


In [24]:
# --- 4. LLM — ekstrakcja tymi samymi kategoriami ---

MODEL_NAME = "SpeakLeash/bielik-1.5b-v3.0-instruct:Q8_0" 

def extract_with_llm(text_to_analyze, prompt_template, model_name=MODEL_NAME):
    """Wysyła tekst i szablon promptu do Ollamy, oczekując odpowiedzi w JSON."""
    prompt = prompt_template.replace("{{TEKST}}", text_to_analyze)
    
    try:
        response = ollama.chat(
            model=model_name,
            messages=[{'role': 'user', 'content': prompt}],
            format='json',
            options={'temperature': 0.0}
        )
        raw_response = response['message']['content']
        data = json.loads(raw_response)
        
        if isinstance(data, dict) and 'matches' in data and isinstance(data['matches'], list):
            return [str(match) for match in data['matches']]
        else:
            print(f"Ostrzeżenie: LLM zwrócił poprawny JSON, ale w złym formacie: {raw_response}")
            return []
    except json.JSONDecodeError:
        print(f"BŁĄD KRYTYCZNY: LLM nie zwrócił poprawnego JSON-a. Otrzymano:\n{raw_response}")
        return []
    except Exception as e:
        print(f"Wystąpił nieoczekiwany błąd podczas komunikacji z Ollama: {e}")
        return []

# --- Szablony promptów ---
BASE_PROMPT = """
Jesteś precyzyjnym systemem do ekstrakcji nazwanych encji (NER).
Twoim zadaniem jest znaleźć WSZYSTKIE wystąpienia określonych wzorców w podanym tekście.
Zwróć odpowiedź WYŁĄCZNIE w formacie JSON, jako listę znalezionych dopasowań: {"matches": ["dopasowanie1", "dopasowanie2", ...]}.
Jeśli nic nie znajdziesz, zwróć PUSTĄ listę: {"matches": []}.
Nie dodawaj żadnych wyjaśnień, wstępów ani komentarzy.

"""
PROMPT_DATES_WORD = BASE_PROMPT + """
Kategoria do ekstrakcji: Daty (zapis słowny).
Szukaj dat zawierających nazwę miesiąca (np. "10 stycznia 2023", "5 marca"). Zwróć całe dopasowanie (dzień, miesiąc, opcjonalnie rok).

Tekst do analizy:
{{TEKST}}
"""
PROMPT_PLN = BASE_PROMPT + """
Kategoria do ekstrakcji: Kwoty pieniężne w polskiej walucie.
Szukaj kwot zakończonych "PLN", "zł", "złotych" (np. "1 500 zł", "100,50 PLN"). Zwróć całą kwotę wraz z jednostką waluty.

Tekst do analizy:

{{TEKST}}

"""
PROMPT_IBAN = BASE_PROMPT + """
Kategoria do ekstrakcji: Numery kont bankowych (polski IBAN/NRB).
Szukaj numerów w polskim formacie (26 cyfr), poprzedzonych "PL". Mogą zawierać spacje (np. "PL 12 3456 ...") lub być zapisane ciągiem ("PL123456...").

Tekst do analizy:

{{TEKST}}

"""
PROMPT_INFLECTION = BASE_PROMPT + """
Kategoria do ekstrakcji: Formy fleksyjne słów "człowiek" i "ludzie".
Szukaj wszystkich form gramatycznych: człowiek, człowieka, człowiekowi, człowiekiem, człowieku, ludzie, ludzi, ludziom, ludźmi, ludziach.

Tekst do analizy:

{{TEKST}}

"""
LLM_PROMPTS = {
    'dates_word': PROMPT_DATES_WORD,
    'pln': PROMPT_PLN,
    'iban': PROMPT_IBAN,
    'inflection': PROMPT_INFLECTION,
    # Dodaj inne kategorie, jeśli chcesz je testować
    'email': BASE_PROMPT + "Kategoria do ekstrakcji: Adresy e-mail.\nTekst do analizy:\n\"\"\"{{TEKST}}\"\"\"",
    'phone': BASE_PROMPT + "Kategoria do ekstrakcji: Polskie numery telefonów.\nTekst do analizy:\n\"\"\"{{TEKST}}\"\"\"",
}

# Testowanie na pierwszym elemencie z 'cleaned_data'
if cleaned_data:
    test_text_llm = cleaned_data[0]
    print(f"\n--- Test LLM ({MODEL_NAME}) dla tekstu: '{test_text_llm[:50]}...' ---")
    print(f"Daty słowne: {extract_with_llm(test_text_llm, LLM_PROMPTS['dates_word'])}")
    print(f"IBAN: {extract_with_llm(test_text_llm, LLM_PROMPTS['iban'])}")
    print(f"Fleksja (tekst 2): {extract_with_llm(cleaned_data[1], LLM_PROMPTS['inflection'])}")
else:
    print("Lista 'cleaned_data' jest pusta. Pomięto testy LLM.")





--- Test LLM (SpeakLeash/bielik-1.5b-v3.0-instruct:Q8_0) dla tekstu: 'tokfm.pl/PAP 11.12.2021 08:20 Szczepienie dzieci w...' ---
Daty słowne: []
IBAN: []
Fleksja (tekst 2): []


In [25]:
# --- 5. Pętla Ekstrakcji Danych (Zamiast Ewaluacji) ---

# Kategorie, które chcesz wyciągnąć i porównać
categories_to_process = ['dates_word', 'pln', 'iban', 'inflection', 'email', 'phone']

print(f"\n--- Rozpoczynam ekstrakcję dla {len(cleaned_data)} tekstów ---")

# Słownik do zbierania wyników (opcjonalnie, dla Pandas)
results_list = []

for i, text in enumerate(cleaned_data):
    print(f"\n--- PRZETWARZANIE TEKSTU {i+1} ---")
    print(f"TEKST: {text[:100]}...")
    
    # Przechowuje wyniki dla tego jednego tekstu
    current_results = {"text": text}
    
    for category in categories_to_process:
        # 1. Ekstrakcja RegExp
        start_r = time.perf_counter()
        pred_regex = extract_with_regex(text, category)
        time_r = time.perf_counter() - start_r
        
        # 2. Ekstrakcja LLM
        pred_llm = []
        time_l = 0.0
        prompt_template = LLM_PROMPTS.get(category)
        if prompt_template:
            start_l = time.perf_counter()
            pred_llm = extract_with_llm(text, prompt_template)
            time_l = time.perf_counter() - start_l

        # 3. Drukowanie wyników dla tej kategorii
        print(f"  > Kategoria: {category.upper()}")
        print(f"    RegExp (czas: {time_r:.4f}s): {pred_regex}")
        print(f"    LLM    (czas: {time_l:.4f}s): {pred_llm}")
        
        # Zapisz do słownika (do późniejszego DataFrame)
        current_results[f"regex_{category}"] = pred_regex
        current_results[f"llm_{category}"] = pred_llm
        current_results[f"time_regex_{category}"] = time_r
        current_results[f"time_llm_{category}"] = time_l
        
    results_list.append(current_results)

print("\n--- Zakończono ekstrakcję ---")

# Opcjonalnie: Wyświetl wyniki jako DataFrame dla ładniejszego widoku
try:
    df_results = pd.DataFrame(results_list)
    print("\n### Podsumowanie wyników w tabeli (DataFrame) ###")
    
    # Wybierzmy kilka kolumn do wyświetlenia, żeby nie było za szeroko
    columns_to_show = [
        'text', 
        'regex_iban', 'llm_iban', 
        'regex_dates_word', 'llm_dates_word',
        'regex_inflection', 'llm_inflection'
    ]
    # Upewnij się, że kolumny istnieją, zanim je wybierzesz
    existing_columns = [col for col in columns_to_show if col in df_results.columns]
    
    print(df_results[existing_columns].to_markdown(index=False))

    # Wyświetl łączne czasy
    total_time_regex = sum(df_results[f"time_regex_{cat}"].sum() for cat in categories_to_process)
    total_time_llm = sum(df_results[f"time_llm_{cat}"].sum() for cat in categories_to_process)
    
    print(f"\nŁączny czas RegExp: {total_time_regex:.4f} s")
    print(f"Łączny czas LLM:    {total_time_llm:.4f} s")

except ImportError:
    print("\nPandas nie jest zainstalowany. Pomięto tworzenie tabeli podsumowującej.")
except Exception as e:
    print(f"Nie udało się stworzyć DataFrame z wynikami: {e}")


--- Rozpoczynam ekstrakcję dla 200 tekstów ---

--- PRZETWARZANIE TEKSTU 1 ---
TEKST: tokfm.pl/PAP 11.12.2021 08:20 Szczepienie dzieci w wieku 5-11 lat będzie wykonywane przy użyciu szcz...
  > Kategoria: DATES_WORD
    RegExp (czas: 0.0013s): ['12 grudnia', '14 grudnia']
    LLM    (czas: 0.4448s): []
  > Kategoria: PLN
    RegExp (czas: 0.0004s): []
    LLM    (czas: 0.4777s): []
  > Kategoria: IBAN
    RegExp (czas: 0.0006s): []
    LLM    (czas: 0.4660s): []
  > Kategoria: INFLECTION
    RegExp (czas: 0.0007s): []
    LLM    (czas: 0.4767s): []
  > Kategoria: EMAIL
    RegExp (czas: 0.0009s): []
    LLM    (czas: 0.4490s): []
  > Kategoria: PHONE
    RegExp (czas: 0.0006s): []
    LLM    (czas: 0.4255s): []

--- PRZETWARZANIE TEKSTU 2 ---
TEKST: Kanały TV nadawane w HD - Strona 27 - Emitel Post autor: Puma » 6 czerwca 2012, o 14:36 Emitel przec...
  > Kategoria: DATES_WORD
    RegExp (czas: 0.0035s): ['6 czerwca 2012', '6 czerwca 2012', '6 czerwca 2012', '6 czerwca 2012', '6 czerw

KeyboardInterrupt: 