# Presidio PII Pseudonymizer dla jƒôzyka polskiego

Narzƒôdzie do wykrywania i pseudonimizacji danych osobowych (PII) w tekstach polskojƒôzycznych. Wykorzystuje [Microsoft Presidio](https://microsoft.github.io/presidio/) do wykrywania PII oraz [Faker](https://faker.readthedocs.io/) do generowania realistycznych, deterministycznych zamiennik√≥w.

## üîç Jak to dzia≈Ça

RozwiƒÖzanie sk≈Çada siƒô z trzech g≈Ç√≥wnych komponent√≥w:

### 1. Wykrywanie PII (Presidio Analyzer)

```
Tekst wej≈õciowy ‚Üí [NLP Engine (spaCy)] ‚Üí [Rozpoznawacze] ‚Üí Lista encji PII
```

**Silnik NLP (spaCy)** przetwarza tekst i wykonuje:
- Tokenizacjƒô (podzia≈Ç na s≈Çowa)
- Lematyzacjƒô (sprowadzenie do formy podstawowej)
- **Named Entity Recognition (NER)** - rozpoznawanie nazwanych encji (osoby, organizacje, miejsca)

**Rozpoznawacze (Recognizers)** to modu≈Çy wykrywajƒÖce konkretne typy PII:
- **SpacyRecognizer** - wykorzystuje etykiety NER z modelu spaCy (np. `persName` ‚Üí `PERSON`)
- **Rozpoznawacze regex** - wykrywajƒÖ wzorce jak PESEL, NIP, email na podstawie wyra≈ºe≈Ñ regularnych
- **S≈Çowa kontekstowe** - zwiƒôkszajƒÖ pewno≈õƒá wykrycia gdy w pobli≈ºu znajdujƒÖ siƒô s≈Çowa jak "pesel", "telefon", "email"

### 2. Generowanie zamiennik√≥w (Faker)

```
Encja PII ‚Üí [Hash(salt + warto≈õƒá)] ‚Üí [Seed] ‚Üí [Faker] ‚Üí Pseudonim
```

Mechanizm zapewnia **determinizm** - ta sama warto≈õƒá wej≈õciowa zawsze daje ten sam pseudonim:

1. Obliczamy hash SHA-256 z kombinacji: `salt + oryginalna_warto≈õƒá + typ_encji`
2. Fragment hasha u≈ºywamy jako seed dla generatora Faker
3. Faker generuje realistycznƒÖ, fikcyjnƒÖ warto≈õƒá (imiƒô, nazwƒô firmy, email itp.)

Dla numer√≥w PESEL, NIP, REGON stosujemy w≈Çasne generatory z **poprawnymi sumami kontrolnymi**.

### 3. Zastƒôpowanie w tek≈õcie

```
Tekst + Lista encji ‚Üí [Sortowanie malejƒÖco po pozycji] ‚Üí [Zamiana od ko≈Ñca] ‚Üí Tekst zanonimizowany
```

Zamiany wykonujemy **od ko≈Ñca tekstu**, aby nie popsuƒá indeks√≥w pozycji wcze≈õniejszych encji.

### Schemat przep≈Çywu danych

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                         TEKST WEJ≈öCIOWY                             ‚îÇ
‚îÇ  "Jan Kowalski, PESEL: 90010112345, email: jan@example.com"         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                   ‚îÇ
                                   ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                      1. ANALIZA (Presidio)                          ‚îÇ
‚îÇ  ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê   ‚îÇ
‚îÇ  ‚îÇ spaCy NLP   ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ SpacyRecognizer  ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ PERSON: 0-12     ‚îÇ   ‚îÇ
‚îÇ  ‚îÇ (pl_core_   ‚îÇ    ‚îÇ (NER: persName)  ‚îÇ    ‚îÇ "Jan Kowalski"   ‚îÇ   ‚îÇ
‚îÇ  ‚îÇ  news_lg)   ‚îÇ    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   ‚îÇ
‚îÇ  ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê   ‚îÇ
‚îÇ                     ‚îÇ PeselRecognizer  ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ PL_PESEL: 21-32  ‚îÇ   ‚îÇ
‚îÇ                     ‚îÇ (regex + kontekst‚îÇ    ‚îÇ "90010112345"    ‚îÇ   ‚îÇ
‚îÇ                     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   ‚îÇ
‚îÇ                     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê   ‚îÇ
‚îÇ                     ‚îÇ EmailRecognizer  ‚îÇ‚îÄ‚îÄ‚îÄ‚ñ∂‚îÇ EMAIL: 41-57     ‚îÇ   ‚îÇ
‚îÇ                     ‚îÇ (regex)          ‚îÇ    ‚îÇ "jan@example.com"‚îÇ   ‚îÇ
‚îÇ                     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò   ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                   ‚îÇ
                                   ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                   2. GENEROWANIE ZAMIENNIK√ìW                        ‚îÇ
‚îÇ                                                                     ‚îÇ
‚îÇ  "Jan Kowalski" ‚îÄ‚îÄhash‚îÄ‚îÄ‚ñ∂ seed:1234 ‚îÄ‚îÄFaker‚îÄ‚îÄ‚ñ∂ "Tadeusz Elwart"    ‚îÇ
‚îÇ  "90010112345"  ‚îÄ‚îÄhash‚îÄ‚îÄ‚ñ∂ seed:5678 ‚îÄ‚îÄPESEL‚îÄ‚îÄ‚ñ∂ "97050447064"       ‚îÇ
‚îÇ  "jan@example.com" ‚îÄhash‚îÄ‚ñ∂ seed:9012 ‚îÄFaker‚îÄ‚ñ∂ "dorobekemil@..."    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
                                   ‚îÇ
                                   ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                    3. ZASTƒòPOWANIE W TEK≈öCIE                        ‚îÇ
‚îÇ  (od ko≈Ñca, aby zachowaƒá indeksy)                                   ‚îÇ
‚îÇ                                                                     ‚îÇ
‚îÇ  "Tadeusz Elwart, PESEL: 97050447064, email: dorobekemil@..."      ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

## üß† Modele spaCy

spaCy oferuje trzy modele dla jƒôzyka polskiego, r√≥≈ºniƒÖce siƒô rozmiarem i dok≈Çadno≈õciƒÖ:

| Model | Rozmiar | Wektory | Dok≈Çadno≈õƒá NER | U≈ºycie |
|-------|---------|---------|----------------|--------|
| `pl_core_news_sm` | ~15 MB | ‚ùå Brak | ~85% F1 | Szybkie prototypowanie, ograniczone zasoby |
| `pl_core_news_md` | ~50 MB | ‚úÖ 20k kluczy | ~87% F1 | Balans miƒôdzy rozmiarem a dok≈Çadno≈õciƒÖ |
| `pl_core_news_lg` | ~550 MB | ‚úÖ 500k kluczy | ~89% F1 | **Zalecany** - najlepsza jako≈õƒá |

### Por√≥wnanie modeli

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ                    DOK≈ÅADNO≈öƒÜ vs ROZMIAR                        ‚îÇ
‚îÇ                                                                 ‚îÇ
‚îÇ  Dok≈Çadno≈õƒá ‚îÇ                                    ‚óè pl_core_lg   ‚îÇ
‚îÇ     NER     ‚îÇ                        ‚óè pl_core_md               ‚îÇ
‚îÇ             ‚îÇ            ‚óè pl_core_sm                           ‚îÇ
‚îÇ             ‚îÇ                                                   ‚îÇ
‚îÇ             ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÇ
‚îÇ                         Rozmiar modelu / Czas ≈Çadowania         ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Etykiety NER w polskich modelach

Polski model spaCy u≈ºywa **specyficznych etykiet** r√≥≈ºnych od standardowych:

| Etykieta spaCy (PL) | Opis | Mapowanie Presidio |
|---------------------|------|-------------------|
| `persName` | Imiƒô i nazwisko osoby | `PERSON` |
| `orgName` | Nazwa organizacji/firmy | `ORGANIZATION` |
| `placeName` | Nazwa miejsca | `LOCATION` |
| `geogName` | Nazwa geograficzna | `LOCATION` |
| `date` | Data | `DATE_TIME` |
| `time` | Czas | `DATE_TIME` |

> ‚ö†Ô∏è **Wa≈ºne**: Standardowe modele angielskie u≈ºywajƒÖ etykiet jak `PERSON`, `ORG`, `GPE`. 
> Polski model u≈ºywa `persName`, `orgName`, `placeName`. 
> Mapowanie jest skonfigurowane w pliku `languages-config.yml`.


### Zmiana modelu

Aby u≈ºyƒá innego modelu, edytuj `languages-config.yml`:

```yaml
models:
  - lang_code: pl
    model_name: pl_core_news_md  # zmie≈Ñ na sm, md lub lg
```
### Wyb√≥r modelu - rekomendacje

| Scenariusz | Zalecany model |
|------------|----------------|
| Produkcja - wysoka jako≈õƒá | `pl_core_news_lg` |
| ≈örodowisko z ograniczonƒÖ pamiƒôciƒÖ | `pl_core_news_md` |
| Szybkie testy / CI/CD | `pl_core_news_sm` |
| Przetwarzanie du≈ºych wolumen√≥w | `pl_core_news_md` (kompromis) |

## üìä Obs≈Çugiwane typy PII

### Encje wykrywane przez NLP (spaCy)

| Typ | Opis | Przyk≈Çad |
|-----|------|----------|
| `PERSON` | Imiƒô i nazwisko | Jan Kowalski |
| `ORGANIZATION` | Nazwa firmy/organizacji | Drutex Sp.z.o.o. |
| `LOCATION` | Lokalizacja | Warszawa, Polska |
| `DATE_TIME` | Data i czas | 15 marca 2024 |

### Encje wykrywane przez regex (polskie formaty)

| Typ | Opis | Przyk≈Çad | Walidacja |
|-----|------|----------|-----------|
| `PL_PESEL` | Numer PESEL | 90010112345 | ‚úÖ Suma kontrolna |
| `PL_NIP` | Numer NIP | 123-456-78-90 | ‚úÖ Suma kontrolna |
| `PL_REGON` | Numer REGON | 123456789 | ‚úÖ Suma kontrolna |
| `PL_ID_CARD` | Dow√≥d osobisty | ABC123456 | ‚ùå |
| `PL_PASSPORT` | Paszport | AB1234567 | ‚ùå |
| `PL_POSTAL_CODE` | Kod pocztowy | 00-001 | ‚ùå |
| `PL_PHONE` | Telefon kom√≥rkowy | +48 123 456 789 | ‚ùå |
| `PL_BANK_ACCOUNT` | Numer konta | 12 3456 7890... | ‚ùå |

### Encje predefiniowane Presidio

| Typ | Opis | Przyk≈Çad |
|-----|------|----------|
| `EMAIL_ADDRESS` | Adres email | jan@example.com |
| `PHONE_NUMBER` | Numer telefonu | +48123456789 |
| `CREDIT_CARD` | Karta kredytowa | 4111111111111111 |
| `IBAN_CODE` | Numer IBAN | PL12345678901234567890123456 |
| `IP_ADDRESS` | Adres IP | 192.168.1.1 |
| `URL` | Adres URL | https://example.com |

In [4]:
from pseudonymizer import Pseudonymizer

# Utw√≥rz instancjƒô
ps = Pseudonymizer(salt="moj-sekretny-klucz")

# Pseudonimizacja tekstu
text = "Jan Kowalski, numer PESEL: 90010112345, email: jan@example.com"
result = ps.pseudonymize(text)
print(result)


Liwia Macho≈Ñ, numer PESEL: 88112010386, email: adrian46@example.org


In [5]:
result = ps.pseudonymize_with_details(text)

print(f"Orygina≈Ç: {result.original_text}")
print(f"Pseudonim: {result.pseudonymized_text}")
print(f"Znaleziono encji: {result.entities_found}")

for repl in result.replacements:
    print(f"  {repl.entity_type}: '{repl.original}' ‚Üí '{repl.replacement}'")

Orygina≈Ç: Jan Kowalski, numer PESEL: 90010112345, email: jan@example.com
Pseudonim: Liwia Macho≈Ñ, numer PESEL: 88112010386, email: adrian46@example.org
Znaleziono encji: 3
  EMAIL_ADDRESS: 'jan@example.com' ‚Üí 'adrian46@example.org'
  PL_PESEL: '90010112345' ‚Üí '88112010386'
  PERSON: 'Jan Kowalski' ‚Üí 'Liwia Macho≈Ñ'


# Praktyczne wykorzystanie Presidio do pseudonimizacji danych osobowych

Oto przyk≈Çadowa, kr√≥tka testowa konwersacja w banku

***

**Pracownik banku:** Dzie≈Ñ dobry, w czym mogƒô pom√≥c?  
**Klient:** Dzie≈Ñ dobry, chcia≈Çbym sprawdziƒá stan mojego konta.  
**Pracownik banku:** Oczywi≈õcie. Proszƒô podaƒá numer konta.  
**Klient:** Numer konta to 12 3456 7890 1234 5678 9012 3456.  
**Pracownik banku:** Dziƒôkujƒô. Proszƒô jeszcze o PESEL i adres zamieszkania do weryfikacji.  
**Klient:** PESEL: 85010112345, adres: ul. Zielona 15, 00-123 Warszawa.  
**Pracownik banku:** Wszystko siƒô zgadza. Stan konta wynosi 12 450,75 z≈Ç. Czy mogƒô pom√≥c w czym≈õ jeszcze?  
**Klient:** Nie, dziƒôkujƒô. Mi≈Çego dnia!  
**Pracownik banku:** Dziƒôkujƒô, r√≥wnie≈º ≈ºyczƒô mi≈Çego dnia.



In [7]:
input_text = """**Pracownik banku:** Dzie≈Ñ dobry, w czym mogƒô pom√≥c?  
**Klient:** Dzie≈Ñ dobry, chcia≈Çbym sprawdziƒá stan mojego konta.  
**Pracownik banku:** Oczywi≈õcie. Proszƒô podaƒá numer konta.  
**Klient:** Numer konta to 12 3456 7890 1234 5678 9012 3456.  
**Pracownik banku:** Dziƒôkujƒô. Proszƒô jeszcze o PESEL i adres zamieszkania do weryfikacji.  
**Klient:** PESEL: 85010112345, adres: ul. Zielona 15, 00-123 Warszawa.  
**Pracownik banku:** Wszystko siƒô zgadza. Stan konta wynosi 12 450,75 z≈Ç. Czy mogƒô pom√≥c w czym≈õ jeszcze?  
**Klient:** Nie, dziƒôkujƒô. Mi≈Çego dnia!  
**Pracownik banku:** Dziƒôkujƒô, r√≥wnie≈º ≈ºyczƒô mi≈Çego dnia."""
result = ps.pseudonymize(input_text)
print(result)

**Pracownik banku:** Dzie≈Ñ dobry, w czym mogƒô pom√≥c?  
**Klient:** Dzie≈Ñ dobry, chcia≈Çbym sprawdziƒá stan mojego konta.  
**Pracownik banku:** Oczywi≈õcie. Proszƒô podaƒá numer konta.  
**Klient:** Numer konta to 13 0842 4539 7131 0883 4664 9863.  
**Pracownik banku:** Dziƒôkujƒô. Proszƒô jeszcze o PESEL i adres zamieszkania do weryfikacji.  
**Klient:** PESEL: 81040889651, adres: Pruszcz Gda≈Ñski Szczytno 15, 70-144 ≈öroda Wielkopolska.  
**Pracownik banku:** Wszystko siƒô zgadza. Stan konta wynosi 12 450,75 z≈Ç. Czy mogƒô pom√≥c w czym≈õ jeszcze?  
**Klient:** Nie, dziƒôkujƒô. Mi≈Çego dnia!  
**Pracownik banku:** Dziƒôkujƒô, r√≥wnie≈º ≈ºyczƒô mi≈Çego dnia.
