# Anonymizer Agent Examples

### Project: Anonymizer

#### Drineczki AI

In [1]:
import os
os.chdir("..")

In [2]:
import pandas as pd
from IPython.display import display, HTML

import anonymizer.agent as ai

%load_ext autoreload
%autoreload 2

In [3]:
SPACY_MODEL_PIPELINE = os.path.join(os.getcwd(), "models", "spacy", "pl_core_news_md-3.1.0") 

In [4]:
agent = ai.DocumentAnonymizer(spacy_pipeline_path=SPACY_MODEL_PIPELINE)

In [5]:
def generate_result(text):
    output = agent.anonymize(text)
    
    return "\n".join([f"{out.entity} => {out.anonymization}" for out in output])


def pretty_print(df):
    return display( HTML( df.to_html().replace("\\n","<br>") ) )

#### People entities anonymization

In [6]:
examples = [
    "SSA Jan Kowalski",
    "Protokolant: Jan Kowalski",
    "Powód: Anna Barbara Kowalska-Nowak podjęła decyzję.",
    "świadkowie Kuba, Bartłomiej i Jan",
    "Anna Kowalska nigdy nie lubiła Piotra Nowaka.",
    "Pan Cezary Nowak mieszkał w Kędzierzynie-Koźlu nad rzeką Odrą.",
]

results = {
    "input_text": [],
    "anonymizations": [],
}
for ex in examples:
    results["input_text"].append(ex)
    out = generate_result(ex)
    if len(out) == 0:
        out = "BRAK"
    results["anonymizations"].append(out)
    
pretty_print(pd.DataFrame(results))

Unnamed: 0,input_text,anonymizations
0,SSA Jan Kowalski,BRAK
1,Protokolant: Jan Kowalski,BRAK
2,Powód: Anna Barbara Kowalska-Nowak podjęła decyzję.,Anna Barbara Kowalska-Nowak => A. N.
3,"świadkowie Kuba, Bartłomiej i Jan",Kuba => K. Bartłomiej => B.
4,Anna Kowalska nigdy nie lubiła Piotra Nowaka.,Anna Kowalska => A. K. Piotra Nowaka => P. N.
5,Pan Cezary Nowak mieszkał w Kędzierzynie-Koźlu nad rzeką Odrą.,Cezary Nowak => C. N. Kędzierzynie => K.


#### Places entities anonymization

In [7]:
examples = [
    "Sąd Apelacyjny we Wrocławiu od wyroku Okręgowego w Opolu",
    "Powód zawarł we Wrocławiu umowę o kredyt długoterminowy.",
    "Wydarzenie miało miejsce w Jeleniej Górze.",
    "Świadek widział oskarżonego w Kamiennej Górze w sobotę rano.",
    "mieszkał w powiecie oleśnickim przy jeziorze Wigry Wielkie",
    "Morderstwo na ul. Powstańców Śląskich",
    "Widziałem świadka przy placu Trzech Krzyży.",
    "Komornik Sądowy przy Sądzie Rejonowym w Warszawie Karol Kurenda w sprawie egzekucyjnej z wniosku wierzyciela."
]

results = {
    "input_text": [],
    "anonymizations": [],
}
for ex in examples:
    results["input_text"].append(ex)
    out = generate_result(ex)
    if len(out) == 0:
        out = "BRAK"
    results["anonymizations"].append(out)
    
pretty_print(pd.DataFrame(results))

Unnamed: 0,input_text,anonymizations
0,Sąd Apelacyjny we Wrocławiu od wyroku Okręgowego w Opolu,BRAK
1,Powód zawarł we Wrocławiu umowę o kredyt długoterminowy.,BRAK
2,Wydarzenie miało miejsce w Jeleniej Górze.,Jeleniej Górze => J.
3,Świadek widział oskarżonego w Kamiennej Górze w sobotę rano.,Kamiennej Górze => K.
4,mieszkał w powiecie oleśnickim przy jeziorze Wigry Wielkie,powiecie oleśnickim => powiecie (...) jeziorze Wigry Wielkie => jeziorze W.
5,Morderstwo na ul. Powstańców Śląskich,ul. Powstańców Śląskich => ul. (...)
6,Widziałem świadka przy placu Trzech Krzyży.,placu Trzech Krzyży => placu (...)
7,Komornik Sądowy przy Sądzie Rejonowym w Warszawie Karol Kurenda w sprawie egzekucyjnej z wniosku wierzyciela.,BRAK


#### Internet entities anonymization

In [8]:
examples = [
    "Mój adres (Wiktor Łazarski) mailowy to wjlazarski@gmail.com",
    "Wysłała brzydką wiadomość z maila sonia1974@mail.com",
    "Pojawił się na stronie internetowej www.portal.prawo.pl"
]

results = {
    "input_text": [],
    "anonymizations": [],
}
for ex in examples:
    results["input_text"].append(ex)
    out = generate_result(ex)
    if len(out) == 0:
        out = "BRAK"
    results["anonymizations"].append(out)
    
pretty_print(pd.DataFrame(results))

Unnamed: 0,input_text,anonymizations
0,Mój adres (Wiktor Łazarski) mailowy to wjlazarski@gmail.com,Wiktor Łazarski => W. Ł. wjlazarski@gmail.com => (...)
1,Wysłała brzydką wiadomość z maila sonia1974@mail.com,sonia1974@mail.com => (...)
2,Pojawił się na stronie internetowej www.portal.prawo.pl,www.portal.prawo.pl => (...)


#### Numerical entities anonymization

In [9]:
examples = [
    "Mój numer PESEL to 93082909312",
    "Zanonimizuj numer KRS 51727",
    "Zanonimizuj numer VIN W2151D09727",
    "Samochód o nr. rej. WWL 5273",
]

results = {
    "input_text": [],
    "anonymizations": [],
}
for ex in examples:
    results["input_text"].append(ex)
    out = generate_result(ex)
    if len(out) == 0:
        out = "BRAK"
    results["anonymizations"].append(out)
    
pretty_print(pd.DataFrame(results))

Unnamed: 0,input_text,anonymizations
0,Mój numer PESEL to 93082909312,93082909312 => (...)
1,Zanonimizuj numer KRS 51727,KRS 51727 => KRS (...)
2,Zanonimizuj numer VIN W2151D09727,VIN W2151D09727 => VIN (...)
3,Samochód o nr. rej. WWL 5273,BRAK
