![JohnSnowLabs](https://nlp.johnsnowlabs.com/assets/images/logo.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Healthcare/4.9.German_Clinical_Deidentification.ipynb)


## Start Spark Session

In [None]:
import json
import os

from google.colab import files

if 'spark_jsl.json' not in os.listdir():
  license_keys = files.upload()
  os.rename(list(license_keys.keys())[0], 'spark_jsl.json')

with open('spark_jsl.json') as f:
    license_keys = json.load(f)

# Defining license key-value pairs as local variables
locals().update(license_keys)
os.environ.update(license_keys)

In [None]:
# Installing pyspark and spark-nlp
! pip install --upgrade -q pyspark==3.4.1 spark-nlp==$PUBLIC_VERSION


# Installing Spark NLP Healthcare
! pip install --upgrade -q spark-nlp-jsl==$JSL_VERSION  --extra-index-url https://pypi.johnsnowlabs.com/$SECRET

In [None]:
import json
import os

import sparknlp
import sparknlp_jsl

from sparknlp.base import *
from sparknlp.annotator import *
from sparknlp_jsl.annotator import *
from sparknlp_jsl.pipeline_tracer import PipelineTracer
from sparknlp_jsl.pipeline_output_parser import PipelineOutputParser

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.ml import Pipeline,PipelineModel

import pandas as pd
pd.set_option('display.max_colwidth', 0)

import warnings
warnings.filterwarnings('ignore')

params = {"spark.driver.memory":"16G",
          "spark.kryoserializer.buffer.max":"2000M",
          "spark.driver.maxResultSize":"2000M"}

print("Spark NLP Version :", sparknlp.version())
print("Spark NLP_JSL Version :", sparknlp_jsl.version())

spark = sparknlp_jsl.start(license_keys['SECRET'],params=params)

spark


Spark NLP Version : 5.5.0
Spark NLP_JSL Version : 5.5.0


In [None]:
def get_results(text, pipeline):

    deid_res = pipeline.fullAnnotate(text)

    for res in deid_res:
        sentence = [original_text.result for original_text in res["document"]]
        masked = [masked_text.result for masked_text in res["masked"]]
        obfuscated = [obfuscated_text.result for obfuscated_text in res["obfuscated"]]

    return pd.DataFrame({"Sentence": sentence, "Masked": masked, "Obfuscated":obfuscated})

# German `Deidentification` Pipeline

In [None]:
from sparknlp.pretrained import PretrainedPipeline
deid_pipe = PretrainedPipeline("clinical_deidentification_docwise_wip", "de", "clinical/models")

clinical_deidentification_docwise_wip download started this may take some time.
Approx size to download 1.2 GB
[OK!]


## Text-1

In [None]:
sample_text_1 = """
Klinischer Bericht
Patienten-ID: 12345678
Name: Herr Max Mustermann
Geburtsdatum: 12 März 1985
Adresse: Musterstraße 12, 12345 Stuttgart
Stadt: Berlin
Telefonnummer: +49 30 12345678
E-Mail: max.mustermann@example.de
Sozialversicherungsnummer (SVN): 13110587M565
Aufnahmedatum: 20 Oktober 2024
Entlassungsdatum: 25 Oktober 2024

Diagnose:
ICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht näher bezeichnet)
OPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)

Medikamente:
PZN: 12345678 (Metformin 850 mg Tabletten)
PZN: 87654321 (Aspirin 100 mg Tabletten)

Hilfsmittel:
HMV: 17.99.09.1010 (Blutzuckermessgerät)

Kontaktperson: Frau Anna Mustermann
Kontaktadresse: Blumenstraße 5, 12345 Berlin
Kontaktnummer: +49 3098765432

Verlauf:
Der Patient wurde am 20.10.2024 aufgrund erhöhter Blutzuckerwerte aufgenommen.
Bei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 22.10.2024 erfolgreich durchgeführt.
Der Patient zeigte nach der Operation keine Komplikationen und wurde am 25.10.2024 entlassen.
"""

get_results(sample_text_1, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"\nKlinischer Bericht\nPatienten-ID: 12345678\nName: Herr Max Mustermann\nGeburtsdatum: 12 März 1985\nAdresse: Musterstraße 12, 12345 Stuttgart\nStadt: Berlin\nTelefonnummer: +49 30 12345678\nE-Mail: max.mustermann@example.de\nSozialversicherungsnummer (SVN): 13110587M565\nAufnahmedatum: 20 Oktober 2024\nEntlassungsdatum: 25 Oktober 2024\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht näher bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessgerät)\n\nKontaktperson: Frau Anna Mustermann\nKontaktadresse: Blumenstraße 5, 12345 Berlin\nKontaktnummer: +49 3098765432\n\nVerlauf:\nDer Patient wurde am 20.10.2024 aufgrund erhöhter Blutzuckerwerte aufgenommen. \nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 22.10.2024 erfolgreich durchgeführt. \nDer Patient zeigte nach der Operation keine Komplikationen und wurde am 25.10.2024 entlassen.\n","\nKlinischer Bericht\nPatienten-ID: <ID>\nName: Herr <NAME> <NAME>\nGeburtsdatum: <DATE>\nAdresse: <LOCATION>, <ZIP> <CITY>\nStadt: <STATE>\nTelefonnummer: <PHONE>\nE-Mail: <EMAIL>\nSozialversicherungsnummer (SVN): <SSN>\nAufnahmedatum: <DATE>\nEntlassungsdatum: <DATE>\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht näher bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessgerät)\n\nKontaktperson: Frau <NAME> <NAME>\nKontaktadresse: <LOCATION>, <ZIP> <STATE>\nKontaktnummer: <PHONE>\n\nVerlauf:\nDer Patient wurde am <DATE> aufgrund erhöhter Blutzuckerwerte aufgenommen. \nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am <DATE> erfolgreich durchgeführt. \nDer Patient zeigte nach der Operation keine Komplikationen und wurde am <DATE> entlassen.\n","\nKlinischer Bericht\nPatienten-ID: 16109604\nName: Herr Leonie Merkel Felicia Schütte\nGeburtsdatum: 17 April 1985\nAdresse: Werneckestraße 534, 54098 Altentreptow\nStadt: New Jersey\nTelefonnummer: +11 91 47829562\nE-Mail: Adel@google.com\nSozialversicherungsnummer (SVN): 13086578I696\nAufnahmedatum: 25 November 2024\nEntlassungsdatum: 30 November 2024\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht näher bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessgerät)\n\nKontaktperson: Frau Karl-Friedrich Kohl Felicia Schütte\nKontaktadresse: Selim-Schaaf-Ring 54, 29528 New Jersey\nKontaktnummer: +41 3244010272\n\nVerlauf:\nDer Patient wurde am 25.11.2024 aufgrund erhöhter Blutzuckerwerte aufgenommen. \nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 27.11.2024 erfolgreich durchgeführt. \nDer Patient zeigte nach der Operation keine Komplikationen und wurde am 30.11.2024 entlassen.\n"


## Text-2

In [None]:
sample_text_2 = """Sehr geehrter Herr Schmidt, bezüglich Ihrer Anfrage vom 15.03.2024 für Ihre Krankenakte
341123 möchte ich bestätigen, dass Ihre Sozialversicherungsnummer 13110587M565 und
Ihre Versichertennummer T0110053F5D korrekt in unserem System hinterlegt sind. Wie besprochen können Sie Ihre
neue Fahrerlaubnis B072RRE2I55 in der Behörde in München, Bayern, Deutschland abholen. Die Adresse dafür
ist Musterstraße 12, 12345 Stuttgart. Ihr Fahrzeug mit dem Kennzeichen M-AB 1234  ist bereits registriert.
Falls Sie Fragen haben, erreichen Sie uns unter +49 89 12345678 oder schreiben Sie an support@beispiel.de.
Unsere Details finden Sie auch unter https://www.beispiel-behoerde.de. Für Ihre Bankgeschäfte nutzen
Sie weiterhin das Konto DE89 3704 0044 0532 0130 00. Laut unseren Unterlagen
sind Sie 45 Jahre alt. Zertifikat: 12345As. Alle Ihre Daten werden gemäß der DSGVO in unserer Zentrale in der
Robert-Koch-Straße 45, 80335 München verarbeitet. Alternativ können Sie auch unsere Zweigstelle
in Berlin oder Hamburg besuchen. Zusätzliche Informationen finden Sie auf unserem Portal
kontaktieren Sie uns unter kontakt@beispiel-support.de. Fahrzeug-Identifizierungsnummer: 4Y1SL65848Z411439,"""

get_results(sample_text_2, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Sehr geehrter Herr Schmidt, bezüglich Ihrer Anfrage vom 15.03.2024 für Ihre Krankenakte\n341123 möchte ich bestätigen, dass Ihre Sozialversicherungsnummer 13110587M565 und\nIhre Versichertennummer T0110053F5D korrekt in unserem System hinterlegt sind. Wie besprochen können Sie Ihre\nneue Fahrerlaubnis B072RRE2I55 in der Behörde in München, Bayern, Deutschland abholen. Die Adresse dafür\nist Musterstraße 12, 12345 Stuttgart. Ihr Fahrzeug mit dem Kennzeichen M-AB 1234 ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter +49 89 12345678 oder schreiben Sie an support@beispiel.de.\nUnsere Details finden Sie auch unter https://www.beispiel-behoerde.de. Für Ihre Bankgeschäfte nutzen\nSie weiterhin das Konto DE89 3704 0044 0532 0130 00. Laut unseren Unterlagen\nsind Sie 45 Jahre alt. Zertifikat: 12345As. Alle Ihre Daten werden gemäß der DSGVO in unserer Zentrale in der\nRobert-Koch-Straße 45, 80335 München verarbeitet. Alternativ können Sie auch unsere Zweigstelle\nin Berlin oder Hamburg besuchen. Zusätzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter kontakt@beispiel-support.de. Fahrzeug-Identifizierungsnummer: 4Y1SL65848Z411439,","Sehr geehrter Herr <NAME>, bezüglich Ihrer Anfrage vom <DATE> für Ihre Krankenakte\n<MEDICALRECORD> möchte ich bestätigen, dass Ihre Sozialversicherungsnummer <SSN> und\nIhre Versichertennummer <ID> korrekt in unserem System hinterlegt sind. Wie besprochen können Sie Ihre\nneue Fahrerlaubnis <CONTACT> in der Behörde in <CITY>, <STATE>, <COUNTRY> abholen. Die Adresse dafür\nist <LOCATION>, <ZIP> <CITY>. Ihr Fahrzeug mit dem Kennzeichen <PLATE> ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter <PHONE> oder schreiben Sie an <EMAIL>.\nUnsere Details finden Sie auch unter <URL>. Für Ihre Bankgeschäfte nutzen\nSie weiterhin das Konto <ACCOUNT>. Laut unseren Unterlagen\nsind Sie <AGE> Jahre alt. Zertifikat: <LICENSE>. Alle Ihre Daten werden gemäß der DSGVO in unserer Zentrale in der\n<LOCATION>, <ZIP> <CITY> verarbeitet. Alternativ können Sie auch unsere Zweigstelle\nin <STATE> oder <STATE> besuchen. Zusätzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter <EMAIL>. Fahrzeug-Identifizierungsnummer: <VIN>,","Sehr geehrter Herr Dorothee Rost, bezüglich Ihrer Anfrage vom 20.04.2024 für Ihre Krankenakte\n536644 möchte ich bestätigen, dass Ihre Sozialversicherungsnummer 03474259D638 und\nIhre Versichertennummer V5643329J1O korrekt in unserem System hinterlegt sind. Wie besprochen können Sie Ihre\nneue Fahrerlaubnis A416SAY3K16 in der Behörde in Angermünde, New Hampshire, Lettland abholen. Die Adresse dafür\nist Werneckestraße 534, 01093 Altentreptow. Ihr Fahrzeug mit dem Kennzeichen A-TF 5732 ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter +20 25 42706237 oder schreiben Sie an Alessandre@hotmail.com.\nUnsere Details finden Sie auch unter ToxicBlast.pl. Für Ihre Bankgeschäfte nutzen\nSie weiterhin das Konto SE83 1517 6160 7371 0626 94. Laut unseren Unterlagen\nsind Sie 44 Jahre alt. Zertifikat: 85462VO. Alle Ihre Daten werden gemäß der DSGVO in unserer Zentrale in der\nSophia-Eigenwillig-Allee 811, 35009 Angermünde verarbeitet. Alternativ können Sie auch unsere Zweigstelle\nin New Jersey oder Connecticut besuchen. Zusätzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter Boun@google.com. Fahrzeug-Identifizierungsnummer: 3G1WE99371I967893,"


## Text-3

In [None]:
sample_text_3 = """P98765432
15 Oktober 2024
Musterstraße 5, 80331 München
lisa.meier@example.de

Frau Lisa Meier wurde am  ins Krankenhaus in München aufgenommen.  Ihre Sozialversicherungsnummer lautet 26110587K565.
Die Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 17 Oktober 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00).
Ihr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung.
Ihre Kontaktperson, Herr Thomas Meier, wohnhaft in Gartenweg 12, 80333 München, ist unter der Nummer +49 89 123456 erreichbar. Sie ist per E-Mail unter lisa.meier@example.de erreichbar.
Frau Meier wurde am 20 Okt 2024 in gutem Zustand entlassen."""

get_results(sample_text_3, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"P98765432\n15 Oktober 2024\nMusterstraße 5, 80331 München\nlisa.meier@example.de\n\nFrau Lisa Meier wurde am ins Krankenhaus in München aufgenommen. Ihre Sozialversicherungsnummer lautet 26110587K565.\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 17 Oktober 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00). \nIhr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung. \nIhre Kontaktperson, Herr Thomas Meier, wohnhaft in Gartenweg 12, 80333 München, ist unter der Nummer +49 89 123456 erreichbar. Sie ist per E-Mail unter lisa.meier@example.de erreichbar.\nFrau Meier wurde am 20 Okt 2024 in gutem Zustand entlassen.","<ID>\n<DATE>\n<LOCATION>, <ZIP> <CITY>\n<EMAIL>\n\nFrau <NAME> <NAME> wurde am ins Krankenhaus in <CITY> aufgenommen. Ihre Sozialversicherungsnummer lautet <SSN>.\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am <DATE> erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00). \nIhr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung. \nIhre Kontaktperson, Herr <NAME> <NAME>, wohnhaft in <LOCATION>, <ZIP> <CITY>, ist unter der Nummer <PHONE> erreichbar. Sie ist per E-Mail unter <EMAIL> erreichbar.\nFrau <NAME> wurde am <DATE> in gutem Zustand entlassen.","Y10175102\n20 November 2024\nHübelweg 1/3, 58527 Angermünde\nHayden@yahoo.com\n\nFrau Reinhard Freese Brigitte Friedrich wurde am ins Krankenhaus in Angermünde aufgenommen. Ihre Sozialversicherungsnummer lautet 78242353I144.\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 22 November 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00). \nIhr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung. \nIhre Kontaktperson, Herr Sergei Rausch Brigitte Friedrich, wohnhaft in Scheuermannallee 753, 31540 Angermünde, ist unter der Nummer +08 67 619509 erreichbar. Sie ist per E-Mail unter Hayden@yahoo.com erreichbar.\nFrau Brigitte Friedrich wurde am 11-02-1998 in gutem Zustand entlassen."


## Text-4

In [None]:
sample_text_4 = """Zusammenfassung : Michael Berger wird am Morgen des 12 Dezember 2018 ins St.Elisabeth Krankenhaus eingeliefert.
Herr Michael Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen.

Persönliche Daten :
ID-Nummer: T0110053F
Platte A-BC124
Kontonummer: DE89370400440532013000
SSN : 13110587M565
Lizenznummer: B072RRE2I55
Adresse : St.Johann-Straße 13 19300"""

get_results(sample_text_4, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,Zusammenfassung : Michael Berger wird am Morgen des 12 Dezember 2018 ins St.Elisabeth Krankenhaus eingeliefert. \nHerr Michael Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen.\n\nPersönliche Daten :\nID-Nummer: T0110053F\nPlatte A-BC124\nKontonummer: DE89370400440532013000\nSSN : 13110587M565\nLizenznummer: B072RRE2I55\nAdresse : St.Johann-Straße 13 19300,Zusammenfassung : <NAME> wird am Morgen des <DATE> ins <LOCATION> eingeliefert. \nHerr <NAME> <NAME> ist <AGE> Jahre alt und hat zu viel Wasser in den Beinen.\n\nPersönliche Daten :\nID-Nummer: <ID>\nPlatte <PLATE>\nKontonummer: <ACCOUNT>\nSSN : <SSN>\nLizenznummer: <NAME>\nAdresse : <STREET> <ZIP>,Zusammenfassung : Amanda Rademacher wird am Morgen des 17 Januar 2019 ins Thilo-Meyer-Gasse 4/0 eingeliefert. \nHerr Hugo Bruns Fliegner Kastner ist 71 Jahre alt und hat zu viel Wasser in den Beinen.\n\nPersönliche Daten :\nID-Nummer: T2671245Y\nPlatte K-DX833\nKontonummer: AS50539767341937902409\nSSN : 73532992E268\nLizenznummer: Hans-Peter Werner\nAdresse : Weihmannring 13 34196


## Text-5

In [None]:
sample_text_5 = """Um Ihre Identität zu überprüfen, benötigen wir Ihre Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 89110478M657. Bei Fragen können Sie sich gerne an Dr. Anna Schmidt im Gesundheitszentrum Frankfurt wenden, das sich in der 60313 Frankfurt am Main, Hessen, Deutschland befindet. Sie können das Büro auch unter +49-89-12345678 erreichen oder die zweite Filiale in 12345 Hamburg besuchen. Die 28-jährige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde."""

get_results(sample_text_5, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Um Ihre Identität zu überprüfen, benötigen wir Ihre Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 89110478M657. Bei Fragen können Sie sich gerne an Dr. Anna Schmidt im Gesundheitszentrum Frankfurt wenden, das sich in der 60313 Frankfurt am Main, Hessen, Deutschland befindet. Sie können das Büro auch unter +49-89-12345678 erreichen oder die zweite Filiale in 12345 Hamburg besuchen. Die 28-jährige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde.","Um Ihre Identität zu überprüfen, benötigen wir Ihre Kontonummer: <ACCOUNT>. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: <SSN>. Bei Fragen können Sie sich gerne an Dr. <NAME> <NAME> im Gesundheitszentrum <CITY> wenden, das sich in der <ZIP> <CITY>, <STATE>, <COUNTRY> befindet. Sie können das Büro auch unter <PHONE> erreichen oder die zweite Filiale in <ZIP> <STATE> besuchen. Die <AGE>-jährige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde.","Um Ihre Identität zu überprüfen, benötigen wir Ihre Kontonummer: FM38 4665 9935 7017 7939 03. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 00923300T622. Bei Fragen können Sie sich gerne an Dr. Karl-Friedrich Kohl Dorothee Rost im Gesundheitszentrum Miesbach wenden, das sich in der 63335 Germersheim, Tennessee, Lettland befindet. Sie können das Büro auch unter +45-62-56389373 erreichen oder die zweite Filiale in 42876 Connecticut besuchen. Die 22-jährige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde."


## Broken Text 1

In [None]:
broken_text_1 = """Herr Joha.nnes Be cker (1D: T0110053F5D), 74 Jahre alt, wohnhaft in der Ber!iner Str aße, 50667 Stuttgart, wurd.e am Sep tember 2024 in die K1inik in K öln aufgenom men. Er kLagte über a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. Wäh rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgeführt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau An na Becke r, wohnhaft in der Rheinstraße 12, ist a!s Notfallkontak t unter der Nummer +49 2211234 errei chbar. Herr Becker wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15.ç10.2024 entlas sen."""

get_results(broken_text_1, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Herr Joha.nnes Be cker (1D: T0110053F5D), 74 Jahre alt, wohnhaft in der Ber!iner Str aße, 50667 Stuttgart, wurd.e am Sep tember 2024 in die K1inik in K öln aufgenom men. Er kLagte über a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. Wäh rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgeführt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau An na Becke r, wohnhaft in der Rheinstraße 12, ist a!s Notfallkontak t unter der Nummer +49 2211234 errei chbar. Herr Becker wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15.ç10.2024 entlas sen.","Herr <NAME> <NAME> cker (<AGE>D: <ID>), <AGE> Jahre alt, wohnhaft in der <LOCATION> aße, <ZIP> <CITY>, wurd.e am <DATE> in die K1inik in <LOCATION> aufgenom men. Er kLagte über a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. Wäh rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgeführt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau <NAME> na <NAME> r, wohnhaft in der <LOCATION>, ist a!s Notfallkontak t unter der Nummer +49 <CONTACT> errei chbar. Herr <NAME> wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am <DATE> entlas sen.","Herr Alexandros Bruns Marek Gerhardt cker (3D: Q2297989Q1J), 73 Jahre alt, wohnhaft in der Dehmelplatz 85 aße, 94174 Altentreptow, wurd.e am 24-01-1968 in die K1inik in Warmerstraße 491 aufgenom men. Er kLagte über a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. Wäh rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgeführt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau Rosina Nolte na Leila Kunz r, wohnhaft in der Tibor-Tintzmann-Straße 73, ist a!s Notfallkontak t unter der Nummer +49 0814481 errei chbar. Herr Friedrich-Karl Heidenreich wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15-04-1936 entlas sen."


## Broken Text 2

In [None]:
broken_text_2 = """Frau Helgé Sch mitz (Patienten-iD: T0110053F5D) wurde am 15. MaI 2024 im Städtischen Kran kenhaus in Düsseld orf aufgenommen. Sie kam mit Be schwerden über starke Rückenschmer zen und wurde zur Un tersuchung über wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist 123-45-6789. Während ihres Aufent halts wurde auch ein CT-S can durchge führt, um an dere mögliche Ursa chen auszuschließen. Frau Schmitz wurde am Maz 2024 entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, Tho mas Schmitz, wohnhaft in der Haupt straße 10, 40210 Düssel dorf."""

get_results(broken_text_2, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Frau Helgé Sch mitz (Patienten-iD: T0110053F5D) wurde am 15. MaI 2024 im Städtischen Kran kenhaus in Düsseld orf aufgenommen. Sie kam mit Be schwerden über starke Rückenschmer zen und wurde zur Un tersuchung über wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist 123-45-6789. Während ihres Aufent halts wurde auch ein CT-S can durchge führt, um an dere mögliche Ursa chen auszuschließen. Frau Schmitz wurde am Maz 2024 entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, Tho mas Schmitz, wohnhaft in der Haupt straße 10, 40210 Düssel dorf.","Frau <NAME> <NAME> mitz (Patienten-iD: <ID>) wurde am 15. <DATE> im <LOCATION> in <LOCATION> orf aufgenommen. Sie kam mit Be schwerden über starke Rückenschmer zen und wurde zur Un tersuchung über wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit <NAME> rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist <CONTACT>. Während ihres Aufent halts wurde auch ein CT-S can durchge führt, um an dere mögliche Ursa chen auszuschließen. Frau <NAME> wurde am <LOCATION> entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, <PATIENT>, wohnhaft in der Haupt <LOCATION>, <ZIP> <LOCATION>.","Frau Alf Bühler Gottlob Eggers mitz (Patienten-iD: E5631497W2O) wurde am 15. Juli 2024 im Louise-Mälzer-Weg 78 in Albersgasse 9 orf aufgenommen. Sie kam mit Be schwerden über starke Rückenschmer zen und wurde zur Un tersuchung über wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Korinna Hübner rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist 378-58-8502. Während ihres Aufent halts wurde auch ein CT-S can durchge führt, um an dere mögliche Ursa chen auszuschließen. Frau Reza Schaper wurde am Ahmed-Heuser-Gasse 80 entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, Vladimir Theis, wohnhaft in der Haupt Wellerplatz 684, 77412 Hethurstraße 210."


## Broken Text 3

In [None]:
broken_text_3 = """Um Ire Identität zu üerprüfen, benötigen wir Ire Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 289110478M657. Falls es dazu noch Fragen gibt, können Se sich gerne an Dr. Anna Schm*dt im Gesundheitszenrum Frankurt wenden. Diese befindet sich in der 60313 Frankf*urt am Main, Hessen, Deutschnd. Es besteht auch die Mglichkeit, das Büro unter +49-89-12345678 telefonisch zu erre*chen.

Neben der Frankurter Filiale gibt es eine wetere Zweigstelle in 12345 Hamb*rg, die Sie besuchen können. Die 28-jährige Frau, die wir früher in diesem Zammenhang erwähn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde."""

get_results(broken_text_3, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Um Ire Identität zu üerprüfen, benötigen wir Ire Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 289110478M657. Falls es dazu noch Fragen gibt, können Se sich gerne an Dr. Anna Schm*dt im Gesundheitszenrum Frankurt wenden. Diese befindet sich in der 60313 Frankf*urt am Main, Hessen, Deutschnd. Es besteht auch die Mglichkeit, das Büro unter +49-89-12345678 telefonisch zu erre*chen.\n\nNeben der Frankurter Filiale gibt es eine wetere Zweigstelle in 12345 Hamb*rg, die Sie besuchen können. Die 28-jährige Frau, die wir früher in diesem Zammenhang erwähn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde.","Um Ire Identität zu üerprüfen, benötigen wir Ire Kontonummer: <ACCOUNT>. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 2<SSN>. Falls es dazu noch Fragen gibt, können Se sich gerne an Dr. <NAME> <NAME>*dt im Gesundheitszenrum <LOCATION> wenden. Diese befindet sich in der <ZIP> <LOCATION>*<LOCATION>, <STATE>, <LOCATION>. Es besteht auch die Mglichkeit, das Büro unter <PHONE> telefonisch zu erre*chen.\n\nNeben der <LOCATION> gibt es eine wetere Zweigstelle in <ZIP> <LOCATION>*<ORGANIZATION>, die Sie besuchen können. Die <AGE>-jährige Frau, die wir früher in diesem Zammenhang erwähn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde.","Um Ire Identität zu üerprüfen, benötigen wir Ire Kontonummer: KC00 3491 7915 0569 7948 01. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 265537482L078. Falls es dazu noch Fragen gibt, können Se sich gerne an Dr. Karl-Friedrich Kohl Esther Rothe*dt im Gesundheitszenrum Karina-Kohl-Weg 847 wenden. Diese befindet sich in der 67544 Mühlering 81*Maike-Riehl-Platz 969, Tennessee, Seipstraße 903. Es besteht auch die Mglichkeit, das Büro unter +92-01-00712197 telefonisch zu erre*chen.\n\nNeben der Freia-Trubin-Ring 8 gibt es eine wetere Zweigstelle in 58832 Aleksandr-Süßebier-Ring 759*Computer Sciences Corporation, die Sie besuchen können. Die 22-jährige Frau, die wir früher in diesem Zammenhang erwähn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde."
