![JohnSnowLabs](https://nlp.johnsnowlabs.com/assets/images/logo.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/healthcare-nlp/04.9.German_Clinical_Deidentification.ipynb)

## Colab Setup

In [None]:
# Install the johnsnowlabs library to access Spark-OCR and Spark-NLP for Healthcare, Finance, and Legal.
! pip install -q johnsnowlabs

In [None]:
from google.colab import files
print('Please Upload your John Snow Labs License using the button below')
license_keys = files.upload()

In [None]:
from johnsnowlabs import nlp, medical

# After uploading your license run this to install all licensed Python Wheels and pre-download Jars the Spark Session JVM
nlp.settings.enforce_versions=False
nlp.install(refresh_install=True)

In [5]:
from johnsnowlabs import nlp, medical
# Automatically load license data and start a session with all jars user has access to

spark = nlp.start()

üëå Detected license file /content/5.5.3.spark_nlp_for_healthcare.json
üëå Launched [92mcpu optimized[39m session with with: üöÄSpark-NLP==5.5.2, üíäSpark-Healthcare==5.5.3, running on ‚ö° PySpark==3.4.0


In [6]:
spark

# German `Deidentification` Pipeline

In [18]:
import pandas as pd
pd.set_option('display.max_colwidth', 0)

def get_results(text, pipeline):

    deid_res = pipeline.fullAnnotate(text)

    for res in deid_res:
        sentence = [original_text.result for original_text in res["document"]]
        masked = [masked_text.result for masked_text in res["masked"]]
        obfuscated = [obfuscated_text.result for obfuscated_text in res["obfuscated"]]

    return pd.DataFrame({"Sentence": sentence, "Masked": masked, "Obfuscated":obfuscated})

In [19]:
deid_pipe = nlp.PretrainedPipeline("clinical_deidentification_docwise_wip", "de", "clinical/models")

clinical_deidentification_docwise_wip download started this may take some time.
Approx size to download 1.2 GB
[OK!]


## Text-1

In [20]:
sample_text_1 = """
Klinischer Bericht
Patienten-ID: 12345678
Name: Herr Max Mustermann
Geburtsdatum: 12 M√§rz 1985
Adresse: Musterstra√üe 12, 12345 Stuttgart
Stadt: Berlin
Telefonnummer: +49 30 12345678
E-Mail: max.mustermann@example.de
Sozialversicherungsnummer (SVN): 13110587M565
Aufnahmedatum: 20 Oktober 2024
Entlassungsdatum: 25 Oktober 2024

Diagnose:
ICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht n√§her bezeichnet)
OPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)

Medikamente:
PZN: 12345678 (Metformin 850 mg Tabletten)
PZN: 87654321 (Aspirin 100 mg Tabletten)

Hilfsmittel:
HMV: 17.99.09.1010 (Blutzuckermessger√§t)

Kontaktperson: Frau Anna Mustermann
Kontaktadresse: Blumenstra√üe 5, 12345 Berlin
Kontaktnummer: +49 3098765432

Verlauf:
Der Patient wurde am 20.10.2024 aufgrund erh√∂hter Blutzuckerwerte aufgenommen.
Bei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 22.10.2024 erfolgreich durchgef√ºhrt.
Der Patient zeigte nach der Operation keine Komplikationen und wurde am 25.10.2024 entlassen.
"""

get_results(sample_text_1, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"\nKlinischer Bericht\nPatienten-ID: 12345678\nName: Herr Max Mustermann\nGeburtsdatum: 12 M√§rz 1985\nAdresse: Musterstra√üe 12, 12345 Stuttgart\nStadt: Berlin\nTelefonnummer: +49 30 12345678\nE-Mail: max.mustermann@example.de\nSozialversicherungsnummer (SVN): 13110587M565\nAufnahmedatum: 20 Oktober 2024\nEntlassungsdatum: 25 Oktober 2024\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht n√§her bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessger√§t)\n\nKontaktperson: Frau Anna Mustermann\nKontaktadresse: Blumenstra√üe 5, 12345 Berlin\nKontaktnummer: +49 3098765432\n\nVerlauf:\nDer Patient wurde am 20.10.2024 aufgrund erh√∂hter Blutzuckerwerte aufgenommen.\nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 22.10.2024 erfolgreich durchgef√ºhrt.\nDer Patient zeigte nach der Operation keine Komplikationen und wurde am 25.10.2024 entlassen.\n","\nKlinischer Bericht\nPatienten-ID: <ID>\nName: Herr <NAME> <NAME>\nGeburtsdatum: <DATE>\nAdresse: Musterstra√üe 12, <ZIP> <CITY>\nStadt: <STATE>\nTelefonnummer: <PHONE>\nE-Mail: <EMAIL>\nSozialversicherungsnummer (SVN): <SSN>Aufnahmedatum: <DATE>\nEntlassungsdatum: <DATE>\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht n√§her bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessger√§t)\n\nKontaktperson: Frau <NAME> <NAME>\nKontaktadresse: Blumenstra√üe 5, <ZIP> <STATE>\nKontaktnummer: <PHONE>\n\nVerlauf:\nDer Patient wurde am <DATE> aufgrund erh√∂hter Blutzuckerwerte aufgenommen.\nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am <DATE> erfolgreich durchgef√ºhrt.\nDer Patient zeigte nach der Operation keine Komplikationen und wurde am <DATE> entlassen.\n","\nKlinischer Bericht\nPatienten-ID: 47698103\nName: Herr Hethur Concetta\nGeburtsdatum: 11 Mai 1985\nAdresse: Musterstra√üe 12, 92143 P√∂√üneck\nStadt: Saarland\nTelefonnummer: +92 65 47698103\nE-Mail: Huan@google.com\nSozialversicherungsnummer (SVN): 68667052J030Aufnahmedatum: 19 Dezember 2024\nEntlassungsdatum: 24 Dezember 2024\n\nDiagnose:\nICD-10: E11.9 (Typ-2-Diabetes mellitus, nicht n√§her bezeichnet)\nOPS-Code: 5-470.01 (Transurethrale Resektion der Prostata)\n\nMedikamente:\nPZN: 12345678 (Metformin 850 mg Tabletten)\nPZN: 87654321 (Aspirin 100 mg Tabletten)\n\nHilfsmittel:\nHMV: 17.99.09.1010 (Blutzuckermessger√§t)\n\nKontaktperson: Frau Mehdi Concetta\nKontaktadresse: Blumenstra√üe 5, 92143 Saarland\nKontaktnummer: +14 8745230189\n\nVerlauf:\nDer Patient wurde am 19.12.2024 aufgrund erh√∂hter Blutzuckerwerte aufgenommen.\nBei der Aufnahme wurden folgende Vitalwerte gemessen: Blutdruck 140/90 mmHg, Blutzucker 280 mg/dL. Eine transurethrale Resektion der Prostata (OPS 5-470.01) wurde am 21.12.2024 erfolgreich durchgef√ºhrt.\nDer Patient zeigte nach der Operation keine Komplikationen und wurde am 24.12.2024 entlassen.\n"


## Text-2

In [21]:
sample_text_2 = """Sehr geehrter Herr Schmidt, bez√ºglich Ihrer Anfrage vom 15.03.2024 f√ºr Ihre Krankenakte
341123 m√∂chte ich best√§tigen, dass Ihre Sozialversicherungsnummer 13110587M565 und
Ihre Versichertennummer T0110053F5D korrekt in unserem System hinterlegt sind. Wie besprochen k√∂nnen Sie Ihre
neue Fahrerlaubnis B072RRE2I55 in der Beh√∂rde in M√ºnchen, Bayern, Deutschland abholen. Die Adresse daf√ºr
ist Musterstra√üe 12, 12345 Stuttgart. Ihr Fahrzeug mit dem Kennzeichen M-AB 1234  ist bereits registriert.
Falls Sie Fragen haben, erreichen Sie uns unter +49 89 12345678 oder schreiben Sie an support@beispiel.de.
Unsere Details finden Sie auch unter https://www.beispiel-behoerde.de. F√ºr Ihre Bankgesch√§fte nutzen
Sie weiterhin das Konto DE89 3704 0044 0532 0130 00. Laut unseren Unterlagen
sind Sie 45 Jahre alt. Zertifikat: 12345As. Alle Ihre Daten werden gem√§√ü der DSGVO in unserer Zentrale in der
Robert-Koch-Stra√üe 45, 80335 M√ºnchen verarbeitet. Alternativ k√∂nnen Sie auch unsere Zweigstelle
in Berlin oder Hamburg besuchen. Zus√§tzliche Informationen finden Sie auf unserem Portal
kontaktieren Sie uns unter kontakt@beispiel-support.de. Fahrzeug-Identifizierungsnummer: 4Y1SL65848Z411439,"""

get_results(sample_text_2, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Sehr geehrter Herr Schmidt, bez√ºglich Ihrer Anfrage vom 15.03.2024 f√ºr Ihre Krankenakte\n341123 m√∂chte ich best√§tigen, dass Ihre Sozialversicherungsnummer 13110587M565 und\nIhre Versichertennummer T0110053F5D korrekt in unserem System hinterlegt sind. Wie besprochen k√∂nnen Sie Ihre\nneue Fahrerlaubnis B072RRE2I55 in der Beh√∂rde in M√ºnchen, Bayern, Deutschland abholen. Die Adresse daf√ºr\nist Musterstra√üe 12, 12345 Stuttgart. Ihr Fahrzeug mit dem Kennzeichen M-AB 1234 ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter +49 89 12345678 oder schreiben Sie an support@beispiel.de.\nUnsere Details finden Sie auch unter https://www.beispiel-behoerde.de. F√ºr Ihre Bankgesch√§fte nutzen\nSie weiterhin das Konto DE89 3704 0044 0532 0130 00. Laut unseren Unterlagen\nsind Sie 45 Jahre alt. Zertifikat: 12345As. Alle Ihre Daten werden gem√§√ü der DSGVO in unserer Zentrale in der\nRobert-Koch-Stra√üe 45, 80335 M√ºnchen verarbeitet. Alternativ k√∂nnen Sie auch unsere Zweigstelle\nin Berlin oder Hamburg besuchen. Zus√§tzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter kontakt@beispiel-support.de. Fahrzeug-Identifizierungsnummer: 4Y1SL65848Z411439,","Sehr geehrter Herr <NAME>, bez√ºglich Ihrer Anfrage vom <DATE> f√ºr Ihre Krankenakte\n<MEDICALRECORD> m√∂chte ich best√§tigen, dass Ihre Sozialversicherungsnummer <SSN>und\nIhre Versichertennummer <ID> korrekt in unserem System hinterlegt sind. Wie besprochen k√∂nnen Sie Ihre\nneue Fahrerlaubnis <DLN> in der Beh√∂rde in <CITY>, <STATE>, <COUNTRY> abholen. Die Adresse daf√ºr\nist Musterstra√üe 12, <ZIP> <CITY>. Ihr Fahrzeug mit dem Kennzeichen <PLATE> ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter <PHONE> oder schreiben Sie an <EMAIL>.\nUnsere Details finden Sie auch unter <URL>. F√ºr Ihre Bankgesch√§fte nutzen\nSie weiterhin das Konto <ACCOUNT>. Laut unseren Unterlagen\nsind Sie <AGE> Jahre alt. Zertifikat: <LICENSE>. Alle Ihre Daten werden gem√§√ü der DSGVO in unserer Zentrale in der\n<STREET>, <ZIP> <CITY> verarbeitet. Alternativ k√∂nnen Sie auch unsere <LOCATION>\nin <STATE> oder <STATE> besuchen. Zus√§tzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter <EMAIL>. Fahrzeug-Identifizierungsnummer: <VIN>,","Sehr geehrter Herr Johan, bez√ºglich Ihrer Anfrage vom 14.05.2024 f√ºr Ihre Krankenakte\n149921 m√∂chte ich best√§tigen, dass Ihre Sozialversicherungsnummer 68667052J030und\nIhre Versichertennummer C1001142Q4S korrekt in unserem System hinterlegt sind. Wie besprochen k√∂nnen Sie Ihre\nneue Fahrerlaubnis N496XXU6I77 in der Beh√∂rde in Rochlitz, Rheinland-Pfalz, Barbados abholen. Die Adresse daf√ºr\nist Musterstra√üe 12, 92143 P√∂√üneck. Ihr Fahrzeug mit dem Kennzeichen L-PM 6981 ist bereits registriert.\nFalls Sie Fragen haben, erreichen Sie uns unter +81 21 36587092 oder schreiben Sie an Aeron@google.com.\nUnsere Details finden Sie auch unter PoliticalMakeover.com.ee. F√ºr Ihre Bankgesch√§fte nutzen\nSie weiterhin das Konto IJ32 6059 5599 5867 5465 55. Laut unseren Unterlagen\nsind Sie 59 Jahre alt. Zertifikat: 81032BP. Alle Ihre Daten werden gem√§√ü der DSGVO in unserer Zentrale in der\nMandy-Peukert-Weg 3/4, 46779 Rochlitz verarbeitet. Alternativ k√∂nnen Sie auch unsere Wenke-Fliegner-Stra√üe 44\nin Saarland oder Bremen besuchen. Zus√§tzliche Informationen finden Sie auf unserem Portal\nkontaktieren Sie uns unter Brooks@hotmail.com. Fahrzeug-Identifizierungsnummer: 5J0PC74959G500528,"


## Text-3

In [22]:
sample_text_3 = """P98765432
15 Oktober 2024
Musterstra√üe 5, 80331 M√ºnchen
lisa.meier@example.de

Frau Lisa Meier wurde am  ins Krankenhaus in M√ºnchen aufgenommen.  Ihre Sozialversicherungsnummer lautet 26110587K565.
Die Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 17 Oktober 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00).
Ihr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung.
Ihre Kontaktperson, Herr Thomas Meier, wohnhaft in Gartenweg 12, 80333 M√ºnchen, ist unter der Nummer +49 89 123456 erreichbar. Sie ist per E-Mail unter lisa.meier@example.de erreichbar.
Frau Meier wurde am 20 Okt 2024 in gutem Zustand entlassen."""

get_results(sample_text_3, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"P98765432\n15 Oktober 2024\nMusterstra√üe 5, 80331 M√ºnchen\nlisa.meier@example.de\n\nFrau Lisa Meier wurde am ins Krankenhaus in M√ºnchen aufgenommen. Ihre Sozialversicherungsnummer lautet 26110587K565.\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 17 Oktober 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00).\nIhr behandelnder Arzt verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung.\nIhre Kontaktperson, Herr Thomas Meier, wohnhaft in Gartenweg 12, 80333 M√ºnchen, ist unter der Nummer +49 89 123456 erreichbar. Sie ist per E-Mail unter lisa.meier@example.de erreichbar.\nFrau Meier wurde am 20 Okt 2024 in gutem Zustand entlassen.","<ID>\n<DATE>\nMusterstra√üe 5, <ZIP> <CITY>\n<EMAIL>\n\nFrau <NAME> <NAME> wurde am ins Krankenhaus in <CITY> aufgenommen. Ihre Sozialversicherungsnummer lautet <SSN>\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am <DATE> erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00).\nIhr behandelnder <PROFESSION> verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung.\nIhre Kontaktperson, Herr <NAME> <NAME>, wohnhaft in <STREET>, <ZIP> <CITY>, ist unter der Nummer <PHONE> erreichbar. Sie ist per E-Mail unter <EMAIL> erreichbar.\nFrau <NAME> wurde am <DATE> in gutem Zustand entlassen.","Z34129078\n14 Dezember 2024\nMusterstra√üe 5, 68997 Rochlitz\nAdayre@google.com\n\nFrau Nick Friedo wurde am ins Krankenhaus in Rochlitz aufgenommen. Ihre Sozialversicherungsnummer lautet 59223618F696\nDie Diagnose lautete essentielle Hypertonie (I10) und fortgeschrittene Arthrose im rechten Knie. Am 16 Dezember 2024 erhielt sie erfolgreich eine Kniegelenk-Endoprothese (OPS-Code 5-775.00).\nIhr behandelnder Technischer Support-Mitarbeiter verschrieb Ramipril 5 mg (PZN: 76543210) und Ibuprofen 400 mg (PZN: 09876543) zur Schmerzbehandlung. Zudem erhielt sie eine Knieorthese (HMV: 23.40.04.2001) zur postoperativen Stabilisierung.\nIhre Kontaktperson, Herr Egon Friedo, wohnhaft in Eimerring 477, 91222 Rochlitz, ist unter der Nummer +92 32 476981 erreichbar. Sie ist per E-Mail unter Adayre@google.com erreichbar.\nFrau Friedo wurde am 11-02-1998 in gutem Zustand entlassen."


## Text-4

In [23]:
sample_text_4 = """Zusammenfassung : Michael Berger wird am Morgen des 12 Dezember 2018 ins St.Elisabeth Krankenhaus eingeliefert.
Herr Michael Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen.

Pers√∂nliche Daten :
ID-Nummer: T0110053F
Platte A-BC124
Kontonummer: DE89370400440532013000
SSN : 13110587M565
Lizenznummer: B072RRE2I55
Adresse : St.Johann-Stra√üe 13 19300"""

get_results(sample_text_4, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,Zusammenfassung : Michael Berger wird am Morgen des 12 Dezember 2018 ins St.Elisabeth Krankenhaus eingeliefert.\nHerr Michael Berger ist 76 Jahre alt und hat zu viel Wasser in den Beinen.\n\nPers√∂nliche Daten :\nID-Nummer: T0110053F\nPlatte A-BC124\nKontonummer: DE89370400440532013000\nSSN : 13110587M565\nLizenznummer: B072RRE2I55\nAdresse : St.Johann-Stra√üe 13 19300,Zusammenfassung : <PATIENT> wird am Morgen des <DATE> ins <HOSPITAL> eingeliefert.\nHerr <NAME> <NAME> ist <AGE> Jahre alt und hat zu viel Wasser in den Beinen.\n\nPers√∂nliche Daten :\nID-Nummer: <ID>\nPlatte <PLATE>\nKontonummer: <ACCOUNT>\nSSN : <SSN>Lizenznummer: <DLN>\nAdresse : <STREET> <ZIP>,Zusammenfassung : Natalja K√∂hn wird am Morgen des 10 Februar 2019 ins Klinikum Osnabr√ºck eingeliefert.\nHerr Sabine Beatrice ist 71 Jahre alt und hat zu viel Wasser in den Beinen.\n\nPers√∂nliche Daten :\nID-Nummer: H2112253V\nPlatte S-PQ146\nKontonummer: NO43716066006978657666\nSSN : 68667052J030Lizenznummer: N496XXU6I77\nAdresse : Scheuermannstr. 33 64877


## Text-5

In [24]:
sample_text_5 = """Um Ihre Identit√§t zu √ºberpr√ºfen, ben√∂tigen wir Ihre Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 89110478M657. Bei Fragen k√∂nnen Sie sich gerne an Dr. Anna Schmidt im Gesundheitszentrum Frankfurt wenden, das sich in der 60313 Frankfurt am Main, Hessen, Deutschland befindet. Sie k√∂nnen das B√ºro auch unter +49-89-12345678 erreichen oder die zweite Filiale in 12345 Hamburg besuchen. Die 28-j√§hrige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde."""

get_results(sample_text_5, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Um Ihre Identit√§t zu √ºberpr√ºfen, ben√∂tigen wir Ihre Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 89110478M657. Bei Fragen k√∂nnen Sie sich gerne an Dr. Anna Schmidt im Gesundheitszentrum Frankfurt wenden, das sich in der 60313 Frankfurt am Main, Hessen, Deutschland befindet. Sie k√∂nnen das B√ºro auch unter +49-89-12345678 erreichen oder die zweite Filiale in 12345 Hamburg besuchen. Die 28-j√§hrige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde.","Um Ihre Identit√§t zu √ºberpr√ºfen, ben√∂tigen wir Ihre Kontonummer: <ACCOUNT>. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: <SSN> Bei Fragen k√∂nnen Sie sich gerne an Dr. <NAME> <NAME> im Gesundheitszentrum <CITY> wenden, das sich in der <ZIP> <CITY>, <STATE>, <COUNTRY> befindet. Sie k√∂nnen das B√ºro auch unter <PHONE> erreichen oder die zweite Filiale in <ZIP> <STATE> besuchen. Die <AGE>-j√§hrige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde.","Um Ihre Identit√§t zu √ºberpr√ºfen, ben√∂tigen wir Ihre Kontonummer: HI88 7443 4739 7849 4444 44. Bitte geben Sie auch Ihre Sozialversicherungsnummer (SSN) im Rahmen des Antragsprozesses an: 09112670W857 Bei Fragen k√∂nnen Sie sich gerne an Dr. Mehdi Johan im Gesundheitszentrum Wetzlar wenden, das sich in der 15646 Tuttlingen, Nordrhein-Westfalen, Barbados befindet. Sie k√∂nnen das B√ºro auch unter +58-98-03254769 erreichen oder die zweite Filiale in 92143 Bremen besuchen. Die 21-j√§hrige Frau, die wir zuvor besprochen haben, hat eine Vorgeschichte von Schwangerschaftsdiabetes, der vor acht Jahren diagnostiziert wurde."


## Broken Text 1

In [25]:
broken_text_1 = """Herr Joha.nnes Be cker (1D: T0110053F5D), 74 Jahre alt, wohnhaft in der Ber!iner Str a√üe, 50667 Stuttgart, wurd.e am Sep tember 2024 in die K1inik in K √∂ln aufgenom men. Er kLagte √ºber a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. W√§h rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgef√ºhrt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau An na Becke r, wohnhaft in der Rheinstra√üe 12, ist a!s Notfallkontak t unter der Nummer +49 2211234 errei chbar. Herr Becker wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15.√ß10.2024 entlas sen."""

get_results(broken_text_1, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Herr Joha.nnes Be cker (1D: T0110053F5D), 74 Jahre alt, wohnhaft in der Ber!iner Str a√üe, 50667 Stuttgart, wurd.e am Sep tember 2024 in die K1inik in K √∂ln aufgenom men. Er kLagte √ºber a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. W√§h rend seines Aufenthalts wurde e!ne endosk opische Untersu chung (OPS: 8-980.2) durchgef√ºhrt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau An na Becke r, wohnhaft in der Rheinstra√üe 12, ist a!s Notfallkontak t unter der Nummer +49 2211234 errei chbar. Herr Becker wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15.√ß10.2024 entlas sen.","Herr <NAME> <NAME> <PATIENT> (1D: <ID>), <AGE> Jahre alt, wohnhaft in der Ber!iner Str a√üe, <ZIP> <CITY>, wurd.e am <DATE> in die <LOCATION> in <NAME> √∂ln aufgenom men. Er kLagte √ºber a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. W√§h rend seines Aufenthalts wurde e!ne endosk <NAME> Untersu chung (OPS: 8-980.2) durchgef√ºhrt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau <NAME> na <NAME> r, wohnhaft in der Rheinstra√üe <AGE>, ist a!s Notfallkontak t unter der Nummer +49 <MEDICALRECORD> errei chbar. Herr <NAME> wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am <DATE> entlas sen.","Herr Belinda Aldo franca (1D: C1001142Q4S), 69 Jahre alt, wohnhaft in der Ber!iner Str a√üe, 52887 P√∂√üneck, wurd.e am 24-01-1968 in die Lina-Holzapfel-Stra√üe 12 in PAULINA √∂ln aufgenom men. Er kLagte √ºber a nhaltende Ma.genbeschwer den und wurde zur Untersuchung eingew1esen. W√§h rend seines Aufenthalts wurde e!ne endosk kazim Untersu chung (OPS: 8-980.2) durchgef√ºhrt, die keinen pathologischen Be fund erg ab. Zur Behand lun g seines Typ-2-Diabetes (Ell.9) wurde ihm Metformin erordn et. Seine Ehefr au, Frau Rochus na Stanislaus r, wohnhaft in der Rheinstra√üe 15, ist a!s Notfallkontak t unter der Nummer +49 0077092 errei chbar. Herr Hans-H. wu rde nach erfolgrei cher Stabilisierung seines Gesund heitszustands am 15-04-1936 entlas sen."


## Broken Text 2

In [26]:
broken_text_2 = """Frau Helg√© Sch mitz (Patienten-iD: T0110053F5D) wurde am 15. MaI 2024 im St√§dtischen Kran kenhaus in D√ºsseld orf aufgenommen. Sie kam mit Be schwerden √ºber starke R√ºckenschmer zen und wurde zur Un tersuchung √ºber wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist 123-45-6789. W√§hrend ihres Aufent halts wurde auch ein CT-S can durchge f√ºhrt, um an dere m√∂gliche Ursa chen auszuschlie√üen. Frau Schmitz wurde am Maz 2024 entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, Tho mas Schmitz, wohnhaft in der Haupt stra√üe 10, 40210 D√ºssel dorf."""

get_results(broken_text_2, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Frau Helg√© Sch mitz (Patienten-iD: T0110053F5D) wurde am 15. MaI 2024 im St√§dtischen Kran kenhaus in D√ºsseld orf aufgenommen. Sie kam mit Be schwerden √ºber starke R√ºckenschmer zen und wurde zur Un tersuchung √ºber wiesen. Die Dia gnose ergab Lu mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S ozi alversicherungsnummer ist 123-45-6789. W√§hrend ihres Aufent halts wurde auch ein CT-S can durchge f√ºhrt, um an dere m√∂gliche Ursa chen auszuschlie√üen. Frau Schmitz wurde am Maz 2024 entlassen, nachdem sich ihr Zustand de utlich verbessert hatte. Ihr E hemann, Tho mas Schmitz, wohnhaft in der Haupt stra√üe 10, 40210 D√ºssel dorf.","Frau <NAME> <NAME> mitz (Patienten-iD: <ID>) wurde am 15. <DATE> im <HOSPITAL> in <CITY> orf aufgenommen. Sie kam mit Be schwerden √ºber starke R√ºckenschmer zen und wurde zur Un tersuchung √ºber wiesen. Die <NAME> gnose ergab <NAME> mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S <NAME> alversicherungsnummer ist <PHONE>. W√§hrend ihres Aufent halts wurde auch ein CT-S can durchge f√ºhrt, um an dere m√∂gliche Ursa chen auszuschlie√üen. Frau <NAME> wurde am <NAME> <DATE> entlassen, nachdem sich ihr Zustand <NAME> verbessert hatte. Ihr E hemann, <PATIENT>, wohnhaft in der Haupt stra√üe 10, <ZIP> <LOCATION>.","Frau Nora Albin mitz (Patienten-iD: C1001142Q4S) wurde am 15. Juli 2024 im St. Benedikt Krankenhaus in NeustadtnerWaldnaab orf aufgenommen. Sie kam mit Be schwerden √ºber starke R√ºckenschmer zen und wurde zur Un tersuchung √ºber wiesen. Die Mario gnose ergab Lothar mbalgie (ICD-10: M54.5), und sie erhielt eine Ther a pie mit Ibup rofen (PZN: 12345678) zur Schmerzlinderung. Ihre S sahin alversicherungsnummer ist 476-98-1032. W√§hrend ihres Aufent halts wurde auch ein CT-S can durchge f√ºhrt, um an dere m√∂gliche Ursa chen auszuschlie√üen. Frau Ronald wurde am Hermannjosef 2025 entlassen, nachdem sich ihr Zustand mesut loos verbessert hatte. Ihr E hemann, Valeri Reiter, wohnhaft in der Haupt stra√üe 10, 95745 Hans-Otto-Trub-Platz 7."


## Broken Text 3

In [27]:
broken_text_3 = """Um Ire Identit√§t zu √ºerpr√ºfen, ben√∂tigen wir Ire Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 289110478M657. Falls es dazu noch Fragen gibt, k√∂nnen Se sich gerne an Dr. Anna Schm*dt im Gesundheitszenrum Frankurt wenden. Diese befindet sich in der 60313 Frankf*urt am Main, Hessen, Deutschnd. Es besteht auch die Mglichkeit, das B√ºro unter +49-89-12345678 telefonisch zu erre*chen.

Neben der Frankurter Filiale gibt es eine wetere Zweigstelle in 12345 Hamb*rg, die Sie besuchen k√∂nnen. Die 28-j√§hrige Frau, die wir fr√ºher in diesem Zammenhang erw√§hn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde."""

get_results(broken_text_3, deid_pipe)

Unnamed: 0,Sentence,Masked,Obfuscated
0,"Um Ire Identit√§t zu √ºerpr√ºfen, ben√∂tigen wir Ire Kontonummer: DE44 5001 0517 5407 0000 00. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 289110478M657. Falls es dazu noch Fragen gibt, k√∂nnen Se sich gerne an Dr. Anna Schm*dt im Gesundheitszenrum Frankurt wenden. Diese befindet sich in der 60313 Frankf*urt am Main, Hessen, Deutschnd. Es besteht auch die Mglichkeit, das B√ºro unter +49-89-12345678 telefonisch zu erre*chen.\n\nNeben der Frankurter Filiale gibt es eine wetere Zweigstelle in 12345 Hamb*rg, die Sie besuchen k√∂nnen. Die 28-j√§hrige Frau, die wir fr√ºher in diesem Zammenhang erw√§hn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde.","Um Ire Identit√§t zu √ºerpr√ºfen, ben√∂tigen wir <LOCATION> Kontonummer: <ACCOUNT>. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: <MEDICALRECORD>. Falls es dazu noch Fragen gibt, k√∂nnen Se sich gerne an Dr. <NAME> <NAME> im <LOCATION> wenden. Diese befindet sich in der <ZIP> <HOSPITAL>, <STATE>, <LOCATION>. Es besteht auch die Mglichkeit, das B√ºro unter <PHONE> telefonisch zu erre*chen.\n\nNeben der <LOCATION> gibt es eine wetere Zweigstelle in <ZIP> <PATIENT>, die Sie besuchen k√∂nnen. Die <AGE>-j√§hrige Frau, die wir fr√ºher in diesem Zammenhang erw√§hn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde.","Um Ire Identit√§t zu √ºerpr√ºfen, ben√∂tigen wir Schweitzerring 65 Kontonummer: HI88 7443 4739 7849 4444 44. Bitte geben Se auch Ihre Soziaversicherungsnmmer (SSN) im Rahmen des Antragsprozesses an: 398001569Z746. Falls es dazu noch Fragen gibt, k√∂nnen Se sich gerne an Dr. Mehdi Valentine im Schlosserring 019 wenden. Diese befindet sich in der 15646 St. Kilian Klinik, Nordrhein-Westfalen, Wendering 275. Es besteht auch die Mglichkeit, das B√ºro unter +58-98-03254769 telefonisch zu erre*chen.\n\nNeben der Patbergstra√üe 51 gibt es eine wetere Zweigstelle in 92143 Schmidt, die Sie besuchen k√∂nnen. Die 21-j√§hrige Frau, die wir fr√ºher in diesem Zammenhang erw√§hn haben, leidet unter einer Vogeschichte von Schwngerschaftsdiabtes, der vor acht Jahren dignostiziert wurde."
