

![JohnSnowLabs](https://nlp.johnsnowlabs.com/assets/images/logo.png)

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/streamlit_notebooks/healthcare_jsl/NER_HEALTHCARE_DE.ipynb)




# **Detect symptoms, treatments and other NERs in German**

To run this yourself, you will need to upload your license keys to the notebook. Just Run The Cell Below in order to do that. Also You can open the file explorer on the left side of the screen and upload `license_keys.json` to the folder that opens.
Otherwise, you can look at the example outputs at the bottom of the notebook.



## 1. Colab Setup

In [None]:
# Install the johnsnowlabs library to access Spark-OCR and Spark-NLP for Healthcare, Finance, and Legal.
! pip install johnsnowlabs

In [None]:
from google.colab import files
print("Please Upload your John Snow Labs License using the button below")
license_keys = files.upload()

In [None]:
from johnsnowlabs import *

# After uploading your license run this to install all licensed Python Wheels and pre-download Jars the Spark Session JVM
# Make sure to restart your notebook afterwards for changes to take effect

jsl.install()

## Start Session

In [None]:
from johnsnowlabs import *
# Automatically load license data and start a session with all jars user has access to
spark = jsl.start()

In [None]:
spark

## 2. Construct the pipeline

For more details: https://github.com/JohnSnowLabs/spark-nlp-models#pretrained-models---spark-nlp-for-healthcare

In [None]:
document_assembler = nlp.DocumentAssembler() \
              .setInputCol("text")\
              .setOutputCol("document")

sentence_detector = nlp.SentenceDetector() \
              .setInputCols(["document"])\
              .setOutputCol("sentence")

tokenizer = nlp.Tokenizer()\
              .setInputCols(["sentence"]) \
              .setOutputCol("token")

# German word embeddings
word_embeddings = nlp.WordEmbeddingsModel.pretrained('w2v_cc_300d','de', 'clinical/models') \
              .setInputCols(["sentence", 'token'])\
              .setOutputCol("embeddings")

# German NER model
# Use only if you have w2v_cc_300d Word embeddings
clinical_ner = medical.NerModel.pretrained("ner_healthcare_slim",'de','clinical/models') \
              .setInputCols(["sentence", "token", "embeddings"]) \
              .setOutputCol("ner")

# Use only if you have embeddings_healthcare Word embeddings
# clinical_ner = MedicalNerModel.pretrained('ner_healthcare', "de", "clinical/models") \
#     .setInputCols(["sentence", "token", "embeddings"])\
#     .setOutputCol("ner")


ner_converter = nlp.NerConverter()\
              .setInputCols(['sentence', 'token', 'ner']) \
              .setOutputCol('ner_chunk')

nlp_pipeline = Pipeline(stages=[document_assembler, 
                                sentence_detector,
                                tokenizer,
                                word_embeddings,
                                clinical_ner,
                                ner_converter])

w2v_cc_300d download started this may take some time.
Approximate size to download 1.2 GB
[OK!]
ner_healthcare_slim download started this may take some time.
[OK!]


----

Make sure the **Annotator** storage ref should match the storage ref for the **Embeddings**

In [None]:
word_embeddings.getStorageRef()

'w2v_cc_300d'

In [None]:
clinical_ner.getStorageRef()

'w2v_cc_300d'

----

## 3. Create example inputs

In [None]:
# Enter examples as strings in this array
input_list = [
    """Ja das ist bekannt gewesen. Und die haben sich danach gerichtet. Hatte das Gefühl das er sich schon sehr wohl da gefühlt. Haben das auch von den Betreuern als Rückmeldung erhalten. Er ist zwar immer furchtbar aufgeregt wenn es dann los geht, aber wenn er dann da ist, freut er sich doch. Müssen zwar dann auch meist er sehr lange Autofahrt in Kauf nehmen da es das nicht in unserer Gegend gibt. Aber wenn er wenigstens daran eine Freude, warum nicht.
Leute, lest euch diesen Beitrag vollständig durch! Cosma und ich, wir haben unsere Erlebnisse gut dokumentiert. Wir waren am Anfang genauso ratlos, wie du (und noch andere, die hier dieselben Fragen stellem), die Diagnose ist für solche Sachen entweder Depressionen oder Burnout bzw. beides (wenn nichts Körperliches vorliegt). Manche haben noch zusätzlich Angstzustände oder Panikattacken. Die Diagnose sollte allerdings ein Neurologe/Psychiater stellen.""",
    """Das ist doch immer eine Überlegung wert. Bis vor kurzem war das sogar noch die Strategie ganzer Länder, u. a. GB. Also ich bin zum Besispiel einer von den süßen Opis, die derzeit bloß nicht an den Eiern gedrückt werden sollen. Ich würde mir tatsächlich eine Ansteckung mit einem einigermaßen moderaten Verlauf wünschen. Dann hätte ich, nach allem was man weiß, u. a. von Rhesusaffen, eine Grundimmunität und könnte rausgehen und meinen Mitmenschen unter die Arme greifen. Ich bin halt alt, aber net unbedingt schwach. Rüstiger Greis, sozusagen"""
]

## 4. Use the pipeline to create outputs

In [None]:
from pyspark.sql.types import StringType, IntegerType

df = spark.createDataFrame(input_list, StringType()).toDF('text')
result = nlp_pipeline.fit(df).transform(df)

## 5. Visualize results

In [None]:
from sparknlp_display import NerVisualizer

NerVisualizer().display(
    result = result.collect()[0],
    label_col = 'ner_chunk',
    document_col = 'document'
)