Syntax natürlicher Sprachen, WS 2023/24


# 01 - Setup


## 1. Installation Python3

Wir werden in den Übungen die Programmiersprache *Python* verwenden. Bitte stellen Sie sicher, dass auf Ihrem System die Version 3 des Pythoninterpreters installiert ist.

##### a) Windows
In aller Regel ist Python noch nicht installiert. Wir empfehlen die Python-Distribution *Anaconda* herunterzuladen und zu installieren (Link s.u.).
Falls Sie es bevorzugen, nur das absolut Nötige zu installieren, empfiehlt sich ein Blick auf *Miniconda*. Diese Distribution enthält nur Python und *Anaconda* selbst.

##### b) UNIX (Linux oder Mac)
Auf UNIX-Systemen ist Python, sowie der Paketmanager *pip*, in der Regel bereits installiert. Um zu überprüfen, ob auch die richtige Version installiert ist, können Sie folgenden Befehl ausführen, der zu keiner Fehlermeldung führen sollte:
```
python3
```

Sollte Python 3 nicht installiert sein, ist es empfehlenswert die Python-Distribution *Anaconda* zu installieren (Link s.u.). Dort sind die meisten von uns benötigten Pakete bereits vorinstalliert.

*Miniconda* ist eine schlankere Alternative ohne vorinstallierte Pakete.


- **Installationslinks**:
  - Anaconda:  https://www.anaconda.com/download/
  - Leichtgewichtige Anaconda-Alternative *Miniconda*: https://conda.io/miniconda.html



---
## 2.1 Installation NLTK

Für die weiteren Übungen werden wir das Natural Language Toolkit (NLTK) für Python verwenden. Falls es nicht schon installiert ist, installieren Sie es jetzt.

**Wichtig:** Folgen Sie den Hinweisen ENTWEDER zu `conda` ODER zu `pip`, NICHT ZU BEIDEN.

##### a) Anaconda/Miniconda
Falls Sie *Anaconda* verwenden, ist das NLTK bereits installiert.

Falls Sie sich für *Miniconda* entschieden haben, installieren Sie das NLTK mithilfe des folgenden Befehls im *Anaconda Command Prompt*:
```
conda install nltk
```

##### b) Paketmanager `pip`
Zunächst sollten Sie sicherstellen, dass `pip` auf dem neuesten Stand ist:
```
sudo -H pip3 install -U pip
```

Dann führen Sie die eigentliche Installation folgendermaßen aus:

- Lokal:  
```
pip3 install --user -U nltk
```

- Systemweit:  
```
sudo -H pip3 install -U nltk
```

Für weitere Informationen siehe:

- Installation des NLTK: http://www.nltk.org/install.html
- Der Paketmanager `pip`: https://packaging.python.org/tutorials/installing-packages/


## 2.2 Test: NLTK-Installation, Herunterladen von Ressourcen

 Vergewissern Sie sich, dass die Installation ordnungsgemäß funktioniert hat, indem Sie versuchen das NLTK in einer interaktiven Pythonsession zu importieren.

Eine interaktive Pythonsession starten Sie, indem Sie ``python3`` auf der Kommandozeile eingeben.

In [1]:
import nltk

Mit dem folgenden Befehl können Sie dann Korpora und andere Ressourcen herunterladen und in NLTK integrieren:

In [2]:
#nltk.download()

 Die Ressource `book` enthält alle Beispiele aus dem NLTK-Buch, d.h. weit mehr als wir benötigen werden. Sie können die Ressource entweder jetzt herunterladen oder im Laufe des Kurses ab und an den Download-Dialog erneut öffnen und nur die benötigten Daten einzeln laden.

## 2.3 Test: Syntaxbäume zeichnen


Um zu testen, ob das NLTK erfolgreich installiert wurde, führen Sie folgendes Pythonskript aus:

In [3]:
from nltk.tree import Tree

np1 = Tree('NP', [Tree('ART', ['der']), Tree('N', ['Hund'])])
np2 = Tree('NP', [Tree('ART', ['die']), Tree('N', ['Katze'])])
vp = Tree('VP', [Tree('V', ['jagt']), np2])

In [4]:
print(vp)

(VP (V jagt) (NP (ART die) (N Katze)))


In [5]:
vp.pretty_print(unicodelines=True)

      VP          
 ┌────┴───┐        
 │        NP      
 │    ┌───┴────┐   
 V   ART       N  
 │    │        │   
jagt die     Katze



In [6]:
np1.pretty_print(unicodelines=True)
np2.pretty_print(unicodelines=True)

     NP     
 ┌───┴───┐   
ART      N  
 │       │   
der     Hund

     NP      
 ┌───┴────┐   
ART       N  
 │        │   
die     Katze



---
## 3.1 Installation Jupyter Notebooks

Die Übungsblätter der Veranstaltung werden in Form von *Jupyter Notebooks* angeboten. Jupyter Notebooks sind interaktive, aus einer Mischung aus Text, Code und Diagrammen bestehende Web-Dokumente, in denen Sie die Präsenzaufgaben lösen, sich Notizen machen und bequem experimentieren können.


Zur Verwendung müssen Sie die Software zur Ausführung von Jupyter Notebooks installieren:


- *Anaconda:* bereits installiert
- *Miniconda:* `conda install jupyter`
- *pip*: 
    - lokal: `pip3 install --user jupyter`
    - systenweit: `sudo -H pip3 install jupyter` 


## 3.2 Test der Jupyter-Installation



Um zu Testen, ob Jupyter erfolgreich installiert wurden, laden Sie das Notebook zur ersten Übung (`01-notebook.ipynb`) von der Kurs-Website herunter, öffnen Sie die Konsole (Anaconda Prompt für Windows), wechseln Sie mit `cd` zu dem Downloadordner und führen Sie einen der folgenden Befehle aus:

```
jupyter notebook
```

für die klassische Notebook-Umgebung, oder 

```
jupyter lab
```

für die Jupyter-Lab-Umgebung.

Wählen Sie in der sich öffnenden Jupyter-Browsersitzung die `01-notebook.ipynb`-Datei aus.

---
## 4.1 Installation spaCy


Wir werden im Laufe der Veranstaltung ***spaCy*** als Beispiel eines modernen NLP-Systems verwenden. Die spaCy-Bibliothek beinhaltet u. a. Module zu Tokenisierung, POS-Tagging, Named Entity Recognition, Dependenzparsing und unterstützt viele verschiedene Sprachen. Mit den folgenden Befehlen laden wir das deutsche und das englische Modell herunter.

Für weitere Informationen siehe:
- https://spacy.io/usage 
- https://spacy.io/models

##### a) Anaconda/Miniconda

```
conda install -c conda-forge spacy
conda install -c conda-forge spacy-lookups-data
python3 -m spacy download en_core_web_sm
python3 -m spacy download de_core_news_sm
```

##### b) Paketmanager `pip`


- Lokal: 

```
pip3 install --user -U spacy
pip3 install --user -U spacy-lookups-data
python3 -m spacy download --user en_core_web_sm
python3 -m spacy download --user de_core_news_sm
```

- Systemweit:  

```
sudo -H pip3 install -U spacy
sudo -H pip3 install -U spacy-lookups-data
sudo -H python3 -m spacy download en_core_web_sm
sudo -H python3 -m spacy download de_core_news_sm
```


## 4.2 Test: spaCy

Zum Testen, ob spaCy und die Modelle erfolgreich installiert wurden, führen Sie folgende Befehle aus:

#### 1. Laden der Bibliothek und des deutschen Modells

In [8]:
import spacy
nlp = spacy.load('de_core_news_sm')

#### 2. Analyse eines Satzes

In [9]:
doc = nlp('Dies ist mein erster Satz.')

In [10]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop, sep='\t')

Dies	dieser	PRON	PDS	sb	Xxxx	True	True
ist	sein	AUX	VAFIN	ROOT	xxx	True	True
mein	mein	DET	PPOSAT	nk	xxxx	True	True
erster	erster	ADJ	ADJA	nk	xxxx	True	True
Satz	Satz	NOUN	NN	pd	Xxxx	True	False
.	--	PUNCT	$.	punct	.	False	False


#### 3. Visualisierung

In [11]:
from spacy import displacy

displacy.render(doc, style='dep')

Unverständliche Tags können wie folgt nachgeschlagen werden:

In [12]:
spacy.explain('nk')

'noun kernel element'

---

## 5. Alternative: jupyterHub Webservice (LMU DHVLab)

Wenn Sie keinen lokalen jupyter-Server installieren können, können Sie alternativ auch das [jupyterHub-Modul](https://dhvlab.gwi.uni-muenchen.de/notebook/) des [DHVLabs](https://dhvlab.gwi.uni-muenchen.de/) der LMU verwenden.

Orientieren Sie sich dabei an folgendem Q&A:

*Q: Wie bekomme ich einen DHVLab-Account?*<br/>
A: Registrieren Sie sich hier ***mit Ihrer Campus-Adresse*** für das Lab **CIS_Syntax_2223**: https://dhvlab.gwi.uni-muenchen.de/mgmt/labuser/signup. Bestätigen Sie anschließend Ihre Registrierung (Email). Anschließend warten Sie, bis Ihre Account freigeschaltet wurde.

*Q: Wie starte ich jupyterHub?*<br/>
A: Bevor Sie sich zum ersten Mal in jupyterHub einloggen, müssen Sie sich einmalig am [Modul "Virtueller Desktop"](https://dhvlab.gwi.uni-muenchen.de/desktop/#/) anmelden, um Ihr Home-Verzeichnis anzulegen. Wählen Sie am besten einen SSH-Login und geben Sie DHVLab-Username und Passwort ein. Danach können Sie sich mit ihrem DHVLab-Account beim jupyterHub-Modul anmelden: https://dhvlab.gwi.uni-muenchen.de/notebook/

*Q: Wie bekomme ich die Notebooks und die anderen Dateien ins jupyterHub?*<br/>
A: Am besten clonen Sie das github-Repository über die Konsole in ihr Homeverzeichnis und aktualisieren wöchentlich. Alternativ können Sie auch manuell Dateien hochladen (auch mehrere gleichzeitig per Drag&Drop).

*Q: Wie starte ich Notebooks im jupyterHub?*<br/>
A: Doppelklick auf das Notebook.


---
# Hausaufgaben

## 6. Troubleshooting

Vergewissern Sie sich, dass Sie für das nächste Mal eine funktionierende Installation zur Verfügung haben, und betreiben Sie ggf. Troubleshooting. 

Informieren Sie sich auch im NLTK-Kapitel 1.2 ('Getting Started with NLTK'):
- http://www.nltk.org/book/ch01.html

sowie im Vorwort:
- http://www.nltk.org/book/ch00.html ('Software Requirements', etc.).


## 7. Verwendung git

Die Inhalte von Vorlesung und Übung werden über Github zur Verfügung gestellt und können über die Weboberfläche eingesehen und heruntergeladen werden. Ein lokales Klonen und regelmäßiges Updaten mit git erleichtert aber das Beziehen der Dateien, insbesondere bzgl. der interaktiven Aufgaben, da diese zusätzliche Konfigurationsdateien benötigen, die so automatisch heruntergeladen werden.

Machen Sie sich mit der Verwendung von git vertraut und installieren Sie ggf. einen git-Client.