<a href="https://colab.research.google.com/github/dgromann/Programmieren_fuer_Translator_innen_2024S/blob/main/notebooks/LV3_Sprachressourcen.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **2024S: Einführung ins Programmieren für Translator:innen, Übung (UE), 340273-1**



### **Speichern Sie dieses Notebook**

Dieses Notebook können Sie jederzeit und in jedem Browser erneut von GitHub (bzw. dem direkten Link in Moodle) öffnen. Um jedoch Ihre eigenen Lösungen und Ihren Code zu speichern, wählen Sie bitte **Datei** bzw. **File** und eine der Speicheroptionen. Die einfachste Speicheroption ist in Google Drive, da dadurch Änderungen im Notebook automatisch im Hintergrund gespeichert werden.

Für die Abgabe der praktischen Übungen müssen Sie jedoch das Jupyter-Notebook als .ipynb Datei herunterladen. Dazu klicken Sie auf **Datei** oder **File** und **Herunterladen** oder **Download** und wählen das Format .ipynb aus.

### **Notation des Notebooks**

Fragen und praktische Aufgaben werden hier als ❓**Frage**❓ bzw. 👋 ⚒ **Aufgabe** 👋 ⚒ gekennzeichnet. ❓**Fragen**❓ fordern Sie dazu auf Überlegungen anzustellen bevor Sie etwas praktisch testen. 👋 ⚒ **Aufgaben** 👋 ⚒ erfordern das aktive Schreiben von Code in der grauen Code-Zelle nach der Beschreibung der Aufgabe.


-----------
## **Lektion 6: Wiktionary einbinden**

In der ersten Einheit und der ersten praktischen Übung haben wir bereits die Sprachressource WordNet in Python verwendet. Heute beschäftigen wir uns mit Wiktionary.

Wiktionary ist ein umfangreiches mehrsprachiges Online-Wörterbuch, dass viele Informationen über Wörter, wie etwa deren Definitionen, Herkunft, Aussprache, Beispiele usw., bereitstellt.

👋 ⚒ **Aufgaben** 👋 ⚒ <br>
Gehen Sie auf die Seite [Wiktionary](https://www.wiktionary.org/), wählen Sie Deutsch als Sprache aus und suchen Sie nach dem Begriff *Capybara*.

Was können Sie über den Begriff auf Wiktionary alles lernen?



Um die Daten der Website direkt in Python verfügbar zu machen, verwenden wir die vordefinierte Bibliothek [`wiktionaryparser`](https://pypi.org/project/wiktionaryparser/). Diese muss erst in unserer Programmierumgebung installiert werden.

In [None]:
# Installieren der wiktionaryparser Bibliothek
!pip install wiktionaryparser

Danach müssen wir diese Bibliothek importieren, um alle vordefinierten Funktionen nutzen zu können. Die Funktionen dieser Bibliothek sind in der Klasse WitkionaryParser() enthalten. Eine Klasse muss erst initialisiert werden, d. h., eine Instanz davon muss erstellt werden wie in:


```
parser = WiktionaryParser()
```



Klassen dienen in Python als Container von Funktionen.


```
class WiktionaryParser(object):
  
  def fetch(self, word, language=None, old_id=None):
    ...
  
  def parse_related_words(self, word_contents):
    ...
```

Falls es Sie interessiert, finden Sie [hier](https://github.com/suyashb95/WiktionaryParser/blob/master/wiktionaryparser/core.py) den gesamten Quellcode dieser Programmbibliothek.

Die erste Funktion, die wir verwenden, heißt `fetch()` und sie gibt alle Daten zu einem eingegebenen Wort zurück.

👋 ⚒ **Aufgaben** 👋 ⚒ <br>
Wie können Sie automatisch ausgeben lassen welcher Datentyp durch diese Funktion zurückgegeben wird?

In [None]:
from wiktionaryparser import WiktionaryParser

# Initialisieren der Klasse WitkionaryParser()
parser = WiktionaryParser()

word = "python"
word_data_python = parser.fetch(word)
print(word_data_python)

Was uns diese Funktion zurückgibt ist prinzipiell wie folgt aufgebaut:



```
[{
    "pronunciations": {
        "text": ["pronunciation text"],
        "audio": ["pronunciation audio"]
    },
    "definitions": [{
        "relatedWords": [{
            "relationshipType": "word relationship type",
            "words": ["list of related words"]
        }],
        "text": ["list of definitions"],
        "partOfSpeech": "part of speech",
        "examples": ["list of examples"]
    }],
    "etymology": "etymology text",
}]
```

Es handelt sich also um eine Liste, die ein Dictionary enthält, das wiederum weitere Dictionaries enthält.


Um die Keys und Values eines Dictionaries ausgeben zu können, gibt es die Funktion `items()`, welche alle Keys und Values zurückgibt. Da der äußerste Datentype eine Liste ist, müssen wir das erste Element der Liste ansprechen um das Dictionary darin bearbeiten zu können.

In [None]:
for keys, values in word_data_python[0].items():
  print(keys)
  print(values)

Wenn der Key bekannt ist, können die damit verbundenen Werte (Values) auch direkt per Key angesprochen werden:

In [None]:
word_data_python[0]["etymology"]

👋 ⚒ **Aufgaben** 👋 ⚒ <br>
Wie können `for`-Schleifen und `if`-Anweisungen kombiniert werden, um mir den Text der "pronunciation" ausgeben zu lassen?

In [None]:
# Fügen Sie hier Ihren Code hier ein

👋 ⚒ **Aufgaben** 👋 ⚒ <br>
Und wie kann ich nur die Wortklasse (part-of-speech) ausgeben? Die Ausgabe für das Wort "python" sollte "noun" lauten.

In [None]:
# Fügen Sie hier Ihren Code hier ein

Die Bibliothek bietet auch Optionen um die Suche auf bestimmte Sprachen einzustellen, Wortklassen zu bestimmen und Beziehungen zu berücksichtigen.

Wie jedoch anhand des nachstehenden Beispiels ersichtlich wird funktioniert die Bibliothek nicht sehr gut für Deutsch.

In [None]:

parser = WiktionaryParser()

parser.set_default_language('german')
word_info1 = parser.fetch('Capybara')

# Alternative kann die Sprache auch gleich bei "fetch" inkludiert werden
word_info2 = parser.fetch('Capybara', "german")

parser.exclude_part_of_speech('noun')
parser.include_relation('alternative forms')

print(word_info1)
print(word_info2)

Alternativ zur Verwendung einer existierenden Bibliothek um Informationen aus Wiktionary-Seiten zu laden, kann eine allgemeine Bibliothek zum Abrufen von HTTP-Seiten in Python names `requests` verwenden.

Das Hypertext Transfer Protocol (HTTP) ist ein Protokoll zur Übertragung von Daten über ein Rechnernetz hinweg, wie etwa dem Internet. Dadurch können Websites in einem Webbrowser geladen werden, aber auch in Python.

Erst muss wieder sichergestellt werden, dass die Bibliothek installiert ist.

In [None]:
# Installieren der Bibliotheken
!pip install requests

Und hier ein Beispielcode für die Verwendung von requests. Um diese Informationen passend speichern zu können, müßten wir den Text jetzt noch bearbeiten, damit wir ein Format "Sprache: Wort" haben, z. B.: "Spanisch: carpincho".

Hierfür nutzen wir eine verfügbare [API von Wiktionary](https://de.wiktionary.org/w/api.php). Application Programming Interface (API) oder Programmierschnittstelle ermöglicht externen Programmen eine direkte Anbindung an ein Softwaresystem - hier Wiktionary.

In [None]:
import requests

word = 'Capybara'
language = 'de'

url = f'https://{language}.wiktionary.org/w/api.php'


params = {
    'action': 'parse',
    'format': 'json',
    'page': word,
    'prop': 'wikitext',
    'section' : 3,
    'disabletoc': True
}

response = requests.get(url, params=params)
word_info = response.json()["parse"]["wikitext"]["*"]
print(word_info)


## **Lektion 6: Pandas**



[Pandas](https://pandas.pydata.org/) ist eine Programmbibliothek in Python für Analyse, Darstellung und Verarbeitung von Daten. Um die Bibliothek zu verwenden, muss Sie wieder mit `import` importiert werden. Für unsere ersten Schritte in Pandas verwenden wir die Beispieldateien in Google Colab.

Klicken Sie das Ordnersymbol in der rechten Leiste des Browsers und öffnen Sie durch einen Klick den Ordner "sample_data". Wir laden als Beispiel die Datei `california_housing_train.csv` mithilfe von Pandas. Dazu muss für die Datei der richtige Pfad angegeben werden, also die genaue Information auf welchem Laufwerk, in welchem Ordner und Unterordner sich die Datei befindet. Wenn Sie die Datei rechts markieren und auf die drei Punkte klicken, finden Sie die Option "Copy path".

In [358]:
import pandas as pd

file = "/content/sample_data/california_housing_train.csv"

dataframe = pd.read_csv(file)

Pandas besteht ähnlich einer Tabelle aus Spalten und Indizes.

In [None]:
print(dataframe.columns)

for column in dataframe.columns:
  print(column)

print(dataframe.index)

Pandas verfügt über Funktionen nur die obersten oder untersten Reihen auszugeben, was besonders für sehr große Dateien hilfreich ist.

In [None]:
print("Die obersten fünf Reihen")
print(dataframe.head())
print()

print("Die untersten zehn Reihen")
print(dataframe.tail(10))

Mithilfe der Funktion `loc` kann direkt eine bestimmter Index angesprochen werden.

In [None]:
print(dataframe.loc[0])

Pandas bietet auch eine Funktion um einen raschen statistischen Überblick über numerische Tabellen zu ermöglichen.

In [None]:
print(dataframe.describe())

Es kann auch ein existierendens Dictionary als Pandas Dataframe formatiert werden und direkt als CSV exportiert werden.

In [None]:
data = data = {'name': ['nick', 'david', 'joe', 'ross'],
        'age': ['5', '10', '7', '6']}
df1 = pd.DataFrame.from_dict(data)
df1

In [256]:
df1.to_csv("data.csv")

👋 ⚒ **Aufgabe** 👋 ⚒ <br>
Schreiben Sie die von Wiktionary erhaltenen Informationen zu "python" in ein Pandas DataFrame (die Variable `word_data_python` können Sie direkt wiederverwenden) und speichern Sie das Pandas DataFrame als Datei ab. Wenn Sie möchten, können Sie das Dictionary `word_data_python` besser formattieren, also `definitions` und `pronunciations` besser auflösen.

In [None]:
# Fügen Sie hier Ihren Code hier ein

-----------

## **2. Praktische Übung: Arbeiten mit Wiktionary**

Für diese praktische Übung haben Sie zwei verschiedene Möglichkeiten zur Auswahl:

**A)** Erstellen Sie ein **Mini-Wörterbuch** für Tennisbegriffe indem Sie die Wortklasse und Definitionen für die folgende Wortlise in Wiktionary abfragen, in einem Dictionary speichern und zuletzt mithilfe von Pandas als CSV-Datei abspeichern.

**B)** Rufen Sie mithilfe von `requests` alle **Übersetzungen** der nachstehenden Tennisbegriffe auf Witkionary ab. Sie erhalten einen String als Antwort, aus welchem Sie erst die mehrsprachigen Entsprechungen filtern müssen. Auch hier sollte das Ergebnis mithilfe von Pandas als CSV-Datei abgespeichert werden.

Nur eine der beiden Aufgabenstellung sollte fertiggestellt und abgegeben werden. Freiwillig steht es Ihnen selbstverständlich frei beide Aufgabenstellungen zur Übung abzugeben.


👋 ⚒ **Aufgabe A** 👋 ⚒ <br>
Der folgende Code ist für Aufgabenstellung A) vorgesehen.

In [None]:
from wiktionaryparser import WiktionaryParser

word_list = ["tennis", "backhand", "forehand", "racket", "player"]

# Initialisieren der Klasse WitkionaryParser()
parser = WiktionaryParser()

parser.set_default_language('english')

# Fügen Sie hier Ihren Code hier ein
# Ändern Sie die folgende Zeile, damit für alle Wörter aus der Liste die Definition und Wortklasse abgerufen wird
#word_info = parser.fetch(word)


👋 ⚒ **Aufgabe B** 👋 ⚒ <br>
Der folgende Code ist für Aufgabenstellung B) vorgesehen. Für das Auffinden der Entsprechungen in verschiedenen Sprachen kann am einfachsten die Funktion `split()` verwendet werden. Sie können einen String nicht nur auf Basis von Leerzeichen teilen, sondern auch auf Basis von bestimmten zeichen, wie z. B. `split("{")` und auch `split("|")`. Bessere Lösungen werden wir im weiteren Verlauf der Übung kennenlernen.

In [None]:
import requests

url = f'https://en.wiktionary.org/w/api.php'

word_list = ["tennis", "backhand", "forehand", "racket", "player"]

params = {
    'action': 'parse',
    'format': 'json',
    'page': word,
    'prop': 'wikitext',
    'section' : 7,
    'disabletoc': True
}

response = requests.get(url, params=params)
word_info = response.json()["parse"]["wikitext"]["*"]
print(word_info)