<a href="https://colab.research.google.com/github/NbtKmy/gc_workshops/blob/main/Tokenisierung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NLP (Natural Language Processing)

Zum Einstieg des NLP sollen wir Tokenisierung lernen.
Tokenisierung ist ein wichtiger Schritt, damit ein Textkorpus maschnell bearbeitet werden kann.

## Token? Tokenisierung?

Die Definition findet man in der Companion Website für das Buch "Manning, Raghavan und Schütze. Indriduction to Information Retrieval. Cambridge Univ. Press, 2008."

>Given a character sequence and a defined document unit, tokenization is the task of chopping it up into pieces, called tokens , perhaps at the same time throwing away certain characters, such as punctuation. [...]
These tokens are often loosely referred to as terms or words, but it is sometimes important to make a type/token distinction. A token is an instance of a sequence of characters in some particular document that are grouped together as a useful semantic unit for processing.

(Aus: [companion website for the book "Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008"](https://nlp.stanford.edu/IR-book/))


In dieser Einführung sehen wir Tokenisierung mit NLTK und spaCy an.
Danach probieren wir kurz Tokenisierung mit tiktoken aus. Tiktoken ist Tokenizer von OpenAI. Dadurch sehen wir konkret den Unterschied zwischen "lexical tokenization" und "probabilistic tokonization".

- [NLTK](https://www.nltk.org/)(Natural Language Tookkit) ist eine Plattform, die die Library für Python zum Zweck NLP erstellt und anbietet.
- [spaCy](https://spacy.io/) ist ein open source Software Library für NLP. Anders als NLTK, das häufig in academischen Bereichen (Forschung und Lehre) eingesetzt wird, ist spaCy eher für Produktionsnutzung entwickelt.

## Tokenisierung mit NLTK

In [1]:
!pip install -q nltk

Bei NLTK kann man nur notwendige Modelle installieren. Die Liste der Modelle/Korpora ist [hier](https://www.nltk.org/nltk_data/) zu finden.
Für Tokenisierung gibt es ein Modell:
>Punkt Tokenizer Models [ download | source ]
id: punkt; size: 13905355; author: Jan Strunk; copyright: ; license: ;

Um ein Modell herunterzuladen, gibt man in "download"-Methode die ID des Modells ein:


```python
import nltk
nltk.download("punkt")
```



In [2]:
import nltk

nltk.download("punkt")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
from nltk.tokenize import word_tokenize
# "\n" steht für Zeilenumbruch
s = '''Good muffins cost $3.88\nin New York.  Please buy me
... two of them.\n\nThanks.'''
word_tokenize(s)

['Good',
 'muffins',
 'cost',
 '$',
 '3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 '...',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

Der Toknizer hat auch Regex-basierte Tokenisierungsmethode - Dabei werden Spatium und Interpunktion berücksichtigt.

In [5]:
from nltk.tokenize import wordpunct_tokenize
wordpunct_tokenize(s)

['Good',
 'muffins',
 'cost',
 '$',
 '3',
 '.',
 '88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 '...',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

punkt-Tokenizer enthält auch Sentence-Tokenizer, mit dem man ein Sätze in einem Korpus trennt. Wenn man danach word-tokenizer verwendet, erhalt man die Tokens in 2d-Array wie unten.

In [4]:
from nltk.tokenize import sent_tokenize, word_tokenize

sent_tokenize(s)
[word_tokenize(t) for t in sent_tokenize(s)]

[['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.'],
 ['Please', 'buy', 'me', '...', 'two', 'of', 'them', '.'],
 ['Thanks', '.']]

## SpaCy

spaCy bietet an sich einen Tokenizer an. Aber man kann auch ein vortrainiertes Sprachmodell herunterladen und dies zur Tokenisierung anwenden.
Hier sehen wir die 2 Methoden.

In [None]:
!pip install -q spacy

In [None]:
from spacy.lang.en import English
nlp = English()
tokenizer = nlp.tokenizer
s = '''Good muffins cost $3.88\nin New York.  Please buy me
... two of them.\n\nThanks.'''
tokens = tokenizer(s)

# Doc-Objekt wird zurückgegeben
print("Einfaches Doc-Objekt: ")
print(tokens)

print("\nEinzelne Token:")
for token in tokens:
    print(token.text)



Einfaches Doc-Objekt: 
Good muffins cost $3.88
in New York.  Please buy me
... two of them.

Thanks.

Einzelne Token:
Good
muffins
cost
$
3.88


in
New
York
.
 
Please
buy
me


...
two
of
them
.



Thanks
.


In [None]:
import spacy
from spacy import displacy
from spacy.cli import download

download("en_core_web_md")


nlp = spacy.load("en_core_web_md")
s = '''Good muffins cost $3.88\nin New York.  Please buy me
... two of them.\n\nThanks.'''
doc = nlp(s)
for token in doc:
    desc = token.text + ", " + token.pos_
    print(desc)

displacy.render(doc, jupyter=True, style="dep", options={"compact":True})

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_md')
Good, ADJ
muffins, NOUN
cost, VERB
$, SYM
3.88, NUM

, SPACE
in, ADP
New, PROPN
York, PROPN
., PUNCT
 , SPACE
Please, INTJ
buy, VERB
me, PRON

, SPACE
..., PUNCT
two, NUM
of, ADP
them, PRON
., PUNCT


, SPACE
Thanks, NOUN
., PUNCT


Wenn die Satz-Ebene berücksichtigt werden soll, soll ein Schritt vor der Tokenisierung hineingeschoben werden.

In [None]:
# Dieser Schritt ist bereits oben ausgeführt. Deshalb muss er hier nicht nochmals ausgeführt werden.
#from spacy.cli import download
#download("en_core_web_md")

In [None]:
from spacy.lang.en import English

nlp_sent = English()
nlp_sent.add_pipe("sentencizer")
s = '''Good muffins cost $3.88\nin New York.  Please buy me
... two of them.\n\nThanks.'''
doc = nlp_sent(s)
print(list(doc.sents))

[Good muffins cost $3.88
in New York.,  Please buy me
... two of them., 

Thanks.]


In [None]:
import spacy

nlp = spacy.load("en_core_web_md")
full_arr = []

for s in doc.sents:
    s = str(s)
    sent_analyse = nlp(s)
    sent_arr = []
    for token in sent_analyse:
        sent_arr.append(token.text)
    full_arr.append(sent_arr)

print(full_arr)

[['Good', 'muffins', 'cost', '$', '3.88', '\n', 'in', 'New', 'York', '.'], [' ', 'Please', 'buy', 'me', '\n', '...', 'two', 'of', 'them', '.'], ['\n\n', 'Thanks', '.']]


## Probabilistic Tokenization mit tiktoken

Um ein Beispiel für Probabilistic Tokenisierung zu sehen, führen wir hier noch tiktoken ein. Tiktoken ist eine Library, die von OpenAI als open source angeboten ist.

Bei der probabilistic Tokenization, die als Vorprozess für LLM verwendet wird, werden die Texte in die nummerischen Tokens. (s. Byte pair encoding ([Gage, Philip. "A New Algorithm for Data Compression". 1994](http://www.pennelynn.com/Documents/CUJ/HTML/94HTML/19940045.HTM)))


Die konkrete Anwendung der Library "tiktoken" findet man auch im Cookbook von OpenAI:
https://github.com/openai/openai-cookbook/blob/main/examples/How_to_count_tokens_with_tiktoken.ipynb



In [None]:
!pip install -U tiktoken

Collecting tiktoken
  Downloading tiktoken-0.4.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.7 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.1/1.7 MB[0m [31m2.0 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.7/1.7 MB[0m [31m10.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.7/1.7 MB[0m [31m17.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tiktoken
Successfully installed tiktoken-0.4.0


Es sind 3 Encodings für Tokenisierung. Die Encodings entsprechen den OpenAL Modell folgendermassen:


|Encoding name	 | OpenAI models|
|----------------|----------------|
|cl100k_base	   |gpt-4, gpt-3.5-turbo, text-embedding-ada-002|
|p50k_base	     |Codex models, text-davinci-002, text-davinci-003|
|r50k_base (or gpt2)	|GPT-3 models like davinci|



In [None]:
import tiktoken

encoding = tiktoken.encoding_for_model("gpt-3.5-turbo")
s = '''Good muffins cost $3.88\nin New York.  Please buy me
... two of them.\n\nThanks.'''
chatgpt_tokens = encoding.encode(s)
print(chatgpt_tokens)

[15571, 55404, 1354, 2853, 400, 18, 13, 2421, 198, 258, 1561, 4356, 13, 220, 5321, 3780, 757, 198, 1131, 1403, 315, 1124, 382, 12947, 13]


Diese Tokens können als byte string für die menschlichen Augen lesbar gemacht werden.

In [None]:
[encoding.decode_single_token_bytes(token) for token in chatgpt_tokens]

[b'Good',
 b' muff',
 b'ins',
 b' cost',
 b' $',
 b'3',
 b'.',
 b'88',
 b'\n',
 b'in',
 b' New',
 b' York',
 b'.',
 b' ',
 b' Please',
 b' buy',
 b' me',
 b'\n',
 b'...',
 b' two',
 b' of',
 b' them',
 b'.\n\n',
 b'Thanks',
 b'.']

... Und die byte strings können wieder in normale Strings umgewandelt werden.

In [None]:
for token in chatgpt_tokens:
    token = encoding.decode_single_token_bytes(token)
    print(token.decode("UTF-8"))

Good
 muff
ins
 cost
 $
3
.
88


in
 New
 York
.
 
 Please
 buy
 me


...
 two
 of
 them
.


Thanks
.


## Quiz

... Tokenisierung selber ausprobieren!
1. Wähle zuerst eine Library, mit der du Tokenisierung durchführen willst.
1. Dann eigene Sätze von irgendwo holen.
1. Selber Code schreiben
1. Wenn man will, kann man auch die Satz-Ebene trennen.

Hints:

- sent_tokenize und word_tokenize Methode in NLTK kann weitere Parameters wie language nehmen. Falls man die Texte nicht auf Englisch hat, kann man die Parameters ändern. Hier die Beschreibungen für [sent_tokenize](https://www.nltk.org/_modules/nltk/tokenize.html#sent_tokenize) und [word_tokenize](https://www.nltk.org/_modules/nltk/tokenize.html#word_tokenize)
- spaCy bietet Modelsets für unterschiedliche Sprachen an. Siehe [hier](https://spacy.io/usage/models#languages)
