# Tokenization and pre-processing

| Authors | Last update |
|:------ |:----------- |
| Hauke Licht (https://github.com/haukelicht) | 2023-12-02 |

<br>

<a target="_blank" href="https://colab.research.google.com/github/fabiennelind/Going-Cross-Lingual_Course/blob/main/code/preprocessing.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

## Setup

We load generally used libraries here and load the rest on the fly in the respedtive sections.

In [28]:
import pandas as pd

import os

## Word tokenization

When applying bag-of-words methods to our data, we need to split the text into tokens. 

The most two popular libraries to handle this that have relatively broad multilingual support are `nltk` and `stanza`

**_Note:_** Another library that can tokenize and has [wide language support](https://spacy.io/usage/models#languages) is `spacy` (see [here](https://spacy.io/usage/models) how to use it).

### `nltk`


In [63]:
import nltk

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/hlicht/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [54]:
os.listdir(nltk.data.path[0])

['tokenizers', 'corpora']

In [57]:
os.listdir(os.path.join(nltk.data.path[0], 'tokenizers'))

['punkt', 'punkt.zip']

In [58]:
os.listdir(os.path.join(nltk.data.path[0], 'tokenizers', 'punkt'))

['greek.pickle',
 'estonian.pickle',
 'turkish.pickle',
 '.DS_Store',
 'polish.pickle',
 'PY3',
 'russian.pickle',
 'czech.pickle',
 'portuguese.pickle',
 'README',
 'dutch.pickle',
 'norwegian.pickle',
 'malayalam.pickle',
 'slovene.pickle',
 'english.pickle',
 'danish.pickle',
 'finnish.pickle',
 'swedish.pickle',
 'spanish.pickle',
 'german.pickle',
 'italian.pickle',
 'french.pickle']

In [60]:
fp = os.path.join(nltk.data.path[0], 'tokenizers', 'punkt')
nltk_tokenizer_language_support = [f.replace('.pickle', '') for f in os.listdir(fp) if f.endswith('.pickle')]

In [62]:
import iso639

{l: iso639.to_iso639_2(l) for l in nltk_tokenizer_language_support}

{'greek': 'gre',
 'estonian': 'est',
 'turkish': 'tur',
 'polish': 'pol',
 'russian': 'rus',
 'czech': 'cze',
 'portuguese': 'por',
 'dutch': 'dut',
 'norwegian': 'nor',
 'malayalam': 'mal',
 'slovene': 'slv',
 'english': 'eng',
 'danish': 'dan',
 'finnish': 'fin',
 'swedish': 'swe',
 'spanish': 'spa',
 'german': 'ger',
 'italian': 'ita',
 'french': 'fre'}

In [68]:
sents = """
greek	gre	Η εξερεύνηση της ανθρώπινης φύσης είναι μια ατέλειωτη περιπέτεια που μας καθοδηγεί σε νέες εννοιολογικές διαδρομές.
estonian	est	Eesti rannikul jalutades võib tunnetada mere lõpmatust ja ajalooliste jutustuste rikkust.
turkish	tur	Anadolu'nun mistik atmosferi, tarih ve kültürün harmanlandığı bir yerdir.
polish	pol	Ciekawość i odkrywanie nowych koncepcji stanowią fundament naszej ludzkiej egzystencji.
russian	rus	Русская литература открывает перед нами богатство человеческого опыта и погружает нас в глубины человеческой души.
czech	cze	Česká krajina oplývá malebnými zákoutími a historickými památkami, které vyprávějí příběhy minulosti.
portuguese	por	A diversidade cultural do Brasil reflete-se na fusão de influências indígenas, africanas e europeias, criando uma rica tapeçaria de tradições.
dutch	dut	De grachten van Amsterdam getuigen van een rijke geschiedenis en vormen een intrigerend netwerk dat de stad doorkruist.
norwegian	nor	Norges majestetiske fjorder og bortgjemte fjelltopper lokker eventyrlystne reisende til å utforske naturens underverker.
malayalam	mal	കേരളത്തിന്റെ സൗന്ദര്യം പ്രകടമാക്കുന്ന അക്കാദമിക പരിസ്ഥിതികൾ ഹിമാലയത്തിന്റെ സന്ദർശനത്തിന് കേന്ദ്രീകരിക്കുന്നു.
slovene	slv	Slovenski jezik je bogat s svojimi idiomatskimi izrazi, ki odražajo duhovito naravo in globoko čustvenost.
english	eng	Delving into the intricacies of quantum mechanics allows us to grasp the profound mysteries that govern the fundamental aspects of the universe.
danish	dan	Den danske hygge kultur skaber en atmosfære af varme og samhørighed, der omfavner livets enkle glæder.
finnish	fin	Suomen lumiset maisemat tarjoavat unohtumattoman näkymän pohjoisen luonnon kauneudesta.
swedish	swe	Sverige är känt för sin designinnovation och det sätt på vilket den integreras i vardagen, vilket skapar en harmonisk livsstil.
spanish	spa	La arquitectura gótica de la catedral de Barcelona es un testimonio impresionante de la destreza artística y la devoción religiosa.
german	ger	Die deutsche Philosophie hat einen tiefgreifenden Einfluss auf das Denken und die intellektuelle Tradition weltweit ausgeübt.
italian	ita	L'arte culinaria italiana è un'esperienza sensoriale che celebra l'amore per gli ingredienti freschi e la convivialità.
french	fre	L'effervescence culturelle de Paris, avec ses musées, ses théâtres et ses cafés, fait de la ville une destination artistique incontournable.
"""

In [69]:
sents = [row.split('\t') for row in  sents.split('\n') if row != '']
sents_df = pd.DataFrame(sents, columns=['language', 'code', 'text'])

In [72]:
# create word tokenizer 
from nltk.tokenize import word_tokenize

for i, d in sents_df.iterrows():
    print(f'{d.language}: "{d.text}"')
    print(word_tokenize(d.text, language=d.language))
    print()


greek: "Η εξερεύνηση της ανθρώπινης φύσης είναι μια ατέλειωτη περιπέτεια που μας καθοδηγεί σε νέες εννοιολογικές διαδρομές."
['Η', 'εξερεύνηση', 'της', 'ανθρώπινης', 'φύσης', 'είναι', 'μια', 'ατέλειωτη', 'περιπέτεια', 'που', 'μας', 'καθοδηγεί', 'σε', 'νέες', 'εννοιολογικές', 'διαδρομές', '.']

estonian: "Eesti rannikul jalutades võib tunnetada mere lõpmatust ja ajalooliste jutustuste rikkust."
['Eesti', 'rannikul', 'jalutades', 'võib', 'tunnetada', 'mere', 'lõpmatust', 'ja', 'ajalooliste', 'jutustuste', 'rikkust', '.']

turkish: "Anadolu'nun mistik atmosferi, tarih ve kültürün harmanlandığı bir yerdir."
["Anadolu'nun", 'mistik', 'atmosferi', ',', 'tarih', 've', 'kültürün', 'harmanlandığı', 'bir', 'yerdir', '.']

polish: "Ciekawość i odkrywanie nowych koncepcji stanowią fundament naszej ludzkiej egzystencji."
['Ciekawość', 'i', 'odkrywanie', 'nowych', 'koncepcji', 'stanowią', 'fundament', 'naszej', 'ludzkiej', 'egzystencji', '.']

russian: "Русская литература открывает перед нами богатс

### `stanza`

supported languages are listed here: https://stanfordnlp.github.io/stanza/performance.html


In [47]:
# list tokenizer resources for stanza
import os
os.listdir(os.path.join(os.path.expanduser('~'), 'stanza_resources'))

['sl',
 'sk',
 'ur',
 'zh-hans',
 'kmr',
 'zh-hant',
 'ug',
 'pl',
 'bxr',
 'vi',
 'fro',
 'sv',
 'ga',
 'he',
 'mt',
 'qaf',
 'hy',
 'nn',
 'be',
 'da',
 'mr',
 'kk',
 'ky',
 'grc',
 'ja',
 'cu',
 'el',
 'lv',
 'it',
 'ca',
 'is',
 'cs',
 'te',
 'ru',
 'got',
 'resources.json',
 'ro',
 'hsb',
 'hyw',
 'sa',
 'pt',
 'qpm',
 'uk',
 'sr',
 'pcm',
 'lij',
 'ar',
 'gl',
 'gv',
 'hr',
 'hu',
 'nl',
 'bg',
 'myv',
 'af',
 'nb',
 'hi',
 'de',
 'sme',
 'gd',
 'ko',
 'fi',
 'orv',
 'id',
 'fr',
 'es',
 'et',
 'en',
 'fa',
 'lt',
 'fo',
 'cy',
 'eu',
 'hbo',
 'la',
 'qtd',
 'ta',
 'lzh',
 'tr',
 'cop',
 'wo']

In [26]:
fp = 'https://github.com/fabiennelind/Going-Cross-Lingual_Course/blob/main/resources/stanza_tokenization_language_support.tsv'
pd.read_csv(fp, sep='\t'   )

Unnamed: 0,language,code
0,Afrikaans,af
1,Ancient Greek,grc
2,Ancient Hebrew,hbo
3,Arabic,ar
4,Armenian,hy
...,...,...
75,Uyghur,ug
76,Vietnamese,vi
77,Welsh,cy
78,Western Armenian,hyw


In [27]:
sents = """
Afrikaans	af	Ek hou van om in die natuur te wandel.
Ancient Greek	grc	Χαίρετε, ὦ κόσμε!
Ancient Hebrew	hbo	שָׁלוֹם לָכֶם
Arabic	ar	السلام عليكم ورحمة الله وبركاته
Armenian	hy	Բարեւ, աշխարհ!
Basque	eu	Kaixo mundua!
Belarusian	be	Прывітанне, свет!
Bulgarian	bg	Здравейте, свят!
Buryat	bxr	Сайн байна уу?
Catalan	ca	Hola, món!
Chinese (Simplified)	zh-hans	你好，世界！
Chinese (Traditional)	zh-hant	你好，世界！
Classical Chinese	lzh	世界安好
Coptic	cop	Ϩⲟⲩⲧⲁⲧⲏⲣⲓⲟⲛⲁⲧⲓ ϭⲟⲟⲩⲧ ⲛ̀ⲧⲉⲛⲁⲩⲧⲏⲣ
Croatian	hr	Pozdrav, svijete!
Czech	cs	Ahoj, světe!
Danish	da	Hej verden!
Dutch	nl	Hallo, wereld!
English	en	Hello, world!
Erzya	myv	Тевеме варянтись!
Estonian	et	Tere, maailm!
Faroese	fo	Halló, heimur!
Finnish	fi	Hei, maailma!
French	fr	Bonjour, le monde !
Galician	gl	Ola, mundo!
German	de	Hallo, Welt!
Gothic	got	𐌷𐌰𐌽𐍃, 𐌰𐌷𐍄𐌹𐌿𐍃!
Greek	el	Γεια σας, κόσμε!
Hebrew	he	שלום עולם
Hindi	hi	नमस्ते, दुनिया!
Hungarian	hu	Helló, világ!
Icelandic	is	Halló, heimur!
Indonesian	id	Halo, dunia!
Irish	ga	Dia dhuit, domhan!
Italian	it	Ciao, mondo!
Japanese	ja	こんにちは、世界！
Kazakh	kk	Сәлеметсіздерге, өткен!
Korean	ko	안녕하세요, 세계!
Kurmanji	kmr	Silav, cîhan!
Kyrgyz	ky	Саламатсыздарга, дүйнө!
Latin	la	Salve, mundus!
Latvian	lv	Sveiki, pasaule!
Ligurian	lij	Ciao, mondo!
Lithuanian	lt	Labas, pasauli!
Maghrebi Arabic French	qaf	السلام عليكم، عالم!
Maltese	mt	Bongu, dinja!
Manx	gv	Laa rieau, yn cheer!
Marathi	mr	हॅलो, जग!
Naija	pcm	How far, world!
North Sami	sme	Čázeheaddji, oktavuohta!
Norwegian	nb	Hei, verden!
Norwegian Nynorsk	nn	Hei, verda!
Old Church Slavonic	cu	Здрaвѣй, свѣтѣ!
Old East Slavic	orv	Здрaвѣй, миръ!
Old French	fro	Salut, monde!
Persian	fa	سلام، جهان!
Polish	pl	Witaj, świecie!
Pomak	qpm	Здравей, свят!
Portuguese	pt	Olá, mundo!
Romanian	ro	Salut, lume!
Russian	ru	Привет, мир!
Sanskrit	sa	नमस्ते, लोक!
Scottish Gaelic	gd	Hàlo, saoghal!
Serbian	sr	Здраво, свете!
Slovak	sk	Ahoj, svet!
Slovenian	sl	Zdravo, svet!
Spanish	es	¡Hola, mundo!
Swedish	sv	Hej, världen!
Tamil	ta	வணக்கம், உலகே!
Telugu	te	హలో, ప్రపంచం!
Turkish	tr	Merhaba, dünya!
Turkish German	qtd	Merhaba, dünya!
Ukrainian	uk	Привіт, світ!
Upper Sorbian	hsb	Hellos, swět!
Urdu	ur	ہیلو، دنیا!
Uyghur	ug	ھەلەلۇ، دۇنيا!
Vietnamese	vi	Chào bạn, thế giới!
Welsh	cy	Helo, byd!
Western Armenian	hyw	Ողջույն, աշխարհ!
Wolof	wo	Nopp naa ngi ci biir!
"""

In [28]:
sents = [row.split('\t') for row in  sents.split('\n') if row != '']
sents_df = pd.DataFrame(sents, columns=['language', 'code', 'text'])

In [38]:
import stanza

for i, d in sents_df.iterrows():
    print(f'{d.language}: "{d.text}"')
    doc = stanza.Pipeline(lang=d.code, processors='tokenize', verbose=False)(d.text)
    print([tok.text for sent in doc.sentences for tok in sent.tokens])
    print()
    

Afrikaans: "Ek hou van om in die natuur te wandel."
['Ek', 'hou', 'van', 'om', 'in', 'die', 'natuur', 'te', 'wandel', '.']

Ancient Greek: "Χαίρετε, ὦ κόσμε!"
['Χαίρετε,', 'ὦ', 'κόσμε!']

Ancient Hebrew: "שָׁלוֹם לָכֶם"
['שָׁלוֹם', 'לָכֶם']

Arabic: "السلام عليكم ورحمة الله وبركاته"
['السلام', 'عليكم', 'ورحمة', 'الله', 'وبركاته']

Armenian: "Բարեւ, աշխարհ!"
['Բարեւ', ',', 'աշխարհ!']

Basque: "Kaixo mundua!"
['Kaixo', 'mundua', '!']

Belarusian: "Прывітанне, свет!"
['Прывітанне', ',', 'свет', '!']

Bulgarian: "Здравейте, свят!"
['Здравейте', ',', 'свят', '!']

Buryat: "Сайн байна уу?"
['Сайн', 'байна', 'уу', '?']

Catalan: "Hola, món!"
['Hola', ',', 'món', '!']

Chinese (Simplified): "你好，世界！"
['你好', '，', '世界', '！']

Chinese (Traditional): "你好，世界！"
['你', '好', '，', '世界', '！']

Classical Chinese: "世界安好"
['世', '界', '安', '好']

Coptic: "Ϩⲟⲩⲧⲁⲧⲏⲣⲓⲟⲛⲁⲧⲓ ϭⲟⲟⲩⲧ ⲛ̀ⲧⲉⲛⲁⲩⲧⲏⲣ"
['Ϩⲟⲩⲧⲁⲧⲏⲣⲓⲟⲛⲁⲧⲓ', 'ϭⲟⲟⲩⲧ', 'ⲛ̀ⲧⲉⲛⲁⲩⲧⲏⲣ']

Croatian: "Pozdrav, svijete!"
['Pozdrav', ',', 'svijete', '!']

Czech: "Ahoj, svět

## Sentence tokenization/segmentation/splitting

### `nltk`

In [16]:
from nltk.tokenize import sent_tokenize

In [17]:
?sent_tokenize

[0;31mSignature:[0m [0msent_tokenize[0m[0;34m([0m[0mtext[0m[0;34m,[0m [0mlanguage[0m[0;34m=[0m[0;34m'english'[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return a sentence-tokenized copy of *text*,
using NLTK's recommended sentence tokenizer
(currently :class:`.PunktSentenceTokenizer`
for the specified language).

:param text: text to split into sentences
:param language: the model name in the Punkt corpus
[0;31mFile:[0m      ~/miniforge3/envs/multilingual/lib/python3.10/site-packages/nltk/tokenize/__init__.py
[0;31mType:[0m      function

In [18]:
two_sentences = 'This is the first sentence. This is the second sentence.'

sent_tokenize(two_sentences, language='english')

['This is the first sentence.', 'This is the second sentence.']

In [19]:
two_sentences = 'Esta es la primera frase. Esta es la segunda frase.'

sent_tokenize(two_sentences, language='spanish')

['Esta es la primera frase.', 'Esta es la segunda frase.']

In [25]:
two_complicated_sentences = 'This is the first sentence, with a Mr. Smith. This is the second sentence. And now the hon. Gentleman will speak.'
sent_tokenize(two_complicated_sentences, language='english')

['This is the first sentence, with a Mr. Smith.',
 'This is the second sentence.',
 'And now the hon.',
 'Gentleman will speak.']

**_Note_:** there is a solution to add custom rules to [prevent such errors](https://stackoverflow.com/a/25375857) 

In [23]:
two_complicated_sentences = (
    '¿Cuántas veces, en un día típico, te detienes a reflexionar sobre la complejidad intrínseca de la existencia humana, con sus interconexiones profundas y su capacidad infinita para la sorpresa y la maravilla?'
    ' '
    'A medida que exploramos las vastas extensiones del conocimiento, ¿no te parece fascinante cómo se entrelazan las múltiples disciplinas científicas, desde la física cuántica hasta la biología molecular, revelando un universo de posibilidades aún por descubrir?'
)
sent_tokenize(two_complicated_sentences, language='spanish')


['¿Cuántas veces, en un día típico, te detienes a reflexionar sobre la complejidad intrínseca de la existencia humana, con sus interconexiones profundas y su capacidad infinita para la sorpresa y la maravilla?',
 'A medida que exploramos las vastas extensiones del conocimiento, ¿no te parece fascinante cómo se entrelazan las múltiples disciplinas científicas, desde la física cuántica hasta la biología molecular, revelando un universo de posibilidades aún por descubrir?']

### `stanza`

In [27]:
import stanza

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [31]:
# english
nlp = stanza.Pipeline(lang='en', processors='tokenize', verbose=False)

two_sentences = 'This is the first sentence. This is the second sentence.'
doc = nlp(two_sentences)
print([sent.text for sent in doc.sentences])

two_complicated_sentences = 'This is the first sentence, with a Mr. Smith. This is the second sentence. And now the hon. Gentleman will speak.'
doc = nlp(two_complicated_sentences)
print([sent.text for sent in doc.sentences])

['This is the first sentence.', 'This is the second sentence.']
['This is the first sentence, with a Mr. Smith.', 'This is the second sentence.', 'And now the hon.', 'Gentleman will speak.']


**_Note:_** There seems to be [a way to handle](https://github.com/stanfordnlp/stanza/issues/1055#issuecomment-1744320976) errors as in the last sentence.

In [32]:
# spanish
nlp = stanza.Pipeline(lang='es', processors='tokenize', verbose=False)

two_sentences = 'Esta es la primera frase. Esta es la segunda frase.'
doc = nlp(two_sentences)
print([sent.text for sent in doc.sentences])

two_complicated_sentences = (
    '¿Cuántas veces, en un día típico, te detienes a reflexionar sobre la complejidad intrínseca de la existencia humana, con sus interconexiones profundas y su capacidad infinita para la sorpresa y la maravilla?'
    ' '
    'A medida que exploramos las vastas extensiones del conocimiento, ¿no te parece fascinante cómo se entrelazan las múltiples disciplinas científicas, desde la física cuántica hasta la biología molecular, revelando un universo de posibilidades aún por descubrir?'

)
doc = nlp(two_complicated_sentences)
print([sent.text for sent in doc.sentences])

['Esta es la primera frase.', 'Esta es la segunda frase.']
['¿Cuántas veces, en un día típico, te detienes a reflexionar sobre la complejidad intrínseca de la existencia humana, con sus interconexiones profundas y su capacidad infinita para la sorpresa y la maravilla?', 'A medida que exploramos las vastas extensiones del conocimiento, ¿no te parece fascinante cómo se entrelazan las múltiples disciplinas científicas, desde la física cuántica hasta la biología molecular, revelando un universo de posibilidades aún por descubrir?']


## Pre-trained tokenizers


### Example: transformers

In [1]:
from transformers import AutoTokenizer

In [12]:
# monolingual
tokenizer = AutoTokenizer.from_pretrained('roberta-base')

encoding = tokenizer('Hello world, my name is Hauke!')
print(encoding['input_ids'])
for tok in encoding['input_ids']:
    print(tok, tokenizer.decode(tok), sep='\t')
tokenizer.decode(encoding['input_ids'])

[0, 31414, 232, 6, 127, 766, 16, 24874, 1071, 328, 2]
0	<s>
31414	Hello
232	 world
6	,
127	 my
766	 name
16	 is
24874	 Hau
1071	ke
328	!
2	</s>


'<s>Hello world, my name is Hauke!</s>'

In [15]:
# multilingual
tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-base')


encoding = tokenizer(['Hello world, my name is Hauke!', 'Hallo Welt, mein Name ist Hauke!'])
print(encoding['input_ids'])
for sample in encoding['input_ids']:
    for tok in sample:
        print(tok, tokenizer.decode(tok), sep='\t')
    print(  )

[[0, 35378, 8999, 4, 759, 9351, 83, 203755, 13, 38, 2], [0, 54029, 12389, 4, 8172, 15757, 443, 203755, 13, 38, 2]]
0	<s>
35378	Hello
8999	world
4	,
759	my
9351	name
83	is
203755	Hauk
13	e
38	!
2	</s>

0	<s>
54029	Hallo
12389	Welt
4	,
8172	mein
15757	Name
443	ist
203755	Hauk
13	e
38	!
2	</s>



### Example: easyNMT

In [73]:
from easynmt import EasyNMT

#### M2M-100

In [90]:
mt_model = EasyNMT('m2m_100_418M')

In [103]:
tokenizer = mt_model.translator.tokenizer

sents = [
    'Η εξερεύνηση της ανθρώπινης φύσης είναι μια ατέλειωτη περιπέτεια που μας καθοδηγεί σε νέες εννοιολογικές διαδρομές.',
    'Eesti rannikul jalutades võib tunnetada mere lõpmatust ja ajalooliste jutustuste rikkust.',
    "Anadolu'nun mistik atmosferi, tarih ve kültürün harmanlandığı bir yerdir.",
    'Ciekawość i odkrywanie nowych koncepcji stanowią fundament naszej ludzkiej egzystencji.',
    'Русская литература открывает перед нами богатство человеческого опыта и погружает нас в глубины человеческой души.',
    'Česká krajina oplývá malebnými zákoutími a historickými památkami, které vyprávějí příběhy minulosti.',
    'A diversidade cultural do Brasil reflete-se na fusão de influências indígenas, africanas e europeias, criando uma rica tapeçaria de tradições.',
    'De grachten van Amsterdam getuigen van een rijke geschiedenis en vormen een intrigerend netwerk dat de stad doorkruist.',
    'Norges majestetiske fjorder og bortgjemte fjelltopper lokker eventyrlystne reisende til å utforske naturens underverker.',
    'കേരളത്തിന്റെ സൗന്ദര്യം പ്രകടമാക്കുന്ന അക്കാദമിക പരിസ്ഥിതികൾ ഹിമാലയത്തിന്റെ സന്ദർശനത്തിന് കേന്ദ്രീകരിക്കുന്നു.',
    'Slovenski jezik je bogat s svojimi idiomatskimi izrazi, ki odražajo duhovito naravo in globoko čustvenost.',
    'Delving into the intricacies of quantum mechanics allows us to grasp the profound mysteries that govern the fundamental aspects of the universe.',
    'Den danske hygge kultur skaber en atmosfære af varme og samhørighed, der omfavner livets enkle glæder.',
    'Suomen lumiset maisemat tarjoavat unohtumattoman näkymän pohjoisen luonnon kauneudesta.',
    'Sverige är känt för sin designinnovation och det sätt på vilket den integreras i vardagen, vilket skapar en harmonisk livsstil.',
    'La arquitectura gótica de la catedral de Barcelona es un testimonio impresionante de la destreza artística y la devoción religiosa.',
    'Die deutsche Philosophie hat einen tiefgreifenden Einfluss auf das Denken und die intellektuelle Tradition weltweit ausgeübt.',
    "L'arte culinaria italiana è un'esperienza sensoriale che celebra l'amore per gli ingredienti freschi e la convivialità.",
    "L'effervescence culturelle de Paris, avec ses musées, ses théâtres et ses cafés, fait de la ville une destination artistique incontournable.",
]
encodings = tokenizer(sents, truncation=False, padding=False, return_attention_mask=False, add_special_tokens=False)

for tok_ids in encodings['input_ids']:
    print([tokenizer.convert_ids_to_tokens(tok_id) for tok_id in tok_ids])
    print()

['▁Η', '▁εξε', 'ρεύ', 'νη', 'ση', '▁της', '▁ανθρώ', 'πι', 'νης', '▁φύ', 'σης', '▁είναι', '▁μια', '▁α', 'τέ', 'λει', 'ω', 'τη', '▁περι', 'πέ', 'τ', 'εια', '▁που', '▁μας', '▁καθ', 'ο', 'δη', 'γ', 'εί', '▁σε', '▁νέ', 'ες', '▁εν', 'νο', 'ιο', 'λογ', 'ικές', '▁δια', 'δρο', 'μές', '.']

['▁Eesti', '▁rann', 'ikul', '▁jal', 'ut', 'ades', '▁võib', '▁tunnet', 'ada', '▁mere', '▁lõp', 'mat', 'ust', '▁ja', '▁aj', 'alo', 'ol', 'iste', '▁jut', 'ust', 'uste', '▁r', 'ikk', 'ust', '.']

['▁Anadolu', "'", 'nun', '▁mis', 'tik', '▁atmosf', 'eri', ',', '▁tarih', '▁ve', '▁kültür', 'ün', '▁har', 'man', 'land', 'ığı', '▁bir', '▁yer', 'dir', '.']

['▁Cie', 'ka', 'wo', 'ść', '▁i', '▁od', 'kry', 'wanie', '▁nowych', '▁koncep', 'cji', '▁stan', 'owią', '▁fundament', '▁naszej', '▁lud', 'zk', 'iej', '▁eg', 'zy', 'sten', 'cji', '.']

['▁Рус', 'ская', '▁литера', 'тура', '▁откры', 'вает', '▁перед', '▁нами', '▁богат', 'ство', '▁челове', 'ческого', '▁опы', 'та', '▁и', '▁по', 'гру', 'жает', '▁нас', '▁в', '▁глу', 'би', 'ны',

#### OPUS-MT

In [74]:
mt_model = EasyNMT('opus-mt')

In [81]:
tokenizer = mt_model.translator.models['Helsinki-NLP/opus-mt-en-de']['tokenizer']

In [89]:
encoding = tokenizer('Hello, world!', return_attention_mask=False, add_special_tokens=False)
print(encoding)
tokenizer.decode(encoding['input_ids'])

{'input_ids': [16816, 2, 360, 68]}


'Hello, world!'

In [82]:
tokenizer.tokenize('Hello, world!')

['▁Hello', ',', '▁world', '!']

In [77]:
mt_model.translate('Hello world!', source_lang='en', target_lang='de')

Downloading tokenizer_config.json:   0%|          | 0.00/42.0 [00:00<?, ?B/s]

Downloading source.spm:   0%|          | 0.00/768k [00:00<?, ?B/s]

Downloading target.spm:   0%|          | 0.00/797k [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/1.27M [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/1.33k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/298M [00:00<?, ?B/s]

Downloading generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

'Hallo Welt!'

## Normalization

In [20]:
sents = """
English	en	The suspense was unbearable … the door creaked open.
English	en	━ remove all the stress from your life
French	fr	Il a écrit un roman «Le Mystère» qui est devenu un best-seller.
German	de	Die Spannung war unerträglich… die Tür quietschte.
German	de	Er schrieb einen Roman „Das Geheimnis”, der ein Bestseller wurde.
"""
sents = [row.split('\t') for row in  sents.split('\n') if row != '']
sents_df = pd.DataFrame(sents, columns=['language', 'code', 'text'])

In [23]:
from sacremoses import MosesPunctNormalizer # see https://github.com/hplt-project/sacremoses/blob/master/sacremoses/normalize.py
for lang, d in sents_df.groupby('code'):
    print(lang, '-'*20, sep='\n')
    punct_normalizer = MosesPunctNormalizer(lang=lang, pre_replace_unicode_punct=True, post_remove_control_chars=True)
    for text in d.text:
        print(text, punct_normalizer.normalize(text), '', sep='\n')

de
--------------------
Die Spannung war unerträglich… die Tür quietschte.
Die Spannung war unerträglich... die Tür quietschte.

Er schrieb einen Roman „Das Geheimnis”, der ein Bestseller wurde.
Er schrieb einen Roman "Das Geheimnis", der ein Bestseller wurde.

en
--------------------
The suspense was unbearable … the door creaked open.
The suspense was unbearable ... the door creaked open.

━ remove all the stress from your life
- remove all the stress from your life

fr
--------------------
Il a écrit un roman «Le Mystère» qui est devenu un best-seller.
Il a écrit un roman "Le Mystère" qui est devenu un best-seller.



## Languages with non-Latin scripts

When we work with texts written in Spanish, English, German, French, and so on, we work with Romanic languages that use the Roman script and the Latin alphabet.
However, there are many languages that use other scripts:

- *Cyrillic script*: Used for Russian, Bulgarian, Serbian, and many other Slavic languages.
- *Arabic script*: Used for Arabic, Persian, Urdu, and several other languages in the Middle East and North Africa.
- *Devanagari script*: Used for Hindi, Sanskrit, Marathi, and other Indian languages.
- *Hanzi*: Used for Mandarin, Cantonese, and other Chinese languages.
- *Hangul script*: Used for Korean.
- *Hebrew script*: Used for Hebrew.
- *Greek script*: Used for Greek.
- *Georgian script*: Used for Georgian.
- *Katakana and Hiragana scripts*: Used for Japanese.
- *Tamil script*: Used for Tamil.
- *Thai script*: Used for Thai.
- *Coptic script*: Used for the Coptic language.
- *Armenian script*: Used for Armenian.
- *Bengali script*: Used for Bengali and Assamese.
- *Gurmukhi script*: Used for Punjabi.
- *Khmer script*: Used for Khmer (Cambodian).
- *Lao script*: Used for Lao.
- *Mongolian script*: Used for Mongolian.
- *Tibetan script*: Used for Tibetan.
- *Syriac script*: Used for various languages in the Syriac community.

Because of the historical developemnet of the field of computational linguistics, 
we have a wide range of tools and resources available pre-processing and tokenizing English texts and texts written in other Romanic languages, but fev tools and resources for other languages.

## Translitaration

Transliteration is the process of converting text or words from one script into another script.
It means to represent the characters of one writing system with equivalent characters of another system.
In linguistics, the purpose of transliteration is to facilitate the pronunciation or understanding of words written in a script that may be unfamiliar to the reader.
But in machine translation and multilingual NLP, transliteration is also used as a common pre-processing step applied to non-Latin languages (e.g., [here](https://github.com/yannvgn/laserembeddings/blob/master/laserembeddings/preprocessing.py#L108))

For example, when transliterating from the Cyrillic script to the Latin script, as in the case of Russian, the Cyrillic characters are replaced with their Latin counterparts while attempting to preserve the original pronunciation.
Importantly, transliteration does *not* involve translation of the meaning of words; it is solely concerned with representing the characters of one script in another!

### Transliteration systems

To map characters from one script to another, we need a transliteration system that defines the rules for this process.
There are different standards for transliterating between specific pairs of scripts.
Common transliteration systems include the *International Alphabet of Sanskrit Transliteration* ([IAST](https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration)) for Sanskrit and other Indic languages, and the [BGN/PCGN](https://en.wikipedia.org/wiki/BGN/PCGN_romanization) system for Romanization of Cyrillic scripts, among others.


### Translitarating Cyrilic to Latin ("Romanize")

There is a nice package for transliterating Cyrillic to Latin script in Python: [transliterate](https://github.com/barseghyanartur/transliterate)

In [None]:
# !pip install transliterate

In [7]:
sents = """
Armenian	hy	Բարեւ աշխարհ!	Barev ashkharh!	Hello, world!
Bulgarian	bg	Здравей, свят!	Zdravey, svyat!	Hello, world!
Georgian	ka	გამარჯობა, მსოფლიო!	Gamajoba, msoplio!	Hello, world!
Greek	el	Γεια σου, κόσμε!	Yia sou, kosme!	Hello, world!
Macedonian	mk	Здраво, свету!	Zdravo, svetu!	Hello, world!
Mongolian	mn	Сайн байна уу, дэлхий!	Sain baina uu, delkhi!	Hello, world!
Russian	ru	Привет, мир!	Privet, mir!	Hello, world!
Serbian	sr	Здраво, свете!	Zdravo, svete!	Hello, world!
Ukrainian	uk	Привіт, світ!	Privit, svit!	Hello, world!
"""
sents = [row.split('\t') for row in  sents.split('\n') if row != '']
sents_df = pd.DataFrame(sents, columns=['language', 'code', 'text', 'transliteration', 'translation'])

In [8]:
from transliterate import translit, get_available_language_codes

In [11]:
all(sents_df.code.isin(get_available_language_codes()))

True

In [12]:
for i, d in sents_df.iterrows():
    print(d.code, d.text, translit(d.text, d.code, reversed=True), sep = '\t')

hy	Բարեւ աշխարհ!	Bareւ ashxarh!
bg	Здравей, свят!	Zdravey, svyat!
ka	გამარჯობა, მსოფლიო!	gamarjoba, msoflio!
el	Γεια σου, κόσμε!	Geia soy, kosme!
mk	Здраво, свету!	Zdravo, svetu!
mn	Сайн байна уу, дэлхий!	Sain baina uu, delkhii!
ru	Привет, мир!	Privet, mir!
sr	Здраво, свете!	Zdravo, svete!
uk	Привіт, світ!	Pryvit, svit!
