# Text Preprocessing for non-English languages

##Challenges
* Diacritics restoration 
* Text segmentation for Chinese, Japanese, Arabic
* You may need to have some knowledge about the language





##Case studies

###Romanian


In [None]:
from pprint import pprint

romanian_text = '''Examenul Chunin începe 25. A zecea întrebare: Totul sau nimic!
    Excepţie a făcut-o Hotinul, unde s-a aşezat o garnizoană turcească, care a început să jefuiască cu cruzime ţara.
    Excitarea catatonică este o stare de agitaţie constantă şi de excitare motrică şi nervoasă.
    Excreţiile parazitului irită pielea prpducând mâncărime şi răni produse de scărpinat, iau naştere papule, vezicule, pustule, infiltraţii, acestea prin infecţii secundare, se pot transforma în furunculi.
    Executarea tabloului este precedată de o întreagă serie de schiţe.
    Execuţia acestei lucrări a început în anul 1957 şi s-a finalizat în anul urmator.
    Exemple de mesaje au fost eliminarea unui al doilea membru al tribului după ce a fost eliminat unul sau evitarea participării la Consiliul Tribal, dar cu preţul mutării intr-o locaţie mai puţin confortabilă.
    Exemple de specii din grupul calmarilor pot servi Loligo vulgaris, Ommastrephes sagittatus, Ommastrephes slosnei pacificus, Chiroteuthis veranyi etc. Unele specii sunt exploatate pentru carnea lor comestibilă
    '''
pprint(romanian_text)

Lowercasing text

In [None]:
romanian_text = romanian_text.lower()
pprint(romanian_text)

Removing digits

In [None]:
import re

romanian_text = re.sub(' \d+', '', romanian_text)
pprint(romanian_text)

Removing diacritics using [Unidecode](https://pypi.org/project/Unidecode/). Transforming Unicode text in ASCII.

In [None]:
!pip install unidecode

In [None]:
import unidecode
romanian_text  = unidecode.unidecode(romanian_text)
pprint(romanian_text)

Sentence tokenization

In [None]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

sent_romanian = sent_tokenize(romanian_text)
sent_romanian 

Word tokenization

In [None]:
from nltk import word_tokenize
import string


sent_romanian = [sent.translate(str.maketrans('', '', string.punctuation)) for sent in sent_romanian]

words_romanian = [[word_tokenize(sent) for sent in sent_romanian]]
pprint(words_romanian) 

spaCy on Romanian text

###Japanese 

[Japanese punctuation](https://en.wikipedia.org/wiki/Japanese_punctuation)

In [22]:
japanese_text = '''$100ベットしていた場合には$100の配当を得られる。
    なお、100形のうち101 - 110の10両は当時丸ノ内線方南町支線用であり 、これの代替には1500N形投入により2000形を10両 (2031 - 2040) 捻出して対応している。
    コンセプトは「100時間遊べるおまけ」。
    なお100系1･2次車の床面高さは従前通りの1150mmである。
    ゴチ10・12・15ではMCを担当。
    ! 101番目の魔物 （ 大海恵 ） 2005年 * 劇場版 金色のガッシュベル!
    1088年に誕生した人物及び著名な動物 。'''

Removing digits

In [23]:
import re

japanese_text = ''.join([c for c in japanese_text if c.isdigit() == False ])
japanese_text

'$ベットしていた場合には$の配当を得られる。\n    なお、形のうち - の両は当時丸ノ内線方南町支線用であり 、これの代替にはN形投入により形を両 ( - ) 捻出して対応している。\n    コンセプトは「時間遊べるおまけ」。\n    なお系･次車の床面高さは従前通りのmmである。\n    ゴチ・・ではMCを担当。\n    ! 番目の魔物 （ 大海恵 ） 年 * 劇場版 金色のガッシュベル!\n    年に誕生した人物及び著名な動物 。'

Installing some dependencies for japanese

In [None]:
!pip install mecab-python3

In [None]:
!pip install fugashi[unidic-lite]

In [None]:
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download ja_core_news_sm

Removing stopwords

In [24]:
import spacy

nlp = spacy.load('ja_core_news_sm')
stop_words_spacy = nlp.Defaults.stop_words
print(len(stop_words_spacy))
print(stop_words_spacy)

154
{'なお', 'ここ', 'られ', 'こう', 'ある', 'の', 'ちゃん', 'とき', 'まま', 'たい', 'つ', 'は', 'それぞれ', 'つけ', 'ごと', 'さらに', 'い', 'いう', 'すべて', 'とっ', 'ほど', 'らしい', 'が', 'だっ', 'で', 'もと', 'そこ', 'だけ', 'ほか', 'する', 'さ', 'あまり', 'たら', 'にて', 'も', 'あるいは', 'まで', 'いわ', 'れる', 'でき', 'こと', 'たち', 'くる', 'せ', 'そう', 'よく', 'のち', 'だ', 'やっ', 'おけ', 'ます', 'かつ', 'よう', 'きっかけ', 'ほとんど', 'です', 'および', 'さん', 'ない', 'しまっ', 'いつ', 'なり', 'え', 'よる', 'なかっ', 'いっ', 'うち', 'なし', 'み', 'を', 'ま', 'き', 'べき', 'しまう', 'か', 'たり', 'あ', 'これ', 'た', 'られる', 'はじめ', 'に', 'と', 'いずれ', 'こ', 'ひと', 'へ', 'ば', 'かつて', 'よっ', '一', 'せる', 'ね', 'や', 'とも', 'あっ', 'ただし', 'お', 'て', 'いい', 'もう', 'しか', 'つい', 'なく', 'しよう', 'なら', 'れ', 'る', 'そして', 'もっ', 'かけ', 'おい', 'その', 'つつ', 'おり', 'なる', 'のみ', 'なっ', 'くん', 'よ', 'ところ', 'ご', 'できる', 'ん', 'なけれ', 'ら', 'ぬ', 'より', 'かなり', 'この', 'など', 'いる', 'もの', 'どう', 'せい', 'いく', 'す', 'ほぼ', 'ち', 'から', 'おら', 'すぐ', 'それ', 'な', 'ぶり', 'あれ', 'よれ', 'しかし', 'ず', 'また', 'ながら', 'あり', 'ため', 'し'}


In [27]:
tokenized_text_spacy = nlp(japanese_text)
tokenized_text_without_stopwords = [i for i in tokenized_text_spacy if not i in stop_words_spacy]
print(tokenized_text_without_stopwords)

[$, ベット, し, て, い, た, 場合, に, は, $, の, 配当, を, 得, られる, 。, 
    , なお, 、, 形, の, うち, -, の, 両, は, 当時, 丸ノ内, 線, 方南町, 支線, 用, で, あり, 、, これ, の, 代替, に, は, N, 形, 投入, に, より, 形, を, 両, (, -, ), 捻出, し, て, 対応, し, て, いる, 。, 
    , コンセプト, は, 「, 時間, 遊べる, おまけ, 」, 。, 
    , なお, 系, ･, 次, 車, の, 床面, 高, さ, は, 従前, 通り, の, mm, で, ある, 。, 
    , ゴチ, ・, ・, で, は, MC, を, 担当, 。, 
    , !, 番, 目, の, 魔物, （, 大海, 恵, ）, 年, *, 劇場, 版, 金, 色, の, ガッシュベル, !, 
    , 年, に, 誕生, し, た, 人物, 及び, 著名, な, 動物, 。]


Removing punctuation

In [None]:
import spacy
for word in tokenized_text_without_stopwords:
    if word.is_punct:
        print(word, word.lemma_, word.pos_)

In [None]:
for word in tokenized_text_without_stopwords:
    if word.is_punct == False:
        print(word, word.lemma_, word.pos_)

# Assignment

To be uploaded here: https://forms.gle/wLsjCWnxK7w8GPvt9

Choose samples from 2 languages and preprocess the texts (normalization, tokenization, lematization, etc.).

Try to use spacy or find other resources and tools for the chosen languages.

Also mention if the language you have choosen needs specific preprocessing.

**Please add the resources you used in the doc**: https://docs.google.com/document/d/1c5sqPfgSioGzLZkRv4yWw7DWiiQC96QHw34ZRqcDiSY/edit?usp=sharing for further reference.


Questions: If you have chosen a language you are fluent in, how well did the tools work on this language? What problems did you observed (e.g. problems with tokenization, etc.)

## Data

Data can be downloaded from the resources below.


In [55]:
import string
import emoji
import nltk

### French



In [2]:
!pip install emoji
!pip install -U spacy
!python -m spacy download fr_core_news_sm
!pip install git+https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer.git &> /dev/null

Collecting emoji
  Downloading emoji-1.6.1.tar.gz (170 kB)
[?25l[K     |██                              | 10 kB 24.2 MB/s eta 0:00:01[K     |███▉                            | 20 kB 27.7 MB/s eta 0:00:01[K     |█████▉                          | 30 kB 33.5 MB/s eta 0:00:01[K     |███████▊                        | 40 kB 21.8 MB/s eta 0:00:01[K     |█████████▋                      | 51 kB 8.5 MB/s eta 0:00:01[K     |███████████▋                    | 61 kB 8.9 MB/s eta 0:00:01[K     |█████████████▌                  | 71 kB 8.3 MB/s eta 0:00:01[K     |███████████████▍                | 81 kB 9.3 MB/s eta 0:00:01[K     |█████████████████▍              | 92 kB 7.1 MB/s eta 0:00:01[K     |███████████████████▎            | 102 kB 7.7 MB/s eta 0:00:01[K     |█████████████████████▏          | 112 kB 7.7 MB/s eta 0:00:01[K     |███████████████████████▏        | 122 kB 7.7 MB/s eta 0:00:01[K     |█████████████████████████       | 133 kB 7.7 MB/s eta 0:00:01[K     |███████

True

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

In [3]:
from nltk.corpus import stopwords

from nltk.stem.snowball import FrenchStemmer
stemmer = FrenchStemmer()

import spacy
nlp = spacy.load('fr_core_news_sm')

from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer
lemmatizer = FrenchLefffLemmatizer()

In [4]:
def standardPreprocess(text):
  # lowercase text, remove mentions, hashtags, links
  text = ' '.join([word.lower() for word in text.split() 
                  if word[0] not in ['@', '#'] and word[:4] != "http"])

  # remove newline characters, digits, punctuation and emoticons
  text = ' '.join([word for word in nltk.word_tokenize(text)
                   if not word.isdigit() 
                   and word[0] not in string.punctuation])

  # remove emojis
  emoji.get_emoji_regexp().sub(u'', text)

  return text

In [5]:
def preprocessFrench(sentences):
  for text in sentences:
    text = standardPreprocess(text)

    # remove stopwords
    stop_words_nltk = set(stopwords.words('french'))
    text = ' '.join([word for word in nltk.word_tokenize(text) if word not in stop_words_nltk])

    # Nltk French Stemmer
    print(' '.join([stemmer.stem(word) for word in nltk.word_tokenize(text)]))

    # Spacy lemmatizer
    print(' '.join([word.lemma_ for word in nlp(text)]))

    # French LEFFF Lemmatizer
    print(' '.join([lemmatizer.lemmatize(word) for word in nltk.word_tokenize(text)]))

In [6]:
preprocessFrench(["Voudrais non animaux yeux dors couvre.",
                  "Je serai poète et toi poésie"])

voudr non animal yeux dor couvr
vouloir non animal yeux dors couvre
voudrais non animal yeux dors couvre
poet poes
poète poési
poète poésie


### Japanese

In [69]:
!pip install mecab-python3
!pip install fugashi[unidic-lite]
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download ja_core_news_sm
!pip install sudachipy sudachidict_core

Collecting ja-core-news-sm==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ja_core_news_sm-3.1.0/ja_core_news_sm-3.1.0-py3-none-any.whl (12.9 MB)
     |████████████████████████████████| 12.9 MB 5.5 MB/s            
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ja_core_news_sm')


In [73]:
import spacy
nlpj = spacy.load('ja_core_news_sm')

from fugashi import Tagger
tagger = Tagger('-Owakati')

from sudachipy import tokenizer
from sudachipy import dictionary

tokenizer_obj = dictionary.Dictionary().create()
mode = tokenizer.Tokenizer.SplitMode.A

In [58]:
def standardPreprocessJ(text):
  # remove newline characters
  text = ' '.join(text.split())

  # remove digits, punctuation and emoticons
  text = ''.join([word for word in text
                  if not word.isdigit() 
                  and word[0] not in string.punctuation])

  # remove emojis
  emoji.get_emoji_regexp().sub(u'', text)

  return text

In [80]:
def preprocessJapanese(sentences):
  for text in sentences:
    text = standardPreprocessJ(text)

    # remove stopwords and japanese punctuation
    stop_words_spacy = nlpj.Defaults.stop_words
    text = ' '.join([str(word) for word in nlpj(text) if word not in stop_words_spacy and not word.is_punct])

    # Fugashi
    tagger.parse(text)
    print(' '.join([word.feature.lemma for word in tagger(text) if word.feature.lemma]))

    # Sudachipy
    print(''.join([m.normalized_form() for m in tokenizer_obj.tokenize(text, mode)]))

In [81]:
preprocessJapanese(["$100ベットしていた場合には$100の配当を得られる。",
    "なお、100形のうち101 - 110の10両は当時丸ノ内線方南町支線用であり 、これの代替には1500N形投入により2000形を10両 (2031 - 2040) 捻出して対応している。",
    "コンセプトは「100時間遊べるおまけ」(◕‿◕)。",
    "なお100系1･2次車の床面高さは従前通りの1150mmである。",
    "ゴチ10・12・15ではMCを担当。",
    "! 101番目の魔物 （ 大海恵 ）2005年 * 劇場版 金色のガッシュベル!",
    "1088年に誕生した人物及び著名な動物 。"])

ベット 為る て 居る た 場合 に は の 配当 を 得る られる
ベット 為る て い た 場合 に は の 配当 を 得 られる
猶 形 の 内 の 両 は 当時 マルノウチ 線 方 ミナミマチ 支線 用 だ 有る 此れ の 代替 に は 形 投入 に 因る 形 を 両 捻出 為る て 対応 為る て 居る
猶 形 の 内   の 両 は 当時 丸ノ内 線 方南町 支線 用 で 有り 此れ の 代替 に は N 形 投入 に より 形 を 両     捻出 為る て 対応 為る て 居る
コンセプト-concept は 時間 遊ぶ 御負け
コンセプト は 時間 遊ぶ 御負け ◕‿◕。
猶 系 次 車 の 床面 高い さ は 従前 通り の だ 有る
猶 系 次 車 の 床面 高 さ は 従前 通り の mm で 或る
ごち で は を 担当
ごち で は MC を 担当
番 目 の 魔物 オオウミ メグミ ≧ ▽ ≦ 年 劇場 版 金 色 の ガッシュ-gouache ベル-bell
  番 目 の 魔物 大海 恵 o ≧ ▽ ≦ o 年   劇場 版 金 色 の ガッシュベル
年 に 誕生 為る た 人物 及び 著名 だ 動物
年 に 誕生 為る た 人物 及び 著名 な 動物


Resources:

* [An Crúbadán - Corpus Building for Minority Languages - 18721 languages](http://crubadan.org/)
* [Leipzig Corpora Collection / Deutscher Wortschatz 291 languages](https://wortschatz.uni-leipzig.de/en/download)
* [Europarl](https://www.statmt.org/europarl/)

Tools:
* [Chinese text segmentation](https://github.com/fxsjy/jieba)

Further reading:

* [A Survey of Approaches to Diacritic Restoration](https://www.researchgate.net/profile/Franklin-Asahiah/publication/328419851_A_Survey_of_Approaches_to_Diacritic_Restoration/links/5bcd8b67458515f7d9d02f3d/A-Survey-of-Approaches-to-Diacritic-Restoration.pdf)
* [Preprocessing Arabic text on social media](https://www.sciencedirect.com/science/article/pii/S2405844021002966)
* [Semantic-Based Segmentation of Arabic Texts](https://scialert.net/fulltext/?doi=itj.2008.1009.1015)
* [The case of Croatian](https://medium.com/krakensystems-blog/text-processing-problems-with-non-english-languages-82822d0945dd)






