In [1]:
# Unicode Normalize

from camel_tools.utils.normalize import normalize_unicode


print(normalize_unicode('ﷲ'))
print(normalize_unicode('﷽'))
print(normalize_unicode('ﷴ'))
code = 'ﷺ'
norm_code = normalize_unicode(code)
print(code,len(code))
print(norm_code,len(norm_code))



الله
بسم الله الرحمن الرحيم
محمد
ﷺ 1
صلى الله عليه وسلم 18


In [2]:
# Normalize

from camel_tools.utils.normalize import normalize_alef_ar
from camel_tools.utils.normalize import normalize_alef_maksura_ar
from camel_tools.utils.normalize import normalize_teh_marbuta_ar

In [3]:
text = 'فإلى الله المشتكى, إنا لله و إنا إليه راجعون. إلي | لعبوا | طالبة'


print(text)



norm_text = normalize_alef_maksura_ar(text)
print(norm_text)

norm_text = normalize_teh_marbuta_ar(norm_text)
print(norm_text)

norm_text = normalize_alef_ar(norm_text)
print(norm_text)


فإلى الله المشتكى, إنا لله و إنا إليه راجعون. إلي | لعبوا | طالبة
فإلي الله المشتكي, إنا لله و إنا إليه راجعون. إلي | لعبوا | طالبة
فإلي الله المشتكي, إنا لله و إنا إليه راجعون. إلي | لعبوا | طالبه
فالي الله المشتكي, انا لله و انا اليه راجعون. الي | لعبوا | طالبه


In [4]:
# Dediacritization

from camel_tools.utils.dediac import dediac_ar

print(dediac_ar('أُلَمُ أَلَمٍ أَلُمْ أَلِمِ'))
print(dediac_ar('لًًًَََُُُُ'))


ألم ألم ألم ألم
ل


In [5]:
# Tokenization

from camel_tools.tokenizers.word import simple_word_tokenize

simple_word_tokenize('السلام عليكم كيف الحل يا خال؟')

['السلام', 'عليكم', 'كيف', 'الحل', 'يا', 'خال', '؟']

In [6]:
# Transliteration

from camel_tools.utils.charmap import CharMapper

arabeze = CharMapper.builtin_mapper('ar2bw')

arabeze('أهلًا بكم')

'>hlFA bkm'

In [85]:
# Morphological Analysis

from camel_tools.morphology.database import MorphologyDB
from camel_tools.morphology.analyzer import Analyzer
db = MorphologyDB.builtin_db()
analyzer = Analyzer(db)

text = "الطبيب"
analyzer.analyze(text)[0]



{'diac': 'الطَبِيب',
 'lex': 'طَبِيب',
 'bw': 'ال/DET+طَبِيب/NOUN',
 'gloss': 'the+physician;doctor',
 'pos': 'noun',
 'prc3': '0',
 'prc2': '0',
 'prc1': '0',
 'prc0': 'Al_det',
 'per': 'na',
 'asp': 'na',
 'vox': 'na',
 'mod': 'na',
 'stt': 'd',
 'cas': 'u',
 'enc0': '0',
 'rat': 'r',
 'source': 'lex',
 'form_gen': 'm',
 'form_num': 's',
 'd3seg': 'ال+_طَّبِيب',
 'caphi': '2_a_t._t._a_b_ii_b',
 'd1tok': 'الطَّبِيب',
 'd2tok': 'الطَّبِيب',
 'pos_logprob': -0.4344233,
 'd3tok': 'ال+_طَبِيب',
 'd2seg': 'الطَّبِيب',
 'pos_lex_logprob': -4.183067,
 'num': 's',
 'ud': 'NOUN',
 'gen': 'm',
 'catib6': 'NOM',
 'root': 'ط.ب.ب',
 'bwtok': 'ال+_طَبِيب',
 'pattern': 'ال1َ2ِي3',
 'lex_logprob': -4.183067,
 'atbtok': 'الطَّبِيب',
 'atbseg': 'الطَّبِيب',
 'd1seg': 'الطَّبِيب',
 'stem': 'طَبِيب',
 'stemgloss': 'physician;doctor',
 'stemcat': 'N/ap'}

In [114]:
# Morphological Generation

from camel_tools.morphology.database import MorphologyDB
from camel_tools.morphology.generator import Generator


db = MorphologyDB.builtin_db(flags='g')
generator = Generator(db)




In [115]:
lemma = 'مُوَظَّف'

features = {
    'pos': 'noun',
    'gen': 'm',
    'num': 'p'
}


analysis = generator.generate(lemma,features)
for diac in set(a['diac'] for a in analysis):
    print(diac)

In [116]:
# Morphological Reinflection

from camel_tools.morphology.database import MorphologyDB
from camel_tools.morphology.reinflector import Reinflector

db = MorphologyDB.builtin_db(flags='r')
reinflector = Reinflector(db)



In [120]:
word = 'شوارع'

features = {
    'num': 's',
    'prc1': 'bi_prep'
}

analysis = reinflector.reinflect(word,features)
for diac in set(a['diac'] for a in analysis):
    print(diac)

بِشارِعٍ
بِشارِع
بِشارِعِ


In [123]:
# Morphological Disambiguation

from camel_tools.disambig.mle import MLEDisambiguator

mle = MLEDisambiguator.pretrained()
sentence = 'نجح بايدين في الانتخابات'.split()

disambig = mle.disambiguate(sentence)

diacritized = [d.analyses[0].analysis['diac'] for d in disambig]
pos_tags = [d.analyses[0].analysis['pos'] for d in disambig]
lemmas = [d.analyses[0].analysis['lex'] for d in disambig]

for triplet in zip(diacritized, pos_tags, lemmas):
    print(triplet)


('نَجَحَ', 'verb', 'نَجَح')
('بايدين', 'noun_prop', 'بايدين')
('فِي', 'prep', 'فِي')
('الاِنْتِخاباتِ', 'noun', 'ٱِنْتِخاب')


In [131]:
diacritized,lemmas,pos_tags

(['نَجَحَ', 'بايدين', 'فِي', 'الاِنْتِخاباتِ'],
 ['نَجَح', 'بايدين', 'فِي', 'ٱِنْتِخاب'],
 ['verb', 'noun_prop', 'prep', 'noun'])

In [136]:
# Morphological Tokenizer

from camel_tools.disambig.mle import MLEDisambiguator
from camel_tools.tokenizers.morphological import MorphologicalTokenizer

mled = MLEDisambiguator.pretrained('calima-msa-r13')





['إ', 'ل', 'س', 'ل', 'إ', 'م', ' ', 'ع', 'ل', 'ي', 'ك', 'م']

In [153]:
sentence = 'فقال الغلام أين أنتم'
sentence = sentence.split()

tokenizer = MorphologicalTokenizer(disambiguator=mled,scheme='d3tok')
print(tokenizer.tokenize(sentence))


tokenizer = MorphologicalTokenizer(disambiguator=mled,scheme='d3tok',split=True)
print(tokenizer.tokenize(sentence))


tokenizer = MorphologicalTokenizer(disambiguator=mled,scheme='d3tok',split=True,diac=True)
print(tokenizer.tokenize(sentence))



['ف+_قال', 'ال+_غلام', 'أين', 'أنتم']
['ف+', 'قال', 'ال+', 'غلام', 'أين', 'أنتم']
['فَ+', 'قالَ', 'ال+', 'غُلام', 'أَيْنَ', 'أَنْتُم']


In [157]:
# Dialect Identification

from camel_tools.dialectid import DialectIdentifier

did = DialectIdentifier.pretrained()

sentences = [
    'سال الهوى و مالي شكون اللي جابني ليك ما كنت ناويا نف قلبي بلاو بيك',
    'بيدي دوب قلبي قلبي بجنون بحبك أنا مجنون ما بنسا حبك يوم'
]

predictions = did.predict(sentences, 'city')
print([p.top for p in predictions])

predictions = did.predict(sentences, 'country')
print([p.top for p in predictions])

predictions = did.predict(sentences, 'region')
print([p.top for p in predictions])


PretrainedModelError: No pretrained model for current Python version found.