<a href="https://colab.research.google.com/github/ishidayuri361/examples/blob/main/PyArabic_ToJpn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. [PyArabic](https://pyarabic.readthedocs.io/ar/latest/index.html)のインストール

In [None]:
!pip install pyarabic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyarabic
  Downloading PyArabic-0.6.15-py3-none-any.whl (126 kB)
[K     |████████████████████████████████| 126 kB 8.6 MB/s 
Installing collected packages: pyarabic
Successfully installed pyarabic-0.6.15


2. ライブラリの設定

In [None]:
import pyarabic.araby as araby
import pyarabic.number as number

3. アラビア語テキストの入力例）text = u'アラビア語テキスト'

In [None]:
text = u'الإسلام ديننا'

4. シャッダ（促音便、ｗのような記号）を除くすべてのハラカート（母音記号）の除去

*実行前　الْعَرَبِيّةُ

*実行後　العربيّة



In [None]:
from pyarabic.araby import strip_harakat
text = u'الْعَرَبِيّةُ'
strip_harakat(text)

'العربيّة'

5. シャッダ（促音便、ｗのような記号）を含むすべてのハラカート（母音記号）の除去

*実行前　الْعَرَبِيّةُ

*実行後　العربية



In [None]:
from pyarabic.araby import strip_tashkeel
text = u"الْعَرَبِيّةُ"
strip_tashkeel(text)

'العربية'

6. 末尾のハラカート（母音記号）の除去

*実行前　الْعَرَبِيّةُ

*実行後　الْعَرَبِيّة




In [None]:
from pyarabic.araby import strip_lastharaka
text = u"الْعَرَبِيّةُ"
strip_lastharaka(text)

'الْعَرَبِيّة'

7. ハラカート（母音記号）などの装飾記号（diacritics）の除去

In [None]:
from pyarabic.araby import strip_diacritics
text = u"الرّحمٰن"
strip_diacritics(text)

'الرحمن'

8. 【修正有/検証中】タシュキール（発音記号）の削減

*   同形異義語を見分ける記号は残る？

*実行前　يُتَسََلَّمْنَ

*実行後　يُتسلّمن


In [None]:
from pyarabic import araby
word = u"يُتَسََلَّمْنَ"
reduced = araby.reduce_tashkeel(word)
print(reduced)

يُتسلّمن


9. タトウィール（文字連結線延長）の除去

*実行前　العـــــربيّة

*実行後　العربيّة





In [None]:
from pyarabic.araby import strip_tatweel
text = u"العـــــربيّة"
strip_tatweel(text)

'العربيّة'

10. シャッダ（促音便）の除去

*実行前　العـــــربيّة

*実行後　العـــــربية

In [None]:
from pyarabic.araby import strip_shadda
text = u"العـــــربيّة"
strip_shadda(text)

'العـــــربية'

11. 【検証中】合字（ligature）の正規化（nomarization）

*   変化なし。表示できない？

*実行前　يء

*実行後　ئ



In [None]:
from pyarabic.araby import normalize_ligature
text = u"لانها لالء الاسلام"
normalize_ligature(text)

'لانها لالء الاسلام'

12. ハムザ（声門閉鎖音を表すアラビア文字、ء）の正規化（nomarization）

*実行前　ؤ

*実行後　ء

In [None]:
import pyarabic.araby as araby
text1 = u"جاء سؤال الأئمة عن الإسلام آجلا"
araby.normalize_hamza(text1)

'جاء سءال الءءمة عن الءسلام ءءجلا'

13. ハムザ（声門閉鎖音を表すアラビア文字、ء）の自動変換（method="tasheel"）

*  アリフ（aの音、ا）の上にあるハムザはアリフ、ヤー（yの音、ي）の上にあるハムザはヤーに変換する。

*実行前　ؤ

*実行後　و






In [None]:
import pyarabic.araby as araby
text1 = u"جاء سؤال الأئمة عن الإسلام آجلا"
araby.normalize_hamza(text1, method="tasheel")

'جاء سوال الايمة عن الاسلام اجلا'

14. ハラカート（母音記号）と文字の分離

*実行前　الْعَرَبِيّةُ

*実行後　'العربيّة', 'ـََِْْـُ'



In [None]:
from pyarabic import araby
text = u'الْعَرَبِيّةُ'
araby.separate(text)

('العربيّة', 'ـََِْْـُ')

14-1. 【修正有】ハラカート（母音記号）と文字を分離し、文字だけ表示

In [None]:
letters, marks =araby.separate(text)
print(letters)

العربيّة


14-2. 【修正有】ハラカート（母音記号）と文字を分離し、ハラカート（母音記号）だけ表示

*  出現順にタトウィール（文字連結線延長）やハラカート（母音記号）の種類を表示

In [None]:
print(marks)
for m in marks:
    print(araby.name(m))

ـََِْْـُ
تطويل
سكون
فتحة
فتحة
كسرة
سكون
تطويل
ضمة


15. 【修正有】ハラカート（母音記号）と文字の結合

*実行前　"العربية"+'\u064e\u0652\u064e\u064e\u064e\u064e\u064f'

*実行後　اَلْعَرَبَيَةُ


In [None]:
from pyarabic import araby
letters = u"العربية"
marks   = u'\u064e\u0652\u064e\u064e\u064e\u064e\u064f'
word = araby.joint(letters, marks)
print(word)

اَلْعَرَبَيَةُ


16. 【修正有】ひと文字（アラビア語のアルファベット）ごとに分割し、読み方を表示

*実行前　ا

*実行後　ألف（アラビア語表記）、ARABIC LETTER ALEF



In [None]:
from pyarabic import araby

words_list = araby.spellit('العربية')
print(words_list)
print("-------------------------------")

words_list_unicode = araby.spellit('العربية', lang="unicode")
print(words_list_unicode[:154])  # printed some only. For display purposes.

ألف, لام, عين, راء, باء, ياء, تاء مربوطة
-------------------------------
ARABIC LETTER ALEF, ARABIC LETTER LAM, ARABIC LETTER AIN, ARABIC LETTER REH, ARABIC LETTER BEH, ARABIC LETTER YEH, ARABIC LETTER TEH MARBUTA


17. 単語の類似性

*   母音記号などが異なっても、単語の綴りが同じであればTrue

*実行前　"ضَربٌ"と"ضَرْبٌ"

*実行後　True


In [None]:
from pyarabic import araby
word1 = u"ضَربٌ"
word2 = u"ضَرْبٌ"
araby.vocalizedlike(word1, word2)

True

18. 【検証中】単語の語形の類似性

*   同じ語形の単語同士であればTrue

*実行前　"ضارب"と"فَاعِل"

*実行後　True

In [None]:
from pyarabic import araby
word1 = u"ضارب"
wazn =  u"فَاعِل"
araby.waznlike(word1, wazn)

True

19. シャッダ（促音便）の類似性

*   同じ綴りの単語でシャッダ（促音便）が同じ場所にあれば、母音記号にかかわらずTrue

*実行前　"ردّ"と"ردَّ"

*実行後　True

In [None]:
from pyarabic import araby
word1 = u"ردّ"
word2=u"ردَّ"
araby.shaddalike(word1, word2)

True

20. 【検証中】ハラカート（母音記号）の類似性

20-1. 【検証中】同じ綴りの単語でハラカート（母音記号）が部分一致していればTrue？

*実行前　"ضَربٌ"と"ضَرْبٌ"

*実行後　True



In [None]:
from pyarabic import araby
word2 = u"العربيّة"
word1 = u"العربية"
araby.vocalizedlike(word2, word1)

True

20-2. 【検証中】同じ綴りの単語でハラカート（母音記号）が一致しいない数に応じて負の数が増える？

*実行前　"ضَربٌ"と"ضَرْبٌ"

*実行後　-1

In [None]:
word1 = u"ضَربٌ"
word2 = u"ضَرْبٍ"
araby.vocalized_similarity(word1, word2)

-1

21. 文章を単語へ分割

*実行前　"العربية لغة جميلة."

*実行後　العربية
/لغة/
جميلة/
./



In [None]:
from pyarabic import araby
text = u"العربية لغة جميلة."
tokens = araby.tokenize(text)
print(u"\n".join(tokens))

العربية
لغة
جميلة
.


21-1. 【修正有】文章を単語へ分割し、非アラビア語の除去

*実行前　"اسمٌ الكلبِ في اللغةِ الإنجليزية Dog واسمُ الحمارِ Donky"

*実行後　واسمُ
/الحمارِ/
اسمٌ/
الكلبِ/
في/
اللغةِ/
الإنجليزية/

In [None]:
from pyarabic.araby import tokenize, is_arabicrange
text = u"ِاسمٌ الكلبِ في اللغةِ الإنجليزية Dog واسمُ الحمارِ Donky"
tokenize(text, conditions=is_arabicrange)

['ِاسمٌ', 'الكلبِ', 'في', 'اللغةِ', 'الإنجليزية', 'واسمُ', 'الحمارِ']

21-2. 【修正有/検証中】文章を単語へ分割し、タシュキール（発音記号）の除去

*   非アラビア語の除去と同時に行わないと、タシュキール（発音記号）が残る？

*実行前　"اسمٌ الكلبِ في اللغةِ الإنجليزية  واسمُ الحمارِ"

*実行後　'اسم', 'الكلب', 'في', 'اللغة', 'الإنجليزية', 'واسم', 'الحمار'



In [None]:
from pyarabic.araby import tokenize, strip_tashkeel
text = u"ِاسمٌ الكلبِ في اللغةِ الإنجليزية واسمُ الحمارِ"
tokenize(text, strip_tashkeel)

['ِاسمٌ', 'الكلبِ', 'في', 'اللغةِ', 'الإنجليزية', 'واسمُ', 'الحمارِ']

21-3. 文章を単語へ分割し、非アラビア語とタシュキール（発音記号）の除去

*実行前　"اسمٌ الكلبِ في اللغةِ الإنجليزية Dog واسمُ الحمارِ Donky"

*実行後　'اسم', 'الكلب', 'في', 'اللغة', 'الإنجليزية', 'واسم', 'الحمار'


In [None]:
from pyarabic.araby import tokenize, is_arabicrange, strip_tashkeel
text = u"ِاسمٌ الكلبِ في اللغةِ الإنجليزية Dog واسمُ الحمارِ Donky"
tokenize(text, conditions=is_arabicrange, morphs=strip_tashkeel)

['اسم', 'الكلب', 'في', 'اللغة', 'الإنجليزية', 'واسم', 'الحمار']

22. 条件に合う単語の抽出

*   条件を'ال'で始まる単語にした場合　conditions=lambda x: x.startswith(u'ال')

*実行前　"طلع البدر علينا من ثنيات الوداع"

*実行後　'البدر', 'الوداع'



In [None]:
from pyarabic.araby import tokenize
text = u"طلع البدر علينا من ثنيات الوداع"
tokenize(text, conditions=lambda x: x.startswith(u'ال'))

['البدر', 'الوداع']

23. 【検証中】文章を一文に分割

*   読点や接続詞で判断？



In [None]:
from pyarabic import araby
text = u"وتابع: اللي كتب ستو أنا مستحيل يكتب المفردات الجنوبية، فيه اقتباس ومحاكاة لموالي، وغير واللي فتح باب خرابه واجب عليه رده، وكتبها اللي فتح باب الوجع واجب عليه رده، مردفا: لو قارنت بين أغانيه، وهذه الأغنية تجد لها خصوصية الجنوب."
sentences  = araby.sentence_tokenize(text)
print(sentences)

['وتابع:', 'اللي كتب ستو أنا مستحيل يكتب المفردات الجنوبية،', 'فيه اقتباس ومحاكاة لموالي،', 'وغير واللي فتح باب خرابه واجب عليه رده،', 'وكتبها اللي فتح باب الوجع واجب عليه رده،', 'مردفا:', 'لو قارنت بين أغانيه،', 'وهذه الأغنية تجد لها خصوصية الجنوب.']


24. 【修正有/検証中】文章を単語に分割し、位置を表示

*   最初の文字を0とし、空白も含めて番号を振っている？
*   コンマが入ると、空白は含めない？
*   文末も含めない？
*   発音記号も数える？


In [None]:
from pyarabic import araby
text = "بِسْمِ اللهِ الرَّحْمنِ الرَّحِيمِ"
tokens = araby.tokenize_with_location(text)
print (tokens)

[{'token': 'بِسْمِ', 'start': 0, 'end': 6}, {'token': 'اللهِ', 'start': 7, 'end': 12}, {'token': 'الرَّحْمنِ', 'start': 13, 'end': 23}, {'token': 'الرَّحِيمِ', 'start': 24, 'end': 34}]
