# 阿拉伯语文本分析

> 刘占亮，liang@zliu.org，2020年3月18日

##  功能说明

阿拉伯语文本分析系统，实现了如下功能：阿拉伯语分词、词干提取、词性标注、命名实体识别（人名，地名，机构名）、语义相似词推荐。

其中阿拉伯语分词、词干提取、词性标注、命名实体识别功能是基于`stanza`实现的，语义相似词推荐是基于`aravec`实现的。

## 使用说明

### 环境依赖安装

依赖`python3`环境，推荐使用`Anaconda3`。

In [1]:
# 安装python依赖：stanza、gensim、nltk
# 下载阿语模型
!sh setup.sh > /dev/null

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/master/resources_1.0.0.json: 116kB [00:00, 20.8MB/s]           
2020-03-18 18:02:43 INFO: Downloading default packages for language: ar (Arabic)...
2020-03-18 18:02:45 INFO: File exists: /Users/hwang/stanza_resources/ar/default.zip.
2020-03-18 18:02:51 INFO: Finished downloading models and saved to /Users/hwang/stanza_resources.


### 使用方式

In [2]:
import arnlp

2020-03-18 18:04:38 INFO: Loading these models for language: ar (Arabic):
| Processor | Package |
-----------------------
| tokenize  | padt    |
| mwt       | padt    |
| pos       | padt    |
| lemma     | padt    |
| depparse  | padt    |
| ner       | aqmar   |

2020-03-18 18:04:38 INFO: Use device: cpu
2020-03-18 18:04:38 INFO: Loading: tokenize
2020-03-18 18:04:38 INFO: Loading: mwt
2020-03-18 18:04:38 INFO: Loading: pos
2020-03-18 18:04:39 INFO: Loading: lemma
2020-03-18 18:04:39 INFO: Loading: depparse
2020-03-18 18:04:40 INFO: Loading: ner
2020-03-18 18:04:41 INFO: Done loading processors!


In [3]:
text = '''شهدت نهاية الستينيات من القرن الماضي تكاتف كل من معهد ماساتشوستس للتقنية, شركة إيه تي أند تي (مختبرات بيل)، وشركة جنرال إلكتريك للعمل على نظام تشغيل تجريبي أُطلق عليه اسم مولتكس. كان يفترض بالنظام مولتكس أن يكون تفاعلياً ومتجاوباً مع مستخدمي النظام ناهيك عن الضرورة الأمنية للنظام من محاولات اختراق الملفات السرية التي يقوم بحفظها في مستودع الحفظ. رأى المشروع النور على شكل نظام تشغيل قابل للتطبيق إلا أن النظام أظهر أداءً '''

In [4]:
# 1、分词、词干提取、词性标注
arnlp.cut(text)[:10]

[{'text': 'شهدت', 'lemma': 'شَهِد', 'pos': 'VERB'},
 {'text': 'نهاية', 'lemma': 'نِهَايَة', 'pos': 'NOUN'},
 {'text': 'الستينيات', 'lemma': 'سِتِينِيّ', 'pos': 'ADJ'},
 {'text': 'من', 'lemma': 'مِن', 'pos': 'ADP'},
 {'text': 'القرن', 'lemma': 'قَرن', 'pos': 'NOUN'},
 {'text': 'الماضي', 'lemma': 'مَاضِي', 'pos': 'ADJ'},
 {'text': 'تكاتف', 'lemma': 'تَكَاتُف', 'pos': 'NOUN'},
 {'text': 'كل', 'lemma': 'كُلّ', 'pos': 'NOUN'},
 {'text': 'من', 'lemma': 'مِن', 'pos': 'ADP'},
 {'text': 'معهد', 'lemma': 'مَعهَد', 'pos': 'NOUN'}]

In [5]:
# 2、命名实体识别
arnlp.ner(text)

[{'text': 'معهد ماساتشوستس للتقنية',
  'type': 'LOC',
  'start_char': 49,
  'end_char': 72},
 {'text': 'إيه', 'type': 'ORG', 'start_char': 79, 'end_char': 82},
 {'text': 'تي', 'type': 'ORG', 'start_char': 83, 'end_char': 85},
 {'text': 'أند', 'type': 'ORG', 'start_char': 86, 'end_char': 89},
 {'text': 'تي', 'type': 'ORG', 'start_char': 90, 'end_char': 92},
 {'text': 'مختبرات بيل', 'type': 'LOC', 'start_char': 94, 'end_char': 105},
 {'text': 'جنرال إلكتريك', 'type': 'ORG', 'start_char': 114, 'end_char': 127},
 {'text': 'نظام تشغيل', 'type': 'MISC', 'start_char': 138, 'end_char': 148},
 {'text': 'مولتكس', 'type': 'LOC', 'start_char': 171, 'end_char': 177},
 {'text': 'مولتكس', 'type': 'MISC', 'start_char': 197, 'end_char': 203},
 {'text': 'نظام تشغيل', 'type': 'MISC', 'start_char': 374, 'end_char': 384}]

In [6]:
# 3、语义相似词推荐
arnlp.find_similar('النظام', topn=10)

[('للنظام', 0.8017589449882507),
 ('نظامه', 0.7375044226646423),
 ('نظام', 0.7166111469268799),
 ('بالنظام', 0.713510274887085),
 ('الوضع', 0.6911128759384155),
 ('نظامها', 0.68333899974823),
 ('النظام_السياسي', 0.6806480288505554),
 ('التطبيق', 0.6650558710098267),
 ('النموذج', 0.6574497222900391),
 ('التنظيم', 0.6483163833618164)]