Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add Arabic language #56

Merged
merged 5 commits into from
Jan 16, 2019
Merged

Add Arabic language #56

merged 5 commits into from
Jan 16, 2019

Conversation

adhaamehab
Copy link
Contributor

@adhaamehab adhaamehab commented Dec 23, 2018

This PR adds Arabic to the list of supported languages.

Example

from summa.keywords import keywords
from summa.summarizer import summarize

text = """رحلت عن عالمنا إيفلين بيريزين، المرأة التي اخترعت ما يعتبره الكثيرون أول معالجة نصوص إلكترونية، عن 93 عاما.
وأطلقت بيريزين على اختراعها اسم "سكرتيرة البيانات" حين روجته شركتها عام 1971.
وطورت شركتها "ريداكترون" بحيث ارتفع عدد مستخدميها من تسعة أشخاص ليصل 500 واعتبرتها مجلة "بيزنس ويك" واحدة من كبار سيدات الأعمال في الولايات المتحدة عام 1976.
وكانت قد صممت واحدا من أنظمة حجز الطيران عن طريق الكمبيوتر، واختبرته شركة يونايتد إيرلاينز عام 1962.
وأفاد متحف تاريخ الحاسوب أن النظام عمل لمدة 11 عاما بدون أي خلل في نظامه المركزي.
وطورت أنظمة أخرى، منها نظام مصرفي آلي، وأنظمة تحسب عمليات الرهان على سباق الخيول.
وقالت بيريزين في مقابلة أجريت معها عام 2015 إنها اقامت مشروعا خاصا بها في منتصف ستينيات القرن الماضي بعد أن استنتجت أن فرصها في النجاح كموظفة تبقى محدودة.
وقالت إنها فكرت في البداية بتطوير حاسب إلكتروني لعد النقود لكنها في النهاية استقرت على معالجة النصوص الإلكترونية.
وكان الجهاز الذي طورته بارتفاع متر وفيه لوحة مفاتيح ويوجه إلكترونيا ويتبعه طابعة، ويستطيع تسجيل ما يطبعه المستخدم من أجل التحرير في وقتت لاحق.
وقد افتقر الجهاز الأولي للشاشة وما لبث أن ظهر منافسون له، مثل جهاز ليكسيترون، الذي كان يملك شاشة.
ثم أصبح جهاز بيريزين بدوره مجهزا بشاشة.
وقد ازدهرت الشركة وزاد الطلب على منتجاتها، لولا الركود الاقتصادي في السبعينيات الذي اضطر العملاء لاستئجار الآلات بدلا من شرائها، واضطرت بيريزين في النهاية إلى بيع الشركة.
وقد رحلت في الثامن من ديسمبر/كانون أول في مانهاتن بعد أن رفضت تلقي العلاج من السرطان."""
summarize(text, language='arabic', ratio=0.5)
وأطلقت بيريزين على اختراعها اسم "سكرتيرة البيانات" حين روجته شركتها عام 1971.
وطورت شركتها "ريداكترون" بحيث ارتفع عدد مستخدميها من تسعة أشخاص ليصل 500 واعتبرتها مجلة "بيزنس ويك" واحدة من كبار سيدات الأعمال في الولايات المتحدة عام 1976.
وكانت قد صممت واحدا من أنظمة حجز الطيران عن طريق الكمبيوتر، واختبرته شركة يونايتد إيرلاينز عام 1962.
وقالت بيريزين في مقابلة أجريت معها عام 2015 إنها اقامت مشروعا خاصا بها في منتصف ستينيات القرن الماضي بعد أن استنتجت أن فرصها في النجاح كموظفة تبقى محدودة.
وقد ازدهرت الشركة وزاد الطلب على منتجاتها، لولا الركود الاقتصادي في السبعينيات الذي اضطر العملاء لاستئجار الآلات بدلا من شرائها، واضطرت بيريزين في النهاية إلى بيع الشركة.
keywords(text, language='arabic')
['عاما', 'شركتها عام', 'شركة', 'الشركة', 'الجهاز', 'جهاز', 'بيريزين', 'وقد', 'أنظمة', 'وأنظمة', 'أول', 'وطورت', 'طورته', 'الأولي للشاشة', 'إلكترونية', 'الإلكترونية', 'إلكترونيا', 'وقالت', 'إنها', 'عمليات', 'شاشة', 'بشاشة', 'تلقي', 'سيدات', 'النظام عمل', 'ستينيات القرن', 'اسم', 'سكرتيرة', 'العملاء لاستئجار الآلات', 'نظامه', 'نظام', 'بتطوير', 'النقود', 'واحدة', 'واحدا', 'أشخاص']

Fix #55

@adhaamehab
Copy link
Contributor Author

@fbarrios Can you review this?

@fbarrios
Copy link
Contributor

Hi! Sorry for having this parked. We're on holidays until next week, then I'll gladly review this.

@adhaamehab
Copy link
Contributor Author

No problem at all. Happy holidays

@adhaamehab
Copy link
Contributor Author

Any updates on this?

@fedelopez77
Copy link
Contributor

Hello @adhaamehab!

Thank you for your contribution! Looks great.
Could you please add at least one test for this and then we merge it?

Thanks!

@adhaamehab
Copy link
Contributor Author

Hi @fedelopez77
Just added a test. Please check.
Thanks!

@fbarrios fbarrios merged commit 7e5911e into summanlp:master Jan 16, 2019
@fbarrios
Copy link
Contributor

@adhaamehab amazing! Thank you for your contribution.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants