Add text correction algorithm (#7)

adhaamehab · May 29, 2019 · ccca1bd · ccca1bd
1 parent 54e82f5
commit ccca1bd
Show file tree

Hide file tree

Showing 4 changed files with 66 additions and 75 deletions.
diff --git a/arabicnlp/__init__.py b/arabicnlp/__init__.py
@@ -1,4 +1,4 @@
-from .core import (tokens, stems, tags)
+from .core import tokens, stems, tags, correct
 
-__all__ = (tokens, stems, tags)
-__version__ = '0.1.3'
+__all__ = (tokens, stems, tags, correct)
+__version__ = "0.1.3"
diff --git a/arabicnlp/core.py b/arabicnlp/core.py
@@ -1,6 +1,7 @@
 import re
 from .stemmer import ArabicStemmer
 from .pos_tagger import tags as _tags
+from .correction import spell_checker
 
 available_models = (
     ('POST', 'LSTM')
@@ -20,8 +21,10 @@ def tags(text):
     return _tags(text)
 
 
-def correct(text):
-    return False
+def correct(text, top=False):
+    words = tokens(text)
+    result = {w: spell_checker.correction(w, top) for w in words}
+    return result
 
 
 def sentiment(text):

diff --git a/arabicnlp/correction.py b/arabicnlp/correction.py
@@ -0,0 +1,53 @@
+import re
+from collections import Counter
+import pickle
+from os import path
+
+
+class TextCorrection:
+
+    def __init__(self):
+        this_dir, _ = path.split(__file__)
+        WORDINDEX_PATH = path.join(this_dir, "data", "word2index.bin")
+        with open(WORDINDEX_PATH, 'rb') as f:
+            word2index = pickle.load(f)
+        self.WORDS = Counter(word2index.keys())
+
+    def words(self, text):
+        return re.findall(r'\w+', text.lower())
+
+    def P(self, word): 
+        "Probability of `word`."
+        N = sum(self.WORDS.values())
+        return self.WORDS[word] / N
+
+    def correction(self, word, top=False):
+        "Most probable spelling correction for word."
+        if top:
+            return max(self.candidates(word), key=self.P)
+        return self.candidates(word)
+
+    def candidates(self, word):
+        "Generate possible spelling corrections for word."
+        return (self.known([word]) or self.known(self.edits1(word)) or self.known(self.edits2(word)) or [word])
+
+    def known(self, words):
+        "The subset of `words` that appear in the dictionary of WORDS."
+        return set(w for w in words if w in self.WORDS)
+
+    def edits1(self, word):
+        "All edits that are one edit away from `word`."
+        letters    = 'غظضذخثتشرقصفعسنملكيطحزوهدجبأ'
+        splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
+        deletes    = [L + R[1:]               for L, R in splits if R]
+        transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
+        replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
+        inserts    = [L + c + R               for L, R in splits for c in letters]
+        return set(deletes + transposes + replaces + inserts)
+
+    def edits2(self, word): 
+        "All edits that are two edits away from `word`."
+        return (e2 for e1 in self.edits1(word) for e2 in self.edits1(e1))
+
+
+spell_checker = TextCorrection()
diff --git a/test.py b/test.py
@@ -5,19 +5,19 @@
 class IntegrationTest(unittest.TestCase):
     """Integration test for package interface"""
 
-    testtext = ""
+    testtext = "يتحدث اللغه العربيه حوالي مليار شخص حول العالم"
 
     def test_tokenization(self):
         self.assertTrue(arabicnlp.tokens(self.testtext))
 
     def test_stemming(self):
-        self.assertTrue(arabicnlp.stem(self.testtext))
+        self.assertTrue(arabicnlp.stems(self.testtext))
 
     def test_tags(self):
         self.assertTrue(arabicnlp.tags(self.testtext))
 
     def test_spelling(self):
-        self.assertTrue(arabicnlp.correct(self.testtext))
+        self.assertTrue(arabicnlp.correct(self.testtext, top=True))
 
     def test_sentiment(self):
         self.assertTrue(arabicnlp.sentiment(self.testtext))
@@ -26,70 +26,5 @@ def test_similarity(self):
         self.assertTrue(arabicnlp.similarity(self.testtext, self.testtext))
 
 
-class UnitTest(unittest.TestCase):
-    """Unit test here"""
-    def test_correction(self):
-
-        result = []
-        cases= {'توصية' : 'تتتتتتتتوصية' , 'الهام' : 'الهم', 'املائية' : 'املاءية' }
-        for _, val in cases.items():
-            result.append(arabicnlp.correct(val))
-
-        self.assertEqual(cases.keys(),result)
-
-    def test_stemming(self):
-        dictionary = {
-            "فليكن عندك الشجاعة لتفعل بدلاً من أن تقوم برد فعل " : "فلك عند شجع فعل بدل من ان تقم برد فعل",
-            "محمود و مهاب اصحاب منذ الطفولة" : "حمد و هاب صحب منذ طفل",
-            "المَدّ و الجَزْر يحدثان في البحر" : "الم د و الج ز ر حدث في بحر",
-            "لا يتوقف الناس عن اللعب لأنهم كبروا، بل يكبرون لأنهم توقفوا عن اللعب" : "لا وقف لنس عن لعب أنهم كبرو ، بل كبر أنهم وقف عن لعب",
-            "فهرس مقالات عربية رائعة" : "هرس قال عرب رئع",
-            "سينتقل من خلالها من روضة أنيقة إلى روضة ثانية" : "نقل من خلل من روض جمل الى روض ثني",
-            "كما أن بعض تلك المقالات قد خرجت في طباعة رديئة" : "كما ان بعض تلك قال قد خرج في طبع ردئ",
-            "تختصر عليه كثيراً من الوقت والجهد" : "خصر عليه كثر من الق جهد",
-            "بسم الله الرحمن الرحيم" : "بسم الل رحم رحم",
-            " تشتمل على أبواب متفرقة" : "شمل على بوب تفرق",
-
-        }
-
-        result_list = []
-
-        for key, value in dictionary.items():
-            result_list.append(self.__lemmas_checker(key, value))
-        return self.assertTrue(all(result_list), True)
-
-    def __lemmas_checker(self, test_str, correct_string):
-        """"
-        Checking if the Algorithm's output matches the correctly initialzied values
-        """
-        result_string = arabicnlp.stem(test_str)
-        if result_string == correct_string:
-            return True
-        return False
-
-    def test_tokens(self):
-        """Tests for the tokenizer"""     
-        cases = {
-
-            "وقد تتكون النجوم في أزواج تدور حول بعضها البعض، مثال على ذلك نجده في نجم الشعرى اليمانية.":
-            ["و","قد","تتكون","النجوم","في","أزواج","تدور","حول","بعضها","البعض","،","مثال"
-        ,"على","ذلك","نجده","في","نجم","الشعرى","اليمانية","."],
-
-        "يبلغ عمر كوكب الأرض حوالي 4.54 مليار سنة (4.54 × 109 سنة ± 1%).":
-        ["عمر","الأرض","حوالي","4.54","مليار","سنة","(","4.54"
-        ,"×","109","سنة","±","1","%",")","."]
-        }
-
-        for case, correct in cases.items():
-            res = arabicnlp.tokens(case)
-            self.assertEqual(len(correct),len(res))
-
-            for i in range(len(correct)):
-                self.assertEqual(correct[i],res[i])
-
-    def test_tags(self):
-        text = "وقد تتكون النجوم في أزواج تدور حول بعضها البعض، مثال على ذلك نجده في نجم الشعرى اليمانية."
-        self.assertGreater(len(arabicnlp.tags(text)), 0)
-
-if __name__ == '__main__':
-    unittest.main()
+if __name__ == "__main__":
+    unittest.main()