Preprocessor 

Input : 
    strings
    
Output:
    list of strings

In [1]:
import nltk
import regex
import re
import sys
import unicodedata
from typing import Pattern

In [2]:
text_english = "Officers had been directing him and others to go home under the government's guidance to stay indoors. Blackburn magistrates jailed him for 26 weeks yesterday for the threats and other offences."
text_spanish = "En Italia, la nación europea más afectada hasta el momento, el número de muertos por coronavirus se ha disparado en los últimos días. Hasta el domingo, las autoridades locales habían reportado 5.476 víctimas fatales, una cifra que lo coloca por encima de China, donde surgió la epidemia a finales de 2019."
text_hindi = "दुनिया का पहला टेस्ट ट्यूब बेबी 1978 में पैदा हुआ था. उसके बाद से अब तक क़रीब 80 लाख बच्चे इस तकनीक के ज़रिए दुनिया में आ चुके हैं. रिसर्चरों का मानना है कि भविष्य में इस तरीक़े से पैदा हुए बच्चों की तादाद में भारी इज़ाफ़ा देखने को मिलेगा. लेखक हेनरी टी ग्रीली का कहना है कि आने वाले समय में 20 से 40 साल की उम्र वाले सेहतमंद जोड़े लैब में गर्भ धारण कराना पसंद करेंगे. वो सेक्स बच्चा पैदा करने के लिए नहीं बल्कि ज़िस्मानी ज़रूरत और ख़ुशी के लिए करेंगे."
text_arabic = 'فقال فيصل: "قالها الأمير نايف الله يرحمه، وللأسف طلع الاستهداف منا وفينا عكس ما كنا نتوقع نسأل الله الثبات على دينه وأن يرحمنا برحمته".'

In [33]:
PAT_ALPHABETIC = re.compile(r"(((?![\d])\w)+)")
PAT_HINDI = regex.compile(r"(?u)\b\w\w+\b")
PAT_ARABIC = re.compile(r"\W+")

class Preprocessor:
    def __init__(self, language: str, deaccent=True, lower=True, min_len=2, max_len=30) -> None:
        self.language = language
        self.deaccent = deaccent
        self.lower = lower
        self.min_len = min_len
        self.max_len = max_len
        self.stopwords = self._load_stopwords()
        self.tokenizer = Tokenizer(self.language)
   
    def preprocess(self, text: str) -> list:
        if self.lower:
            text = text.lower()
            
        if self.deaccent:
            text = Preprocessor.strip_accents(text)
            
        text = Preprocessor.clean_text(text)
        tokens = self._tokenize(text)
        tokens = [t for t in tokens if self._valid_token(t) and self._not_stop_word(t)]        
        return tokens
    
    def _tokenize(self, text: str) -> list: 
        tokenized = self.tokenizer.tokenize(text)
        return tokenized
    
    def _load_stopwords(self) -> list:
        stopwords = []
        try:
            nltk_stopwords = nltk.corpus.stopwords.words(self.language)
            stopwords.extend(nltk_stopwords)

            # During the clean process, deaccenting happens before removing stopwords => need to add extra unaccented stopwords.
            if self.deaccent == True:
                stopwords_deaccented = [Preprocessor.strip_accents(t) for t in nltk_stopwords]
                stopwords.extend(stopwords_deaccented)

        except Exception as e:
            print(e)
            print(f"Couldn't find any NLTK stopwords for {self.language}")

        finally:
            return list(set(stopwords))
        
    def _not_stop_word(self, token: str) -> bool: 
        return token not in self.stopwords

    def _valid_token(self, token: str) -> bool:
        return all([len(token) > self.min_len, len(token) < self.max_len, not token.startswith("http")])
    
    @staticmethod
    def clean_text(text):
        # Ignore any control or punctuation characters.                              
        cleaned = "".join(c for c in text if unicodedata.category(c)[0] not in ["C", "P"])
        return cleaned
    
    @staticmethod
    def strip_accents(text):
        stripped = ''.join(c for c in unicodedata.normalize('NFD', text) if unicodedata.category(c) != 'Mn')
        return stripped
                                              
class Tokenizer:
    def __init__(self, language):
        self.language = language

    @property
    def token_pattern(self) -> Pattern:
        patterns = {"english": PAT_ALPHABETIC, "hindi": PAT_HINDI, "arabic": PAT_HINDI}
        token_pattern = patterns.get(self.language, PAT_ALPHABETIC)
        print(f"{token_pattern}")
        
        return token_pattern

    def tokenize(self, text):
        """Return a function that split a string in sequence of tokens"""    
        for match in self.token_pattern.finditer(text):
            yield match.group()

In [34]:
preprocessor = Preprocessor("english")
list(preprocessor.preprocess(text_english))

re.compile('(((?![\\d])\\w)+)')


['officers',
 'directing',
 'others',
 'home',
 'governments',
 'guidance',
 'stay',
 'indoors',
 'blackburn',
 'magistrates',
 'jailed',
 'weeks',
 'yesterday',
 'threats',
 'offences']

In [36]:
preprocessor = Preprocessor("hindi")
list(preprocessor.preprocess(text_hindi))

regex.Regex('(?u)\\b\\w\\w+\\b', flags=regex.V0)


['दनिया',
 'पहला',
 'टसट',
 'टयब',
 'बबी',
 '1978',
 'पदा',
 'करीब',
 'लाख',
 'तकनीक',
 'जरिए',
 'दनिया',
 'रिसरचरो',
 'मानना',
 'भविषय',
 'तरीक',
 'पदा',
 'बचचो',
 'तादाद',
 'भारी',
 'इजाफा',
 'दखन',
 'मिलगा',
 'लखक',
 'हनरी',
 'गरीली',
 'कहना',
 'साल',
 'उमर',
 'सहतमद',
 'जोड',
 'गरभ',
 'धारण',
 'कराना',
 'पसद',
 'सकस',
 'बचचा',
 'पदा',
 'बलकि',
 'जिसमानी',
 'जररत',
 'खशी']

In [37]:
preprocessor = Preprocessor("arabic")
list(preprocessor.preprocess(text_arabic))

regex.Regex('(?u)\\b\\w\\w+\\b', flags=regex.V0)


['فقال',
 'فيصل',
 'قالها',
 'الامير',
 'نايف',
 'الله',
 'يرحمه',
 'وللاسف',
 'طلع',
 'الاستهداف',
 'منا',
 'وفينا',
 'عكس',
 'كنا',
 'نتوقع',
 'نسال',
 'الله',
 'الثبات',
 'دينه',
 'يرحمنا',
 'برحمته']

In [38]:
preprocessor = Preprocessor("spanish")
list(preprocessor.preprocess(text_spanish))

re.compile('(((?![\\d])\\w)+)')


['italia',
 'nacion',
 'europea',
 'afectada',
 'momento',
 'numero',
 'muertos',
 'coronavirus',
 'disparado',
 'ultimos',
 'dias',
 'domingo',
 'autoridades',
 'locales',
 'reportado',
 'victimas',
 'fatales',
 'cifra',
 'coloca',
 'encima',
 'china',
 'surgio',
 'epidemia',
 'finales']