# Preprocessing usage Example

## Preprocessing steps

In [20]:
from preprocessor import *

`preprocessor` consists of methods required to clean Nepali text.

In [17]:
with open('sample_text_1.txt') as f:
    sample_text_1 = f.read()
print('Sample Text: \n', sample_text_1)

Sample Text: 
 १२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र??? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ ।।। 
आइन्स्टाइनले सबैभन्दा पहिले सन 1905 तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा उनको ‘सिद्धान्त’ ले विज्ञानलाई  दुई भागमा बाँडिदियो – ‘क्लासिकल फिजिक्स’ (Classical Physics) र ‘मोडर्न फिजिक्स’ (Modern Physics)। 
उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।


### Load Nepali stop words

As NLTK library does not have entire list of Nepali stopwords, we add some more stopwords to curate a new updated list.

In [18]:
with open('nepali_stopwords.txt') as f:
    STOPWORDS = [word.strip() for word in f.readlines()]
    
print(f'Total no. of Nepali stopwords: {len(STOPWORDS)}')

Total no. of Nepali stopwords: 501


### Convert English digits to Nepali

`1905` gets converted to `१९०५`

This needs to be run first before removing non-Devanagari characters.

In [46]:
print(f'Input:\n{sample_text_1}\n')
print('Output:')
text = convert_english_digits_to_nepali(sample_text_1)
print(text)

Input:
१२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र??? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ ।।। 
आइन्स्टाइनले सबैभन्दा पहिले सन 1905 तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा उनको ‘सिद्धान्त’ ले विज्ञानलाई  दुई भागमा बाँडिदियो – ‘क्लासिकल फिजिक्स’ (Classical Physics) र ‘मोडर्न फिजिक्स’ (Modern Physics)। 
उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।

Output:
१२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र??? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ ।।। 
आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्

### Remove repeating line terminators and punctuations

Repetition of punctuation symbols are removed. For example, '???' becomes '?'.

In [47]:
print(f'Input:\n{text}\n')
print('Output:')
text = remove_repeating_line_terminators_or_punctuations(text)
print(text)

Input:
१२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र??? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ ।।। 
आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा उनको ‘सिद्धान्त’ ले विज्ञानलाई  दुई भागमा बाँडिदियो – ‘क्लासिकल फिजिक्स’ (Classical Physics) र ‘मोडर्न फिजिक्स’ (Modern Physics)। 
उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।

Output:
१२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ । 
आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउ

### Keep only Devanagari script

Only Devanagari script unicode range and punctuations part of Nepali are kept.

In [48]:
print(f'Input:\n{text}\n')
print('Output:')
text = keep_only_devanagari_script(text)
print(text)

Input:
१२ कात्तिक गते, काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र? 
मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त ((जनरल रिलेटीभिटी थ्योरी) (General Relativity Theory) सँग जोडिएको छ । 
आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा उनको ‘सिद्धान्त’ ले विज्ञानलाई  दुई भागमा बाँडिदियो – ‘क्लासिकल फिजिक्स’ (Classical Physics) र ‘मोडर्न फिजिक्स’ (Modern Physics)। 
उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।

Output:
१२ कात्तिक गते  काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र?  मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ ।  आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा 

### Wrap line terminators with spaces

For the cases where the line terminator symbols are attached with the word, they need to be separated.

In [49]:
print(f'Input:\n{text}\n')
print('Output:')
text = wrap_line_terminators_with_spaces(text)
print(text)

Input:
१२ कात्तिक गते  काठमाडौं । वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र?  मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ ।  आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए। सन् १९२० सम्म आउँदा उनको  सिद्धान्त  ले विज्ञानलाई  दुई भागमा बाँडिदियो    क्लासिकल फिजिक्स                      र  मोडर्न फिजिक्स                  ।  उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।

Output:
१२ कात्तिक गते  काठमाडौं  ।  वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र ?   मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ  ।   आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए ।  सन् १९२० सम्

### Remove publication date and location info

This is specific to news articles. Some news articles have dates and news location at the beginning which may not add any value. This is a rule-based approach (based on specific words and sentence length) to remove them. 

In [50]:
print(f'Input:\n{text}\n')
print('Output:')
text = remove_publication_date_and_location(text)
print(text)

Input:
१२ कात्तिक गते  काठमाडौं  ।  वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र ?   मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ  ।   आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए ।  सन् १९२० सम्म आउँदा उनको  सिद्धान्त  ले विज्ञानलाई  दुई भागमा बाँडिदियो    क्लासिकल फिजिक्स                      र  मोडर्न फिजिक्स                   ।   उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे  ।  आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए  । 

Output:
 वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र ?   मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ  ।   आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए ।  सन् १९२० सम्म आउँदा उनको  

### Remove extra white spaces

After preprocessing steps, we are left with multiple white spaces around, which will be removed at the end.

In [51]:
print(f'Input:\n{text}\n')
print('Output:')
text = remove_extra_whitespaces(text)
print(text)

Input:
 वैज्ञानिक आइन्स्टाइनको नाम  कसलाई पो थाहा छैन होला र ?   मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त   जनरल रिलेटीभिटी थ्योरी                              सँग जोडिएको छ  ।   आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर   सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए ।  सन् १९२० सम्म आउँदा उनको  सिद्धान्त  ले विज्ञानलाई  दुई भागमा बाँडिदियो    क्लासिकल फिजिक्स                      र  मोडर्न फिजिक्स                   ।   उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै  विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे  ।  आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए  । 

Output:
वैज्ञानिक आइन्स्टाइनको नाम कसलाई पो थाहा छैन होला र ? मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त जनरल रिलेटीभिटी थ्योरी सँग जोडिएको छ । आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए । सन् १९२० सम्म आउँदा उनको सिद्धान्त ले विज्ञानलाई दुई भागमा बाँडिदियो क्लासिकल फिजिक्स र मोडर्न 

### Removing Nepali stop words

This uses a Nepali stemmer to stem the text first. Stemming will separate the text stems with the root word, and based on the pre-defined stop words list, they are removed from the text.

In [52]:
print(f'Input:\n{text}\n')
print('Output:')
text = remove_nepali_stopwords(text, stopwords=STOPWORDS)
print(text)

Input:
वैज्ञानिक आइन्स्टाइनको नाम कसलाई पो थाहा छैन होला र ? मनुष्य जीवनको दैनिकीकै सम्बन्ध आइन्स्टाइनको सापेक्षवादको सिद्धान्त जनरल रिलेटीभिटी थ्योरी सँग जोडिएको छ । आइन्स्टाइनले सबैभन्दा पहिले सन १९०५ तिर सापेक्षवादको सिद्धान्त प्रस्तुत गरेका थिए । सन् १९२० सम्म आउँदा उनको सिद्धान्त ले विज्ञानलाई दुई भागमा बाँडिदियो क्लासिकल फिजिक्स र मोडर्न फिजिक्स । उनको यस सिद्धान्तका साथै अन्य सिद्धान्तले पहिलेका वैज्ञानिक र तिनका विभिन्न मान्यताका साथै विज्ञानका अनेकौं सिद्धान्त र मान्यतालाई खण्डित गर्ने काम गरे । आइन्स्टाइन आधुनिक विज्ञानका पिताकै रूपमा गनिए ।

Output:
वैज्ञानिक आइन्स्टाइन नाम कस ? मनुष्य जीवन दैनि की कै सम्बन्ध आइन्स्टाइन सापेक्षवाद सिद्धान्त जनरल रिलेटीभिटी थ्योरी जोडिए । आइन्स्टाइन सन १९०५ सापेक्षवाद सिद्धान्त प्रस्तुत । सन् १९२० आउँदा सिद्धान्त विज्ञान भाग बाँडिदियो क्लासिकल फिजिक्स मोडर्न फिजिक्स । सिद्धान्त सिद्धान्त वैज्ञानिक विभिन्न मान्यता विज्ञान अनेकौं सिद्धान्त मान्यता खण्डित । आइन्स्टाइन आधुनिक विज्ञान पिता कै गनिए ।


### Removing Nepali digits

Digits may be removed entirely from the text or replaced with some other characters.

In [53]:
print(f'Input:\n{text}\n')
print('Output:')
text = remove_nepali_digits(text, digit_replacement_character='')
print(text)

Input:
वैज्ञानिक आइन्स्टाइन नाम कस ? मनुष्य जीवन दैनि की कै सम्बन्ध आइन्स्टाइन सापेक्षवाद सिद्धान्त जनरल रिलेटीभिटी थ्योरी जोडिए । आइन्स्टाइन सन १९०५ सापेक्षवाद सिद्धान्त प्रस्तुत । सन् १९२० आउँदा सिद्धान्त विज्ञान भाग बाँडिदियो क्लासिकल फिजिक्स मोडर्न फिजिक्स । सिद्धान्त सिद्धान्त वैज्ञानिक विभिन्न मान्यता विज्ञान अनेकौं सिद्धान्त मान्यता खण्डित । आइन्स्टाइन आधुनिक विज्ञान पिता कै गनिए ।

Output:
वैज्ञानिक आइन्स्टाइन नाम कस ? मनुष्य जीवन दैनि की कै सम्बन्ध आइन्स्टाइन सापेक्षवाद सिद्धान्त जनरल रिलेटीभिटी थ्योरी जोडिए । आइन्स्टाइन सन  सापेक्षवाद सिद्धान्त प्रस्तुत । सन्  आउँदा सिद्धान्त विज्ञान भाग बाँडिदियो क्लासिकल फिजिक्स मोडर्न फिजिक्स । सिद्धान्त सिद्धान्त वैज्ञानिक विभिन्न मान्यता विज्ञान अनेकौं सिद्धान्त मान्यता खण्डित । आइन्स्टाइन आधुनिक विज्ञान पिता कै गनिए ।


## Preprocessing a dataframe

In [55]:
# Helper function to preprocess Nepali text
def preprocess(text):
    """Preprocesses the given text with set of methods

    Parameters
    ----------
    text : str
        Text to preprocess.

    Returns
    -------
    str
        Clean text.
    """
    text = convert_english_digits_to_nepali(text)
    text = remove_repeating_line_terminators_or_punctuations(text)
    text = keep_only_devanagari_script(text)
    text = wrap_line_terminators_with_spaces(text)
    text = remove_publication_date_and_location(text)
    # text = remove_nepali_digits(text)
    # text = remove_nepali_stopwords(text, STOPWORDS)
    text = remove_extra_whitespaces(text)
    
    return text

### Load a sample dataframe