## Natural Language Processing

#### Libraries need to be installed
1) pip install nltk
2) pip install banglanltk

#### Import libraries

In [1]:
import nltk
import banglanltk as bn
import re
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

##### Use this data for further processing
গতকাল ডিএসইতে ১ হাজার ১৯০ কোটি ২৬ লাখ টাকার শেয়ার লেনদেন হয়েছে। যা আগের দিন থেকে ৫ কোটি ১৫ লাখ! টাকা কম! গতকাল ডি.এসইতে ১ হাজার ১৯৫ কোটি ৪১ লাখ টাকার শেয়ার লেনদেন হয়েছিল। এর আগের দিন মঙ্গলবার ১ হাজার ১৮৩ কোটি টাকা শেয়ার লেনদেন হয়েছিল। বাজার বিশ্লেষণে দেখা যায় ডিএসই প্রধান সূচক ডিএসইএক্স ১২ পয়েন্ট বেড়ে অবস্হান করছে ৬ হাজার ৩১২ পয়েন্টে। অন্য সূচকগুলোর মধ্যে ডিএসইএস বা শরিয়াহ সূচক ৪ পয়েন্ট বেড়ে অবস্হান করছে ১ হাজার ৩৭৫ পয়েন্টে। এছাড়া ডিএস৩০ সূচক ৬ পয়েন্ট বেড়ে দাঁড়িয়েছে ২ হাজার ২৬৫ পয়েন্টে। দেশের প্রধান এই শেয়ারবাজারে গতকাল ৩৮১টি কোম্পানি ও মিউচুয়াল ফান্ডের শেয়ার লেনদেন হয়েছে। এর মধ্যে দর বেড়েছে ১২৯টির। কমেছে ১৯৯টির এবং অপরিবর্তিত রয়েছে ৫৩টির। অপর বাজার চট্টগ্রাম স্টক  এক্সচেঞ্জে সিএসই সিএসই সার্বিক সূচক সিএসপিআই ৭৮ point বেড়েছে। লেনদেন হয়েছে 21 core টাকার শেয়ার।

In [2]:
paragraph = "গতকাল ডিএসইতে ১ হাজার ১৯০ কোটি ২৬ লাখ টাকার শেয়ার লেনদেন হয়েছে। যা আগের দিন থেকে ৫ কোটি ১৫ লাখ টাকা কম! গতকাল ডি.এসইতে ১ হাজার ১৯৫ কোটি ৪১ লাখ টাকার শেয়ার লেনদেন হয়েছিল। এর আগের দিন মঙ্গলবার ১ হাজার ১৮৩ কোটি টাকা শেয়ার লেনদেন হয়েছিল। বাজার বিশ্লেষণে দেখা যায় ডিএসই প্রধান সূচক ডিএসইএক্স ১২ পয়েন্ট বেড়ে অবস্হান করছে ৬ হাজার ৩১২ পয়েন্টে। অন্য সূচকগুলোর মধ্যে ডিএসইএস বা শরিয়াহ সূচক ৪ পয়েন্ট বেড়ে অবস্হান করছে ১ হাজার ৩৭৫ পয়েন্টে। এছাড়া ডিএস৩০ সূচক ৬ পয়েন্ট বেড়ে দাঁড়িয়েছে ২ হাজার ২৬৫ পয়েন্টে। দেশের প্রধান এই শেয়ারবাজারে গতকাল ৩৮১টি কোম্পানি ও মিউচুয়াল ফান্ডের শেয়ার লেনদেন হয়েছে। এর মধ্যে দর বেড়েছে ১২৯টির। কমেছে ১৯৯টির এবং অপরিবর্তিত রয়েছে ৫৩টির। অপর বাজার চট্টগ্রাম স্টক  এক্সচেঞ্জে সিএসই সিএসই সার্বিক সূচক সিএসপিআই ৭৮ point বেড়েছে। লেনদেন হয়েছে 21 core টাকার শেয়ার।"

#### Tokenizing the words and provide the length  (use banglanltk library)

In [3]:
# Word Tokenize
words = bn.word_tokenize(paragraph)

In [4]:
# Tokenize Words length
len(words)

133

**Expected output 133**

#### Tokenizing the Sentences and provide the length  (use banglanltk library)

In [5]:
# Sentence Tokenize
sentences = bn.sent_tokenize(paragraph)

In [6]:
# Tokenize Sentences length
len(sentences)

12

**Expected output 12**

#### Apply stopwords and stemmer in the tokenized sentences.
###### Use stopwords from "from nltk.corpus import stopwords" and stremmer from  "banglanltk" package

In [7]:
stopwords = nltk.corpus.stopwords.words('bengali')
#stopwords

In [8]:
filtered_sentences = []

for sentence in sentences:
    
    #break the sentences into word to apply stopwords and stemmer
    new_words = bn.word_tokenize(sentence)
    filtered_word = []

    #applying stopwords
    for word in new_words:
        if word not in stopwords:
            filtered_word.append(word)

    #appyling stemmer after stopwords
    stemmer_word=[]
    for w in filtered_word:
        stemmer_word.append(bn.stemmer(w))

    #after stopwords and stemming joining the words to make a sentence
    new_sentence = ' '.join(stemmer_word)

    #added the new sentences into a new list
    filtered_sentences.append(new_sentence)
    


#### Again tokenize the words in sentences that get after applying stopwords and stemming. And provide the length of the tokenize words.

In [9]:
filtered_sentences

['গতকাল ডিএসইত ১ ১৯০ কে ২৬ লাখ টাকার শেয়ার লেনদে হয়',
 'আগের ৫ কে ১৫ লাখ টাকা কম',
 'গতকাল ডিএসইত ১ ১৯৫ কে ৪১ লাখ টাকার শেয়ার লেনদে হয়',
 'আগের মঙ্গলবার ১ ১৮৩ কে টাকা শেয়ার লেনদে হয়',
 'বাজার বিশ্লেষণ যায় ডিএসই প্রধা সূচক ডিএসইএক্স ১২ পয়েন্ট বেড় অবস্হা ৬ ৩১২ পয়েন্ট',
 'সূচকগুলোর ডিএসইএস শরিয়াহ সূচক ৪ পয়েন্ট বেড় অবস্হা ১ ৩৭৫ পয়েন্ট',
 'এছাড়া ডিএস৩০ সূচক ৬ পয়েন্ট বেড় দাঁড় ২ ২৬৫ পয়েন্ট',
 'দেশের প্রধা শেয়ারবাজার গতকাল ৩৮১টি কোম্ মিউচুয়াল ফান্ডের শেয়ার লেনদে হয়',
 'দর বেড়েছ ১২৯টির',
 'কমেছ ১৯৯টির অপরিবর্তিত রয় ৫৩টির',
 'অপর বাজার চট্টগ্রাম স্টক এক্সচেঞ্জ সিএসই সিএসই সার্ব সূচক সিএসপিআই ৭৮ point বেড়েছ',
 'লেনদে হয় 21 core টাকার শেয়ার']

In [10]:
# Word Tokenize
word_after_stem=[]
for sentence in filtered_sentences:
    w = bn.word_tokenize(sentence)
    word_after_stem.extend(w) #extend this to get direct a flat list 
    
word_after_stem

['গতকাল',
 'ডিএসইত',
 '১',
 '১৯০',
 'কে',
 '২৬',
 'লাখ',
 'টাকার',
 'শেয়ার',
 'লেনদে',
 'হয়',
 'আগের',
 '৫',
 'কে',
 '১৫',
 'লাখ',
 'টাকা',
 'কম',
 'গতকাল',
 'ডিএসইত',
 '১',
 '১৯৫',
 'কে',
 '৪১',
 'লাখ',
 'টাকার',
 'শেয়ার',
 'লেনদে',
 'হয়',
 'আগের',
 'মঙ্গলবার',
 '১',
 '১৮৩',
 'কে',
 'টাকা',
 'শেয়ার',
 'লেনদে',
 'হয়',
 'বাজার',
 'বিশ্লেষণ',
 'যায়',
 'ডিএসই',
 'প্রধা',
 'সূচক',
 'ডিএসইএক্স',
 '১২',
 'পয়েন্ট',
 'বেড়',
 'অবস্হা',
 '৬',
 '৩১২',
 'পয়েন্ট',
 'সূচকগুলোর',
 'ডিএসইএস',
 'শরিয়াহ',
 'সূচক',
 '৪',
 'পয়েন্ট',
 'বেড়',
 'অবস্হা',
 '১',
 '৩৭৫',
 'পয়েন্ট',
 'এছাড়া',
 'ডিএস৩০',
 'সূচক',
 '৬',
 'পয়েন্ট',
 'বেড়',
 'দাঁড়',
 '২',
 '২৬৫',
 'পয়েন্ট',
 'দেশের',
 'প্রধা',
 'শেয়ারবাজার',
 'গতকাল',
 '৩৮১টি',
 'কোম্',
 'মিউচুয়াল',
 'ফান্ডের',
 'শেয়ার',
 'লেনদে',
 'হয়',
 'দর',
 'বেড়েছ',
 '১২৯টির',
 'কমেছ',
 '১৯৯টির',
 'অপরিবর্তিত',
 'রয়',
 '৫৩টির',
 'অপর',
 'বাজার',
 'চট্টগ্রাম',
 'স্টক',
 'এক্সচেঞ্জ',
 'সিএসই',
 'সিএসই',
 'সার্ব',
 'সূচক',
 'সিএসপিআই',
 '৭৮',
 'point',
 'বেড়েছ',
 'লেনদে',

In [11]:
# Tokenize Words length
len(word_after_stem)

111

**Expected output 111**

### Stemmer Vs Lemamtization
Stemming and lemmatization are both techniques used in natural language processing (NLP) and text mining to reduce words to their base or root form.

# What are the differences between Stemmer and Lemmatization(Provive atleast 2 points)
**1.** Stemmer removes last few character from word while lemmataization convert the word to it's base form  
**2.** Stemmer is fater than lemmatization while lemmatization is often more accurate than stemmer 

Suppose there are some application where we will use Stemming and Lemmatization text processing technique. Tell Us which text processing technique suitable for these applications. Provide answer like **(# Content Filtering -> Stemming)**

Sentiment analysis -> **Lemmatization**  
Chatbots application -> **Stemmer**  
Gmail spam classification -> **Stemmer**  
Question answer -> **Lemmatization**  

### Create Bag of words
**1.** Step 1: Cleaning the text that not contain any numeric value, any punctuations etc.(In the give text)

**2.** Step 2: Apply stopwords and stemmer again in the clean data.

**3.** Step 3: Create Bag of Words (Use "from sklearn.feature_extraction.text import CountVectorizer")

In [22]:
paragraph

'গতকাল ডিএসইতে ১ হাজার ১৯০ কোটি ২৬ লাখ টাকার শেয়ার লেনদেন হয়েছে। যা আগের দিন থেকে ৫ কোটি ১৫ লাখ টাকা কম! গতকাল ডি.এসইতে ১ হাজার ১৯৫ কোটি ৪১ লাখ টাকার শেয়ার লেনদেন হয়েছিল। এর আগের দিন মঙ্গলবার ১ হাজার ১৮৩ কোটি টাকা শেয়ার লেনদেন হয়েছিল। বাজার বিশ্লেষণে দেখা যায় ডিএসই প্রধান সূচক ডিএসইএক্স ১২ পয়েন্ট বেড়ে অবস্হান করছে ৬ হাজার ৩১২ পয়েন্টে। অন্য সূচকগুলোর মধ্যে ডিএসইএস বা শরিয়াহ সূচক ৪ পয়েন্ট বেড়ে অবস্হান করছে ১ হাজার ৩৭৫ পয়েন্টে। এছাড়া ডিএস৩০ সূচক ৬ পয়েন্ট বেড়ে দাঁড়িয়েছে ২ হাজার ২৬৫ পয়েন্টে। দেশের প্রধান এই শেয়ারবাজারে গতকাল ৩৮১টি কোম্পানি ও মিউচুয়াল ফান্ডের শেয়ার লেনদেন হয়েছে। এর মধ্যে দর বেড়েছে ১২৯টির। কমেছে ১৯৯টির এবং অপরিবর্তিত রয়েছে ৫৩টির। অপর বাজার চট্টগ্রাম স্টক  এক্সচেঞ্জে সিএসই সিএসই সার্বিক সূচক সিএসপিআই ৭৮ point বেড়েছে। লেনদেন হয়েছে 21 core টাকার শেয়ার।'

In [23]:

clean_punctuations = bn.clean_text(paragraph)

#clean number both English and Bengali and English words
clean_num_other = re.sub('[a-zA-Z0-9০-৯]','',clean_punctuations)

#remove extra spaces
clean_data = re.sub(' +', ' ', clean_num_other)
clean_data

'গতকাল ডিএসইতে হাজার কোটি লাখ টাকার শেয়ার লেনদেন হয়েছে যা আগের দিন থেকে কোটি লাখ টাকা কম গতকাল ডিএসইতে হাজার কোটি লাখ টাকার শেয়ার লেনদেন হয়েছিল এর আগের দিন মঙ্গলবার হাজার কোটি টাকা শেয়ার লেনদেন হয়েছিল বাজার বিশ্লেষণে দেখা যায় ডিএসই প্রধান সূচক ডিএসইএক্স পয়েন্ট বেড়ে অবস্হান করছে হাজার পয়েন্টে অন্য সূচকগুলোর মধ্যে ডিএসইএস বা শরিয়াহ সূচক পয়েন্ট বেড়ে অবস্হান করছে হাজার পয়েন্টে এছাড়া ডিএস সূচক পয়েন্ট বেড়ে দাঁড়িয়েছে হাজার পয়েন্টে দেশের প্রধান এই শেয়ারবাজারে গতকাল টি কোম্পানি ও মিউচুয়াল ফান্ডের শেয়ার লেনদেন হয়েছে এর মধ্যে দর বেড়েছে টির কমেছে টির এবং অপরিবর্তিত রয়েছে টির অপর বাজার চট্টগ্রাম স্টক এক্সচেঞ্জে সিএসই সিএসই সার্বিক সূচক সিএসপিআই বেড়েছে লেনদেন হয়েছে টাকার শেয়ার'

In [24]:

# Tokenize into words
words = bn.word_tokenize(clean_data)

# Apply stopwords
filtered_words = [word for word in words if word not in stopwords]

# Apply stemming
stemmed_words = [bn.stemmer(word) for word in filtered_words]


In [25]:

vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
#fit the data
X = vectorizer.fit_transform(stemmed_words)

# Get the feature names
feature_names = vectorizer.get_feature_names_out()

print("Feature names:")
print(feature_names)


Feature names:
['অপর' 'অপরিবর্তিত' 'অবস্হা' 'আগের' 'এক্সচেঞ্জ' 'এছাড়া' 'কম' 'কমেছ' 'কে'
 'কোম্' 'গতকাল' 'চট্টগ্রাম' 'টাকা' 'টাকার' 'ডিএস' 'ডিএসই' 'ডিএসইএক্স'
 'ডিএসইএস' 'ডিএসইত' 'দর' 'দাঁড়' 'দেশের' 'প্রধা' 'পয়েন্ট' 'ফান্ডের'
 'বাজার' 'বিশ্লেষণ' 'বেড়' 'বেড়েছ' 'মঙ্গলবার' 'মিউচুয়াল' 'যায়' 'রয়' 'লাখ'
 'লেনদে' 'শরিয়াহ' 'শেয়ার' 'শেয়ারবাজার' 'সার্ব' 'সিএসই' 'সিএসপিআই' 'সূচক'
 'সূচকগুলোর' 'স্টক' 'হয়']


###### Expected output
array(['অপর', 'অপরিবর্তিত', 'অবস্হা', 'আগের', 'এক্সচেঞ্জ', 'এছাড়া', 'কম',
       'কমেছ', 'কে', 'কোম্', 'গতকাল', 'চট্টগ্রাম', 'টাকা', 'টাকার',
       'ডিএস', 'ডিএসই', 'ডিএসইএক্স', 'ডিএসইএস', 'ডিএসইত', 'দর', 'দাঁড়',
       'দেশের', 'প্রধা', 'পয়েন্ট', 'ফান্ডের', 'বাজার', 'বিশ্লেষণ', 'বেড়',
       'বেড়েছ', 'মঙ্গলবার', 'মিউচুয়াল', 'যায়', 'রয়', 'লাখ', 'লেনদে',
       'শরিয়াহ', 'শেয়ার', 'শেয়ারবাজার', 'সার্ব', 'সিএসই', 'সিএসপিআই',
       'সূচক', 'সূচকগুলোর', 'স্টক', 'হয়'], dtype=object)