## use **`!pip freeze`** for installed packages

In [None]:
!pip freeze

I don't Why **bnltk** is not working! So let's install **`banglanltk`** pakage
using **$ `pip install banglanltk`**

In [2]:
pip install banglanltk


Collecting banglanltk
  Downloading banglanltk-0.0.4-py3-none-any.whl (462 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m462.3/462.3 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: banglanltk
Successfully installed banglanltk-0.0.4



# **Cleaning Text**

---


1. Import the **`banglanltk`** library as **`bn`**.

2. Called a function named **`clean_text`** that takes a **`Bangla string`** as input.

3. Inside the function, define a list of Bangla punctuation marks to be removed.
  
```
punctuation_marks = ['।', ',', '.', '?', '!', '…', ':', ';', '@', '#', '$', '^', '&', '*', '(', ')', '{', '}', '[', ']', "'", '‘', '’', '“', '”', '-', '_']
```
4. print the clean text after removing all **`punctuation_marks`**.






In [3]:
import banglanltk as bn
s = 'আমি খুব ভালো আছি! আমি কোনো সমস্যার সম্মুখে নেই? হয়তো থামে যাবে না()... আমি আপনাদের কাছে এসেছি: "কেমন আছেন?" এবং এটা দেখে আশা করছি - সবাই ভালোই আছেন!'

print(bn.clean_text(s))

আমি খুব ভালো আছি আমি কোনো সমস্যার সম্মুখে নেই হয়তো থামে যাবে না আমি আপনাদের কাছে এসেছি কেমন আছেন এবং এটা দেখে আশা করছি  সবাই ভালোই আছেন


# **Word Tokenization**

---


Word tokenization is the process of breaking down a text into individual words or tokens.

Firstly, we include the **`banglanltk`**  library and then call the function named **`word_tokenize()`** for tokenization.

The **`word_tokenize()`** function uses the **`clean_text()`** function first and then separates the words individually.

In [6]:
import banglanltk as bn

s = 'আমি বাংলায় লেখা একটি বাক্য,টোকেনাইজেশন করতে চাই। হ্যাঁ?'
print(bn.word_tokenize(s))

['আমি', 'বাংলায়', 'লেখা', 'একটি', 'বাক্যটোকেনাইজেশন', 'করতে', 'চাই', 'হ্যাঁ']


# **Sentence Tokenization**

---


Sentence tokenization is the process of breaking down a text into individual sentences. The objective is to identify and extract sentences from a given paragraph or document. This task is essential in natural language processing (NLP) and text analysis because many language processing applications operate at the sentence level.

### The **`sent_tokenize()`** work with some steps:

1. Remove the Punctuatios and replace tabs, newlines, and certain characters with spaces.
2. Replace multiple spaces with a single space.
3.   Strip trailing । (Bengali full stop), ? and ! and split into sentences.
4.   Filter out empty strings and return the list of sentences.




In [10]:
import banglanltk as bn

s = ''' আমি আজ শহরে গিয়েছি কিন্তু বৃষ্টি হয়নি। সবাইকে শুভ নববর্ষ! বাংলা ভাষায় কবিতা পড়তে খুব ভালো লাগে। বইগুলি বইমেলায় খুব সস্তায় পাওয়া যায়। '''
print(bn.sent_tokenize(s))

['আমি আজ শহরে গিয়েছি কিন্তু বৃষ্টি হয়নি', 'সবাইকে শুভ নববর্ষ', 'বাংলা ভাষায় কবিতা পড়তে খুব ভালো লাগে', 'বইগুলি বইমেলায় খুব সস্তায় পাওয়া যায়']


# **Stemming**

---

Stemming in Bengali NLP (Natural Language Processing) refers to the process of reducing words to their root or base form, known as the "stem." The purpose of stemming is to normalize words and group together variations of the same word, which helps in text analysis and information retrieval tasks.

In the context of Bengali stemming, the goal is to transform different inflected forms or derived words into a common base or root form. This process involves removing suffixes or prefixes from words while keeping the core meaning intact. For example:

খেলছি (playing) → খেল (play),
খাচ্ছে (eating) → খাও (eat),
বলছে (speaking) → বল (speak)



In [16]:
import banglanltk as bn

# For single word
print(bn.stemmer('বলছে'))

# For sentence
text = 'আমি আজ শহরে গিয়েছি কিন্তু বৃষ্টি হয়নি'
words = bn.word_tokenize(text)
for w in words:
    print(bn.stemmer(w))

বল
আমি
আজ
শহর
গ
কিন্তু
বৃষ্টি
হয়নি


# **Bnagla Synonym**

---

A synonym is a word or phrase that has a similar or identical meaning to another word or phrase in the same language. In other words, synonyms are words that can be used interchangeably in certain contexts because they convey the same or very similar meanings.

Here the function **`synonym()`** takes a word and gives the synonym of itself if the word is included into the list of synonyms.

In [26]:
import banglanltk as bn

print(bn.synonym('হাত'))


['কর', 'শুঁড়', 'শুণ্ড', 'শুণ্ডিকা', 'সারঙ্গ', 'হস্ত', 'হাত']


In [23]:
print(bn.synonym('অক্লেশ'))


['অক্লেশ', 'অনায়াস', 'প্রযত্নহীন', 'বিনা পরিশ্রম', 'সহজ']


In [24]:
print(bn.synonym('অকপট'))


['অকপট', 'অচ্ছদ্ম', 'অচ্ছল', 'অব্যাজ', 'কপটতাশূণ্য', 'কপটতাহীন', 'কাপট্যহীন', 'ছলনাশূণ্য', 'ছলনাহীন', 'ছলরহিত', 'নির্ব্যাজ', 'ব্যাজহীন']


In [25]:
print(bn.synonym('বাঁচানো'))

['উদ্ধার করা', 'ত্রাণ করা', 'নিষ্কৃতি দেওয়া', 'নিস্তার করা', 'বাঁচান', 'বাঁচানো', 'বাঁচিয়ে রাখা', 'বার করা', 'বৈতরণী পার করা', 'মুক্তি দেওয়া', 'মোচন করা', 'রক্ষা করা']


# **Bangla parts of speech tagging**

---

Part-of-speech (POS) tagging in Bangla involves assigning grammatical categories (such as noun, verb, adjective, etc.) to each word in a sentence.

| Tag  | Description                                   |
|------|-----------------------------------------------|
| CC   | Conjunction                                   |
| CD   | Cardinal number                               |
| DM   | Demonstrative                                 |
| DT   | Determiner                                    |
| EX   | Existential there                             |
| FW   | Foreign word                                  |
| IN   | Preposition                                   |
| JJ   | Adjective                                     |
| JJR  | Adjective, comparative                        |
| JJS  | Adjective, superlative                        |
| MD   | Modal                                         |
| NN   | Noun, singular or mass                        |
| NNP  | Proper noun, singular                         |
| NNS  | Noun, plural                                  |
| NNV  | Verbal Noun                                   |
| PR   | Pronoun                                       |
| PRP  | Personal pronoun                              |
| PRP$ | Possessive pronoun                            |
| PSP  | Postposition                                  |
| RB   | Adverb                                        |
| RBR  | Adverb, comparative                           |
| RP   | Particles                                     |
| SYM  | Symbol                                        |
| TO   | to                                            |
| UH   | Interjection                                  |
| UNK  | Unknown tag                                   |
| VB   | Verb, base form                               |
| VBD  | Verb, past tense                              |
| VBG  | Verb, present participle                      |
| VBN  | Verb, past participle                         |
| VBP  | Verb, non-3rd person singular present         |
| WDT  | Wh-determiner                                 |
| WH   | Wh words                                      |
| WP   | Wh-pronoun                                    |
| WRB  | Wh-adverb                                     |




In [32]:
import banglanltk as bn

# For single word

print('কম্পিউটার',bn.pos_tag('কম্পিউটার'))

# For multiple words
text = 'আমি আজ শহরে গিয়েছি কিন্তু বৃষ্টি হয়নি। সবাইকে শুভ নববর্ষ'
words = bn.word_tokenize(text)
for w in words:
    print(w,bn.pos_tag(w))

কম্পিউটার NN
আমি PR
আজ NN
শহরে NN
গিয়েছি VB
কিন্তু CC
বৃষ্টি NN
হয়নি VB
সবাইকে NN
শুভ JJ
নববর্ষ NN
