<a href="https://colab.research.google.com/github/sagorbrur/bntransformer/blob/master/examples/bntransformer_colab_demo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Installing

In [None]:
! pip install bntransformer

## Check Pytorch Installation

In [2]:
import torch
torch.__version__

'1.8.1+cu101'

## Usage

### Tokenization

In [3]:
from bntransformer import BanglaTokenizer

bntokenizer = BanglaTokenizer() # using default "sagorsarker/bangla-bert-base"

text = "আমি বাংলায় গান গাই ।"
tokens = bntokenizer.tokenize(text)
print(tokens)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=491.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2237676.0, style=ProgressStyle(descript…


['আমি', 'বাংলা', '##য', 'গান', 'গাই', '।']


In [4]:
from bntransformer import BanglaTokenizer
# using multi-lingual BERT
bntokenizer = BanglaTokenizer("bert-base-multilingual-uncased")

text = "আমি বাংলায় গান গাই ।"
tokens = bntokenizer.tokenize(text)
print(tokens)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=625.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=871891.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1715180.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=28.0, style=ProgressStyle(description_w…


['আ', '##মি', 'বাংলা', '##য', 'গ', '##ান', 'গ', '##াই', '।']


### Question Answering

In [5]:
from bntransformer import BanglaQA

bnqa = BanglaQA()

context = "সূর্য সেন ১৮৯৪ সালের ২২ মার্চ চট্টগ্রামের রাউজান থানার নোয়াপাড়ায় অর্থনৈতিক ভাবে অস্বচ্ছল পরিবারে জন্মগ্রহণ করেন। তাঁর পিতার নাম রাজমনি সেন এবং মাতার নাম শশী বালা সেন। রাজমনি সেনের দুই ছেলে আর চার মেয়ে। সূর্য সেন তাঁদের পরিবারের চতুর্থ সন্তান। দুই ছেলের নাম সূর্য ও কমল। চার মেয়ের নাম বরদাসুন্দরী, সাবিত্রী, ভানুমতী ও প্রমিলা। শৈশবে পিতা মাতাকে হারানো সূর্য সেন কাকা গৌরমনি সেনের কাছে মানুষ হয়েছেন। সূর্য সেন ছেলেবেলা থেকেই খুব মনোযোগী ভাল ছাত্র ছিলেন এবং ধর্মভাবাপন্ন গম্ভীর প্রকৃতির ছিলেন।"
question = "মাস্টারদা সূর্যকুমার সেনের বাবার নাম কী ছিল ?"

answers = bnqa.find_answer(context, question)
print(answers)

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=819.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=667158007.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=871891.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=112.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=298.0, style=ProgressStyle(description_…


{'score': 0.8070710301399231, 'start': 131, 'end': 141, 'answer': 'রাজমনি সেন'}


### Name Entity Recognition

In [6]:
from bntransformer import BanglaNER

bnner = BanglaNER()
# you can pass custom NER model path or other bengali huggingface NER model path
# default it takes "neuropark/sahajBERT-NER"
sentence = "আমি জাহিদ হাসান এবং আমি ঢাকায় বাস করি ।"
output = bnner.ner_tag(sentence)
print(output)



HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1152.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=67605209.0, style=ProgressStyle(descrip…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1721143.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=322.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=471.0, style=ProgressStyle(description_…


[{'entity': 'O', 'score': 0.9976240396499634, 'word': 'আমি', 'start': 0, 'end': 3}, {'entity': 'B-PER', 'score': 0.9942905306816101, 'word': 'জাহিদ', 'start': 3, 'end': 9}, {'entity': 'I-PER', 'score': 0.994714081287384, 'word': 'হাসান', 'start': 9, 'end': 15}, {'entity': 'O', 'score': 0.9972757697105408, 'word': 'এবং আমি', 'start': 15, 'end': 23}, {'entity': 'B-LOC', 'score': 0.7155585289001465, 'word': 'ঢাকায়', 'start': 23, 'end': 29}, {'entity': 'O', 'score': 0.8073926791548729, 'word': 'বাস করি ।', 'start': 29, 'end': 39}]


### Mask Generation

In [11]:
from pprint import pprint

from bntransformer import BanglaMaskGeneration

bnunmasker = BanglaMaskGeneration()
# you can pass custom mask generation model path or other bengali huggingface model path
# default it takes "sagorsarker/bangla-bert-base"
sentence = "আমি জাহিদ হাসান এবং আমি [MASK] বাস করি । "
output = bnunmasker.generate_mask(sentence)
pprint(output)


Some weights of the model checkpoint at sagorsarker/bangla-bert-base were not used when initializing BertForMaskedLM: ['cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


[{'score': 0.21978917717933655,
  'sequence': 'আমি জাহিদ হাসান এবং আমি এখানে বাস করি ।',
  'token': 2235,
  'token_str': 'এখানে'},
 {'score': 0.07885675132274628,
  'sequence': 'আমি জাহিদ হাসান এবং আমি সেখানে বাস করি ।',
  'token': 2232,
  'token_str': 'সেখানে'},
 {'score': 0.07413270324468613,
  'sequence': 'আমি জাহিদ হাসান এবং আমি বাস করি ।',
  'token': 100,
  'token_str': '[UNK]'},
 {'score': 0.05868945270776749,
  'sequence': 'আমি জাহিদ হাসান এবং আমি বাংলাদেশে বাস করি ।',
  'token': 2368,
  'token_str': 'বাংলাদেশে'},
 {'score': 0.04657469317317009,
  'sequence': 'আমি জাহিদ হাসান এবং আমি লন্ডনে বাস করি ।',
  'token': 4898,
  'token_str': 'লন্ডনে'}]


### Translation

In [12]:
from bntransformer import BanglaTranslation

bntrans = BanglaTranslation()
# you can pass custom translation model path or other bengali huggingface translation model path
# default it takes "Helsinki-NLP/opus-mt-bn-en"
bn_sentence = "আমার নাম জাহিদ, আমি ঢাকায় বাস করি।"
output = bntrans.bn2en(bn_sentence)
print(output)





HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1145.0, style=ProgressStyle(description…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=309206001.0, style=ProgressStyle(descri…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=1120398.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=806022.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=2254630.0, style=ProgressStyle(descript…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=44.0, style=ProgressStyle(description_w…


 My name is Zahid, I live in Dhaka.
