In [1]:
# Import all the dependencies
import string
from tqdm.auto import tqdm
import json

We can verify whether a `StringB` is a valid suffix of `StringA` by implementing a logic like this :
`StringA[len(StringA)-len(StringB):] == StringB`

Which as same as leveraging the below algorithm:

```Python
def GetLCSLength(stringA, stringB, stringALength, stringBlength):
    if (stringALength == 0 or stringBlength == 0):
        return 0
    if (stringA[stringALength-1] == stringB[stringBlength-1]):
        return 1 + GetLCSLength(stringA, stringB, stringALength-1, stringBlength-1)
    else:
        return max(GetLCSLength(stringA, stringB, stringALength, stringBlength-1), GetLCSLength(stringA, stringB, stringALength-1, stringBlength))

def IsSuffix(stringA, stringB,stringALength, stringBlength):
    return True if (GetLCSLength(stringA, stringB, stringALength, stringBlength)== stringBlength) else False
```


In [5]:
# Set file location
fileName = "/home/showrav/BengalAi/Stemming/bengaliai-stemmingbengaliwords/Datasets/bengaliWords.tsv"

# Filtered dataset

## Using a dictionary to avoid duplication entry and for O(c) access
## This dictionary will hold the first iteration subsequences as the keys and the extensions as values
firstIteration = {}


# Noise cancellation
# Remove all the non-bengali characters
with open(fileName,"r") as rawFile:
    lines = rawFile.readlines()
    for line in tqdm(lines):
        if line[0] != "#"and line[0] not in string.ascii_letters and line.strip() :
            firstIteration[line.split()[0] ]= []

# Append origin words to the trailing strings' list
# Bruteforce approach is required because we are considering every word as an trailing subsequence
# This is the 1st iteration
for stringA in tqdm(firstIteration.keys()):
    for stringB in firstIteration.keys():
        if stringA != stringB and stringB[len(stringB)-len(stringA):] == stringA:
            firstIteration[stringA].append(stringB[:len(stringB)-len(stringA)])

            


HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=65057.0), HTML(value='')))




HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=60062.0), HTML(value='')))




In [8]:
for key,value in firstIteration.items():
    if len(value) > 0:
        print(key,value)

with open('firstIteration.json', 'w') as jsonObject:
    json.dump(firstIteration, jsonObject, ensure_ascii=False)

অক্সাইড ['ডাই']
অধিকার ['সম']
অন ['ই', 'ফলো']
অনার ['ডিজ']
অনের ['ফলো']
অফিসে ['বক্স']
অফে ['মিড']
অবস্থান ['গণ']
অভিনেতা ['চলচ্চিত্র']
অভ্যুত্থানে ['গণ']
অভ্যুত্থানের ['গণ']
অয়েল ['লুক', 'স্টেট']
অর্ডার ['টপ', 'ডিজ', 'ডিস', 'মিডল']
অষ্টমী ['মহা']
আই ['আইটি', 'ই', 'ইপি', 'এ', 'এইচডিএম', 'এটু', 'এনএস', 'এপি', 'এফডি', 'এফবি', 'এফবিসিসি', 'এম', 'এমআর', 'এমসিসি', 'এস', 'এসআইপিআর', 'এসি', 'ওডি', 'কেডিডি', 'জি', 'জিএন', 'জেএম', 'টি', 'টিএস', 'ডিজিএফ', 'ডিসিসি', 'পিআর', 'পিটি', 'পিপি', 'পিবি', 'বিএফআর', 'বিএম', 'বিএলআর', 'বিএসটি', 'বিসি', 'বিসিসি', 'সিআর', 'সিএসপি', 'সিপি', 'সিবি']
আইজি ['এ', 'ডি']
আইটি ['এম', 'ডি']
আইটির ['এম']
আইডি ['এন', 'পি', 'সি']
আইডিতে ['সি']
আইডির ['ডিএফ', 'সি']
আইনি ['বে']
আইনিভাবে ['বে']
আইনী ['বে']
আইপি ['ভি', 'ভিভি', 'সি']
আইবিএম ['বি']
আইবিএমের ['বি']
আইভি ['এইচ']
আইসি ['আইএফ', 'এসএ', 'এসএবি', 'বিসি', 'সিআইটি']
আইসিসি ['বি']
আউট ['অল', 'ওয়ার্ক', 'নক', 'বেইল', 'বেল', 'রান', 'লে']
আউটে ['ডাগ', 'নক', 'শুট']
আউটের ['বেইল', 'রান']
আঁকি ['আঁকা']
আঁশ ['খাদ্য', 'দো']
আ

In [3]:
#Inversing the dataset for O(c) access

inversefirstIteration = {}
for key in tqdm(firstIteration.keys()):
    for value in firstIteration[key]:
        if value not in inversefirstIteration:
            inversefirstIteration[value] = [key]
        else: 
            inversefirstIteration[value].append(key)
            
            

        

HBox(children=(HTML(value=''), FloatProgress(value=0.0, max=60062.0), HTML(value='')))




In [5]:
inversefirstIteration

{'ডাই': ['অক্সাইড',
  'নি',
  'নে',
  'ভ',
  'ভার',
  'মেনশন',
  'রেক্টর',
  'ল',
  'স',
  'সে',
  'সের'],
 'সম': ['অধিকার',
  'কক্ষ',
  'কাল',
  'কালকে',
  'কালীন',
  'কালে',
  'কালের',
  'কোণ',
  'কোণে',
  'তল',
  'তলে',
  'তলের',
  'তা',
  'তাও',
  'তার',
  'তুল্য',
  'ন',
  'পরিমাণ',
  'পরিমান',
  'প্রতি',
  'প্রসারণ',
  'বেত',
  'বেদনা',
  'বেদনার',
  'ভাবে',
  'ভূমি',
  'ভূমির',
  'মনা',
  'মর্যাদা',
  'মর্যাদার',
  'মান',
  'মানের',
  'মূল্যের',
  'য়',
  'র',
  'রে',
  'রেশ',
  'শের',
  'সংখ্যক',
  'স্বরে',
  'স্যা',
  'স্যার',
  'স্যারও',
  'হারে'],
 'ই': ['অন',
  'আই',
  'আর',
  'উ',
  'উজ',
  'উজার',
  'উডি',
  'উন',
  'উর',
  'এমএস',
  'এসএ',
  'ওন',
  'ওর',
  'করা',
  'কার',
  'কে',
  'কো',
  'কোনো',
  'গল',
  'গো',
  'চি',
  'জ',
  'জাজ',
  'জারা',
  'জারার',
  'জারুল',
  'জি',
  'জিএম',
  'জিতে',
  'জির',
  'ট',
  'টস',
  'টালি',
  'টালির',
  'টিভি',
  'টিভির',
  'টে',
  'টের',
  'ডি',
  'ডিও',
  'ডেন',
  'তর',
  'তালি',
  'তি',
  'তির',
  'তিশা',
  'থান',
  'দু',
  'দের

In [2]:
def generatePartitions(n, i=1):
    yield [n]
    for i in range(i, n//2 + 1):
        for p in generatePartitions(n-i, i):
            yield [i] + p