In [1]:
from nltk import tokenize
import numpy as np
import random
import pandas as pd

In [2]:
def split_text(filepath, min_char):
    """Convert text file to a list of sentences.
    
    Args:
    filepath: string. Filepath of text file.
    min_char: int. Minimum number of characters required for a sentence to be
    included.

    Returns:
    sentences: list of strings. List of sentences containined in the text file.
    """
    # Load data into string variable and remove new line characters
    file = open(filepath, "r", encoding="utf8")
    text = file.read().replace('\n', ' ')
    text = text.replace('.”', '”.').replace('."', '".').replace('?”', '”?').replace('!”', '”!')
    text = text.replace('--', ' ').replace('. . .', '').replace('_', '')
    file.close()
    
    # Split text into a list of sentences
    sentences = tokenize.sent_tokenize(text)
    
    # Remove sentences that are less than min_char long
    sentences = [sent for sent in sentences if len(sent) >= min_char]

    return list(sentences)

In [3]:
# Set parameter values
min_char = 5

# Create lists
হুমায়ুনআহমেদ = split_text('Child/দেয়াল.txt', min_char = min_char)
রবিঠাকুর  = split_text('Child/ঘরে_বাইরে.txt', min_char = min_char)\
         + split_text('Child/যোগাযোগ.txt', min_char = min_char)
রকিবহাসান = split_text('Child/মৃত্যুখনি.txt', min_char = min_char)
বঙ্কিম_চট্টোপাধ্যায় = split_text('Child/কমলাকান্তের_দপ্তর.txt', min_char = min_char)
কাজীনজরুলইসলাম  = split_text('Child/ব্যাথার_দান.txt', min_char = min_char)\
         + split_text('Child/কুহেলিকা.txt', min_char = min_char)
শেখমুজিব = split_text('Child/অসমাপ্ত_আত্মজীবনী.txt', min_char = min_char)
জাহানারাইমাম = split_text('Child/একাত্তরের_দিনগুলি.txt', min_char = min_char)
শরৎচন্দ্র = split_text('Child/পথের_দাবী.txt', min_char = min_char)

In [4]:
# Print length of each list

text_dict = {'হুমায়ুনআহমেদ': হুমায়ুনআহমেদ, 'রবিঠাকুর': রবিঠাকুর, 'রকিবহাসান': রকিবহাসান, 'বঙ্কিম_চট্টোপাধ্যায়': বঙ্কিম_চট্টোপাধ্যায়,
            'কাজীনজরুলইসলাম': কাজীনজরুলইসলাম,'শেখমুজিব': শেখমুজিব, 'জাহানারাইমাম': জাহানারাইমাম,'শরৎচন্দ্র': শরৎচন্দ্র}

for key in text_dict.keys():
    print(key, ':', len(text_dict[key]))

হুমায়ুনআহমেদ : 815
রবিঠাকুর : 1636
রকিবহাসান : 559
বঙ্কিম_চট্টোপাধ্যায় : 516
কাজীনজরুলইসলাম : 1463
শেখমুজিব : 623
জাহানারাইমাম : 1258
শরৎচন্দ্র : 1814


In [5]:
# Set random seed
np.random.seed(1)

# Set length parameter
max_len = 516

# Select sentences
names = [হুমায়ুনআহমেদ, রবিঠাকুর, রকিবহাসান, বঙ্কিম_চট্টোপাধ্যায়, কাজীনজরুলইসলাম, শেখমুজিব, জাহানারাইমাম, শরৎচন্দ্র]
combined = []

for name in names:
    name = np.random.choice(name, max_len, replace = False)
    combined += list(name)

print('The length of the combined list is:', len(combined))

The length of the combined list is: 4128


In [6]:
labels = ['হুমায়ুনআহমেদ']*max_len + ['রবিঠাকুর']*max_len + ['রকিবহাসান']*max_len + ['বঙ্কিম_চট্টোপাধ্যায়']*max_len\
         + [' কাজীনজরুলইসলাম']*max_len + ['শেখমুজিব']*max_len + ['জাহানারাইমাম']*max_len + ['শরৎচন্']*max_len

print('The length of the labels list is:', len(labels))

The length of the labels list is: 4128


In [7]:
# Set random seed
random.seed(3)

# Randomly shuffle data
zipped = list(zip(combined, labels))
random.shuffle(zipped)
combined, labels = zip(*zipped)

In [8]:
# Create pandas dataframe
out_data = pd.DataFrame()
out_data['text'] = combined
out_data['author'] = labels

print(out_data.head())

                                                text        author
0  তুই আমাকে চিনিস না। আমি তোর চামড়া খুলে ফেলব।  ...  হুমায়ুনআহমেদ
1  আমরা কারও দাওয়াত কবুল করছি না, কারণ চৌধুরী সাহ...      শেখমুজিব
2  “তোমাকে খুঁজে বের করতে হবে খাতাঞ্জির ঘরে কেউ আ...      রবিঠাকুর
3  গণপরিষদের সদস্যদের লজ্জা না করলেও আমাদের লজ্জা...      শেখমুজিব
4  তাহলে তো মসজিদেই আটকা পড়ে থাকতে হবে।  তা ঠিক।...  জাহানারাইমাম


In [9]:
# Export as a csv file
out_data.to_csv('author_data.csv', index=False)