In [1]:
import numpy as np
import pandas as pd
import re, nltk, spacy, gensim

In [2]:
# Sklearn
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import GridSearchCV
from pprint import pprint

In [4]:
# Plotting tools
import pyLDAvis
import pyLDAvis.sklearn
import matplotlib.pyplot as plt
%matplotlib inline

In [6]:
# Import Dataset
df = pd.read_json('../data/newspaper/prothom_alo_2019-09-03.txt')
print(df.head())

                                              content
0   \nরোহিঙ্গাদের মুঠোফোন সেবা বন্ধের নির্দেশ: যথা...
1   \nরাবিতে ভর্তি পরীক্ষার আবেদন শুরু কাল থেকে\n ...
10  \nমাকে পুড়িয়ে মারার অভিযোগে মাদকাসক্ত ছেলের বি...
11  \nসন্ধ্যার মধ্যেই জামিনে মুক্তি পাচ্ছেন আয়শা\...
12  \nআরামে সহজে ফ্যাশনে\n -> \n\n\nফ্যাশন আর আরাম...


In [7]:
# Convert to list
data = df.content.values.tolist()

# Remove Emails
data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]

# Remove new line characters
data = [re.sub('\s+', ' ', sent) for sent in data]

# Remove distracting single quotes
data = [re.sub("\'", "", sent) for sent in data]

pprint(data[:1])

[' রোহিঙ্গাদের মুঠোফোন সেবা বন্ধের নির্দেশ: যথাযথ পদক্ষেপ নেবে অ্যামটব -> '
 'মুঠোফোন অপারেটরদের সংগঠন অ্যাসোসিয়েশন অব মোবাইল টেলিকম অপারেটরস অব বাংলাদেশ '
 '(অ্যামটব) বলেছে, জাতীয় পরিচয় তথ্যভান্ডারে (এনআইডি) সংরক্ষিত তথ্যের সঙ্গে '
 'আঙুলের ছাপ যাচাই করার পরই কেবল মোবাইলের সিম সক্রিয় হয়। আজ রোববার বাংলাদেশ '
 'টেলিযোগাযোগ নিয়ন্ত্রণ কমিশন (বিটিআরসি) মোবাইল অপারেটরদের চিঠি দিয়ে '
 'রোহিঙ্গাদের মুঠোফোন সেবা বন্ধের নির্দেশ দেওয়ার পর এক প্রতিক্রিয়ায় এ কথা '
 'জানায় অ্যামটব। অ্যামটবের মহাসচিব এস এম ফরহাদ বলেন, ‘মোবাইল অপারেটরেরা সব '
 'সময়ই বিটিআরসির নির্দেশনা মেনে চলে। এ ব্যাপারে তারা নিজেদের আয়ত্তের মধ্যে '
 'সম্ভব যথাযথ পদক্ষেপ নেবে।’ তিনি আরও বলেন, ‘আরেকটি বিষয় বলা দরকার, এনআইডি '
 'তথ্যভান্ডারের সঙ্গে আঙুলের ছাপ মিলিয়ে নিশ্চিত হওয়ার পরেই কেবল মোবাইল সিম '
 'সক্রিয় করা হয়।’ বিটিআরসির চিঠিতে বলা হয়েছে, রোহিঙ্গা ক্যাম্পে কোনো প্রকার '
 'সিম বিক্রি করা যাবে না। পাশাপাশি রোহিঙ্গাদের মুঠোফোন সুবিধা দেওয়ার বিষয়েও '
 'নিষেধ করেছে বিটিআরসি। এ বিষয়ে আগামী সাত কার্যদিবসের মধ্যে ব্যবস্থা নিয়ে '
 '

  data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]
  data = [re.sub('\s+', ' ', sent) for sent in data]


In [10]:
def valid_bengali_letters(char):
    return ord(char) >= 2433 and ord(char) <= 2543 

def get_replacement(char):
    if valid_bengali_letters(char):
        return char
    newlines = [10, 2404, 2405, 2551, 9576]
    if ord(char) in newlines: 
        return ' '
    return ' ';

def get_valid_lines(line):
    copy_line = ''
    for letter in line:
        copy_line += get_replacement(letter)
    return copy_line

In [11]:
def sent_to_words(sentences):
    for sentence in sentences:
        yield(nltk.word_tokenize(get_valid_lines(sentence)))  # deacc=True removes punctuations

data_words = list(sent_to_words(data))

print(data_words[:1])

[['রোহিঙ্গাদের', 'মুঠোফোন', 'সেবা', 'বন্ধের', 'নির্দেশ', 'যথাযথ', 'পদক্ষেপ', 'নেবে', 'অ্যামটব', 'মুঠোফোন', 'অপারেটরদের', 'সংগঠন', 'অ্যাসোসিয়েশন', 'অব', 'মোবাইল', 'টেলিকম', 'অপারেটরস', 'অব', 'বাংলাদেশ', 'অ্যামটব', 'বলেছে', 'জাতীয়', 'পরিচয়', 'তথ্যভান্ডারে', 'এনআইডি', 'সংরক্ষিত', 'তথ্যের', 'সঙ্গে', 'আঙুলের', 'ছাপ', 'যাচাই', 'করার', 'পরই', 'কেবল', 'মোবাইলের', 'সিম', 'সক্রিয়', 'হয়', 'আজ', 'রোববার', 'বাংলাদেশ', 'টেলিযোগাযোগ', 'নিয়ন্ত্রণ', 'কমিশন', 'বিটিআরসি', 'মোবাইল', 'অপারেটরদের', 'চিঠি', 'দিয়ে', 'রোহিঙ্গাদের', 'মুঠোফোন', 'সেবা', 'বন্ধের', 'নির্দেশ', 'দেওয়ার', 'পর', 'এক', 'প্রতিক্রিয়ায়', 'এ', 'কথা', 'জানায়', 'অ্যামটব', 'অ্যামটবের', 'মহাসচিব', 'এস', 'এম', 'ফরহাদ', 'বলেন', 'মোবাইল', 'অপারেটরেরা', 'সব', 'সময়ই', 'বিটিআরসির', 'নির্দেশনা', 'মেনে', 'চলে', 'এ', 'ব্যাপারে', 'তারা', 'নিজেদের', 'আয়ত্তের', 'মধ্যে', 'সম্ভব', 'যথাযথ', 'পদক্ষেপ', 'নেবে', 'তিনি', 'আরও', 'বলেন', 'আরেকটি', 'বিষয়', 'বলা', 'দরকার', 'এনআইডি', 'তথ্যভান্ডারের', 'সঙ্গে', 'আঙুলের', 'ছাপ', 'মিলিয়ে', 'নিশ্চিত', 'হওয়ার', 'পরেই', 'কেব

In [20]:
from py_bangla_stemmer import BanglaStemmer

stemmer = BanglaStemmer() 
stemmer.stem('জনপ্রিয়তা')

for single_data in data_words:
    for word in single_data:
        if len(word) < 3:
            continue
        word = stemmer.stem(word)
print(data_words[:1])

AttributeError: 'str' object has no attribute 'len'