# Sentiment Analysis for Bengali News Articles

_**Abstract**:_ With an exponential increase in digital information, we need automated methods to enable easier analysis for various applications, both commercial and otherwise. Sentiment Analysis is an important component of the analysis, [reasons], but the bulk of the work done is in English. Research in Bengali is severely hampered, primarily by the lack of publicly available quality datasets and tools. In this project I create a basic rule-based classifier for Bengali news reports. Because news articles are primarily objective, I first create a subjective-objective classifier, and then perform polarity classification on the subjective articles to improve accuracy. The primary outputs of this project are:
    
1. A basic rule-based sentiment classifier, including both subjectivity and polarity classification
2. A small dataset of sentiment-tagged news articles, that can be used for future work with better methods
3. [Secondary] A rudimentary SentiWordNet for Bengali, using a method proposed by Das and Bandyopadhyay (2009)
4. [Secondary] A basic Bengali-English word-level dictionary
    

In [3]:
import pandas as pd

import json
import csv
import pickle

In [22]:
# Global variables used by all
tdict = {}
dframe = pd.DataFrame(index=['body', 'label', 'link', 'title'])

## Classifier

I implement three levels of classifiers:

1. A simple rule-based polarity classifier using a constructed keyword list

2. A rule-based polarity classifier using SentiWordNet scores

3. A rule-based classifier tagging both objectivity and SentiWordNet scores, for better results

### Data import

This module imports the data into pandas dataframes for easier use. Basic preprocessing and cleaning of the data has been done prior, and the scripts for that can be seen [over here](https://github.com/zubairabid/CL2-Project/tree/master/datasets/news-indicnlp/newsarticles/CLEANED). 

In [24]:
def importDSets():
    '''
    Gets cleaned data
    '''

    global dframe
    
    urls = [
        '../datasets/news-indicnlp/newsarticles/CLEANED/anandabazar_articles_clean.json',
        '../datasets/news-indicnlp/newsarticles/CLEANED/ebala_articles_cleaner.json'
    ]
    
    c = len(dframe.columns)
    for link in urls:
        with open(link, 'r', encoding = 'utf-8') as f1:
            contents = f1.read()
            
            if c == 0:
                dframe = pd.DataFrame(json.loads(contents))
                len(dframe.columns)
            else:
                c = len(dframe.columns)
                df = pd.DataFrame(json.loads(contents))
                
                newnums = [('art'+i) for i in range((c + 1), (c+len(df.columns)))]
                df.columns = newnums
                
                dframe.join(df)
    
# Demonstrating the result
importDSets()
dframe

Unnamed: 0,art0,art1,art2,art3,art4,art5,art6,art7,art8,art9,...,art6784,art6785,art6786,art6787,art6788,art6789,art6790,art6791,art6792,art6793
body,অনলাইনে লিক হয়ে গেল ব্রিটনি স্পিয়ার্সের আগামী...,নগদহীন লেনদেনের লক্ষ্যে এবার আরও একটা গুরুত্ব...,প্রথম বিশ্বযুদ্ধ সমাপ্তির ৯৮ বছর পূর্তির দিনে...,"দোকান তো গেলই, ছাই হয়ে গেল ছয় বোনের জমানো পুঁ...","সবুজ-মেরুন আবির, সনি নর্দেদের নিয়ে স্লোগান আ...",ক্রিসমাস ভারতে কাটাবেন ভেবেছিলেন অরল্যান্ডো ব...,এবার তাঁর সঙ্গী হতে চলেছেন কলকাতার পুলিশ কমিশ...,আগে জানা না থাকলে ক্যানিং স্ট্রিটে দোকানের ভি...,ক্যাপ্টেন কুল’ হিসেবে সবাই কাকে চেনেন? গোটা ভ...,টলিগঞ্জের নায়ক পদে বনি সেনগুপ্তের অভিষেক হয়েছ...,...,মাঠে খেলার পরিবর্তে গড়াগড়ি খাওয়াতেই নাকি বে...,শিক্ষকতার চাকরি পেয়েছিলেন পুরুষ পরিচয়ে। এবার ...,কটকে ডার্বিতে ফের হারের ২৪ ঘণ্টার মধ্যে পাল্ট...,কোঙ্কনি ও সিন্ধ্রি মতে বিয়ে সম্পন্ন হয়েছে দীপ...,লরি করে যাচ্ছিল পতঞ্জলির বিভিন্ন সামগ্রী। কিন...,বিরাট কোহলির ভারতীয় দলের গুরুত্বপূর্ণ সদস্য ত...,‘বাজিরাও মস্তানি’ (২০১৪) ছবিতে দিওয়ানি গানটিত...,১৭ জুন: রাশিয়া বিশ্বকাপের অন্যতম ফেভারিট মনে ...,১. রোহিত শর্মা বনাম শাজিল খান- রোহিত এগিয়ে\n২...,বলিউডে পা রাখার আগে থেকেই তাঁর প্রেমিক চরিত্র...
label,entertainment,national,sports,state,sports,entertainment,state,state,sports,entertainment,...,sports,state,sports,entertainment,state,sports,entertainment,sports,sports,entertainment
link,https://ebela.in/entertainment/britney-spears-...,https://ebela.in/national/now-the-salary-will-...,https://ebela.in/sports/football-fans-arrested...,https://ebela.in/state/six-sisters-lost-their-...,https://ebela.in/sports/debjit-dedicated-the-w...,https://ebela.in/entertainment/orlando-bloom-s...,https://ebela.in/state/surajit-kar-purakaystha...,https://ebela.in/state/bad-condition-of-neveh-...,https://ebela.in/sports/who-is-original-captai...,https://ebela.in/entertainment/do-you-know-abo...,...,https://ebela.in/sports/fifa-wc-2018-andres-gu...,https://ebela.in/state/transgender-atri-kar-wi...,https://ebela.in/sports/east-bengal-footballer...,https://ebela.in/entertainment/finally-a-dance...,https://ebela.in/state/police-seize-drugs-in-i...,https://ebela.in/sports/jasprit-bumrah-has-sti...,https://ebela.in/entertainment/what-happens-to...,https://ebela.in/sports/fifa-wc-2018-brazil-he...,https://ebela.in/sports/which-team-s-batting-i...,https://ebela.in/entertainment/salman-khan-rem...
title,বেফাঁস!,"আবার বড় সিদ্ধান্ত জানাল কেন্দ্র, সাধরণের বেতন...","রুনিদের জয়ের দিনে রণক্ষেত্র ওয়েম্বলি, আট গোল জ...",ছ’বোনের রুজি পুড়ে ছাই,"দেবজিতের জয় উৎসর্গ মাকে, সতীর্থদের সতর্ক করে দ...","ই-ভিসার আবেদন নাকচ, স্বপ্প অধরা অরল্যান্ডো ব্ল...",পুরনো-নতুন হকার যাচাইয়ে সুরজিতের সঙ্গে জুটি শো...,"সংখ্যা ২০, লোকাভাবে সিনাগগে প্রার্থনা হয় না শহ...",সবাই তো ‘ক্যাপ্টেন কুল’ হিসেবে ধোনিকেই জানেন। ...,টলিপাড়ার নতুন নায়ক বনি! জানেন ওঁর আসল পরিচয়?,...,"‘‘নেমার ঘরে গিয়ে গড়াক’’, প্রাক্তন প্রতিপক্ষ ধ...",রূপান্তরকামী পরিচয়েই ইউপিএসসি পরীক্ষা দেবেন ত্...,"বিমানে বাগান, ট্রেনে অর্ণবরা","বিয়ের আসরে ডুয়েট ডান্স, দীপবীরের ভিডিও এল সামনে","পতঞ্জলির সামগ্রী সামনে রেখে মারাত্মক ব্যবসা, র...",কোহলির দলের এই সদস্য এখনও এক রানও করতে পারেননি...,"শ্যুটিং শেষ, সিনেমাও হিট, তারপর! বলি তারকাদের ...","নিষ্প্রভ নেমার, চল্লিশ বছর পর বিশ্বকাপে প্রথম ...","ব্যাটসম্যানদের বিচারে কে এগিয়ে, কে পিছিয়ে",হাঁচি দিয়েই প্রেমে ব্যাঘাত! সলমন শোনালেন ব্যক্...
