In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

#matrices and vectorization
from sklearn.metrics import f1_score, accuracy_score, classification_report, precision_score, recall_score
from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
from sklearn.feature_extraction.text import TfidfVectorizer

#models 
from sklearn.svm import SVC
from sklearn import svm
from sklearn.tree import DecisionTreeClassifier
from sklearn.multiclass import OneVsRestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import AdaBoostClassifier
import pickle







In [2]:
data_dir = r'C:\Users\Amzad\Desktop\news_analysis\data\pre-processed-data\data_with_15%_no_label.csv'
seed = 40 
np.random.seed(seed)
kfold = StratifiedKFold(n_splits=10, random_state=seed, shuffle=True)   

In [3]:
#read data 
df = pd.read_csv(data_dir,encoding='utf-8')
input_data=df['Title_description']

#if new keywords are added, add them here , but need to preprocess them first
targets =df[['ক্রেডিট রেটিং','পর্ষদ সভা','ইপিএস',"প্রান্তিক প্রকাশ",'পিই রেশিও','ডিভিডেন্ড','ব্লক মার্কেট','স্পট মার্কেট','লভ্যাংশ ঘোষণা']]



## Data preporcessing steps 
 1. Remove all the shaffling of the data 
 2. remove the number 
 3. remove the punctuation
 4. remove the stop words
 5. remove the prenthesis 


In [None]:
#preprocessing random shuffle 
def shuffle_data(input_data,targets): 
    shuffle=np.random.permutation(len(input_data))
    input_data=input_data[shuffle]
    targets=targets.iloc[shuffle]   
    return input_data,targets

#preprocessing
input_data,targets = shuffle_data(input_data,targets) 


In [None]:
input_data[55]

In [4]:
list1='অবশ্য অনেক অনেকে অনেকেই অন্তত অথবা অথচ অর্থাত অন্য আজ আছে আপনার আপনি আবার আমরা আমাকে আমাদের আমার আমি আরও আর আগে আগেই আই অতএব আগামী অবধি অনুযায়ী আদ্যভাগে এই একই একে একটি এখন এখনও এখানে এখানেই এটি এটা এটাই এতটাই এবং একবার এবার এদের এঁদের এমন এমনকী এল এর এরা এঁরা এস এত এতে এসে একে এ ঐ ই ইহা ইত্যাদি উনি উপর উপরে উচিত ও ওই ওর ওরা ওঁর ওঁরা ওকে ওদের ওঁদের ওখানে কত কবে করতে কয়েক কয়েকটি করবে করলেন করার কারও করা করি করিয়ে করার করাই করলে করলেন করিতে করিয়া করেছিলেন করছে করছেন করেছেন করেছে করেন করবেন করায় করে করেই কাছ কাছে কাজে কারণ কিছু কিছুই কিন্তু কিংবা কি কী কেউ কেউই কাউকে কেন কে কোনও কোনো কোন কখনও ক্ষেত্রে খুব	গুলি গিয়ে গিয়েছে গেছে গেল গেলে গোটা চলে ছাড়া ছাড়াও ছিলেন ছিল জন্য জানা ঠিক তিনি তিনঐ তিনিও তখন তবে তবু তাঁদের তাঁাহারা তাঁরা তাঁর তাঁকে তাই তেমন তাকে তাহা তাহাতে তাহার তাদের তারপর তারা তারৈ তার তাহলে তিনি তা তাও তাতে তো তত তুমি তোমার তথা থাকে থাকা থাকায় থেকে থেকেও থাকবে থাকেন থাকবেন থেকেই দিকে দিতে দিয়ে দিয়েছে দিয়েছেন দিলেন দু দুটি দুটো দেয় দেওয়া দেওয়ার দেখা দেখে দেখতে দ্বারা ধরে ধরা নয় নানা না নাকি নাগাদ নিতে নিজে নিজেই নিজের নিজেদের নিয়ে নেওয়া নেওয়ার নেই নাই পক্ষে পর্যন্ত পাওয়া পারেন পারি পারে পরে পরেই পরেও পর পেয়ে প্রতি প্রভৃতি প্রায় ফের ফলে ফিরে ব্যবহার বলতে বললেন বলেছেন বলল বলা বলেন বলে বহু বসে বার বা বিনা বরং বদলে বাদে বার বিশেষ বিভিন্ন	বিষয়টি ব্যবহার ব্যাপারে ভাবে ভাবেই মধ্যে মধ্যেই মধ্যেও মধ্যভাগে মাধ্যমে মাত্র মতো মতোই মোটেই যখন যদি যদিও যাবে যায় যাকে যাওয়া যাওয়ার যত যতটা যা যার যারা যাঁর যাঁরা যাদের যান যাচ্ছে যেতে যাতে যেন যেমন যেখানে যিনি যে রেখে রাখা রয়েছে রকম শুধু সঙ্গে সঙ্গেও সমস্ত সব সবার সহ সুতরাং সহিত সেই সেটা সেটি সেটাই সেটাও সম্প্রতি সেখান সেখানে সে স্পষ্ট স্বয়ং হইতে হইবে হৈলে হইয়া হচ্ছে হত হতে হতেই হবে হবেন হয়েছিল হয়েছে হয়েছেন হয়ে হয়নি হয় হয়েই হয়তো হল হলে হলেই হলেও হলো হিসাবে হওয়া হওয়ার হওয়ায় হন হোক জন জনকে জনের জানতে জানায় জানিয়ে জানানো জানিয়েছে জন্য জন্যওজে জে বেশ দেন তুলে ছিলেন চান চায় চেয়ে মোট যথেষ্ট টি ১ ২ ৩ ৪ ৫ ৬ ৭ ৮ ৯'
list_stopwords = list1+"একটি নিজের তারৈ আমি ঐ আপনি করিয়ে তত জন্য যখন হত সেটাও করার ওঁদের শুধু তাহার ওদের দেওয়ার নিজেই আমার দিলেন ফিরে গেলে জানা আপনার তাঁর উপর তাকে রয়েছে যাকে এঁরা তাদের সেই হবেন কোনও অনুযায়ী যান তাও পরেও গেছে অবধি কয়েকটি কাছে এটি আগেই এতটাই হইয়া যা হৈলে আবার তারা সে হয়েছে সহিত যাবে তখন গিয়েছে দিয়ে কিছুই তবে নিতে রেখে ই সহ যাঁরা নানা হলো যাঁর তোমার পর ছাড়াও করলে যত তবু তিনিও না দেখতে দেওয়া থেকেও কাজে ক্ষেত্রে কয়েক হচ্ছে হয়েছিল থেকেই অথবা সঙ্গেও বদলে দ্বারা পক্ষে গেল বলতে পাওয়া কত মধ্যে বলা জে নেই তাই কি সেটা একে যেখানে এত হলেও টি করেই করছে হন প্রায় মধ্যভাগে কারণ এবার করেছে করেন আর যেন নিজেদের হয়েই নিজে একবার নাই বাদে যাতে এর ঠিক তার ও পেয়ে করলেন মোট ব্যাপারে কাছ করা চেয়ে কেউ নাগাদ করি বলেছেন নেওয়ার কাউকে ভাবে দিকে তারপর যেমন ওখানে খুব	গুলি অর্থাত তো ছিলেন কোন পারেন হয়তো বরং কেউই জনকে প্রভৃতি দুটো তাঁকে এখন অন্য ওর ছিল ওকে তুলে দিয়েছে জানানো ওঁরা এটাই তুমি করিতে তাহলে দেন বলে যে হলেই এমনকী হল বহু বলল মধ্যেই ধরে তাঁদের তেমন আই হইবে তাহাতে নেওয়া যিনি এঁদের অনেকে হতে কে ধরা হইতে করায় ব্যবহার থাকে বসে থাকেন থাকবে স্বয়ং এরা দেয় নিয়ে কবে সবার দেখে চলে যেতে ইত্যাদি সেখান চান অন্তত হবে সেটাই পর্যন্ত মাধ্যমে এমন ভাবেই দিয়েছেন ওরা করে তাতে এবং এতে ইহা জন্যওজে সুতরাং আমাকে বিশেষ এসে করতে এখানেই আমরা কিন্তু তিনি বিনা আজ কারও করিয়া তা ছাড়া থেকে যারা হয় হওয়া এল মাত্র ফের জানতে জানিয়ে বললেন মতোই সাথে কর করেছেন করবেন হলে নাকি সঙ্গে আগামী এখনও তাঁাহারা দিতে তাঁরা আগে আমাদের সেটি বলেন স্পষ্ট কোনো হোক থাকবেন জন করছেন অবশ্য গিয়ে হয়নি এখানে করবে কিছু হওয়ায় কখনও যাদের বার হয়ে পারি জানিয়েছে আদ্যভাগে আরও মতো যায় যাওয়ার কিংবা যদি পরেই জনের হিসাবে এস দুটি জানায় গোটা যাওয়া তথা সমস্ত যদিও করাই হতেই হয়েছেন নয় বিভিন্ন	বিষয়টি রকম অনেক করেছিলেন উপরে এ এদের উনি হয় সব পরে প্রতি যার মধ্যেও মোটেই এই বা বেশ পারে যতটা অনেকেই যাচ্ছে অথচ অতএব একই দেখা চায় আছে থাকায় যথেষ্ট কী তাহা রাখা ওঁর সেখানে সম্প্রতি তিনঐ উচিত হওয়ার ফলে ওই কেন থাকা এটা"
main_stopwords =list_stopwords.split(" ")



724


In [5]:
#remove numbers
def remove_numbers(text):
    text = re.sub(r'\d+', '', text)
    return text

#remove extra spaces
def remove_extra_spaces(text):
    text = re.sub(r'\s+', ' ', text)
    return text

#remove english words
def remove_english_words(text):
    text = re.sub(r'[a-zA-Z]', '', text)
    return text

#remove stopwords
def remove_stopwords(text):
    text = ' '.join([word for word in text.split() if word not in main_stopwords])
    return text

#remove all perenthesis 
def remove_perenthesis(text):
    text = re.sub(r'\([^)]*\)', '', text)
    return text

#remove all -pron-
def remove_prone(text):
    text = re.sub(r'-pron-', '', text)
    return text

#remove symbols
def remove_symbols(text):
    text = re.sub(r'[^\w\s]', '', text)
    return text

def remove_dash(text):
    text = re.sub(r'--', '', text)
    return text


def remove_3rdbreket(text):
    text = text.replace(']', '').replace('[', '').replace("'", "").replace('(', '').replace(')', '').replace('/', '')
    return text

#lemmatize
from banglakit import lemmatizer as lem
from banglakit.lemmatizer import BengaliLemmatizer
lemmatizer = BengaliLemmatizer()

def lemmatize_text(text): 
    lemmatized_text = []
    for word in text.split():
        lemmatized_text.append(lemmatizer.lemmatize(word, pos=lem.POS_PROPN))
    return " ".join(lemmatized_text)

input_data = input_data.apply(lemmatize_text)
input_data= input_data.apply(remove_prone)
input_data = input_data.apply(remove_numbers)
input_data = input_data.apply(remove_english_words)
input_data = input_data.apply(remove_stopwords)
input_data = input_data.apply(remove_perenthesis)
input_data = input_data.apply(remove_dash)
input_data = input_data.apply(remove_extra_spaces)
input_data = input_data.apply(remove_3rdbreket)

#input_data = input_data.apply(remove_symbols) unicode error here dont use it 




In [None]:
def display_scores(scores):
    print("Scores:", scores)
    print("Mean:", scores.mean())
    print("Standard deviation:", scores.std()) 

In [None]:

X_train, X_test, y_train, y_test = train_test_split(input_data, targets, test_size=0.2, random_state=0)
# validation set 
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0)

vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)
X_val = vectorizer.transform(X_val)




# model slecetion with cross validation 

In [None]:

clf = OneVsRestClassifier(LinearSVC(random_state=0))
#make 10 fold cross validation 
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))

'''
    Scores: [0.79620853 0.81042654 0.79810427 0.79336493 0.81119545 0.79791271
    0.79886148 0.79316888 0.80929791 0.82827324]
    Mean: 0.80368139428222
    Standard deviation: 0.010481708200214835 
'''

In [None]:
#svm classifier    
clf = OneVsRestClassifier(svm.SVC(kernel='linear', C=5, gamma=1))
#make 10 fold cross validation
clf=display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))

'''
    Scores: [0.80473934 0.81516588 0.80379147 0.80663507 0.82637571 0.80929791
    0.80550285 0.80265655 0.81499051 0.84345351]
    Mean: 0.8132608793402699
    Standard deviation: 0.012185016433768013
    
'''


In [None]:
#dt classifier 
clf = OneVsRestClassifier(DecisionTreeClassifier(random_state=0))
#10 fold cross validation
clf=display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))
#display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))
'''
    Scores: [0.83033175 0.81706161 0.82748815 0.8        0.82352941 0.83206831
    0.80645161 0.80075901 0.80929791 0.84535104]
    Mean: 0.8192338822090524
    Standard deviation: 0.014264177653053867

'''


In [None]:
#logistic regression classifier 
clf = OneVsRestClassifier(LogisticRegression(random_state=0))
#make 10 fold cross validation
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))

'''
    Scores: [0.75165877 0.75924171 0.75734597 0.73080569 0.74383302 0.73529412
    0.73339658 0.73529412 0.72106262 0.76375712]
    Mean: 0.7431689703858917
    Standard deviation: 0.01347878794175505

'''

In [None]:
#naive bayes classifier 
clf = OneVsRestClassifier(MultinomialNB())
#10 fold cross validation
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))

'''
    Scores: [0.50521327 0.5478673  0.53175355 0.50047393 0.54079696 0.5370019
    0.51612903 0.51328273 0.49240987 0.53605313]
    Mean: 0.5220981681160463
    Standard deviation: 0.018086532757600096

'''


In [None]:
#knn classifier 
clf = OneVsRestClassifier(KNeighborsClassifier(n_neighbors=3))
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))

'''
    Scores: [0.72890995 0.75165877 0.72511848 0.71279621 0.74762808 0.72296015
    0.72390892 0.71157495 0.71157495 0.75142315]
    Mean: 0.7287553621050928
    Standard deviation: 0.01519843741387436

'''


In [None]:
#gradient boosting classifier 
clf = OneVsRestClassifier(GradientBoostingClassifier(random_state=0))
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))


'''
    Scores: [0.83696682 0.83127962 0.82559242 0.82369668 0.82827324 0.83965844
    0.81024668 0.81119545 0.81688805 0.85009488]
    Mean: 0.8273892281266579
    Standard deviation: 0.01207050517222523
'''



In [None]:
#make adaboost classifier 
clf = OneVsRestClassifier(AdaBoostClassifier(random_state=0))
display_scores(cross_val_score(clf, X_train, y_train, cv=10, scoring="accuracy"))
'''
    Scores: [0.80947867 0.7943128  0.78672986 0.77156398 0.80455408 0.79222011
    0.79411765 0.78842505 0.79601518 0.80740038]
    Mean: 0.7944817755874709
    Standard deviation: 0.01059659213112092

'''

#### summary 

##### Model evaluated 
Logistic Regression ,2. XGBoost , 3. SVM ,4. Naive Bayes ,5. KNN ,6. Decision Tree,7. AdaBoost ,8. Gradient Boosting ,9. Voting Classifier 
Model Evaluation base on Accuracy 
best performing model (accuracy >= 0.8)--> gradient boosting ,2. svm ,3. dt ,4. adaboost 
 


# hyper parameter tuning 


In [None]:
# desion tree classifier parameters 
from sklearn.model_selection import GridSearchCV   
clf = DecisionTreeClassifier(random_state=0) 
param_grid = [{ 
    'criterion': ['gini', 'entropy'],
    'splitter': ['best', 'random'],
    'max_depth': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
    
}]
#make grid search
CV_clf = GridSearchCV(estimator=clf, param_grid=param_grid, cv= 10)
CV_clf.fit(X_train, y_train)


#best parameters 
#print(CV_clf.best_params_) -->DecisionTreeClassifier(criterion='entropy', max_depth=20, random_state=0)


In [None]:
dt_clf_best = OneVsRestClassifier(DecisionTreeClassifier(criterion='entropy', max_depth=20, random_state=0))
dt_clf_best.fit(X_train, y_train)

In [None]:
pickle.dump(dt_clf_best, open('voting_clf.pkl', 'wb'))

In [None]:
#make predictions
y_pred = dt_clf_best.predict(X_test)
y_pred = pd.DataFrame(y_pred, columns=targets.columns)
y_pred.head()

#save predictions

In [None]:
# Use default parameters, and train and test with small set of samples.
svm_clf = OneVsRestClassifier(SVC())
param_grid = {'estimator__C': [0.1, 1, 10, 100, 1000],  
              'estimator__gamma': [1, 0.1, 0.01, 0.001, 0.0001], 
              'estimator__kernel': ['rbf'],
              'estimator__class_weight': ['balanced', None]}  



#make grid search
svm_clf_best = GridSearchCV(svm_clf, param_grid, cv=5, n_jobs=-1)
svm_clf_best.fit(X_train, y_train)


'''
{'estimator__C': 10, 'estimator__gamma': 1, 'estimator__kernel': 'rbf'}
0.8566952151392379
OneVsRestClassifier(estimator=SVC(C=10, gamma=1))

'''

In [None]:
#train with best parameters 
svm_clf_best = OneVsRestClassifier(estimator=SVC(C=10, gamma=1))
svm_clf_best.fit(X_train, y_train)

In [None]:
pickle.dump(svm_clf_best, open('svm_clf.pkl', 'wb'))

In [None]:
from sklearn.model_selection import GridSearchCV 
ada_clf = OneVsRestClassifier(AdaBoostClassifier(random_state=0))
param_grid = [{'estimator__n_estimators': [50, 100, 200, 300 ],
                'estimator__learning_rate': [0.1, 0.2, 0.3,],
                'estimator__algorithm': ['SAMME', 'SAMME.R'],
                'estimator__random_state': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
            }]

#make grid search

gs_clf = GridSearchCV(ada_clf, param_grid, cv=4, n_jobs=-1)
gs_clf.fit(X_train, y_train)
''' best parameters
OneVsRestClassifier(estimator=AdaBoostClassifier(learning_rate=0.3,
                                                 n_estimators=300,
                                                 random_state=0))

'''




In [None]:
#train with best parameters 
gs_clf = OneVsRestClassifier(AdaBoostClassifier(learning_rate=0.3,
                                                 n_estimators=300,
                                                 random_state=0))
gs_clf.fit(X_train, y_train)



In [None]:
pickle.dump(gs_clf, open('ada_clf.pkl', 'wb'))

In [None]:
#Make gradient boosting classifier with best parameters
'''
this model takes a long time to train, so tune it once with small set of parameters, and then never tune it again

'''
gb_clf = OneVsRestClassifier(GradientBoostingClassifier(random_state=0))
param_grid = [{
    'estimator__n_estimators': [300, 400, 500],
    'estimator__max_depth': [2, 3, 4, 5, 6, 7, 8, 9, 10],
}]

#make grid search
gs_clf = GridSearchCV(gb_clf, param_grid, cv=5, n_jobs=-1)
gs_clf.fit(X_train, y_train)

#never tune it again 
#best parameters are {'estimator__max_depth': 10, 'estimator__min_samples_leaf': 1, 'estimator__min_samples_split': 2, 'estimator__n_estimators': 500}


In [None]:
#train with best parameters 
gb_clf_best= OneVsRestClassifier(GradientBoostingClassifier(random_state=0, max_depth=10, n_estimators=500, min_samples_leaf=1, min_samples_split=2))
gb_clf_best.fit(X_train, y_train)

In [None]:
#make voting classifier with best parameters 
from sklearn.ensemble import VotingClassifier
voting_clf = OneVsRestClassifier(VotingClassifier( estimators=[('svm', svm_clf_best), ('dt', dt_clf_best), ('gb', gb_clf_best), ('ada', gs_clf)], voting='soft'))
voting_clf.fit(X_train, y_train)


#make predictions on validation set 



In [None]:

import pickle
pickle.dump(voting_clf, open('voting_clf.pkl', 'wb'))

In [None]:
from utils import voting_with_model 

print(y_pred)
#make predictions on validation set
y_pred = voting_with_model([svm_clf_best, dt_clf_best, gb_clf_best, gs_clf], X_val[455])
# y_pred = pd.DataFrame(y_pred, columns=targets.columns)
# y_pred.head()
