In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import urduhack
from urduhack.normalization import normalize
from urduhack.preprocessing import normalize_whitespace, remove_punctuation, remove_accents, replace_urls, replace_emails, replace_numbers, replace_currency_symbols, remove_english_alphabets

from sklearn.linear_model import LogisticRegression

In [10]:
df = pd.read_excel('dataset.xlsx')
df['review'] = df['review'].apply(normalize) 
df['review'] = df['review'].apply(remove_accents) 
df['review'] = df['review'].apply(replace_urls)
df['review'] = df['review'].apply(replace_emails) 
df['review'] = df['review'].apply(replace_numbers) 
df['review'] = df['review'].apply(remove_english_alphabets) 
df['review'] = df['review'].apply(replace_currency_symbols)
df['review'] = df['review'].apply(normalize_whitespace)

X = df['review']
Y = df['sentiment']

In [12]:
x=10
i=50
while (i >= x):
    x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=i/100)
    max_feature_num = 20000
    vectorizer = TfidfVectorizer(max_features=max_feature_num)
    x_train = vectorizer.fit_transform(x_train)
    x_test = TfidfVectorizer(max_features=max_feature_num, vocabulary=vectorizer.vocabulary_).fit_transform(x_test)


    RF = RandomForestClassifier(n_estimators = 450, max_depth=20, random_state=53)
    RF.fit(x_train, y_train)

    test_predictionRF = RF.predict(x_test)

    print('Results of Random Forest Classifier on TF-IDF Vectorizer with {}% Training set: '.format(100-i))
    print(classification_report(test_predictionRF, y_test))
    print('\nAccuracy: ')
    print(accuracy_score(y_test, test_predictionRF))
    
    i=i-10
    print('\n\n')

Results of Random Forest Classifier on TF-IDF Vectorizer with 50% Training set: 
              precision    recall  f1-score   support

    negative       0.86      0.93      0.89      4613
    positive       0.94      0.87      0.90      5387

    accuracy                           0.90     10000
   macro avg       0.90      0.90      0.90     10000
weighted avg       0.90      0.90      0.90     10000


Accuracy: 
0.8986



Results of Random Forest Classifier on TF-IDF Vectorizer with 60% Training set: 
              precision    recall  f1-score   support

    negative       0.90      0.93      0.92      3781
    positive       0.94      0.90      0.92      4219

    accuracy                           0.92      8000
   macro avg       0.92      0.92      0.92      8000
weighted avg       0.92      0.92      0.92      8000


Accuracy: 
0.918125



Results of Random Forest Classifier on TF-IDF Vectorizer with 70% Training set: 
              precision    recall  f1-score   support

  

In [13]:
x=10
i=50
while (i >= x):
    x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=i/100)
    max_feature_num = 20000
    vectorizer = TfidfVectorizer(max_features=max_feature_num)
    x_train = vectorizer.fit_transform(x_train)
    x_test = TfidfVectorizer(max_features=max_feature_num, vocabulary=vectorizer.vocabulary_).fit_transform(x_test)


    LR = LogisticRegression()
    LR.fit(x_train, y_train)

    test_predictionLR = LR.predict(x_test)

    print('Results of Random Forest Classifier on TF-IDF Vectorizer with {}% Training set: '.format(100-i))
    print(classification_report(test_predictionLR, y_test))
    print('\nAccuracy: ')
    print(accuracy_score(y_test, test_predictionLR))
    
    i=i-10
    print('\n\n')

Results of Random Forest Classifier on TF-IDF Vectorizer with 50% Training set: 
              precision    recall  f1-score   support

    negative       0.87      0.89      0.88      4833
    positive       0.89      0.88      0.89      5167

    accuracy                           0.88     10000
   macro avg       0.88      0.88      0.88     10000
weighted avg       0.88      0.88      0.88     10000


Accuracy: 
0.8833



Results of Random Forest Classifier on TF-IDF Vectorizer with 60% Training set: 
              precision    recall  f1-score   support

    negative       0.87      0.90      0.89      3864
    positive       0.90      0.88      0.89      4136

    accuracy                           0.89      8000
   macro avg       0.89      0.89      0.89      8000
weighted avg       0.89      0.89      0.89      8000


Accuracy: 
0.889625



Results of Random Forest Classifier on TF-IDF Vectorizer with 70% Training set: 
              precision    recall  f1-score   support

  

In [16]:
string = input('Enter String : ')

input_test = TfidfVectorizer(max_features=20000, vocabulary=vectorizer.vocabulary_).fit_transform([string])

test_predictionRF = RF.predict(input_test)

print(test_predictionRF)

Enter String : میں سکوبی دیکھ کر بڑا ہوا اور ہمیشہ کے لئے مداح رہا۔ یہ کارٹون اسی پرانے معمول سے ہٹ گیا ہے جو دیکھنے والوں کو بور کرسکتا ہے۔ ماسک روٹین میں بدمعاش بوڑھے ہو جاتے ہیں اور یہ کارٹون اسی میں سے ایک تبدیلی ہے۔ اس کا مقصد سکوبی گینگ کو تبدیل کرنا نہیں ہے ، یہ دیکھنے والوں اور مصنفین دونوں کے لئے ایک ہی پرانے جرائم منظر سے صرف ایک وقفہ ہے۔ کارٹون کی توجہ سکوبی اور شاگی پر ہے جو بہت بڑی رقم کا وارث ہے اور اس رقم کو ایک پاگل سائنس دان اور اس کے گنڈوں سے عالمی فتح کے منصوبوں کو ناکام بنانے کے لئے استعمال کرتا ہے۔ گینگ کے چھوٹے چھوٹے خراج اور خود اس گروہ کی وقتا فوقتا خصوصیات ہوتی ہیں۔ اگر آپ سکوبی ڈو کے پرستار ہیں تو آپ اس کے ساتھ آنے والے لطیفوں کے ساتھ ساتھ لڑکے اور اس کے بولنے والے کتے کے مابین تعلقات کو بھی سراہ سکتے ہیں۔ صرف کارٹون سے لطف اٹھائیں اور تخلیق کاروں / مصنفین اور پروڈیوسروں کی حمایت کریں تاکہ یہ آخری سکوبی کارٹون نہ ہو۔
['positive']


In [17]:
string = input('Enter String : ')

input_test = TfidfVectorizer(max_features=20000, vocabulary=vectorizer.vocabulary_).fit_transform([string])

test_predictionLR = LR.predict(input_test)

print(test_predictionLR)


Enter String : میں سکوبی دیکھ کر بڑا ہوا اور ہمیشہ کے لئے مداح رہا۔ یہ کارٹون اسی پرانے معمول سے ہٹ گیا ہے جو دیکھنے والوں کو بور کرسکتا ہے۔ ماسک روٹین میں بدمعاش بوڑھے ہو جاتے ہیں اور یہ کارٹون اسی میں سے ایک تبدیلی ہے۔ اس کا مقصد سکوبی گینگ کو تبدیل کرنا نہیں ہے ، یہ دیکھنے والوں اور مصنفین دونوں کے لئے ایک ہی پرانے جرائم منظر سے صرف ایک وقفہ ہے۔ کارٹون کی توجہ سکوبی اور شاگی پر ہے جو بہت بڑی رقم کا وارث ہے اور اس رقم کو ایک پاگل سائنس دان اور اس کے گنڈوں سے عالمی فتح کے منصوبوں کو ناکام بنانے کے لئے استعمال کرتا ہے۔ گینگ کے چھوٹے چھوٹے خراج اور خود اس گروہ کی وقتا فوقتا خصوصیات ہوتی ہیں۔ اگر آپ سکوبی ڈو کے پرستار ہیں تو آپ اس کے ساتھ آنے والے لطیفوں کے ساتھ ساتھ لڑکے اور اس کے بولنے والے کتے کے مابین تعلقات کو بھی سراہ سکتے ہیں۔ صرف کارٹون سے لطف اٹھائیں اور تخلیق کاروں / مصنفین اور پروڈیوسروں کی حمایت کریں تاکہ یہ آخری سکوبی کارٹون نہ ہو۔
['positive']
