In [180]:
# Assistant
import os
import pandas as pd

def load_data(folder_path, label):
    texts = []
    for file in os.listdir(folder_path):
        try:
            # Try UTF-8 first
            with open(os.path.join(folder_path, file), 'r', encoding='utf-8') as f:
                texts.append(f.read())
        except UnicodeDecodeError:
            try:
                # If UTF-8 fails, try windows-1256 (common for Arabic text)
                with open(os.path.join(folder_path, file), 'r', encoding='windows-1256') as f:
                    texts.append(f.read())
            except UnicodeDecodeError:
                # If that also fails, try cp1256 (another common Arabic encoding)
                with open(os.path.join(folder_path, file), 'r', encoding='cp1256') as f:
                    texts.append(f.read())
    return pd.DataFrame({"text": texts, "label": label})

positive_df = load_data(r"C:\Users\mahmo\Downloads\Dataset\Twitter Data Set (Ar-Twitter)\Positive", 1)
negative_df = load_data(r"C:\Users\mahmo\Downloads\Dataset\Twitter Data Set (Ar-Twitter)\Negative", 0)

df = pd.concat([positive_df, negative_df])
df = df.sample(frac=1).reset_index(drop=True)  # shuffle

df

Unnamed: 0,text,label
0,وربي عآإهات مستعصيه\n,0
1,الله معكى يا حجه\n,0
2,الله على الكلام يا رب أعينا\n,1
3,برك الله فيك وجعلاهاء في مزان حسناتيك\n,1
4,﻿فالأول يصحح مساري و الثاني يزيد من أصراري\n,1
...,...,...
2001,﻿عيش زي ما بدك و ما ترد على حدا ابدا\n,1
2002,جميله اوى اوى اوى يارب الكل يحس معنى الكلام ده\n,1
2003,يلعن امك \n,0
2004,ابوهااا هوه﻿ المصيبة..... بسس هممه الفلووس الل...,0


In [181]:
df

Unnamed: 0,text,label
0,وربي عآإهات مستعصيه\n,0
1,الله معكى يا حجه\n,0
2,الله على الكلام يا رب أعينا\n,1
3,برك الله فيك وجعلاهاء في مزان حسناتيك\n,1
4,﻿فالأول يصحح مساري و الثاني يزيد من أصراري\n,1
...,...,...
2001,﻿عيش زي ما بدك و ما ترد على حدا ابدا\n,1
2002,جميله اوى اوى اوى يارب الكل يحس معنى الكلام ده\n,1
2003,يلعن امك \n,0
2004,ابوهااا هوه﻿ المصيبة..... بسس هممه الفلووس الل...,0


In [182]:
df['length'] = df['text'].apply(len)
df

Unnamed: 0,text,label,length
0,وربي عآإهات مستعصيه\n,0,21
1,الله معكى يا حجه\n,0,18
2,الله على الكلام يا رب أعينا\n,1,29
3,برك الله فيك وجعلاهاء في مزان حسناتيك\n,1,38
4,﻿فالأول يصحح مساري و الثاني يزيد من أصراري\n,1,43
...,...,...,...
2001,﻿عيش زي ما بدك و ما ترد على حدا ابدا\n,1,37
2002,جميله اوى اوى اوى يارب الكل يحس معنى الكلام ده\n,1,47
2003,يلعن امك \n,0,10
2004,ابوهااا هوه﻿ المصيبة..... بسس هممه الفلووس الل...,0,62


In [183]:
import re

def clean_text(text):
    text = re.sub(r'[ًٌٍَُِّْـ]', '', text)  # remove tashkeel
    text = re.sub(r'http\S+', '', text)     # remove URLs
    text = re.sub(r'[^\w\s]', '', text)     # remove punctuation
    text = re.sub(r'\d+', '', text)         # remove numbers
    return text

df['clean_text'] = df['text'].apply(clean_text)


In [184]:
df

Unnamed: 0,text,label,length,clean_text
0,وربي عآإهات مستعصيه\n,0,21,وربي عآإهات مستعصيه\n
1,الله معكى يا حجه\n,0,18,الله معكى يا حجه\n
2,الله على الكلام يا رب أعينا\n,1,29,الله على الكلام يا رب أعينا\n
3,برك الله فيك وجعلاهاء في مزان حسناتيك\n,1,38,برك الله فيك وجعلاهاء في مزان حسناتيك\n
4,﻿فالأول يصحح مساري و الثاني يزيد من أصراري\n,1,43,فالأول يصحح مساري و الثاني يزيد من أصراري\n
...,...,...,...,...
2001,﻿عيش زي ما بدك و ما ترد على حدا ابدا\n,1,37,عيش زي ما بدك و ما ترد على حدا ابدا\n
2002,جميله اوى اوى اوى يارب الكل يحس معنى الكلام ده\n,1,47,جميله اوى اوى اوى يارب الكل يحس معنى الكلام ده\n
2003,يلعن امك \n,0,10,يلعن امك \n
2004,ابوهااا هوه﻿ المصيبة..... بسس هممه الفلووس الل...,0,62,ابوهااا هوه المصيبة بسس هممه الفلووس اللي تجيب...


In [185]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    df['clean_text'],
    df['label'],
    test_size=0.2,
    random_state=42
)


In [186]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report

model = Pipeline([
    ("tfidf", TfidfVectorizer(max_features=5000)),
    ("clf", LogisticRegression())
])

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.75      0.89      0.81       187
           1       0.89      0.74      0.81       215

    accuracy                           0.81       402
   macro avg       0.82      0.82      0.81       402
weighted avg       0.82      0.81      0.81       402



In [187]:
misclassified = X_test[y_test != y_pred]
print(misclassified)


1805     بعين الله يا امال كلهن ستين سبعين سنه وبمضن و...
393      كلام صحيح من شان هيك الدول اللي ما فيها بطالة...
1868                                       منك لله و بس\n
1447    هاكدا هو دين المحبه الصحيح  بس للاسف الكثيرين ...
1465                          من دون التفاؤل ما في حياة\n
                              ...                        
194     قال رسولنا الكريم مثل المؤمنين في توادهم وتراح...
67                                   إنما المؤمنون أخوة\n
480        ايوه هيك بدنا ياكم يا شباب مش بس لعب وتسلاية\n
859     ياريت حدا عم يواسي السوريين بغربتهن للاسف باب ...
1583                                   يا ريتك ما كبرت \n
Name: clean_text, Length: 76, dtype: object


In [188]:
user_input=["انتي"]
prediction = model.predict(clean_input(user_input))
probabilities = model.predict_proba(clean_input(user_input))  # optional: see confidence

# Convert numeric label to readable form
sentiment = "Positive" if prediction[0] == 1 else "Negative"

print(f"Sentence: {clean_input}")
print(f"Predicted Sentiment: {sentiment}")
print(f"Confidence: {probabilities[0]}")

TypeError: 'list' object is not callable

In [197]:
sentences = [
      "هذا المنتج ممتاز جداً",
    "خدمة العملاء سيئة للغاية",
    "التجربة كانت عادية",
      "انتي جميلة"
]

clean_sentences = [clean_text(s) for s in sentences]
predictions = model.predict(clean_sentences)

for s, p in zip(sentences, predictions):
    print(s, "=>", "Positive" if p==1 else "Negative")


هذا المنتج ممتاز جداً => Positive
خدمة العملاء سيئة للغاية => Negative
التجربة كانت عادية => Positive
انتي حلوة => Positive


In [192]:
vectorizer = model.named_steps['tfidf']  # if using Pipeline
print("Does TF-IDF know  انتي جميلة'? :", 'انتي' in vectorizer.vocabulary_)


Does TF-IDF know  انتي جميلة'? : True
