In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from imblearn.over_sampling import RandomOverSampler

# 1. قراءة الملف
df = pd.read_csv("CompanyReviews.csv")

# 2. اختيار النصوص والتصنيف
X = df['review_description'].astype(str)
y = df['rating']

# 3. تحويل النصوص إلى تمثيل عددي TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_tfidf = vectorizer.fit_transform(X)

# 4. إعادة توازن البيانات (عشان الفئة المحايدة قليلة)
ros = RandomOverSampler(random_state=42)
X_resampled, y_resampled = ros.fit_resample(X_tfidf, y)

# 5. تقسيم البيانات تدريب/اختبار
X_train, X_test, y_train, y_test = train_test_split(
    X_resampled, y_resampled, test_size=0.2, random_state=42
)

# 6. تدريب نموذج Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

# 7. التنبؤ
y_pred = model.predict(X_test)

# 8. التقييم
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, digits=3)

print("✅ دقة النموذج:", accuracy)
print("\n📊 تقرير التصنيف:\n", report)


ModuleNotFoundError: No module named 'imblearn'

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# 1. قراءة الملف
df = pd.read_csv("CompanyReviews.csv")

# 2. اختيار النصوص والتصنيف (تجاهل المحايد 0)
df_binary = df[df['rating'] != 0]
X = df_binary['review_description'].astype(str)
y = df_binary['rating']

# 3. تقسيم البيانات تدريب/اختبار
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 4. تحويل النصوص إلى تمثيل عددي TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# 5. تدريب نموذج Naive Bayes
model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

# 6. التنبؤ
y_pred = model.predict(X_test_tfidf)

# 7. التقييم
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, digits=3)

print("✅ دقة النموذج:", accuracy)
print("\n📊 تقرير التصنيف:\n", report)

# 8. تجربة جملة جديدة
example = ["البرنامج سيء جدا", "الخدمة ممتازة ورائعة"]
example_tfidf = vectorizer.transform(example)
pred = model.predict(example_tfidf)
print("\n🔍 التنبؤ للجمل الجديدة:", list(zip(example, pred)))


✅ دقة النموذج: 0.8668852459016393

📊 تقرير التصنيف:
               precision    recall  f1-score   support

          -1      0.851     0.782     0.815      2857
           1      0.875     0.918     0.896      4768

    accuracy                          0.867      7625
   macro avg      0.863     0.850     0.855      7625
weighted avg      0.866     0.867     0.866      7625


🔍 التنبؤ للجمل الجديدة: [('البرنامج سيء جدا', -1), ('الخدمة ممتازة ورائعة', 1)]
