In [2]:
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

 Generate Dataset

In [3]:
# X = Features (අපේ දත්ත), y = Labels (අපේ target එක)
X, y = make_classification(
    n_samples=1000,       # data points (rows) ගණන
    n_features=20,        # මුළු features (columns) ගණන
    n_informative=15,     # target එකට ඇත්තටම අදාළ features ගණන
    n_redundant=2,        # වෙනත් features වලින්ම හැදුණු features
    n_classes=3,          # target classes ගණන (උදා: 0, 1, 2)
    random_state=42       # ප්‍රතිඵල නැවත generate කරගැනීමට හැකිවීමට
)

print(f"Dataset එකේ Shape (X): {X.shape}")
print(f"Labels වල Shape (y): {y.shape}")
print(f"පළමු data point 5: \n{X[:5]}")
print(f"පළමු label 5: \n{y[:5]}")

Dataset එකේ Shape (X): (1000, 20)
Labels වල Shape (y): (1000,)
පළමු data point 5: 
[[ 1.50859903 -3.73028866  0.43689498  1.52886631 -0.33556399  1.1896752
   1.97491807 -1.81182794  4.20527076 -0.4674646  -1.53323401  1.45420001
   0.89706105  0.66175565 -7.65313728  2.41300979  0.55147623 -1.67359752
  -1.91476986 -0.64493562]
 [-1.08580885 -2.07107013 -1.23711982 -4.41129675  1.91304161 -1.05878344
   1.74000928  0.44813873  1.24064995  3.74018634  2.9216194  -1.09344043
  -3.1629392  -0.67545623  6.35256789  2.01985224 -1.34751678  3.7872604
  -2.58337265  0.63659388]
 [ 1.13186375  2.47790303  0.8426801  -1.58249896 -1.77814095 -1.18339417
   0.46116321 -0.78560728 -3.16772325  1.74729491  5.54961658  0.6900948
  -6.21976183 -2.85330257  6.41685849  2.55201257  2.43679138  0.06466985
   0.15792623  3.0733003 ]
 [-3.68235094 -1.78121809  3.23352297  0.42698838 -0.58290997 -0.38362193
  -0.80180683  0.23460484  1.77819122  1.67097838 -2.19266559  0.258001
   0.8421217   2.48232365 -

Data split into test/train

In [4]:
# දත්ත 70% (train) සහ 30% (test) ලෙස වෙන් කිරීම
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.30,  # 30%ක් test කිරීම සඳහා වෙන් කරයි
    random_state=42,
    stratify=y      # classes 3ම train/test දෙකේම සමබරව බෙදීමට
)

print(f"Training data (X_train) shape: {X_train.shape}")
print(f"Testing data (X_test) shape: {X_test.shape}")

Training data (X_train) shape: (700, 20)
Testing data (X_test) shape: (300, 20)


Random Forest Model train

In [5]:

# අපි trees 100ක් භාවිතා කරමු
rf_model = RandomForestClassifier(
    n_estimators=100, #(Forest) තිබිය යුතු Decision Trees ගණනයි
    random_state=42,
    n_jobs=-1         # CPU එකේ සියලුම cores training සඳහා යොදාගන්න
)

# 2. Model එක train කිරීම
print("Model training starting...")
rf_model.fit(X_train, y_train)
print("Model training complete. ✅")

Model training starting...
Model training complete. ✅


In [6]:
# 1. Test data සඳහා predictions ගැනීම
y_pred = rf_model.predict(X_test)

# 2. Accuracy එක ගණනය කිරීම
accuracy = accuracy_score(y_test, y_pred)
print(f"\nModel Accuracy: {accuracy * 100:.2f}%")

# 3. වඩාත් විස්තරාත්මක report එකක් (Precision, Recall, F1-score)
print("\nClassification Report:")
print(classification_report(y_test, y_pred))


Model Accuracy: 74.33%

Classification Report:
              precision    recall  f1-score   support

           0       0.76      0.75      0.76        99
           1       0.69      0.76      0.72        99
           2       0.78      0.73      0.75       102

    accuracy                           0.74       300
   macro avg       0.75      0.74      0.74       300
weighted avg       0.75      0.74      0.74       300



වැදගත්ම Features බැලීම (Feature Importance)

Random Forest වල ඇති විශාල වාසියක් නම්, අපේ target එක (y) predict කිරීමට වඩාත්ම දායක වූ features මොනවාදැයි බලාගැනීමට හැකි වීමයි.

In [7]:
# Model එකෙන් feature importances ලබාගැනීම
importances = rf_model.feature_importances_

# Features වල නම් (අපිට නම් නැති නිසා 0, 1, 2... ලෙස ගනිමු)
feature_names = [f"Feature {i}" for i in range(X.shape[1])]

# වැදගත්කම අනුව sort කිරීම
indices = np.argsort(importances)[::-1]

print("\n--- Feature Importance Top 10 ---")
for i in range(10):
    print(f"{i+1}. {feature_names[indices[i]]}: {importances[indices[i]]:.4f}")


--- Feature Importance Top 10 ---
1. Feature 0: 0.0957
2. Feature 3: 0.0805
3. Feature 10: 0.0696
4. Feature 13: 0.0607
5. Feature 16: 0.0566
6. Feature 14: 0.0519
7. Feature 6: 0.0507
8. Feature 19: 0.0495
9. Feature 1: 0.0478
10. Feature 12: 0.0476


**Naive Bayes** 

In [8]:
from sklearn.naive_bayes import GaussianNB
# 1. Model එක නිර්මාණය කිරීම (Initialize)
nb_model = GaussianNB()

# 2. Model එක train කිරීම
print("Naive Bayes model training starting...")
# Naive Bayes හුදෙක් එක් එක් class එක සඳහා features වල mean සහ variance ගණනය කරයි
nb_model.fit(X_train, y_train)
print("Naive Bayes model training complete. ✅")

Naive Bayes model training starting...
Naive Bayes model training complete. ✅


In [13]:
y_pred_naive = rf_model.predict(X_test)
accuracy_nb= accuracy_score(y_test, y_pred_naive)
print(f"\nNaive Bayes Model Accuracy: {accuracy_nb * 100:.2f}%")

# 3. විස්තරාත්මක report එක
print("\nClassification Report (Naive Bayes):")
print(classification_report(y_test, y_pred_naive))


Naive Bayes Model Accuracy: 74.33%

Classification Report (Naive Bayes):
              precision    recall  f1-score   support

           0       0.76      0.75      0.76        99
           1       0.69      0.76      0.72        99
           2       0.78      0.73      0.75       102

    accuracy                           0.74       300
   macro avg       0.75      0.74      0.74       300
weighted avg       0.75      0.74      0.74       300



---

In [1]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB, BernoulliNB

# --- 1. අපේ Sample Data (Text) ---
# සරල ඊමේල් හෝ වාක්‍ය 6ක්
documents = [
    "offer free prize claim now",       # Spam
    "call now for free prize",          # Spam
    "buy cheap medicine online",        # Spam
    "hello how are you today",          # Not Spam
    "lets schedule the project meeting",# Not Spam
    "see you tomorrow"                  # Not Spam
]

# අදාළ Labels (1 = Spam, 0 = Not Spam)
labels = np.array([1, 1, 1, 0, 0, 0])

print("Original Text Data:")
print(documents)
print("Labels:", labels)

# --- 2. Multinomial Naive Bayes (Counts මත පදනම්ව) ---
print("\n--- Training MultinomialNB (Counts) ---")

# 2.1 Vectorizer එක සෑදීම (වචන ගණන් කිරීමට)
# මෙය 'offer' 1, 'free' 1, 'prize' 1, 'claim' 1, 'now' 1 ලෙස ගණන් කරයි
mnb_vectorizer = CountVectorizer()

# 2.2 Text දත්ත Numbers (Counts) බවට පත්කිරීම
X_train_counts = mnb_vectorizer.fit_transform(documents)

# (බලාගැනීමට)
# print("Count Matrix (Multinomial):\n", X_train_counts.toarray())
# print("Features (Words):", mnb_vectorizer.get_feature_names_out())

# 2.3 MultinomialNB model එක Train කිරීම
mnb_model = MultinomialNB()
mnb_model.fit(X_train_counts, labels)
print("MultinomialNB Model Trained. ✅")


# --- 3. Bernoulli Naive Bayes (Presence/Absence මත පදනම්ව) ---
print("\n--- Training BernoulliNB (Presence/Absence) ---")

# 3.1 Vectorizer එක සෑදීම (binary=True ලෙස යොදා)
# මෙය 'offer' 1, 'free' 1, 'prize' 1, 'claim' 1, 'now' 1 ලෙස ගණන් කරයි
# වචනයක් 5 පාරක් තිබුණත් "1" ලෙසයි ගන්නේ
bnb_vectorizer = CountVectorizer(binary=True) 

# 3.2 Text දත්ත Numbers (Binary) බවට පත්කිරීම
X_train_binary = bnb_vectorizer.fit_transform(documents)

# (බලාගැනීමට)
# print("Binary Matrix (Bernoulli):\n", X_train_binary.toarray())
# print("Features (Words):", bnb_vectorizer.get_feature_names_out())

# 3.3 BernoulliNB model එක Train කිරීම
bnb_model = BernoulliNB()
bnb_model.fit(X_train_binary, labels)
print("BernoulliNB Model Trained. ✅")


# --- 4. Models දෙකම Test කිරීම ---
print("\n--- Testing Models ---")
# අලුත් ඊමේල් 2ක්
test_data = [
    "claim your free prize now",  # Spam විය යුතුයි
    "project meeting is today"    # Not Spam විය යුතුයි
]

print(f"Test Data: {test_data}")

# 4.1 Multinomial Prediction
# test data එකත් 'count' vectorizer එකෙන්ම transform කළ යුතුයි
X_test_counts = mnb_vectorizer.transform(test_data)
mnb_prediction = mnb_model.predict(X_test_counts)
print(f"MultinomialNB Prediction (1=Spam, 0=Not Spam): {mnb_prediction}")

# 4.2 Bernoulli Prediction
# test data එකත් 'binary' vectorizer එකෙන්ම transform කළ යුතුයි
X_test_binary = bnb_vectorizer.transform(test_data)
bnb_prediction = bnb_model.predict(X_test_binary)
print(f"BernoulliNB Prediction (1=Spam, 0=Not Spam):   {bnb_prediction}")

Original Text Data:
['offer free prize claim now', 'call now for free prize', 'buy cheap medicine online', 'hello how are you today', 'lets schedule the project meeting', 'see you tomorrow']
Labels: [1 1 1 0 0 0]

--- Training MultinomialNB (Counts) ---
MultinomialNB Model Trained. ✅

--- Training BernoulliNB (Presence/Absence) ---
BernoulliNB Model Trained. ✅

--- Testing Models ---
Test Data: ['claim your free prize now', 'project meeting is today']
MultinomialNB Prediction (1=Spam, 0=Not Spam): [1 0]
BernoulliNB Prediction (1=Spam, 0=Not Spam):   [1 0]


``Gaussian Naive Bayes ``(අඛණ්ඩ දත්ත, continuous data, සඳහා) වගේ නෙවෙයි, මේ දෙකම ප්‍රධාන වශයෙන් භාවිතා වෙන්නේ විවික්ත දත්ත (discrete data) සඳහා, විශේෂයෙන්ම Text Classification (ලිපි, ඊමේල්, tweets වැනි දේ වර්ග කිරීම) සඳහායි.

මේ දෙකේ ප්‍රධාන වෙනස තියෙන්නේ දත්ත දිහා බලන විදිහේ.

**1. Multinomial Naive Bayes (MNB)**

මේක "Count" (වාර ගණන) මත පදනම් වූ model එකක්.

භාවිතා කරන්නේ කුමන දත්ත සඳහාද?: "වාර ගණන" (frequencies) හෝ "ගණන්" (counts) නිරූපණය කරන දත්ත සඳහා.

ප්‍රධාන අදහස: එය බලන්නේ යම් class එකකට අදාළව එක් එක් feature එක කී වතාවක් (how many times) හමු වෙනවාද කියලයි.

හොඳම උදාහරණය: Text Classification (Spam Email හඳුනාගැනීම)

MNB model එක train කරන විට, එය මෙසේ ගණනය කරනවා:

"Spam" ලෙස ලේබල් වූ ඊමේල් වල "offer" කියන වචනය 50 වතාවක් හමුවුණා.

"Spam" වල "free" කියන වචනය 75 වතාවක් හමුවුණා.

"Not Spam" ඊමේල් වල "offer" වචනය 2 වතාවක් හමුවුණා.

අලුත් ඊමේල් එකක් ආවම, MNB එක බලන්නේ ඒකෙත් "offer" වචනය 3 පාරක්, "free" වචනය 2 පාරක් තියෙනවා වගේ count එක දිහායි.

ඒ වාර ගණන (counts) අනුව, අලුත් ඊමේල් එක "Spam" වෙන්න තියෙන සම්භාවිතාව ගණනය කරනවා.

කෙටියෙන්: MNB වැදගත් වෙන්නේ feature එක කී පාරක් ආවද කියන එකටයි.

**2. Bernoulli Naive Bayes (BNB)**

මේක "Presence" (තිබේද/නැද්ද) මත පදනම් වූ model එකක්.

භාවිතා කරන්නේ කුමන දත්ත සඳහාද?: "ද්විමය" (Binary) දත්ත සඳහා. එනම්, feature එක "තිබෙනවා" (1) හෝ "නැහැ" (0) යන්න පමණයි.

ප්‍රධාන අදහස: එය බලන්නේ යම් class එකකට අදාළව එක් එක් feature එක තිබෙනවාද, නැද්ද (present or absent) යන්න පමණයි. කී වතාවක් තිබුණත් ගණන් ගන්නේ නැහැ.

හොඳම උදාහරණය: Text Classification (එකම Spam උදාහරණය)

BNB model එක train කරන විට, එය මෙසේ ගණනය කරනවා:

"Spam" ඊමේල් 100න් 80කම "offer" කියන වචනය (අඩුම තරමේ එක පාරක්වත්) තිබුණා.

"Spam" ඊමේල් 100න් 90කම "free" කියන වචනය තිබුණා.

"Not Spam" ඊමේල් 100න් 5ක විතරයි "offer" වචනය තිබුණේ.

අලුත් ඊමේල් එකක් ආවම, BNB එක බලන්නේ "offer" වචනය තියෙනවද (1) නැද්ද (0)? කියන එක විතරයි. ඒක 5 පාරක් තිබුණත්, 1 පාරක් තිබුණත් BNB එකට ඒක "1" (present) විතරයි.

ඒ තිබේද/නැද්ද (presence/absence) අනුව, අලුත් ඊමේල් එක "Spam" වෙන්න තියෙන සම්භාවිතාව ගණනය කරනවා.

කෙටියෙන්: BNB වැදගත් වෙන්නේ feature එක තියෙනවද, නැද්ද කියන එකටයි.