<a href="https://colab.research.google.com/github/MuhammadShavaiz/AI_learning/blob/main/Neural_Network_for_Word_Classification(URDU).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Word Classification Using LSTM in PyTorch

This notebook demonstrates the implementation of an LSTM-based model for classifying Urdu words as either correct or incorrect. It covers data preparation, including encoding and padding of sequences, and uses binary cross-entropy loss for training. The model's performance is evaluated through accuracy, precision, recall, and F1 score metrics, showcasing its effectiveness in word classification tasks.

### Data

In [48]:
corpus = """فرسٹ ایڈ وہ ابتدائی مدد ہوتی ہے جو کسی شخص کو اچانک پیش آنے والی چوٹ یا بیماری کی صورت میں دی جاتی ہے، تاکہ اُس کی حالت مزید خراب ہونے سے بچ سکے، زندگی محفوظ رہے اور طبی مدد پہنچنے تک صحتیابی کا عمل شروع ہو جائے۔ یہ عموماً کوئی ایسا فرد دیتا ہے جسے ابتدائی طبی امداد کا بنیادی علم ہوتا ہے۔ جسمانی صحت کے علاوہ ذہنی صحت کے مسائل میں بھی فرسٹ ایڈ دی جا سکتی ہے، جیسے کہ ذہنی دباؤ یا پوسٹ ٹرامیٹک اسٹریس ڈس آرڈر (PTSD) میں مبتلا افراد کے لیے نفسیاتی فرسٹ ایڈ۔

دنیا بھر میں مختلف مقامات اور حالات میں فرسٹ ایڈ کی ضرورت پیش آ سکتی ہے۔ اکثر ممالک میں مختلف قوانین اور ہدایات موجود ہوتی ہیں جو کچھ مخصوص حالات میں فرسٹ ایڈ کی فراہمی کو لازمی قرار دیتی ہیں، جیسے کہ کام کی جگہ پر فرسٹ ایڈ کی تربیت یا کچھ ضروری آلات کا موجود ہونا (مثلاً ڈیفبریلیٹر)۔

فرسٹ ایڈ کے پانچ بنیادی مراحل ہوتے ہیں: حالات کا جائزہ لینا، اگر خطرہ ہو تو محفوظ مقام پر منتقل ہونا، مدد کے لیے پکارنا، موزوں فرسٹ ایڈ فراہم کرنا اور آخر میں مریض کی حالت کا دوبارہ جائزہ لینا۔

تاریخ میں فرسٹ ایڈ کا ذکر خاص طور پر جنگوں کے دوران ملتا ہے جہاں زخمی فوجیوں کو ابتدائی طبی امداد فراہم کی جاتی تھی۔ قدیم رومی فوج میں ایک نظام موجود تھا جس میں فرسٹ ایڈ فراہم کرنے والے افراد کو تربیت دی جاتی تھی۔

جدید دور میں فرسٹ ایڈ کی باضابطہ تربیت 18ویں صدی کے آخر میں شروع ہوئی، جب ڈوبنے کے واقعات عام تھے اور زندگی بچانے کے طریقے سکھائے جانے لگے۔ 19ویں صدی میں ریڈ کراس اور ریڈ کریسنٹ تنظیموں کی بنیاد رکھی گئی، جو آج بھی دنیا بھر میں فرسٹ ایڈ فراہم کرنے والی سب سے بڑی تنظیمیں ہیں۔

فرسٹ ایڈ کا بنیادی مقصد مریض کی جان بچانا، اُس کی حالت کو مزید بگڑنے سے روکنا اور صحتیابی کی راہ ہموار کرنا ہے۔ فرسٹ ایڈ نہ صرف فوری مدد فراہم کرتی ہے بلکہ مریض کی تکلیف کو کم کرنے میں بھی مدد دیتی ہے اور اُسے پرسکون کرنے کا کام کرتی ہے۔

فرسٹ ایڈ میں "ABC" کا اصول بہت اہمیت رکھتا ہے، جس کا مطلب ہے ایئر وے (سانس کی نالی کھلی رکھنا)، بریتھنگ (سانس لینے میں مدد دینا) اور سرکولیشن (خون کی روانی کو برقرار رکھنا)۔ ان بنیادی اصولوں پر عمل کرتے ہوئے زندگی بچانے میں کامیابی حاصل کی جا سکتی ہے"""
corpus

'فرسٹ ایڈ وہ ابتدائی مدد ہوتی ہے جو کسی شخص کو اچانک پیش آنے والی چوٹ یا بیماری کی صورت میں دی جاتی ہے، تاکہ اُس کی حالت مزید خراب ہونے سے بچ سکے، زندگی محفوظ رہے اور طبی مدد پہنچنے تک صحتیابی کا عمل شروع ہو جائے۔ یہ عموماً کوئی ایسا فرد دیتا ہے جسے ابتدائی طبی امداد کا بنیادی علم ہوتا ہے۔ جسمانی صحت کے علاوہ ذہنی صحت کے مسائل میں بھی فرسٹ ایڈ دی جا سکتی ہے، جیسے کہ ذہنی دباؤ یا پوسٹ ٹرامیٹک اسٹریس ڈس آرڈر (PTSD) میں مبتلا افراد کے لیے نفسیاتی فرسٹ ایڈ۔\n\nدنیا بھر میں مختلف مقامات اور حالات میں فرسٹ ایڈ کی ضرورت پیش آ سکتی ہے۔ اکثر ممالک میں مختلف قوانین اور ہدایات موجود ہوتی ہیں جو کچھ مخصوص حالات میں فرسٹ ایڈ کی فراہمی کو لازمی قرار دیتی ہیں، جیسے کہ کام کی جگہ پر فرسٹ ایڈ کی تربیت یا کچھ ضروری آلات کا موجود ہونا (مثلاً ڈیفبریلیٹر)۔\n\nفرسٹ ایڈ کے پانچ بنیادی مراحل ہوتے ہیں: حالات کا جائزہ لینا، اگر خطرہ ہو تو محفوظ مقام پر منتقل ہونا، مدد کے لیے پکارنا، موزوں فرسٹ ایڈ فراہم کرنا اور آخر میں مریض کی حالت کا دوبارہ جائزہ لینا۔\n\nتاریخ میں فرسٹ ایڈ کا ذکر خاص طور پر جنگوں کے دوران مل

### Tokenization. Generating incorrect words

In [49]:
import random
correct_words = list(corpus.split())
# Helper function to add random prefix/suffix
def add_random_prefix_suffix(word, num_chars=2):
    random_chars = ''.join(random.choices(list("ابپتثجچحخدذرزسشصضطظعغفقکگلمنوهیءٔ"), k=num_chars))
    return random_chars + word + random_chars
def generate_invalid_words(valid_words):
    invalid_words = []
    for word in valid_words:
      invalid_word = add_random_prefix_suffix(word)
      invalid_words.append(invalid_word)
    return invalid_words
incorrect_words = generate_invalid_words(correct_words)
print(f'correct words example:{correct_words[:5]}')
print(f'incorrect words example:{incorrect_words[:5]}')

correct words example:['فرسٹ', 'ایڈ', 'وہ', 'ابتدائی', 'مدد']
incorrect words example:['طٔفرسٹطٔ', 'ءلایڈءل', 'ثبوہثب', 'ءاابتدائیءا', 'تٔمددتٔ']


### Creating Dataset(valid + non-valid words)

In [50]:
def create_dataset(valid_words, invalid_words):
    data = [(word, 1) for word in valid_words] + [(word, 0) for word in invalid_words]
    random.shuffle(data)  # Shuffle data to avoid ordered patterns
    return data

# Example usage
dataset = create_dataset(correct_words, incorrect_words)

# Print a sample
for word, label in dataset[:5]:
    print(f'Word: {word}, Label: {label}')


Word: خوکوخو, Label: 0
Word: قرتھی۔قر, Label: 0
Word: صسسےصس, Label: 0
Word: مراحل, Label: 1
Word: خطوالیخط, Label: 0


### DataPreprocessing: One Hot Encoding

In [51]:
import string
from collections import defaultdict

# Get all unique Urdu characters
all_chars = set(''.join(correct_words + incorrect_words))
char_to_idx = {char: idx for idx, char in enumerate(all_chars)}

def encode_word(word):
    return [char_to_idx[char] for char in word]

### Custom Dataset and DataLoader

In [52]:
import torch
from torch.utils.data import Dataset, DataLoader,random_split
import torch.nn.functional as F
from torch.nn.utils.rnn import pad_sequence

class WordDataset(Dataset):
    def __init__(self, correct_words, incorrect_words, char_to_idx):
        self.data = [(encode_word(word), 1) for word in correct_words] + [(encode_word(word), 0) for word in incorrect_words]
        self.char_to_idx = char_to_idx

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        word, label = self.data[idx]
        return torch.tensor(word, dtype=torch.long), torch.tensor(label, dtype=torch.float)
# Custom collate function to pad sequences
def collate_fn(batch):
    words, labels = zip(*batch)  # Unzip the batch
    words_padded = pad_sequence(words, batch_first=True, padding_value=0)  # Pad sequences
    labels = torch.stack(labels)  # Stack labels into a tensor
    return words_padded, labels

# Prepare dataset and dataloader
dataset = WordDataset(correct_words, incorrect_words, char_to_idx)
# Split dataset into 80% training and 20% test
train_size = int(0.8 * len(dataset))
test_size = len(dataset) - train_size
train_dataset, test_dataset = random_split(dataset, [train_size, test_size])

# Create DataLoaders for training and testing
train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True, collate_fn=collate_fn)
test_loader = DataLoader(test_dataset, batch_size=4, shuffle=False, collate_fn=collate_fn)


### Neural Network

In [53]:
import torch.nn as nn

class WordClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim):
        super(WordClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.lstm = nn.LSTM(embed_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, 1)

    def forward(self, x):
        embedded = self.embedding(x)  # Convert characters to embeddings
        lstm_out, _ = self.lstm(embedded)  # LSTM output
        lstm_out = lstm_out[:, -1, :]  # Use only the last LSTM output
        out = self.fc(lstm_out)
        return torch.sigmoid(out)

# Hyperparameters
vocab_size = len(char_to_idx)  # Number of unique characters
embed_dim = 10  # Embedding dimension
hidden_dim = 20  # LSTM hidden state size

# Initialize the model
urdu_model = WordClassifier(vocab_size, embed_dim, hidden_dim)

### Training

In [54]:
import torch.optim as optim

# Loss function and optimizer
criterion = nn.BCELoss()
optimizer = optim.Adam(urdu_model.parameters(), lr=0.001)

# Training loop
num_epochs = 100

for epoch in range(num_epochs):
    for words, labels in train_loader:
        # Zero gradients
        optimizer.zero_grad()

        # Forward pass
        outputs = urdu_model(words)
        if outputs.dim == 0:
          outputs = outputs.view(4, 1)
        labels = labels.view(-1,1)
        loss = criterion(outputs, labels)

        # Backward pass and optimization
        loss.backward()
        optimizer.step()

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')



Epoch [1/100], Loss: 0.3077
Epoch [2/100], Loss: 1.1016
Epoch [3/100], Loss: 0.9779
Epoch [4/100], Loss: 0.5847
Epoch [5/100], Loss: 0.0415
Epoch [6/100], Loss: 0.0249
Epoch [7/100], Loss: 0.5917
Epoch [8/100], Loss: 1.1476
Epoch [9/100], Loss: 0.5901
Epoch [10/100], Loss: 0.0634
Epoch [11/100], Loss: 2.1435
Epoch [12/100], Loss: 0.0100
Epoch [13/100], Loss: 0.1447
Epoch [14/100], Loss: 0.5004
Epoch [15/100], Loss: 0.8914
Epoch [16/100], Loss: 0.1003
Epoch [17/100], Loss: 0.2888
Epoch [18/100], Loss: 0.0153
Epoch [19/100], Loss: 0.0045
Epoch [20/100], Loss: 0.0539
Epoch [21/100], Loss: 0.1781
Epoch [22/100], Loss: 0.1461
Epoch [23/100], Loss: 0.5685
Epoch [24/100], Loss: 0.1693
Epoch [25/100], Loss: 0.0217
Epoch [26/100], Loss: 1.8520
Epoch [27/100], Loss: 0.0202
Epoch [28/100], Loss: 0.0016
Epoch [29/100], Loss: 0.1182
Epoch [30/100], Loss: 0.4335
Epoch [31/100], Loss: 0.0134
Epoch [32/100], Loss: 0.0069
Epoch [33/100], Loss: 0.0301
Epoch [34/100], Loss: 0.0153
Epoch [35/100], Loss: 0

### Evaluation

In [55]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
import numpy as np

def evaluate_model(model, data_loader, device):
    model.eval()  # Set the model to evaluation mode
    all_labels = []
    all_outputs = []

    with torch.no_grad():  # Disable gradient tracking
        for words, labels in data_loader:
            # Move data to the specified device (CPU or GPU)
            words, labels = words.to(device), labels.to(device)

            # Forward pass
            outputs = model(words)
            all_outputs.append(outputs.cpu().numpy())  # Collect outputs
            all_labels.append(labels.cpu().numpy())    # Collect labels

    # Concatenate all outputs and labels
    all_outputs = np.concatenate(all_outputs)
    all_labels = np.concatenate(all_labels)

    # Convert probabilities to binary predictions (0 or 1)
    binary_predictions = (all_outputs >= 0.5).astype(int)

    # Calculate metrics
    accuracy = accuracy_score(all_labels, binary_predictions)
    precision = precision_score(all_labels, binary_predictions)
    recall = recall_score(all_labels, binary_predictions)
    f1 = f1_score(all_labels, binary_predictions)

    return accuracy, precision, recall, f1

# Use the function to evaluate your model
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # Device agnostic
urdu_model.to(device)  # Ensure your model is on the correct device

# Evaluate the model on the test dataset
accuracy, precision, recall, f1 = evaluate_model(urdu_model, test_loader, device)

print(f'Accuracy: {accuracy:.4f}')
print(f'Precision: {precision:.4f}')
print(f'Recall: {recall:.4f}')
print(f'F1 Score: {f1:.4f}')

Accuracy: 0.9693
Precision: 0.9875
Recall: 0.9518
F1 Score: 0.9693
