In [19]:
#Word Frequency Analysis

#Lexical Variation Analysis

import pandas as pd
from LughaatNLP import LughaatNLP
from collections import Counter
import nltk
from nltk.corpus import stopwords

# Initialize the normalizer
urdu_normalizer = LughaatNLP()

# Load the TSV file into a pandas DataFrame
df = pd.read_csv('validated_sentences.tsv', sep='\t')

# Assuming the text column is named 'sentence'
all_text = ' '.join(df['sentence'].astype(str).tolist())

# Normalize and tokenize the entire text
normalized_text = urdu_normalizer.normalize(all_text)
tokens = urdu_normalizer.urdu_tokenize(normalized_text)

# Filter out unwanted symbols (e.g., '.', '#')
filtered_tokens = [token for token in tokens if token not in {'۔', '?'}]

# Perform word frequency analysis
word_freq = Counter(filtered_tokens)

# Calculate the Type-Token Ratio (TTR)
def calculate_ttr(tokens):
    unique_tokens = set(tokens)
    return len(unique_tokens) / len(tokens) if len(tokens) > 0 else 0

# Calculate Lexical Density
def calculate_lexical_density(tokens):
    stop_words = set(stopwords.words('english'))  # Adjust for Urdu stop words if needed
    content_words = [word for word in tokens if word.lower() not in stop_words]
    return len(content_words) / len(tokens) if len(tokens) > 0 else 0

# Calculate Vocabulary Size
vocabulary_size = len(set(filtered_tokens))

# Type-Token Ratio (TTR)
ttr = calculate_ttr(filtered_tokens)

# Lexical Density
lexical_density = calculate_lexical_density(filtered_tokens)

# Output results
print(f"Most Common Words: {word_freq.most_common(100)}")
print(f"Vocabulary Size: {vocabulary_size}")
print(f"Type-Token Ratio (TTR): {ttr:.4f}")
print(f"Lexical Density: {lexical_density:.4f}")


Most Common Words: [('ہے', 5764), ('میں', 4311), ('کے', 4180), ('کی', 3926), ('کا', 3158), ('سے', 2930), ('کو', 2254), ('ہیں', 2222), ('اس', 2170), ('اور', 1843), ('نہیں', 1634), ('یہ', 1457), ('نے', 1399), ('کہ', 1338), ('بھی', 1336), ('تو', 1318), ('پر', 1250), ('کیا', 1190), ('ہو', 1116), ('وہ', 1096), ('ایک', 1066), ('کر', 964), ('ان', 884), ('نہ', 855), ('ہوں', 818), ('تھا', 789), ('؟', 743), ('ہی', 646), ('جو', 594), ('‘', 542), ('ہم', 522), ('کوئی', 512), ('پاکستان', 511), ('لیے', 460), ('گا', 458), ('و', 445), ('اب', 435), ('اپ', 426), ('گیا', 423), ('کچھ', 423), ('تھے', 389), ('بہت', 375), ('اپنے', 358), ('سب', 355), ('ہوا', 353), ('بات', 350), ('تھی', 350), ('رہا', 337), ('دل', 337), ('کسی', 328), ('کرنے', 327), ('ساتھ', 322), ('ہوتا', 313), ('رہے', 311), ('پہ', 305), ('ہر', 303), ('وقت', 303), ('لیکن', 296), ('اپنی', 282), ('یا', 280), ('پھر', 275), ('دیا', 267), ('بے', 267), ('مجھے', 266), ('تک', 257), ('جب', 254), ('کرتا', 253), ('جس', 252), ('جائے', 250), ('گے', 250), ('ا