# **Q4**

# Required Libraries

In [1]:
!pip install hazm jiwer evaluate



# Normalizing

In [3]:
# Import necessary libraries
from hazm import Normalizer
import evaluate

# Initialize normalizer
normalizer = Normalizer()

# Load model output
with open('HarfOutp.txt', 'r', encoding='utf-8') as file:
    model_output = file.read()

# Load reference output (real subtitle)
with open('[Persian] آلن تورینگ پدر هوش مصنوعی و بزرگترین کد شکن تاریخ [DownSub.com].txt', 'r', encoding='utf-8') as file:
    reference_output = file.read()

# Normalize texts
normalized_model_output = normalizer.normalize(model_output)
normalized_reference_output = normalizer.normalize(reference_output)

In [4]:
print("Normalized Model Output:", normalized_model_output)
print("Normalized Reference Output:", normalized_reference_output)

Normalized Model Output: . در دوران جنگ جهانی دوم، یکی از برگ برنده‌های متفقین رمزگشایی از پیام‌های سری نازی‌ها بود که کمک کرد.. بزرگی به شکست آلمان‌ها کرد. این کار به همین راحتیا نبود و شکستن رمز ماشین انیگما به یک نبوغ بالا نیاز داشت.. نبوغی که فقط یک شخص داشت.. کسی که ازش به عنوان پدر هوش مصنوعی یاد می‌شود و نقش بسیار پررنگی در شکلگیری علوم کامپیوتری داشت.. اما عمره کوتاهش اجازه نداد که دستاوردهاشو تکمیل کنه.. آلن تورین کی بود؟ چطور تونست کد دستگاه رمزنگاری قدرتمند آلمان‌ها رو باز کنه؟. ماجرای تست مشهور تورینگ چیه و مرگ مشکوکش چطور رقم خورد؟. هی. حالا اینطوری این دانشمند علوم کامپیوتر، ریاضی‌دان و نابغه بریتانیایی است که به عنوان پدر علم کامپیوتر و هوش مصنوعی شناخته می‌شود.. دستاوردهای برجسته او در طول زندگی کوتاهش به قدری ارزشمند بوده که حتی امروزه قابل لمسه.. آلنتوری این یکی از برجسته‌ترین چهره‌های رمزگشایی از پیام‌های سری آلمان‌ها است.. در دوران جنگ جهانی دوم بود که نقش بسیار مهمی در کوتاه‌تر شدن جنگ داشت.. آلن متولد بیست و سوم ژوئن ۱۹۱۲ در لندن است.. پدرش، جولیوس متیوس تورینگ، ی

# Evaluation Metrics

In [5]:
# Initialize evaluation metrics
wer = evaluate.load("wer")
cer = evaluate.load("cer")

# Calculate WER and CER
wer_result = wer.compute(predictions=[normalized_model_output], references=[normalized_reference_output])
cer_result = cer.compute(predictions=[normalized_model_output], references=[normalized_reference_output])

print("WER:", wer_result)
print("CER:", cer_result)

Downloading builder script:   0%|          | 0.00/4.49k [00:00<?, ?B/s]

Downloading builder script:   0%|          | 0.00/5.60k [00:00<?, ?B/s]

WER: 0.40390749601275916
CER: 0.13643276124266782


# **Q5**

# Count of Verbs and Adverbs

In [8]:
# Import necessary libraries
from hazm import *

# Initialize normalizer and POS tagger
normalizer = Normalizer()
tagger = POSTagger (model = 'pos_tagger.model')

# Function to count verbs and adverbs
def count_verbs_adverbs(text):
    normalized_text = normalizer.normalize(text)
    tokens = word_tokenize(normalized_text)
    pos_tags = tagger.tag(tokens)

    verb_count = sum(1 for word, pos in pos_tags if pos.startswith('V'))  # Verbs
    adverb_count = sum(1 for word, pos in pos_tags if pos == 'ADV')       # Adverbs

    return verb_count, adverb_count

# Count verbs and adverbs in both texts
model_verbs, model_adverbs = count_verbs_adverbs(model_output)
reference_verbs, reference_adverbs = count_verbs_adverbs(reference_output)

# Print results
print("Model's Output: Count of Verbs:", model_verbs, "Count of Adverbs:", model_adverbs)
print("Reference's Output: Count of Verbs:", reference_verbs, "Count of Adverbs:", reference_adverbs)

Model's Output: Count of Verbs: 294 Count of Adverbs: 78
Reference's Output: Count of Verbs: 290 Count of Adverbs: 74


# **Q6**

# Root with the most repetitions

In [10]:
from collections import Counter

# Initialize normalizer and stemmer
normalizer = Normalizer()
stemmer = Stemmer()

# Function to find the root with the most repetitions
def find_most_repeated_root(text):
    normalized_text = normalizer.normalize(text)
    tokens = word_tokenize(normalized_text)
    stems = [stemmer.stem(word) for word in tokens]
    root_counts = Counter(stems)
    most_common_root, most_common_count = root_counts.most_common(1)[0]
    return most_common_root, most_common_count

# Find the most repeated root in each file
model_most_common_root, model_most_common_count = find_most_repeated_root(model_output)
reference_most_common_root, reference_most_common_count = find_most_repeated_root(reference_output)

# Print results
print("Model's Output: Most Common Root is ", model_most_common_root, "with the Count of", model_most_common_count)
print("Reference's Output: Most Common Root is", reference_most_common_root, "with the Count of", reference_most_common_count)

Model's Output: Most Common Root is  .. with the Count of 117
Reference's Output: Most Common Root is و with the Count of 108
