<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
وارد کردن کتابخانه‌ها
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش، کتابخانه‌های مختلفی برای انجام پردازش‌های مختلف بر روی داده‌ها وارد می‌شوند. این کتابخانه‌ها شامل <b>random</b> برای تولید اعداد تصادفی، <b>re</b> برای کار با عبارات منظم، <b>nltk</b> برای پردازش زبان طبیعی، <b>pandas</b> برای تجزیه و تحلیل داده‌ها، <b>math</b> برای محاسبات ریاضی، و <b>matplotlib</b> برای رسم نمودارها هستند. همچنین برای توکنایز کردن داده‌ها، کتابخانه <b>nltk</b> بارگذاری می‌شود.
</font>
</p>

In [1]:
import random
import re
from collections import defaultdict
import nltk
import pandas as pd
import math
import matplotlib.pyplot as plt

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
خواندن داده‌ها
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش داده‌ها از فایل متنی <b>twits.txt</b> بارگذاری می‌شوند. پس از خواندن داده‌ها، نوع داده و طول آن و همچنین اولین ۵۰۰ کاراکتر آن چاپ می‌شود تا بررسی اولیه‌ای از داده‌ها داشته باشیم.
</font>
</p>

In [2]:
# Read the data
with open("../Data/twits.txt", "r", encoding="utf-8") as f:
    data = f.read()

print("Data type:", type(data))
print("Number of characters:", len(data))
print("First 500 characters:", data[:500])

Data type: <class 'str'>
Number of characters: 3256325
First 500 characters: How are you? Btw thanks for the RT. You gonna be in DC anytime soon? Love to see you. Been way, way too long.
When you meet someone special... you'll know. Your heart will beat more rapidly and you'll smile for no reason.
they've decided its more fun if I don't.
So Tired D; Played Lazer Tag & Ran A LOT D; Ughh Going To Sleep Like In 5 Minutes ;)
Words from a complete stranger! Made my birthday even better :)
First Cubs game ever! Wrigley field is gorgeous. This is perfect. Go Cubs Go!
i no! i ge


<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
توکنایز کردن متن
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش، باید تابعی برای پیش‌پردازش داده‌ها بنویسید که شامل مراحل زیر باشد:
<ul>
    <li>تبدیل تمام متن به حروف کوچک</li>
    <li>حذف علائم نگارشی</li>
    <li>توکنایز کردن متن به جملات و سپس به کلمات</li>
</ul>
شما باید این توابع را به گونه‌ای بنویسید که بتوانید داده‌ها را آماده استفاده در مراحل بعدی کنید.
</font>
</p>

In [3]:
from nltk.tokenize import word_tokenize
def preprocess_text(text):
    """
    Preprocess the input text: lowercase, remove special characters, and tokenize sentences.
    """
    text = text.lower()
    text = re.sub('[!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]', '', text)
    sentences = word_tokenize(text)
    return sentences

# Preprocess the data
sentences = preprocess_text(data)

# Display the first 5 sentences
print("\nPreprocessed Sentences:")
print(sentences[:5])


Preprocessed Sentences:
['how', 'are', 'you', 'btw', 'thanks']


<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
جایگزینی کلمات خارج از واژه‌نامه با <b>&lt;unk&gt;</b>
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این مرحله شما باید تابعی بنویسید که کلمات خارج از واژه‌نامه را با کلمه خاصی مانند <b>&lt;unk&gt;</b> جایگزین کند. این تابع باید به طور خودکار کلماتی که در واژه‌نامه وجود ندارند را شناسایی کرده و آن‌ها را با این کلمه خاص جایگزین نماید.
</font>
</p>

In [4]:
# TODO
def replace_oov_words_by_unk(tokenized_sentences, vocabulary, unknown_token="<unk>"):
    """
    Replace words not in the given vocabulary with '<unk>' token.
    """
    a = []
    for words in tokenized_sentences:
        if words in vocabulary:
            a.append(words)
        else:
            a.append(unknown_token)

    return a

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
استخراج کلمات با فرکانس n یا بیشتر
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش باید تابعی بنویسید که کلمات با فرکانس n یا بیشتر را از داده‌ها استخراج کند. این کار کمک می‌کند تا فقط کلمات پرکاربرد در مدل استفاده شوند و کلمات نادر که ممکن است در پیش‌بینی‌های مدل اثر منفی داشته باشند، حذف شوند.
</font>
</p>

In [5]:
list((pd.Series(sentences).value_counts() > 10).index)

['the',
 'to',
 'i',
 'a',
 'you',
 'and',
 'for',
 'in',
 'is',
 'of',
 'it',
 'my',
 'on',
 'that',
 'me',
 'be',
 'at',
 'with',
 'so',
 'your',
 'have',
 'this',
 'are',
 'im',
 'just',
 'we',
 'not',
 'like',
 'but',
 'its',
 'all',
 'was',
 'out',
 'up',
 'get',
 'what',
 'if',
 'love',
 'do',
 'good',
 'can',
 'will',
 'thanks',
 'about',
 'day',
 'dont',
 'rt',
 'now',
 'one',
 'from',
 'when',
 'know',
 'no',
 'great',
 'u',
 'time',
 'go',
 'how',
 'today',
 'or',
 'an',
 'they',
 'new',
 'as',
 'lol',
 'see',
 'got',
 'more',
 'our',
 'by',
 'there',
 'some',
 'back',
 'he',
 'too',
 'who',
 'going',
 'cant',
 'us',
 'would',
 'need',
 'think',
 'follow',
 'people',
 'want',
 'happy',
 'well',
 'right',
 'has',
 'tonight',
 'make',
 'been',
 'really',
 'only',
 'work',
 'were',
 'am',
 '3',
 'thats',
 'much',
 'thank',
 'should',
 'had',
 'night',
 'come',
 'did',
 'youre',
 'why',
 'here',
 'off',
 'still',
 'them',
 'na',
 'best',
 'her',
 'last',
 'way',
 'his',
 'never',

In [6]:
# TODO
def get_words_with_nplus_frequency(data, n):
    """
    Get words appearing n or more times in the data.
    """
    out = list((pd.Series(data).value_counts() >= n).index)

    return out

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
پیش‌پردازش داده‌ها
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این مرحله داده‌ها برای استفاده در مدل آماده می‌شوند. این کار شامل تقسیم داده‌ها به داده‌های آموزشی و آزمایشی و سپس جایگزینی کلمات خارج از واژه‌نامه با <b>&lt;unk&gt;</b> است. همچنین برای واژه‌نامه، کلمات با فرکانس n یا بیشتر استخراج می‌شوند.
</font>
</p>

In [7]:
# TODO
def preprocess_data(train_data, count_threshold):
    """
    Preprocess data to handle out-of-vocabulary words by replacing them with <unk>.
    """
    vocabulary = get_words_with_nplus_frequency(train_data, count_threshold)
    train_data_replaced = replace_oov_words_by_unk(train_data, vocabulary)

    return train_data_replaced, vocabulary


# Apply preprocessing
train_sentences = sentences[:int(0.8 * len(sentences))]
test_sentences = sentences[int(0.8 * len(sentences)):]
train_sentences_replaced, vocabulary = preprocess_data(train_sentences, count_threshold=5)
test_sentences_replaced = replace_oov_words_by_unk(test_sentences, vocabulary)

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
ایجاد n-gramها
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این مرحله باید تابعی بنویسید که n-gramها را از مجموعه توکن‌ها تولید کند. یک n-gram مجموعه‌ای از n کلمه است که در کنار هم آمده‌اند. این کار به مدل کمک می‌کند تا الگوهای موجود در داده‌ها را یاد بگیرد.
</font>
</p>

In [8]:
test_sentences_replaced[1:5]

['no', 'lmao', 'she', 'used']

In [9]:
# TODO
def generate_ngrams(tokens, n):
    """
    Generate n-grams from a list of tokens.
    """
    b = []
    for i in range(len(tokens)-n+1):
        a = tokens[i:i+n]
        b.append(a)
    return b

In [10]:
mm = generate_ngrams(test_sentences_replaced, 3)
pd.Series(mm)

0              [teachers, no, lmao]
1                   [no, lmao, she]
2                 [lmao, she, used]
3                   [she, used, to]
4                   [used, to, sit]
                    ...            
118327    [sent, ticket, yesterday]
118328    [ticket, yesterday, thnx]
118329       [yesterday, thnx, can]
118330            [thnx, can, take]
118331             [can, take, you]
Length: 118332, dtype: object

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
ساخت مدل n-gram
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این مرحله شما باید مدل n-gram را بسازید. مدل باید از جملات توکنایز شده استفاده کرده و تعداد وقوع n-gramها را محاسبه کند. این مدل برای تولید جملات جدید و محاسبه احتمال وقوع جملات استفاده می‌شود.
</font>
</p>

In [22]:
from collections import Counter
a = generate_ngrams(train_sentences_replaced, 3)
a = a[:100]
Counter(tuple(a) for a in a)

Counter({('how', 'are', 'you'): 1,
         ('are', 'you', 'btw'): 1,
         ('you', 'btw', 'thanks'): 1,
         ('btw', 'thanks', 'for'): 1,
         ('thanks', 'for', 'the'): 1,
         ('for', 'the', 'rt'): 1,
         ('the', 'rt', 'you'): 1,
         ('rt', 'you', 'gon'): 1,
         ('you', 'gon', 'na'): 1,
         ('gon', 'na', 'be'): 1,
         ('na', 'be', 'in'): 1,
         ('be', 'in', 'dc'): 1,
         ('in', 'dc', 'anytime'): 1,
         ('dc', 'anytime', 'soon'): 1,
         ('anytime', 'soon', 'love'): 1,
         ('soon', 'love', 'to'): 1,
         ('love', 'to', 'see'): 1,
         ('to', 'see', 'you'): 1,
         ('see', 'you', 'been'): 1,
         ('you', 'been', 'way'): 1,
         ('been', 'way', 'way'): 1,
         ('way', 'way', 'too'): 1,
         ('way', 'too', 'long'): 1,
         ('too', 'long', 'when'): 1,
         ('long', 'when', 'you'): 1,
         ('when', 'you', 'meet'): 1,
         ('you', 'meet', 'someone'): 1,
         ('meet', 'someone', 's

In [20]:
from collections import Counter

def build_ngram_model(sentences, n):
    """
    Build an n-gram model from the tokenized sentences.
    Returns a dictionary with n-grams as keys and their counts as values.
    """
    # Generate n-grams
    ngrams = generate_ngrams(sentences, n)
    # Count n-grams using Counter
    ngram_counts = Counter(tuple(ngram) for ngram in ngrams)
    return dict(ngram_counts)

# Build the n-gram model
n = 3
ngram_model = build_ngram_model(train_sentences_replaced, n)

# Display a sample of the n-gram model
print("\nN-gram Model (Sample):")
for key, value in list(ngram_model.items())[:5]:
    print(f"{key}: {value}")


N-gram Model (Sample):
('how', 'are', 'you'): 53
('are', 'you', 'btw'): 1
('you', 'btw', 'thanks'): 1
('btw', 'thanks', 'for'): 2
('thanks', 'for', 'the'): 376


TypeError: 'dict_keys' object is not subscriptable

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
تولید جملات
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش شما باید تابعی بنویسید که با استفاده از مدل n-gram جملات جدیدی تولید کند. این تابع باید به طور تصادفی کلمات را از مدل انتخاب کرده و جمله‌ای را بسازد. طول جمله‌ها نیز محدودیت دارد.
</font>
</p>

In [48]:
# TODO
def generate_sentence(ngram_model, n, sentence_length=15):
    """
    Generate a random sentence of specified length using an n-gram model.
    
    Args:
        ngram_model (dict): Dictionary with n-grams (tuples) as keys and counts as values.
        n (int): The n-gram order (e.g., 3 for trigrams).
        sentence_length (int): Number of words in the generated sentence.
    
    Returns:
        str: A random sentence with specified length.
    """
    # Convert n-grams to list for weighted sampling
    ngrams = list(ngram_model.keys())
    weights = list(ngram_model.values())
    
    # Start with a random n-gram
    current_ngram = random.choices(ngrams, weights=weights, k=1)[0]
    sentence = list(current_ngram)
    
    # Generate subsequent words
    while len(sentence) < sentence_length:
        # Find n-grams that start with the last (n-1) words of current sentence
        prefix = tuple(sentence[-(n-1):]) if n > 1 else ()
        candidates = [ng for ng in ngrams if ng[:n-1] == prefix]
        candidate_weights = [ngram_model[ng] for ng in candidates]
        
        if not candidates:
            # If no matching n-grams, pick a random n-gram to continue
            current_ngram = random.choices(ngrams, weights=weights, k=1)[0]
            sentence.extend(current_ngram)
        else:
            # Sample next n-gram based on counts
            next_ngram = random.choices(candidates, weights=candidate_weights, k=1)[0]
            # Append only the last word of the next n-gram
            sentence.append(next_ngram[-1])
    
    # Trim to exact length if necessary
    sentence = sentence[:sentence_length]
    
    # Join words into a sentence
    return ' '.join(sentence)

# Example usage
n = 3
random_sentence = generate_sentence(ngram_model, n, sentence_length=15)
print("\nGenerated Random Sentence:")
print(random_sentence)


Generated Random Sentence:
the roboto boardi dont have the memories ill never write a hit hi naddem this


<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
محاسبه پرپلکسیتی
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این مرحله، شما باید پرپلکسیتی یک جمله را محاسبه کنید. پرپلکسیتی معیاری است که نشان می‌دهد مدل چقدر خوب است. هر چه پرپلکسیتی کمتر باشد، مدل بهتر است. شما باید این تابع را با استفاده از مدل n-gram و با اعمال هم‌سطحی (smoothing) بنویسید.
</font>
</p>

In [49]:
# TODO
def calculate_perplexity(sentence, ngram_model, n, smoothing_factor=1e-10):
    """
    Calculate the perplexity of a sentence using the n-gram model with smoothing.
    
    Args:
        sentence (str): The input sentence.
        ngram_model (dict): Dictionary with n-grams (tuples) as keys and counts as values.
        n (int): The n-gram order.
        smoothing_factor (float): Smoothing factor for unseen n-grams.
    
    Returns:
        float: Perplexity of the sentence.
    """
    # Tokenize sentence
    tokens = sentence.split()
    if len(tokens) < n:
        return float('inf')  # Return infinity for sentences too short for n-grams
    
    # Vocabulary size (approximated as total unique n-grams)
    vocab_size = len(set(ngram_model.keys()))
    
    log_prob = 0.0
    total_ngrams = sum(ngram_model.values())  # Total n-gram counts
    
    for i in range(len(tokens) - n + 1):
        # Extract n-gram
        ngram = tuple(tokens[i:i+n])
        prefix = ngram[:-1] if n > 1 else ()  # Prefix for conditional probability
        
        # Count prefix occurrences
        prefix_count = sum(ngram_model.get((prefix + (w,)), 0) for w in set(tokens))
        
        # Apply smoothing
        ngram_count = ngram_model.get(ngram, 0) + smoothing_factor
        prefix_count = prefix_count + smoothing_factor * vocab_size if prefix_count > 0 else smoothing_factor * vocab_size
        
        # Calculate probability with smoothing
        prob = ngram_count / prefix_count
        log_prob += math.log2(prob) if prob > 0 else float('-inf')
    
    # Calculate perplexity
    if log_prob == float('-inf'):
        return float('inf')
    avg_log_prob = -log_prob / (len(tokens) - n + 1)
    return 2 ** avg_log_prob

# Calculate perplexity for generated sentences
perplexities = [calculate_perplexity(sentence, ngram_model, n) for sentence in random_sentence]

# Plot the perplexity distribution
#plt.hist(perplexities, bins=20, edgecolor='black')
#plt.title('Perplexity Distribution of Generated Sentences')
#plt.xlabel('Perplexity')
#plt.ylabel('Frequency')
#plt.show()

<h2 align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
ذخیره نتایج و فشرده‌سازی فایل‌ها
</font>
</h2>
<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
در این بخش، جملات تولید شده و پرپلکسیتی های آن‌ها در یک فایل CSV ذخیره می‌شوند و سپس این فایل‌ها به همراه نوت‌بوک <b>auto_complete.ipynb</b> در یک فایل فشرده ZIP ذخیره می‌شوند تا برای ارزیابی و ارسال آماده شوند.
</font>
</p>

In [50]:
generated_sentences = [generate_sentence(ngram_model, n) for _ in range(500)]
perplexities = [calculate_perplexity(sentence, ngram_model, n) for sentence in generated_sentences]

results = pd.DataFrame({'generated_sentence': generated_sentences, 'perplexity': perplexities})
results.to_csv("generated_sentences.csv", index=False)

print("\n500 sentences with perplexities saved to 'generated_sentences.csv'")


500 sentences with perplexities saved to 'generated_sentences.csv'


In [51]:
import zipfile

# List of files to be zipped
files_to_zip = ['auto_complete.ipynb', 'generated_sentences.csv']
zip_filename = 'submission.zip'

# Create the zip file
with zipfile.ZipFile(zip_filename, 'w') as zipf:
    for file in files_to_zip:
        try:
            zipf.write(file)
            print(f"Added {file} to {zip_filename}")
        except FileNotFoundError:
            print(f"Warning: {file} not found. Skipping.")

print(f"Files have been zipped into {zip_filename}, you can now submit it!")

Added auto_complete.ipynb to submission.zip
Added generated_sentences.csv to submission.zip
Files have been zipped into submission.zip, you can now submit it!
