# News Similarity Checker

#### Hiva Abolhadizadeh

This project is developed as part of a data mining course. It compares two news articles from different Persian news channels using Cosine Similarity to determine if they are duplicates. If they are similar, only one article is printed; otherwise, both are shown.

1. Fetching News Data:
- Retrieve or manually input two news articles from different Persian news sources (this could involve web scraping or using a dataset).
2. Preprocessing the Text:
- Tokenize the text (split it into words).
- Remove stop words (common Farsi words like "و", "که", etc.).
- Normalize the text (remove punctuation, convert text to lowercase, handle diacritics, etc.).
3. Convert Text to Vector Representation:
- Use techniques like TF-IDF (Term Frequency-Inverse Document Frequency) to represent the news articles as vectors.
4. Calculate Cosine Similarity:
- Calculate the cosine similarity between the two vectors to measure how similar the articles are.
5. Compare and Print Results:
- If the cosine similarity exceeds a certain threshold (e.g., 0.9), print one article (indicating they are duplicates).
- Otherwise, print both articles.

## Fetching News Data

In [6]:
import requests
from bs4 import BeautifulSoup

In [7]:
def get_latest_article_link(url, link_selector):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    #CSS Selector
    article_link = soup.select_one(link_selector)
    
    if article_link:
        
        article_url = article_link['href']
        
        if article_url.startswith('/'):
            article_url = url + article_url
        
        return article_url
    return None


In [8]:
def get_article_text(article_url, article_text_selector):
    response = requests.get(article_url)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    article = soup.select_one(article_text_selector)
    
    return article.get_text() if article else None

In [33]:
url_1 = 'https://www.asriran.com/'
url_2 = 'https://www.tabnak.ir/'

link_selector_1 = '.tab-pane.fade.in.active .title5' # it is different base on website html
link_selector_2 = '.title5'

article_text_selector_1 = '.body'  # Selector - it is different base on website html
article_text_selector_2 = '.body'

In [34]:
latest_article_link_1 = get_latest_article_link(url_1, link_selector_1)
latest_article_link_2 = get_latest_article_link(url_2, link_selector_2)

In [35]:
if latest_article_link_1:
    print(f"Latest Article from Site 1: {latest_article_link_1}")
    
    article_text_1 = get_article_text(latest_article_link_1, article_text_selector_1)
    print(f"Article Text from Site 1:\n{article_text_1}\n")

if latest_article_link_2:
    print(f"Latest Article from Site 2: {latest_article_link_2}")
    
    article_text_2 = get_article_text(latest_article_link_2, article_text_selector_2)
    print(f"Article Text from Site 2:\n{article_text_2}\n")

Latest Article from Site 1: https://www.asriran.com//fa/news/1004079/مانچینی-ژاپن-بهترین-تیم-آسیا-است-عربستان-برای-شکست-این-غول-به-میدان-می‌رود
Article Text from Site 1:
 روبرتو مانچینی، سرمربی عربستان، در نشست خبری دیدار فردا مقابل ژاپن به ستایش از حریف پرداخت.
به گزارش "ورزش سه"، تیم ملی عربستان فردا در استادیوم ملک ‏عبدالله میزبان ژاپن است. عربستانی‌ها در دشوارترین بازی خود در ‏مقدماتی جام جهانی باید به مصاف تیم هاجمیه موریاسو بروند.
عربستان در فیفا دی سپتامبر ابتدا در خانه خودش مقابل اندونزی 1-1 ‏متوقف شد. این نتیجه باعث شد انتقادها در عربستان علیه مانچینی ‏و تیمش اوج بگیرد. با این حال پیروزی 2-1 آنها در چین مقابل تیم ‏برانکو ایوانکوویچ کمک کرد تا اوضاع در عربستان کمی آرام شود. ‏
مانچینی در نشست خبری بازی با ژاپن به خبرنگاران گفت که ژاپن ‏بدون هیچ شک و تردیدی در حال حاضر قوی‌ترین تیم ملی آسیا ‏است. ‏
سرمربی عربستان در این نشست خبری گفت: "قبل از اینکه درباره ‏مسائل دیگر صحبت کنم برای کاپیتان فهد المولد آرزوی سلامتی ‏دارم. فردا یک بازی بسیار بزرگ در پیش داریم مقابل تیمی که در حال ‏حا

## Preprocessing the Text

In [36]:
from hazm import Normalizer, word_tokenize, Stemmer, Lemmatizer, stopwords_list
import re

In [37]:
# Preprocessing with Hazm
normalizer = Normalizer()
stemmer = Stemmer()
lemmatizer = Lemmatizer()
stop_words = set(stopwords_list())

def preprocess_persian_text(text):
    # Normalize the text
    text = normalizer.normalize(text)
    
    # Tokenize the text into words
    tokens = word_tokenize(text)
    
    # Remove stop words and apply stemming/lemmatization
    cleaned_tokens = [
        lemmatizer.lemmatize(stemmer.stem(token)) 
        for token in tokens if token not in stop_words and re.match(r'^\w+$', token)
    ]
    
    return ' '.join(cleaned_tokens)


In [38]:
# Preprocess both articles
article_1_clean = preprocess_persian_text(article_text_1)
article_2_clean = preprocess_persian_text(article_text_2)

print("Processed Article 1:", article_1_clean)
print("Processed Article 2:", article_2_clean)

Processed Article 1: روبرتو مانچین سرمرب عربس خبر دیدار فردا مقابل ژاپن ستا حریف پرداخ گزار ورز ت مل عربس فردا استادیو ملک میزب ژاپن دشوار باز جا جهان مصاف ت هاجمیه موریاسو رفت#رو عربس فیفا د سپتامبر خانه مقابل اندونز ۱ ۱ نتیجه انتقاد عربس مانچین تیم اوج گرفت#گیر پیروز ۲ ۱ چین مقابل ت ایوانکوویچ کمک اوضاع عربس آرا مانچین خبر باز ژاپن خبرنگار ژاپن شک تردید حاضر ت مل آسیا سرمرب عربس خبر صحب کاپ فهد المولد آرزو سلامت فردا باز مقابل تیم شک ت مل آسیا تیم درجه مانچین ادامه ترس ندار منتظر نمایش باز تاکتیک سوال جواب تاکتیک نخور گل بزن خبرنگار عربستان اس بردن مانچین ژاپن عنو ت آسیا دلخور خواس توضیح داد#ده بله ت آسیا تفاو کیف بازیکن مانچین ادامه پیا بازیکن تمرکز باز باز فردا فرصت حریف بده فرصت دس استفاده همانطور تعریف ژاپن معنا ترس باز فردا برد مید کانال عصر ایر تلگرا تماشاخانه سخنران ترومن نقشه فلسطین استفاده کلمه صهیونیس راندن فلسطین ز فیل بالستیک ایر اسرائیل رسید#رس گنبد آهنین نتوانس رهگیر فیل عضو اینستاگرا عصر ایر ۱۵ سال روز لحظه حافظ نظر کاربر
Processed Article 2: گزار تابناک ساز هواشناس صد

## Convert Text to Vector Representation and Calculate Cosine Similarity

In [39]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Function to compute cosine similarity
def compute_cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform([text1, text2])
    cosine_sim = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])
    return cosine_sim[0][0]

# Calculate cosine similarity
similarity = compute_cosine_similarity(article_1_clean, article_2_clean)
print(f"Cosine Similarity: {similarity}")


Cosine Similarity: 0.004070747502003373


In [41]:
# Threshold to determine if articles are duplicates
threshold = 0.9  # Adjust based on desired similarity level
if similarity > threshold:
    print("The articles are duplicates.")
    print("-------------------------------------------------------------")
    print(latest_article_link_1)
    print(article_text_1)
else:
    print("The articles are not duplicates.")
    print("-----------------------------------------------------------------------------------------------------")
    print('Article 1 is:')
    print(latest_article_link_1)
    print(article_text_1)
    print("-----------------------------------------------------------------------------------------------------")
    print('Article 2 is:')
    print(latest_article_link_2)
    print(article_text_2)

The articles are not duplicates.
-----------------------------------------------------------------------------------------------------
Article 1 is:
https://www.asriran.com//fa/news/1004079/مانچینی-ژاپن-بهترین-تیم-آسیا-است-عربستان-برای-شکست-این-غول-به-میدان-می‌رود
 روبرتو مانچینی، سرمربی عربستان، در نشست خبری دیدار فردا مقابل ژاپن به ستایش از حریف پرداخت.
به گزارش "ورزش سه"، تیم ملی عربستان فردا در استادیوم ملک ‏عبدالله میزبان ژاپن است. عربستانی‌ها در دشوارترین بازی خود در ‏مقدماتی جام جهانی باید به مصاف تیم هاجمیه موریاسو بروند.
عربستان در فیفا دی سپتامبر ابتدا در خانه خودش مقابل اندونزی 1-1 ‏متوقف شد. این نتیجه باعث شد انتقادها در عربستان علیه مانچینی ‏و تیمش اوج بگیرد. با این حال پیروزی 2-1 آنها در چین مقابل تیم ‏برانکو ایوانکوویچ کمک کرد تا اوضاع در عربستان کمی آرام شود. ‏
مانچینی در نشست خبری بازی با ژاپن به خبرنگاران گفت که ژاپن ‏بدون هیچ شک و تردیدی در حال حاضر قوی‌ترین تیم ملی آسیا ‏است. ‏
سرمربی عربستان در این نشست خبری گفت: "قبل از اینکه درباره ‏مسائل دیگر صحبت کنم برای کاپیت