# Importing Modules and Libraries

We use `requests` and `BeautifulSoup` for web scraping

We use `hazm` for Persian text Processing.

In [1]:
import requests
from bs4 import BeautifulSoup

from hazm import *

# Web Scraping

news1: sports - football

news2: astronomy

news3: sports - football

## Getting data from URL

In [2]:
# NEWS URLs
NEWS1_url:str = r'https://www.tasnimnews.com/fa/news/1403/07/18/3174479/%D8%A2%D8%B2%D9%85%D9%88%D9%86-%D9%85%DB%8C-%D8%AF%D8%A7%D9%86%DB%8C%D9%85-%DA%86%D8%B7%D9%88%D8%B1-%D9%85%D9%82%D8%A7%D8%A8%D9%84-%D8%A7%D8%B2%D8%A8%DA%A9%D8%B3%D8%AA%D8%A7%D9%86-%D8%A8%D8%A7%D8%B2%DB%8C-%DA%A9%D9%86%DB%8C%D9%85'
NEWS2_url:str = r'https://www.tasnimnews.com/fa/news/1403/07/16/3173500/%D9%BE%D8%A7%DB%8C%D8%B4-%D8%B4%D8%AF%D8%AA-%D8%A2%D9%84%D9%88%D8%AF%DA%AF%DB%8C-%D9%87%D9%88%D8%A7%DB%8C-%D8%AA%D9%87%D8%B1%D8%A7%D9%86-%D8%A8%D8%A7-%D8%A7%D8%B3%D8%AA%D9%81%D8%A7%D8%AF%D9%87-%D8%A7%D8%B2-%D8%AA%D8%B5%D8%A7%D9%88%DB%8C%D8%B1-%D9%85%D8%A7%D9%87%D9%88%D8%A7%D8%B1%D9%87-%D8%A7%DB%8C'
NEWS3_url:str = r'https://www.tasnimnews.com/fa/news/1403/07/18/3174432/%D8%A8%DA%AF%DB%8C%D8%B1%DB%8C%D8%B3%D8%AA%D8%A7%DB%8C%D9%86-%D8%AF%D8%B1-%D9%BE%D8%A7%DB%8C%D8%A7%D9%86-%D9%81%D8%B5%D9%84-%D9%85%D9%86%DA%86%D8%B3%D8%AA%D8%B1%D8%B3%DB%8C%D8%AA%DB%8C-%D8%B1%D8%A7-%D8%AA%D8%B1%DA%A9-%D9%85%DB%8C-%DA%A9%D9%86%D8%AF'

# Requests to the server
news1_response = requests.get(NEWS1_url)
news2_response = requests.get(NEWS2_url)
news3_response = requests.get(NEWS3_url)


# Basically handling error
if news1_response.status_code != 200:
    raise Exception(f'The First NEWS Was not fetch with code: {news1_response.status_code}')

if news2_response.status_code != 200:
    raise Exception(f'The Second NEWS Was not fetch with code: {news2_response.status_code}')

if news3_response.status_code != 200:
    raise Exception(f'The Third NEWS Was not fetch with code: {news3_response.status_code}')

# Saving html contents in a dictionary
html_contents = {'n1': news1_response.text, 'n2': news2_response.text, 'n3':news3_response.text}

## Parsing HTML contents with soup
The text of each article is in a `div` with the `story` class.

In [7]:
extracted_texts = dict()

for idx, html_content in html_contents.items():
    soup = BeautifulSoup(html_content, 'html.parser')
    article = soup.find('div', class_='story').getText()
    article = article.replace('\u200c', ' ')
    article = article.replace('انتهای پیام/', '')
    extracted_texts[idx] = article

In [9]:
extracted_texts

{'n1': ' - اخبار ورزشی - به گزارش خبرنگار اعزامی خبرگزاری تسنیم از ازبکستان، سردار آزمون مهاجم تیم ملی فوتبال ایران در نشست خبری پیش از دیدار مقابل ازبکستان در مرحله سوم انتخابی جام جهانی 2026 در قاره آسیا، اظهار داشت: بازی سختی است، همیشه جلوی ازبکستان بازی سختی داشتیم، ولی ما به عنوان بازیکن می دانیم که چطور مقابل این تیم بازی کنیم. سه امتیاز این بازی برای ما اهمیت زیادی دارد و امیدواریم بتوانیم این سه امتیاز را به دست بیاوریم و راه مان را همین طور ادامه دهیم.قلعه نویی:از هر نظر آماده بازی با ازبکستانیم/کشور ما امن است\xa0در ادامه نشست خبری یک خبرنگار ازبکستانی از امیر قلعه نویی سؤالی درباره ضعف خط دفاعی تیم ملی ایران پرسید و گفت با این ضعف چه راهکاری برای مقابله با خط حمله ازبکستان اندیشیده اند که این سؤال با واکنش سردار آزمون مواجه شد و مهاجم تیم ملی کشورمان گفت: ببخشید اما با وجود اینکه شما این ضعف را می گویید، اما آخرین باری که ما را بردید کی بوده است؟!مهاجم تیم ملی فوتبال کشورمان در واکنش به کری خوانی یک بازیکن ازبکستان گفت: به عنوان بازیکن کری خوانی را دوست دارم، اما اگر منطقی 

# Processing Articles' Text

## Keyword Extraction

### Normalizing the Texts

In [34]:
candids = []

# Normalizer
normalizer = Normalizer()
normalize_text = normalizer.normalize(extracted_texts['n1'])
normalize_text.replace(',', '')

# Tokenized
tokenize_text = [word_tokenize(txt) for txt in sent_tokenize(normalize_text)]

# Stop Word Removal
stop_words = stopwords_list()

# Stemming
stemmer = Stemmer()

for sent in tokenize_text:
    for word in sent:
        if word not in stop_words:
            candids.append(word)
        
            


['-',
 'اخبار',
 'ورزشی',
 '-',
 'گزارش',
 'خبرنگار',
 'اعزامی',
 'خبرگزاری',
 'تسنیم',
 'ازبکستان',
 '،',
 'سردار',
 'آزمون',
 'مهاجم',
 'تیم',
 'ملی',
 'فوتبال',
 'ایران',
 'خبری',
 'دیدار',
 'مقابل',
 'ازبکستان',
 'مرحله',
 'انتخابی',
 'جام',
 'جهانی',
 '۲۰۲۶',
 'قاره',
 'آسیا',
 '،',
 'اظهار',
 ':',
 'بازی',
 'سختی',
 '،',
 'جلوی',
 'ازبکستان',
 'بازی',
 'سختی',
 'داشتیم',
 '،',
 'عنوان',
 'بازیکن',
 'می\u200cدانیم',
 'چطور',
 'مقابل',
 'تیم',
 'بازی',
 '.',
 'امتیاز',
 'بازی',
 'اهمیت',
 'امیدواریم',
 'بتوانیم',
 'امتیاز',
 'دست',
 'بیاوریم',
 'مان',
 'ادامه',
 'دهیم',
 '.',
 'قلعه',
 'نویی',
 ':',
 'آماده',
 'بازی',
 'ازبکستانیم',
 '/',
 'کشور',
 'امن',
 'ادامه',
 'خبری',
 'خبرنگار',
 'ازبکستانی',
 'امیر',
 'قلعه',
 'نویی',
 'سؤالی',
 'ضعف',
 'خط',
 'دفاعی',
 'تیم',
 'ملی',
 'ایران',
 'پرسید',
 'ضعف',
 'راهکاری',
 'مقابله',
 'خط',
 'حمله',
 'ازبکستان',
 'اندیشیده\u200cاند',
 'سؤال',
 'واکنش',
 'سردار',
 'آزمون',
 'مهاجم',
 'تیم',
 'ملی',
 'کشورمان',
 ':',
 'ببخشید',
 'ضعف',
 'می\

In [5]:
# The dictionary which will save step by step results of each phase
texts = dict()

In [None]:
for idx, text in extracted_texts.items():
    normalizer = Normalizer()
    
    normalize_text = normalizer.normalize(text)
    
    