In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import WebDriverException
import time
import pandas as pd

# Initialize WebDriver
driver = webdriver.Chrome()  # You can replace Chrome with Firefox or other supported browsers

# Initialize an empty list to store the extracted data
all_data = []

# Define the base URL and the total number of pages
base_url = "https://www.mubasher.info/news/sa/pulse/stocks/"
total_pages = 219  # Replace this with the total number of pages

# Loop through each page and extract data
for page_num in range(1, total_pages + 1):
    # Construct the URL for the current page
    page_url = f"{base_url}{page_num}"
    
    # Open the webpage with a retry mechanism
    max_retries = 3
    for retry in range(max_retries):
        try:
            driver.get(page_url)
            break  # Exit loop on successful load
        except WebDriverException as e:
            if retry == max_retries - 1:
                raise e  # Raise the error on the last retry
            print(f"Retry {retry + 1}/{max_retries} due to: {e}")
        time.sleep(3)  # Wait between retries
    
    # Wait for the page to load
    driver.implicitly_wait(10)  # Adjust the wait time as needed
    
    # Find and extract the desired information
    articles = driver.find_elements(By.CLASS_NAME, "mi-article-media-block__content")
    for article in articles:
        title_element = article.find_element(By.CLASS_NAME, "mi-article-media-block__title")
        title = title_element.text.strip()

        date_element = article.find_element(By.CLASS_NAME, "mi-article-media-block__date")
        date = date_element.text.strip()

        tag_elements = article.find_elements(By.CLASS_NAME, "label")
        tag = tag_elements[0].text.strip() if tag_elements else "N/A"  # Use "N/A" if the tag is not found

        all_data.append({"Title": title, "Date": date, "Tag": tag})
        
    # Print progress
    print(f"Page {page_num}/{total_pages} done")
    
# Close the WebDriver
driver.quit()

# Create a DataFrame from the extracted data
df = pd.DataFrame(all_data)

# Save the DataFrame to a CSV file
csv_filename = "news_data.csv"
df.to_csv(csv_filename, index=False)

print("Data saved to", csv_filename)


Page 1/3 done
Page 2/3 done
Page 3/3 done
Data saved to news_data.csv


In [4]:
aa = pd.read_csv('news_data.csv')

In [5]:
aa

Unnamed: 0,Title,Date,Tag
0,"خسائر ""معدنية"" ترتفع 7.8% إلى 7.56 مليون ريال....",منذ لحظات,نتائج أعمال الشركات
1,"""أنابيب"" تفوز بعقد من ""أرامكو السعودية"" بقيمة ...",34 دقائق مضت,أخبار الشركة
2,"""البحري"" تمدد مذكرة مع ""مجموعة عجلان"" لبحث إنش...",48 دقائق مضت,استثمارات الشركات
3,"لجنة المنازعات الزكوية تلزم ""جبل عمر"" بتسديد 3...",53 دقائق مضت,ضرائب
4,"""أليانز"" تتحول للربحية بـ 13.16 مليون ريال خلا...",1 ساعة مضت,نتائج أعمال الشركات
...,...,...,...
5449,"19 أبريل.. مساهمو ""أنعام القابضة"" يناقشون زياد...",27 مارس 2022 09:53 ص,جمعيات عمومية
5450,"""المعمر"": ترسية مشروع مع وزارة المياه والزراعة...",27 مارس 2022 09:51 ص,أخبار الشركة
5451,"المنافسة تقر عملية التركز الاقتصادي لاستحواذ ""...",27 مارس 2022 09:46 ص,اندماجات واستحواذات
5452,""" دار الأركان"" توقع عقداً مع ""عمران"" العمانية ...",27 مارس 2022 09:40 ص,أخبار الشركة
