<a href="https://colab.research.google.com/github/kawshik-ornob8/Scraping/blob/main/News%20Scraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import requests
import csv
import xml.etree.ElementTree as ET
from bs4 import BeautifulSoup
import time

# Use requests.Session() for persistent connection
session = requests.Session()
session.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36'
})

# Function to fetch and parse the sitemap
def fetch_sitemap(sitemap_url):
    response = session.get(sitemap_url)

    print(f"Fetching sitemap: {sitemap_url}")
    print(f"Response Code: {response.status_code}")
    if response.status_code == 200:
        try:
            root = ET.fromstring(response.content)
            news_urls = []
            for url in root.iter('{http://www.sitemaps.org/schemas/sitemap/0.9}loc'):
                news_urls.append(url.text)
            return news_urls
        except ET.ParseError as e:
            print(f"XML ParseError for {sitemap_url}: {e}")
            return []
    else:
        print(f"Error fetching sitemap: {response.status_code}")
        return []

# Function to scrape news article title and content
def scrape_article(url):
    try:
        response = session.get(url)
        soup = BeautifulSoup(response.content, 'html.parser')

        title = soup.find('h1').text if soup.find('h1') else None

        content = ''
        for p in soup.find_all('p'):
            content += p.text + ' '

        return {"Title": title, "Content": content.strip()}
    except Exception as e:
        print(f"Error scraping {url}: {e}")
        return None

In [None]:
# Main execution
sitemap_urls = [
    'https://www.bd-pratidin.com/daily-sitemap/2024-09-20/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-21/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-22/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-23/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-24/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-25/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-26/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-27/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-28/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-29/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-09-30/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-01/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-02/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-03/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-04/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-05/sitemap.xml',
'https://www.bd-pratidin.com/daily-sitemap/2024-10-06/sitemap.xml'


]

In [None]:
all_news_urls = []
for sitemap_url in sitemap_urls:
    all_news_urls.extend(fetch_sitemap(sitemap_url))
    time.sleep(0)  # Add delay between sitemap fetches

# Prepare a CSV file to store the news data
with open('bd-pratidin part4.csv', 'w', newline='', encoding='utf-8') as csvfile:
    fieldnames = ['Title', 'Content']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()

    for url in all_news_urls:
        news = scrape_article(url)
        if news:
            writer.writerow(news)
            print(f"Scraped: {news['Title']}")
            time.sleep(0)  # Delay between article fetches

print("Data saved to Kalerkantho_news.csv")

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Scraped: হাজীগঞ্জে বিএনপির দুই গ্রুপে সংঘর্ষে নিহত ১
Scraped: ৪ কোটি টাকার কাপড় জব্দ
Scraped: সীমান্তে রোহিঙ্গাসহ ১৬ জন আটক
Scraped: বন্যা প্রতিরোধে পরিকল্পিত বাঁধ নির্মাণ করা হবে
Scraped: ৭০ নদীর নাম লেখা প্ল্যাকার্ড প্রদর্শন

Scraped: হয়রানিমূলক রাজনৈতিক মামলা প্রত্যাহারে কমিটি
Scraped: সন্দেহে পিটিয়ে হত্যা ও চুরির ঘটনায় পৃথক মামলা
Scraped: ২২ দিন ইলিশ ধরা বন্ধ
Scraped: ক্ষতিগ্রস্তদের পুনর্বাসন সহায়তায় সেনাবাহিনী
Scraped: গুম নির্যাতনের অভিযোগ ছয় র‌্যাব কর্মকর্তার বিরুদ্ধে
Scraped: হারিয়ে যাচ্ছে গ্রামবাংলার ঐতিহ্য ঢেঁকি
Scraped: ডেঙ্গুর ১ হাজার কিট দিল জামায়াত
Scraped: আন্দোলনে শহীদ পরিবারকে অনুদান
Scraped: ঢামেকে ১০ ঘণ্টার অপারেশনে আলাদা শিফা ও রিফাত
Scraped: নার্সিং ডিজির অপসারণ দাবি
Scraped: আদালতে যা বললেন পরীমণি
Scraped: মাদারীপুরে সংঘর্ষ বোমা বিস্ফোরণে যুবক নিহত
Scraped: শেখ হাসিনাকে গ্রেপ্তার ও ফাঁসির দাবিতে বিক্ষোভ
Scraped: বাধ্যতামূলক অবসর আরও সাতজনকে
Scraped: ইয়াবাসহ পুলিশ সদস্য আটক
Scraped: ভেসে এলো হাত বাঁধা