In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json

def scrape_website(url, user_agent='Mozilla/5.0'):
    print(f"Mengakses URL: {url}")

    # Mengirim permintaan HTTP ke URL target
    try:
        headers = {'User-Agent': user_agent}
        response = requests.get(url, headers=headers)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error saat mengakses URL: {e}")
        return None

    # Parsing HTML dari halaman web menggunakan BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Menyiapkan list untuk menampung semua data
    collected_data = []

    # Menemukan semua artikel. Di berbagai website, artikel sering dibungkus dalam tag <article>, <div>, atau tag lainnya
    articles = soup.find_all('article')  # Bisa diganti dengan tag atau kelas lainnya
    print(f"Menemukan {len(articles)} total artikel.")

    for article in articles:
        # Mencari judul (misalnya dalam <h2> atau tag lainnya)
        title_tag = article.find('h2')  # Anda bisa ganti tag sesuai dengan struktur website
        if not title_tag:
            continue

        title = title_tag.get_text(strip=True)

        # Mencari link dari tag <a> yang membungkus artikel
        link_tag = article.find('a')
        link = link_tag['href'] if link_tag and link_tag.has_attr('href') else 'Tidak ada link'

        # Mengambil URL Gambar Utama (Image URL)
        image_tag = article.find('img')
        image_url = image_tag['src'] if image_tag and image_tag.has_attr('src') else 'Tidak ada gambar'

        # Mencari kategori atau informasi lain jika ada
        category_tag = article.find('span', class_='category')  # Misalnya kategori ada di <span> dengan class 'category'
        category = category_tag.get_text(strip=True) if category_tag else 'Tidak ada kategori'

        # Mengambil waktu, penulis, atau ringkasan jika ada
        publication_time = 'Tidak ada waktu'
        author = 'Tidak diketahui'
        summary = 'Tidak ada ringkasan'

        # Mengumpulkan data jika judul dan link ditemukan
        if title and link != 'Tidak ada link':
            article_data = {
                'title': title,
                'link': link,
                'category': category,
                'publication_time': publication_time,
                'author': author,
                'image_url': image_url,
                'summary': summary
            }
            collected_data.append(article_data)

    # --- Proses Ekspor Hasil ---
    if not collected_data:
        print("Tidak ada data yang berhasil di-scrape. Mungkin struktur website telah berubah.")
    else:
        print(f"Berhasil mengumpulkan {len(collected_data)} artikel yang valid. Mengekspor ke file...")

        # Mengubah nama file output
        file_name_base = 'scraped_data'

        output_json_data = {"list_post": collected_data}
        with open(f'{file_name_base}.json', 'w', encoding='utf-8') as f:
            json.dump(output_json_data, f, ensure_ascii=False, indent=4)
        print(f"Data berhasil diekspor ke {file_name_base}.json")

        df = pd.DataFrame(collected_data)
        df.to_csv(f'{file_name_base}.csv', index=False, encoding='utf-8')
        print(f"Data berhasil diekspor ke {file_name_base}.csv")

        df.to_excel(f'{file_name_base}.xlsx', index=False)
        print(f"Data berhasil diekspor ke {file_name_base}.xlsx")

    return collected_data

# Gunakan fungsi dengan URL yang berbeda untuk scraping
url = 'https://fajar.co.id/'
scrape_website(url)


Mengakses URL: https://fajar.co.id/
Menemukan 25 total artikel.
Berhasil mengumpulkan 25 artikel yang valid. Mengekspor ke file...
Data berhasil diekspor ke scraped_data.json
Data berhasil diekspor ke scraped_data.csv
Data berhasil diekspor ke scraped_data.xlsx


[{'title': 'Integrasi Data dengan Dukcapil Percepat Proses Layanan BRI',
  'link': 'https://fajar.co.id/2025/09/15/integrasi-data-dengan-dukcapil-percepat-proses-layanan-bri/',
  'category': 'Tidak ada kategori',
  'publication_time': 'Tidak ada waktu',
  'author': 'Tidak diketahui',
  'image_url': 'https://fajar.co.id/wp-content/uploads/2025/09/bri-2-3-250x190.webp',
  'summary': 'Tidak ada ringkasan'},
 {'title': 'PBNU Terseret Kasus Dugaan Korupsi Kuota Haji 2024, Sekjen Gus Ipul Tegaskan Ini',
  'link': 'https://fajar.co.id/2025/09/15/pbnu-terseret-kasus-dugaan-korupsi-kuota-haji-2024-sekjen-gus-ipul-tegaskan-ini/',
  'category': 'Tidak ada kategori',
  'publication_time': 'Tidak ada waktu',
  'author': 'Tidak diketahui',
  'image_url': 'https://fajar.co.id/wp-content/uploads/2025/09/gus-ipul-250x190.webp',
  'summary': 'Tidak ada ringkasan'},
 {'title': 'Proses SPMB Minta Ditinjau Ulang, Tamsil Linrung Pertanyakan Indikator Sekolah Unggulan',
  'link': 'https://fajar.co.id/2025/09

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json

def scrape_website(url, user_agent='Mozilla/5.0'):
    print(f"Mengakses URL: {url}")

    # Mengirim permintaan HTTP ke URL target
    try:
        headers = {'User-Agent': user_agent}
        response = requests.get(url, headers=headers)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error saat mengakses URL: {e}")
        return None

    # Parsing HTML dari halaman web menggunakan BeautifulSoup
    soup = BeautifulSoup(response.text, 'html.parser')

    # Menyiapkan list untuk menampung semua data
    collected_data = []

    # Menemukan semua artikel. Di berbagai website, artikel sering dibungkus dalam tag <article>, <div>, atau tag lainnya
    articles = soup.find_all('article')  # Bisa diganti dengan tag atau kelas lainnya
    print(f"Menemukan {len(articles)} total artikel.")

    for article in articles:
        # Mencari judul (misalnya dalam <h2> atau tag lainnya)
        title_tag = article.find('h2')  # Anda bisa ganti tag sesuai dengan struktur website
        if not title_tag:
            continue

        title = title_tag.get_text(strip=True)

        # Mencari link dari tag <a> yang membungkus artikel
        link_tag = article.find('a')
        link = link_tag['href'] if link_tag and link_tag.has_attr('href') else 'Tidak ada link'

        # Mengambil URL Gambar Utama (Image URL)
        image_tag = article.find('img')
        image_url = image_tag['src'] if image_tag and image_tag.has_attr('src') else 'Tidak ada gambar'

        # Mencari kategori atau informasi lain jika ada
        category_tag = article.find('span', class_='category')  # Misalnya kategori ada di <span> dengan class 'category'
        category = category_tag.get_text(strip=True) if category_tag else 'Tidak ada kategori'

        # Mengambil waktu, penulis, atau ringkasan jika ada
        publication_time = 'Tidak ada waktu'
        author = 'Tidak diketahui'
        summary = 'Tidak ada ringkasan'

        # Mengumpulkan data jika judul dan link ditemukan
        if title and link != 'Tidak ada link':
            article_data = {
                'title': title,
                'link': link,
                'category': category,
                'publication_time': publication_time,
                'author': author,
                'image_url': image_url,
                'summary': summary
            }
            collected_data.append(article_data)

    # --- Proses Ekspor Hasil ---
    if not collected_data:
        print("Tidak ada data yang berhasil di-scrape. Mungkin struktur website telah berubah.")
    else:
        print(f"Berhasil mengumpulkan {len(collected_data)} artikel yang valid. Mengekspor ke file...")

        # Mengubah nama file output
        file_name_base = 'scraped_data'

        output_json_data = {"list_post": collected_data}
        with open(f'{file_name_base}.json', 'w', encoding='utf-8') as f:
            json.dump(output_json_data, f, ensure_ascii=False, indent=4)
        print(f"Data berhasil diekspor ke {file_name_base}.json")

        df = pd.DataFrame(collected_data)
        df.to_csv(f'{file_name_base}.csv', index=False, encoding='utf-8')
        print(f"Data berhasil diekspor ke {file_name_base}.csv")

        df.to_excel(f'{file_name_base}.xlsx', index=False)
        print(f"Data berhasil diekspor ke {file_name_base}.xlsx")

    return collected_data

# Gunakan fungsi dengan URL yang berbeda untuk scraping
url = 'https://www.cnnindonesia.com/'
scrape_website(url)


Mengakses URL: https://www.cnnindonesia.com/
Menemukan 104 total artikel.
Berhasil mengumpulkan 30 artikel yang valid. Mengekspor ke file...
Data berhasil diekspor ke scraped_data.json
Data berhasil diekspor ke scraped_data.csv
Data berhasil diekspor ke scraped_data.xlsx


[{'title': 'Pramono Resmikan Gereja di Lubang Buaya Jakarta Timur',
  'link': 'https://www.cnnindonesia.com/nasional/20250915070133-20-1273673/pramono-resmikan-gereja-di-lubang-buaya-jakarta-timur',
  'category': 'Tidak ada kategori',
  'publication_time': 'Tidak ada waktu',
  'author': 'Tidak diketahui',
  'image_url': 'https://akcdn.detik.net.id/visual/2025/09/15/gubernur-dki-pramono-resmikan-gereja-kalvari-1757895330886_11.jpeg?w=100&q=90',
  'summary': 'Tidak ada ringkasan'},
 {'title': 'Pramono Harap Proyek Bikin Macet di Simatupang Selesai Oktober',
  'link': 'https://www.cnnindonesia.com/nasional/20250914173208-20-1273600/pramono-harap-proyek-bikin-macet-di-simatupang-selesai-oktober',
  'category': 'Tidak ada kategori',
  'publication_time': 'Tidak ada waktu',
  'author': 'Tidak diketahui',
  'image_url': 'https://akcdn.detik.net.id/visual/2025/08/21/usai-diguyur-hujan-tb-simatupang-macet-parah-saat-jam-pulang-kerja-1755733364283_11.jpeg?w=100&q=90',
  'summary': 'Tidak ada rin