In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Membuat daftar URL untuk 3 halaman
base_url = 'https://www.jpnn.com/daerah'
urls = [f'{base_url}?page={i}' for i in range(1, 4)]  # Menghasilkan URL halaman 1, 2, dan 3


In [2]:
# Inisialisasi list untuk menyimpan data berita
news_data = []


In [3]:
# Melakukan scraping untuk setiap URL
for url in urls:
    print(f'Scraping data dari: {url}')  # Menampilkan URL yang sedang diproses
    response = requests.get(url)  # Mengirim permintaan GET
    soup = BeautifulSoup(response.content, 'html.parser')  # Mengurai konten HTML

    # Mencari semua artikel berita
    articles = soup.find_all('article')

    # Mengambil informasi dari setiap artikel
    for news in articles:
        # Judul berita
        title_tag = news.find('div', class_='content-description').find('div', class_='content').find('h2')
        title = title_tag.get_text(strip=True) if title_tag else 'N/A'
        
        # Waktu berita
        time_tag = news.find('div', class_='content-description').find('div', class_='content').find('h6')
        time = time_tag.get_text(strip=True) if time_tag else 'N/A'
        
        # Deskripsi berita
        description_tag = news.find('div', class_='content-description')
        description = description_tag.get_text(strip=True) if description_tag else 'N/A'
        
        # Link gambar berita
        image_tag = news.find('div', class_='content-picture').find('img')
        image_link = image_tag['src'] if image_tag else 'N/A'
        
        # Menyimpan informasi berita dalam format dictionary
        news_data.append({
            'Nama Berita': title,
            'Waktu Berita': time,
            'Deskripsi Berita': description,
            'Link Gambar': image_link
        })


Scraping data dari: https://www.jpnn.com/daerah?page=1
Scraping data dari: https://www.jpnn.com/daerah?page=2
Scraping data dari: https://www.jpnn.com/daerah?page=3


In [4]:
# Menampilkan hasil scraping sebelum disimpan
print("Hasil scraping:")
for item in news_data:
    print(item)


Hasil scraping:
{'Nama Berita': 'Ketua Bawaslu Surabaya Sangkal Lakukan Penganiayaan Kepada Wanita', 'Waktu Berita': 'Jatim TerkiniSabtu, 28 September 2024 – 10:35 WIB', 'Deskripsi Berita': 'Jatim TerkiniSabtu, 28 September 2024 – 10:35 WIBKetua Bawaslu Surabaya Sangkal Lakukan Penganiayaan Kepada WanitaPenjelasan Ketua Bawaslu Novli saat dilaporkan ke Polrestabes karena kasus dugaan penganiayaan kepada perempuan', 'Link Gambar': 'https://image.jpnn.com/resize/225x150-80/jatim/news/watermark/2024/09/28/ketua-badan-pengawas-pemilihan-umum-bawaslu-surabaya-novli-a-z8wx.jpg'}
{'Nama Berita': 'PT PP Optimistis Selesaikan Proyek Bandara Nusantara IKN Sesuai Target di Akhir 2024', 'Waktu Berita': 'Kaltim TerkiniSabtu, 28 September 2024 – 10:09 WIB', 'Deskripsi Berita': 'Kaltim TerkiniSabtu, 28 September 2024 – 10:09 WIBPT PP Optimistis Selesaikan Proyek Bandara Nusantara IKN Sesuai Target di Akhir 2024Direktur Operasi Bidang Infrastruktur PT PP Yul Ari Pramuraharjo optimistis pihaknya bisa m

In [5]:
# Mengubah data menjadi DataFrame
df = pd.DataFrame(news_data)

# Menyimpan DataFrame ke file CSV
csv_filename = 'berita_jpnn.csv'
df.to_csv(csv_filename, index=False, encoding='utf-8-sig')

print(f"Hasil scraping telah disimpan ke {csv_filename}")


Hasil scraping telah disimpan ke berita_jpnn.csv


In [9]:
filenya = pd.read_csv('berita_jpnn.csv')
print(filenya.head())

                                         Nama Berita  \
0  Ketua Bawaslu Surabaya Sangkal Lakukan Pengani...   
1  PT PP Optimistis Selesaikan Proyek Bandara Nus...   
2  Cuaca Malang Hari ini, Seharian Bakal Cerah Hi...   
3  Jadwal Bioskop di Bali Sabtu (28/9): Denpasar ...   
4  Ditarik Ajudan Nana Sudjana, Wartawan Terjengk...   

                                        Waktu Berita  \
0  Jatim TerkiniSabtu, 28 September 2024 – 10:35 WIB   
1  Kaltim TerkiniSabtu, 28 September 2024 – 10:09...   
2  Jatim TerkiniSabtu, 28 September 2024 – 10:05 WIB   
3      DestinasiSabtu, 28 September 2024 – 09:53 WIB   
4  Jateng TerkiniSabtu, 28 September 2024 – 09:40...   

                                    Deskripsi Berita  \
0  Jatim TerkiniSabtu, 28 September 2024 – 10:35 ...   
1  Kaltim TerkiniSabtu, 28 September 2024 – 10:09...   
2  Jatim TerkiniSabtu, 28 September 2024 – 10:05 ...   
3  DestinasiSabtu, 28 September 2024 – 09:53 WIBJ...   
4  Jateng TerkiniSabtu, 28 September 2024 – 09