### Crawling Berita

Crawling berita adalah proses mengambil atau mengekstrak informasi berita dari situs web secara otomatis dengan menggunakan bot atau skrip komputer. Tujuan dari crawling berita adalah untuk mengumpulkan data berita dari berbagai sumber secara efisien, terstruktur, dan otomatis.

## Import Drive

Fungsi drive.mount('/content/drive') ini memberikan akses ke Google Drive Anda dalam lingkungan Google Colab, dan direktori Drive akan muncul di lokasi yang disebutkan, yaitu /content/drive. Ini memungkinkan kita menyimpan dan mengakses file langsung dari atau ke Google Drive selama sesi Colab.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Import Library

1. requests: Library untuk mengirim permintaan HTTP dan menerima respons. Dengan menggunakan requests, Anda dapat mengambil konten dari suatu URL.

2. BeautifulSoup (bs4): Library untuk scraping data dari HTML dan XML. BeautifulSoup mempermudah ekstraksi informasi dari halaman web dengan menyediakan antarmuka Python yang bersih.

3. csv: Library untuk membaca dan menulis file CSV. Dengan menggunakan csv, Anda dapat menyimpan atau memuat data dalam format CSV.

4. pandas: Library untuk analisis data dan manipulasi data. pandas menyediakan struktur data seperti DataFrame, yang memudahkan pengolahan dan analisis data.






In [2]:
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd


Menentukan kategori apa saja yang ingin di crawling dan jumlah data per kategorinya

In [3]:
# Daftar kategori yang dapat diisi custom sesuai kebutuhan
kategori = ['Pemilu', 'Sport', 'Lifestyle']

# Jumlah data yang diambil per kategori
jumlah_data_per_kategori = 300

## Proses Crawling Berita

1. data_list = [] digunakan untuk menyimpan data berita sebelum dimasukkan ke dalam DataFrame

2. Looping Kategori dan Halaman

  - #Looping pertama : untuk mengiterasi melalui setiap kategori dan halaman pencarian situs berita

  - #Akses dan scraping halaman pencarian : Kode ini mengakses halaman pencarian, mengambil HTML-nya, dan menggunakan BeautifulSoup untuk mengekstrak elemen-elemen yang mengandung berita.

  - #Looping untuk setiap berita dalam halaman tertentu : ini mengiterasi melalui setiap elemen berita pada halaman dan mengekstrak judul, tanggal, dan link berita.

  - #Looping link berita untuk diambil data kontennya : ini mengakses link berita untuk mendapatkan konten berita.

  - #Menambahkan data ke dalam list : Setiap data berita yang telah diambil disimpan dalam bentuk dictionary dan ditambahkan ke dalam list data_list.

  - #Membuat dataframe dari list data : List data kemudian digunakan untuk membuat DataFrame menggunakan pandas, dan DataFrame tersebut disimpan ke dalam file CSV dengan path lokal.

  -


In [4]:
# List untuk menyimpan data
data_list = []

## Looping 1
# Looping untuk setiap kategori
for kategori_terpilih in kategori:
    katakunci = kategori_terpilih
    # Looping untuk setiap halaman
    for halaman in range(1, jumlah_data_per_kategori // 20 + 1):  # 20 berita per halaman
        ##Akses dan scraping halaman pencarian
        url = "https://www.beritasatu.com/search/{}/{}".format(katakunci, halaman)
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/119.0'
        }
        req = requests.get(url, headers=headers)
        soup = BeautifulSoup(req.text, 'html.parser')
        items = soup.findAll('div', 'row mt-4 position-relative')

        ## Looping untuk setiap berita dalam halaman tertentu
        for it in items:
            # Looping judul
            judul = it.find('h2', 'h5 fw-bold').text.strip()
            # Looping tanggal berita
            tanggal_tag = it.find('span', 'b1-date text-muted')
            tanggal = ''
            if tanggal_tag:
                tanggal = ' '.join(tanggal_tag.text.strip().split('\n'))

            ## Looping link berita untuk diambil data kontennya
            link = it.find('a', 'stretched-link')
            if link:
                href = link.get('href')
                response = requests.get(href, headers=headers)
                berita_soup = BeautifulSoup(response.text, 'html.parser')
                #Looping untuk konten berita jika link bisa diakses
                konten_tag = berita_soup.find('div', 'col b1-article body-content')
                konten = ''
                if konten_tag:
                    konten = konten_tag.text.strip()

                ## Menambahkan data ke dalam list
                data_list.append({'Kategori': katakunci, 'Judul': judul, 'Tanggal': tanggal, 'Link': href, 'Konten': konten})

## Membuat dataframe dari list data
df = pd.DataFrame(data_list)

# Menyimpan dataframe ke dalam file CSV dengan path lokal
file_path = 'Crawling-DataBerita.csv'
df.to_csv(file_path, index=False)

print("Pengambilan data selesai.")

Pengambilan data selesai.


## Menampilkan Data yang berhasil di Crawling

In [5]:
df

Unnamed: 0,Kategori,Judul,Tanggal,Link,Konten
0,Pemilu,Fakta Safari Politik Prabowo-Gibran Sepekan Te...,4 jam yang lalu,https://www.beritasatu.com/bersatu-kawal-pemil...,"Jakarta, Beritasatu.com - Jadwal kampanye Pilp..."
1,Pemilu,"Menggali Informasi Pemilu 2024, Kemenkominfo R...",5 jam yang lalu,https://www.beritasatu.com/bersatu-kawal-pemil...,"Jakarta, Beritasatu.com - Kementerian Komunika..."
2,Pemilu,Pemprov Jawa Barat Merespons Cepat Keluhan Pan...,7 jam yang lalu,https://www.beritasatu.com/nusantara/2784928/p...,"Bandung, Beritasatu.com - Pemerintah Daerah Pr..."
3,Pemilu,Warga Muslim AS Bikin Kampanye Tolak Joe Biden...,8 jam yang lalu,https://www.beritasatu.com/internasional/27849...,"Washington, Beritasatu.com – Para pemimpin mus..."
4,Pemilu,Melanjutkan Visi Indonesia Bebas Stunting,8 jam yang lalu,https://www.beritasatu.com/bplus/2784912/melan...,"Jakarta, Beritasatu.com - Percepatan penurunan..."
...,...,...,...,...,...
895,Lifestyle,"Topping Off 31 Sudirman Suites, Ikon Baru Huni...",17 Nov 2021 | 18:17 WIB,https://www.beritasatu.com/ekonomi/855155/topp...,"Makassar, Beritasatu.com – PT Indonesian Parad..."
896,Lifestyle,Indoesports Siap Akuisisi Media Rintisan pada ...,17 Nov 2021 | 11:49 WIB,https://www.beritasatu.com/news/854965/indoesp...,"Jakarta, Beritasatu.com - PT Indoesports Karya..."
897,Lifestyle,Traveloka Resmi Terhubung dengan PeduliLindungi,15 Nov 2021 | 22:38 WIB,https://www.beritasatu.com/news/854325/travelo...,"Jakarta, Beritasatu.com - Traveloka, lifestyle..."
898,Lifestyle,Stimulus Pemerintah Dorong Penjualan Grand Wis...,14 Nov 2021 | 14:14 WIB,https://www.beritasatu.com/ekonomi/853715/stim...,"Bekasi, Beritasatu.com - Grand Wisata Bekasi b..."


## Menampilkan Jumlah Data dalam kategori

1. Menggunakan len dan df[df['Kategori'] == ...]: untuk menghitung jumlah baris (data) yang memiliki nilai tertentu di kolom 'Kategori'.
2. print : mencetak jumlah data untuk masing-masing kategori.

In [6]:
# Menampilkan jumlah data untuk kategori tertentu
jumlah_sport = len(df[df['Kategori'] == 'Sport'])
jumlah_pemilu = len(df[df['Kategori'] == 'Pemilu'])
jumlah_lifestyle = len(df[df['Kategori'] == 'Lifestyle'])

# Menampilkan hasil
print(f"Jumlah data untuk Sport: {jumlah_sport}")
print(f"Jumlah data untuk Pemilu: {jumlah_pemilu}")
print(f"Jumlah data untuk Lifestyle: {jumlah_lifestyle}")


Jumlah data untuk Sport: 300
Jumlah data untuk Pemilu: 300
Jumlah data untuk Lifestyle: 300
