# Data Collecting
### Web Scrapping sederhana menggunakan library beautifull sub


In [6]:
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup


base_url = 'https://www.detik.com/search/searchall?query='
query = 'mobil'

response = requests.get(base_url + query)

if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')

    berita_elements = soup.select('.list-content .list-content__item')

    for berita in berita_elements:
        judul = berita.select_one('.media__title').text.strip()
        url_berita = berita.select_one('a')['href']
        summary_str = berita.select_one('.media__desc')
        summary = summary_str.text.strip() if summary_str else np.nan

        print(f'Judul : {judul}')
        print(f'URL Berita : {url_berita}')
        print(f'Summary : {summary}')

else:
    print(f'Gagal memuat data \nStatus Code : {response.status_code}')

Judul : 3 Bersaudara Tewas Tertabrak Mobil di Rogodono Kebumen
URL Berita : https://www.detik.com/jateng/berita/d-7911542/3-bersaudara-tewas-tertabrak-mobil-di-rogodono-kebumen
Summary : Tiga orang kakak beradik dan keponakan yang berada salam satu motor tewas setelah tertabrak mobil di Kebumen.
Judul : Terkunci Hampir Sejam dalam Mobil, Balita di Sukoharjo Dievakuasi Damkar
URL Berita : https://www.detik.com/jateng/berita/d-7911088/terkunci-hampir-sejam-dalam-mobil-balita-di-sukoharjo-dievakuasi-damkar
Summary : Petugas Damkar Sukoharjo mengevakuasi anak yang terjebak di dalam mobil. Anak berusia sekira 2 tahun itu terjabak selama 40 menit di dalam mobil.
Judul : Aduh! Marak Lagi Modus Pencurian Pecahkan Kaca Mobil di Rest Area
URL Berita : https://oto.detik.com/catatan-pengendara-mobil/d-7911279/aduh-marak-lagi-modus-pencurian-pecahkan-kaca-mobil-di-rest-area
Summary : Buat detikers yang tengah melakukan perjalanan harus waspada dan hati-hati, tidak hanya saat berkendara, namun saat 

#### Kalau mau save data lebih banyak

In [11]:
# Kita buat function agar bisa di reuse
def get_detik_berita(base_url, query):
    response = requests.get(base_url + query)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')

        berita_elements = soup.select('.list-content .list-content__item')

        list_judul = []
        list_url_berita = []
        list_summary = []

        for berita in berita_elements:
            judul = berita.select_one('.media__title').text.strip()
            url_berita = berita.select_one('a')['href']
            summary_str = berita.select_one('.media__desc')
            summary = summary_str.text.strip() if summary_str else np.nan
        
        # Kita simpan ke list dengan append
        list_judul.append(judul)
        list_url_berita.append(url_berita)
        list_summary.append(summary)
    else:
        pass

    data = pd.DataFrame({
        'judul': list_judul,
        'url_berita': list_url_berita,
        'summary': list_summary
    })

    return data

In [15]:
df_berita_detik = get_detik_berita('https://www.detik.com/search/searchall?query=', 'mobil')

display(df_berita_detik)

Unnamed: 0,judul,url_berita,summary
0,"Diduga Gadaikan Mobil Warga, Oknum Polisi di S...",https://www.detik.com/sumut/hukum-dan-kriminal...,Oknum polisi berinisial Brigpol HS di Kabupate...


In [18]:
# Multiple pages
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup


base_url = 'https://www.detik.com/search/searchall?query='
query = 'mobil'
sort_by = 'time'
page_count = 3


for page in range(1, page_count + 1):
    url = base_url + query + '&sortby=' + sort_by + '&page=' + str(page)

    response = requests.get(url)
    print('Page : ', page)

    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')

        berita_elements = soup.select('.list-content .list-content__item')

        for berita in berita_elements:
            judul = berita.select_one('.media__title').text.strip()
            url_berita = berita.select_one('a')['href']
            summary_str = berita.select_one('.media__desc')
            summary = summary_str.text.strip() if summary_str else np.nan
            date = berita.select_one('.media__date').select_one('span')['title']

            print(f'Judul : {judul}')
            print(f'URL Berita : {url_berita}')
            print(f'Summary : {summary}')
            print(f'Date : {date}')
            print('----------------------------------') 

    else:
        print(f'Gagal memuat data \nStatus Code : {response.status_code}')

Page :  1
Judul : 3 Bersaudara Tewas Tertabrak Mobil di Rogodono Kebumen
URL Berita : https://www.detik.com/jateng/berita/d-7911542/3-bersaudara-tewas-tertabrak-mobil-di-rogodono-kebumen
Summary : Tiga orang kakak beradik dan keponakan yang berada salam satu motor tewas setelah tertabrak mobil di Kebumen.
Date : Senin, 12 Mei  2025 20:40 WIB
----------------------------------
Judul : Terkunci Hampir Sejam dalam Mobil, Balita di Sukoharjo Dievakuasi Damkar
URL Berita : https://www.detik.com/jateng/berita/d-7911088/terkunci-hampir-sejam-dalam-mobil-balita-di-sukoharjo-dievakuasi-damkar
Summary : Petugas Damkar Sukoharjo mengevakuasi anak yang terjebak di dalam mobil. Anak berusia sekira 2 tahun itu terjabak selama 40 menit di dalam mobil.
Date : Senin, 12 Mei  2025 15:12 WIB
----------------------------------
Judul : Aduh! Marak Lagi Modus Pencurian Pecahkan Kaca Mobil di Rest Area
URL Berita : https://oto.detik.com/catatan-pengendara-mobil/d-7911279/aduh-marak-lagi-modus-pencurian-pecah