# Crawling Website TribunJateng

Nama : Prio Budi Laksono

NIM  : 210411100177

### Pengertian Crawling Data

Crawling data adalah proses otomatisasi untuk mengumpulkan data dari situs web oleh mesin pencari. Saat mesin pencari mengunjungi sebuah situs, ia akan menjelajahi semua tautan yang ada pada halaman tersebut dan mengumpulkan informasi dari setiap halaman yang diakses. Proses ini menghasilkan indeks data yang sangat besar, yang kemudian dapat digunakan untuk menampilkan informasi yang relevan berdasarkan kebutuhan pencarian.


In [1]:
!pip install requests beautifulsoup4 pandas

#install library untuk mengambil konten di dalam website



### 1. Melakukan import library yang dibutuhkan

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


requests: Digunakan untuk melakukan HTTP request ke sebuah URL dan mendapatkan konten halaman web.

BeautifulSoup: Digunakan untuk mem-parsing HTML dan mengekstrak data dari halaman web.

pandas: Digunakan untuk mengolah data dan menyimpan hasil ekstraksi ke dalam bentuk DataFrame.

### 2. Mengambil Halaman Website dan Memeriksa status request

In [3]:
url = 'https://jateng.tribunnews.com/'
response = requests.get(url)

# Periksa apakah request berhasil
if response.status_code == 200:
    print("Request berhasil!")
    page_content = response.content
else:
    print(f"Gagal mengambil halaman, status code: {response.status_code}")

# Parsing HTML
soup = BeautifulSoup(page_content, 'html.parser')


Request berhasil!


### 3. Menemukan dan Mengekstrak 150 Berita

In [5]:
# Cari semua <h3> yang mengandung <a>
articles = soup.find_all('h3')

# Ekstrak URL dari <a> di dalam <h3> dan simpan dalam list
urls = [article.find('a')['href'] for article in articles if article.find('a')][:150]

# Tampilkan 10 URL berita yang ditemukan
urls


['https://jateng.tribunnews.com/2024/09/11/ivan-gunawan-kesal-bikin-kolam-renang-rp1-miliar-tapi-bocor',
 'https://jateng.tribunnews.com/2024/09/11/komplotan-maling-ini-selalu-incar-barang-kantor-dan-fasum-satu-pelaku-ditembak-polisi',
 'https://jateng.tribunnews.com/2024/09/11/lewat-gelaran-pon-xxi-bsi-komitmen-majukan-olahraga-aceh',
 'https://jateng.tribunnews.com/2024/09/11/bawaslu-kudus-ingatkan-asn-harus-netral-dalam-pilkada',
 'https://jateng.tribunnews.com/2024/09/11/nikmati-keindahan-alam-dan-petualangan-di-desa-wisata-pandansari-batang',
 'https://jateng.tribunnews.com/2024/09/11/chord-kunci-gitar-lama-lama-bernadya-punya-sibuk-lain-tak-harus-aku',
 'https://jateng.tribunnews.com/2024/09/11/sebanyak-3673-knalpot-brong-dimusnahkan-polres-kudus-jelang-pilkada-serentak',
 'https://jateng.tribunnews.com/2024/09/10/update-ranking-fifa-usai-hasil-imbang-timnas-indonesia-vs-australia-1-peringkat-di-atas-malaysia?utm_source=topstories',
 'https://jateng.tribunnews.com/2024/09/09/pela

### 4. Mengambil data dari setiap artikel berita

In [6]:
data_list = []

for i, url in enumerate(urls, start=1):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Mendapatkan judul
    judul = soup.find('h1').text.strip()

    # Mendapatkan tanggal
    tanggal = soup.find('time').text.strip()

    # Mendapatkan isi artikel
    isi = ' '.join(p.text.strip() for p in soup.find_all('p'))
    
    # Mencari breadcrumb
    breadcrumb = soup.find('ul', {'class': 'breadcrumb'})

    # Mengambil kategori terakhir dari breadcrumb
    kategori = breadcrumb.find_all('li')[-1].find('span').text.strip()
    
    # Simpan data ke dalam list
    data_list.append({
        'No': i,
        'Judul Berita': judul,
        'Tanggal Berita': tanggal,
        'Kategori Berita': kategori,
        'Isi Berita': isi,
        'URL': url
    })



data_list: List untuk menyimpan data dari setiap artikel berita.

for i, url in enumerate(urls, start=1): Looping untuk setiap URL yang ditemukan, di mana i adalah index mulai dari 1.

requests.get(url): Mengambil konten halaman dari URL artikel.

judul = soup.find('h1').text.strip(): Menemukan judul berita di dalam elemen h1.
    
tanggal = soup.find('time').text.strip(): Menemukan tanggal berita di dalam elemen time.
    
isi = ' '.join(p.text.strip() for p in soup.find_all('p')): Menggabungkan semua paragraf <p> di dalam artikel untuk mendapatkan isi berita.
    
breadcrumb = soup.find('ul', {'class': 'breadcrumb'}): Mencari elemen breadcrumb untuk menemukan kategori berita.
    
kategori = breadcrumb.find_all('li')[-1].find('span').text.strip(): Mengambil kategori terakhir dalam breadcrumb.
    
data_list.append({...}): Menyimpan data yang telah diekstrak ke dalam list data_list.

### 5. Menampilkan data yang di crowling ke dalam tabel

In [7]:
# Konversi ke DataFrame
df = pd.DataFrame(data_list)

# Tampilkan tabel
df

Unnamed: 0,No,Judul Berita,Tanggal Berita,Kategori Berita,Isi Berita,URL
0,1,"Ivan Gunawan Kesal, Bikin Kolam Renang Rp1 Mil...","Tayang: Rabu, 11 September 2024 12:29 WIB",Gosipi,"Ivan Gunawan Kesal, Bikin Kolam Renang Rp1 Mil...",https://jateng.tribunnews.com/2024/09/11/ivan-...
1,2,Komplotan Maling Ini Selalu Incar Barang Kanto...,"Tayang: Rabu, 11 September 2024 12:06 WIB",Regional,TRIBUNJATENG.COM - Tim Pegasus Polres Jenepont...,https://jateng.tribunnews.com/2024/09/11/kompl...
2,3,"Lewat Gelaran PON XXI, BSI Komitmen Majukan Ol...","Tayang: Rabu, 11 September 2024 12:05 WIB",advertorial,TRIBUNJATENG.COM - PT Bank Syariah Indonesia T...,https://jateng.tribunnews.com/2024/09/11/lewat...
3,4,Bawaslu Kudus Ingatkan ASN Harus Netral dalam ...,"Tayang: Rabu, 11 September 2024 12:03 WIB",Pilkada,"TRIBUNJATENG.COM, KUDUS – Seluruh Aparatur Sip...",https://jateng.tribunnews.com/2024/09/11/bawas...
4,5,Nikmati Keindahan Alam dan Petualangan di Desa...,"Tayang: Rabu, 11 September 2024 12:01 WIB",Mbangun Batang,"TRIBUNJATENG.COM, BATANG - Desa Wisata Pandans...",https://jateng.tribunnews.com/2024/09/11/nikma...
5,6,"Chord Kunci Gitar Lama-lama, Bernadya : Punya ...","Tayang: Rabu, 11 September 2024 11:57 WIB",Musik,"Chord Kunci Gitar Lama-lama, Bernadya : Punya ...",https://jateng.tribunnews.com/2024/09/11/chord...
6,7,Sebanyak 3.673 Knalpot Brong Dimusnahkan Polre...,"Tayang: Rabu, 11 September 2024 11:56 WIB",Muria,"TRIBUNJATENG.COM, KUDUS - Jelang pilkada seren...",https://jateng.tribunnews.com/2024/09/11/seban...
7,8,UPDATE Ranking FIFA Usai Hasil Imbang Timnas I...,"Tayang: Selasa, 10 September 2024 22:45 WIB",Super Ball,"TRIBUNJATENG.COM, JAKARTA - Timnas Indonesia k...",https://jateng.tribunnews.com/2024/09/10/updat...
8,9,Pelajar SMP Mabuk Leci Aniaya Siswa SD di Temb...,"Tayang: Senin, 9 September 2024 15:41 WIB",Semarang,"TRIBUNJATENG.COM, SEMARANG - Video seorang ana...",https://jateng.tribunnews.com/2024/09/09/pelaj...
9,10,VIRAL Haru Siswa Sekelas Iuran Belikan Sepeda ...,"Tayang: Selasa, 10 September 2024 14:00 WIB",Jawa Tengah,"TRIBUNJATENG.COM, KEBUMEN - Kisah siswa satu k...",https://jateng.tribunnews.com/2024/09/10/viral...
