# Crawling Website TribunJateng

Nama : Prio Budi Laksono

NIM  : 210411100177

### Pengertian Crawling Data

Crawling data adalah proses otomatisasi untuk mengumpulkan data dari situs web oleh mesin pencari. Saat mesin pencari mengunjungi sebuah situs, ia akan menjelajahi semua tautan yang ada pada halaman tersebut dan mengumpulkan informasi dari setiap halaman yang diakses. Proses ini menghasilkan indeks data yang sangat besar, yang kemudian dapat digunakan untuk menampilkan informasi yang relevan berdasarkan kebutuhan pencarian.


In [7]:
!pip install requests beautifulsoup4 pandas

#install library untuk mengambil konten di dalam website



### 1. Melakukan import library yang dibutuhkan

In [8]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


requests: Digunakan untuk melakukan HTTP request ke sebuah URL dan mendapatkan konten halaman web.

BeautifulSoup: Digunakan untuk mem-parsing HTML dan mengekstrak data dari halaman web.

pandas: Digunakan untuk mengolah data dan menyimpan hasil ekstraksi ke dalam bentuk DataFrame.

### 2. Mengambil Halaman Website dan Memeriksa status request

In [9]:
url = 'https://jateng.tribunnews.com/'
response = requests.get(url)

# Periksa apakah request berhasil
if response.status_code == 200:
    print("Request berhasil!")
    page_content = response.content
else:
    print(f"Gagal mengambil halaman, status code: {response.status_code}")

# Parsing HTML
soup = BeautifulSoup(page_content, 'html.parser')


Request berhasil!


### 3. Menemukan dan Mengekstrak 10 Berita

In [10]:
# Cari semua <h3> yang mengandung <a>
articles = soup.find_all('h3')

# Ekstrak URL dari <a> di dalam <h3> dan simpan dalam list
urls = [article.find('a')['href'] for article in articles if article.find('a')][:10]

# Tampilkan 10 URL berita yang ditemukan
urls


['https://jateng.tribunnews.com/2024/09/05/golkar-pastikan-dukung-mirna-urike-di-pilkada-kendal-tak-masalah-dico-jadi-kader-pkb',
 'https://jateng.tribunnews.com/2024/09/05/siswa-sma-diduga-bullying-anak-tk-dan-sd-di-semarang-minta-maaf-juga-bikin-surat-pernyataan',
 'https://jateng.tribunnews.com/2024/09/05/alasan-ibu-aulia-resmi-laporkan-senior-anaknya-ke-polda-jateng-ada-yang-terkait-pemerasan',
 'https://jateng.tribunnews.com/2024/09/04/prediksi-susunan-pemain-timnas-indonesia-vs-arab-saudi-garuda-dapat-tambahan-tenaga-baru',
 'https://jateng.tribunnews.com/2024/09/04/terungkap-ayu-siswi-smp-penjual-balon-ini-tewas-karena-dibunuh-dan-diperkosa-pelaku-4-remaja',
 'https://jateng.tribunnews.com/2024/09/04/catatan-head-to-head-timnas-indonesia-vs-arab-saudi-garuda-belum-pernah-mengalahkan-elang-hijau',
 'https://jateng.tribunnews.com/2024/09/04/nonton-tv-online-ini-link-live-streaming-timnas-indonesia-vs-arab-saudi-tayang-di-rcti',
 'https://jateng.tribunnews.com/2024/09/03/drama-pilk

### 4. Mengambil data dari setiap artikel berita

In [11]:
data_list = []

for i, url in enumerate(urls, start=1):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Mendapatkan judul
    judul = soup.find('h1').text.strip()

    # Mendapatkan tanggal
    tanggal = soup.find('time').text.strip()

    # Mendapatkan isi artikel
    isi = ' '.join(p.text.strip() for p in soup.find_all('p'))
    
    # Mencari breadcrumb
    breadcrumb = soup.find('ul', {'class': 'breadcrumb'})

    # Mengambil kategori terakhir dari breadcrumb
    kategori = breadcrumb.find_all('li')[-1].find('span').text.strip()
    
    # Simpan data ke dalam list
    data_list.append({
        'No': i,
        'Judul Berita': judul,
        'Tanggal Berita': tanggal,
        'Kategori Berita': kategori,
        'Isi Berita': isi,
        'URL': url
    })



data_list: List untuk menyimpan data dari setiap artikel berita.

for i, url in enumerate(urls, start=1): Looping untuk setiap URL yang ditemukan, di mana i adalah index mulai dari 1.

requests.get(url): Mengambil konten halaman dari URL artikel.

judul = soup.find('h1').text.strip(): Menemukan judul berita di dalam elemen h1.
    
tanggal = soup.find('time').text.strip(): Menemukan tanggal berita di dalam elemen time.
    
isi = ' '.join(p.text.strip() for p in soup.find_all('p')): Menggabungkan semua paragraf <p> di dalam artikel untuk mendapatkan isi berita.
    
breadcrumb = soup.find('ul', {'class': 'breadcrumb'}): Mencari elemen breadcrumb untuk menemukan kategori berita.
    
kategori = breadcrumb.find_all('li')[-1].find('span').text.strip(): Mengambil kategori terakhir dalam breadcrumb.
    
data_list.append({...}): Menyimpan data yang telah diekstrak ke dalam list data_list.

### 5. Menampilkan data yang di crowling ke dalam tabel

In [12]:
# Konversi ke DataFrame
df = pd.DataFrame(data_list)

# Tampilkan tabel
df

Unnamed: 0,No,Judul Berita,Tanggal Berita,Kategori Berita,Isi Berita,URL
0,1,Golkar Pastikan Dukung Mirna-Urike di Pilkada ...,"Tayang: Kamis, 5 September 2024 00:47 WIB",Mata Lokal Memilih,TRIBUNJATENG.COM - Partai Golkar memastikan ak...,https://jateng.tribunnews.com/2024/09/05/golka...
1,2,Siswa SMA Diduga Bullying Anak TK dan SD di Se...,"Tayang: Kamis, 5 September 2024 00:20 WIB",News,"TRIBUNJATENG.COM, SEMARANG- Pihak SMA swasta b...",https://jateng.tribunnews.com/2024/09/05/siswa...
2,3,ALASAN Ibu Aulia Resmi Laporkan Senior Anaknya...,"Tayang: Kamis, 5 September 2024 00:10 WIB",News,"TRIBUNJATENG.COM, SEMARANG -Nuzmatun Malinah, ...",https://jateng.tribunnews.com/2024/09/05/alasa...
3,4,Prediksi Susunan Pemain Timnas Indonesia Vs Ar...,"Tayang: Rabu, 4 September 2024 23:38 WIB",Lainnya,Prediksi Susunan Pemain Timnas Indonesia Vs Ar...,https://jateng.tribunnews.com/2024/09/04/predi...
4,5,TERUNGKAP! Ayu Siswi SMP Penjual Balon Ini Tew...,"Tayang: Rabu, 4 September 2024 23:35 WIB",Nasional,"TRIBUNJATENG.COM, PALEMBANG - Penyebab Ayu And...",https://jateng.tribunnews.com/2024/09/04/terun...
5,6,Catatan Head to Head Timnas Indonesia Vs Arab ...,"Tayang: Rabu, 4 September 2024 23:34 WIB",Lainnya,Catatan Head to Head Timnas Indonesia Vs Arab ...,https://jateng.tribunnews.com/2024/09/04/catat...
6,7,Nonton TV Online Ini Link Live Streaming Timna...,"Tayang: Rabu, 4 September 2024 23:27 WIB",Lainnya,Nonton TV Online Ini Link Live Streaming Timna...,https://jateng.tribunnews.com/2024/09/04/nonto...
7,8,"Drama Pilkada Kendal 2024 Berlanjut, Dico dan ...","Tayang: Selasa, 3 September 2024 19:04 WIB",Pilkada,"TRIBUNJATENG.COM, KENDAL - Dua bakal calon pes...",https://jateng.tribunnews.com/2024/09/03/drama...
8,9,"Inilah Sosok Muh Rizqi Iskandar, Anggota DPRD ...","Tayang: Selasa, 3 September 2024 19:23 WIB",Jawa Tengah,"TRIBUNJATENG.COM, SEMARANG - Muh Rizqi Iskanda...",https://jateng.tribunnews.com/2024/09/03/inila...
9,10,23 Kabupaten-Kota di Jateng Masuk Kategori Tin...,"Tayang: Selasa, 3 September 2024 21:59 WIB",Pilkada,"TRIBUNJATENG.COM, SEMARANG - 23 kabupaten-kota...",https://jateng.tribunnews.com/2024/09/03/23-ka...
