# Crawling Website

Rafly Faldiansyah Putra

210411100063

### Pengertian Crawling

Crawling data adalah proses pengambilan data secara otomatis dari website oleh mesin pencari. Ketika mesin pencari mengunjungi suatu website, ia akan mengikuti semua tautan yang ada di halaman tersebut dan mengambil informasi dari setiap halaman yang dikunjungi. Hasilnya, mesin pencari akan memiliki indeks data yang sangat besar yang dapat digunakan untuk menyajikan hasil informasi data yang dibutuhkan.


In [None]:
!pip install requests beautifulsoup4 pandas

#install library untuk mengambil konten di dalam website

### 1. Melakukan import library yang dibutuhkan

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


requests: Digunakan untuk melakukan HTTP request ke sebuah URL dan mendapatkan konten halaman web.

BeautifulSoup: Digunakan untuk mem-parsing HTML dan mengekstrak data dari halaman web.

pandas: Digunakan untuk mengolah data dan menyimpan hasil ekstraksi ke dalam bentuk DataFrame.

### 2. Mengambil Halaman Website dan Memeriksa status request

In [2]:
url = 'https://jatim.tribunnews.com/'
response = requests.get(url)

# Periksa apakah request berhasil
if response.status_code == 200:
    print("Request berhasil!")
    page_content = response.content
else:
    print(f"Gagal mengambil halaman, status code: {response.status_code}")

# Parsing HTML
soup = BeautifulSoup(page_content, 'html.parser')


Request berhasil!


### 3. Menemukan dan Mengekstrak 10 Berita

In [3]:
# Cari semua <h3> yang mengandung <a>
articles = soup.find_all('h3')

# Ekstrak URL dari <a> di dalam <h3> dan simpan dalam list
urls = [article.find('a')['href'] for article in articles if article.find('a')][:10]

# Tampilkan 10 URL berita yang ditemukan
urls


['https://jatim.tribunnews.com/2024/09/04/arti-kata-bokem-dalam-bahasa-gaul-istilah-populer-di-media-sosial-ada-kaitannya-dengan-karakter',
 'https://jatim.tribunnews.com/2024/09/04/disambut-ratusan-santri-di-jombang-risma-mengaku-senang-dan-bahagia',
 'https://jatim.tribunnews.com/2024/09/04/ziarahi-makam-pendiri-nu-di-tebuireng-jombang-risma-saya-memang-bagian-dari-keluarga',
 'https://jatim.tribunnews.com/2024/09/04/jelang-pilgub-jatim-2024-risma-gus-hans-nyekar-makam-bung-karno-dan-tokoh-ulama',
 'https://jatim.tribunnews.com/2024/09/04/kondisi-jalan-kaligede-tempursari-terputus-pemkab-lumajang-beber-sebabnya-air-laut-tinggi',
 'https://jatim.tribunnews.com/2024/09/04/bmkg-nilai-musim-kemarau-2024-tak-wajar-imbasnya-di-bojonegoro-masuki-kekeringan-ekstrem-krisis',
 'https://jatim.tribunnews.com/2024/09/04/update-pencarian-pria-yang-menceburkan-diri-ke-sungai-jagir-surabaya-petugas-terkendala-air-pasang',
 'https://jatim.tribunnews.com/2024/09/02/air-mata-haru-1-aula-lihat-yeni-dige

### 4. Mengambil data dari setiap artikel berita

In [4]:
data_list = []

for i, url in enumerate(urls, start=1):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Mendapatkan judul
    judul = soup.find('h1').text.strip()

    # Mendapatkan tanggal
    tanggal = soup.find('time').text.strip()

    # Mendapatkan isi artikel
    isi = ' '.join(p.text.strip() for p in soup.find_all('p'))
    
    # Mencari breadcrumb
    breadcrumb = soup.find('ul', {'class': 'breadcrumb'})

    # Mengambil kategori terakhir dari breadcrumb
    kategori = breadcrumb.find_all('li')[-1].find('span').text.strip()
    
    # Simpan data ke dalam list
    data_list.append({
        'No': i,
        'Judul Berita': judul,
        'Tanggal Berita': tanggal,
        'Kategori Berita': kategori,
        'Isi Berita': isi,
        'URL': url
    })



data_list: List untuk menyimpan data dari setiap artikel berita.

for i, url in enumerate(urls, start=1): Looping untuk setiap URL yang ditemukan, di mana i adalah index mulai dari 1.

requests.get(url): Mengambil konten halaman dari URL artikel.

judul = soup.find('h1').text.strip(): Menemukan judul berita di dalam elemen h1.
    
tanggal = soup.find('time').text.strip(): Menemukan tanggal berita di dalam elemen time.
    
isi = ' '.join(p.text.strip() for p in soup.find_all('p')): Menggabungkan semua paragraf <p> di dalam artikel untuk mendapatkan isi berita.
    
breadcrumb = soup.find('ul', {'class': 'breadcrumb'}): Mencari elemen breadcrumb untuk menemukan kategori berita.
    
kategori = breadcrumb.find_all('li')[-1].find('span').text.strip(): Mengambil kategori terakhir dalam breadcrumb.
    
data_list.append({...}): Menyimpan data yang telah diekstrak ke dalam list data_list.

### 5. Menampilkan data yang di crowling ke dalam tabel

In [8]:
# Konversi ke DataFrame
df = pd.DataFrame(data_list)

# Tampilkan tabel
df

Unnamed: 0,No,Judul Berita,Tanggal Berita,Kategori Berita,Isi Berita,URL
0,1,"Arti Kata Bokem dalam Bahasa Gaul, Istilah Pop...","Tayang: Rabu, 4 September 2024 22:48 WIB",Lainnya,TRIBUNJATIM.COM - Tribunners kali ini kita aka...,https://jatim.tribunnews.com/2024/09/04/arti-k...
1,2,"Disambut Ratusan Santri di Jombang, Risma Meng...","Tayang: Rabu, 4 September 2024 22:25 WIB",Pilkada,"TRIBUNJATIM.COM, JOMBANG - Bakal Calon Gubernu...",https://jatim.tribunnews.com/2024/09/04/disamb...
2,3,"Ziarahi Makam Pendiri NU di Tebuireng Jombang,...","Tayang: Rabu, 4 September 2024 22:16 WIB",Pilkada,"TRIBUNJATIM.COM, JOMBANG - Calon Gubernur Jawa...",https://jatim.tribunnews.com/2024/09/04/ziarah...
3,4,"Jelang Pilgub Jatim 2024, Risma-Gus Hans Nyeka...","Tayang: Rabu, 4 September 2024 22:07 WIB",Pilkada,"TRIBUNJATIM.COM, BLITAR - Jelang Pilgub 2024, ...",https://jatim.tribunnews.com/2024/09/04/jelang...
4,5,"Kondisi Jalan Kaligede Tempursari Terputus, Pe...","Tayang: Rabu, 4 September 2024 21:59 WIB",Jatim,"Laporan Wartawan Tribun Jatim Network, Erwin W...",https://jatim.tribunnews.com/2024/09/04/kondis...
5,6,"BMKG Nilai Musim Kemarau 2024 Tak Wajar, Imbas...","Tayang: Rabu, 4 September 2024 21:40 WIB",Bojonegoro,"Laporan Wartawan Tribun Jatim Network, Yusab A...",https://jatim.tribunnews.com/2024/09/04/bmkg-n...
6,7,Update Pencarian Pria yang Menceburkan Diri ke...,"Tayang: Rabu, 4 September 2024 21:34 WIB",Metro Surabaya,"Laporan Wartawan TribunJatim.com, Luhur Pambud...",https://jatim.tribunnews.com/2024/09/04/update...
7,8,Air Mata Haru 1 Aula Lihat Yeni Digendong Ayah...,"Tayang: Senin, 2 September 2024 11:20 WIB",Nasional,TRIBUNJATIM.COM - Beginilah momen Yeni digendo...,https://jatim.tribunnews.com/2024/09/02/air-ma...
8,9,Pihak Grab Langsung Temui Owner Kafe usai Driv...,"Tayang: Senin, 2 September 2024 19:03 WIB",Regional,TRIBUNJATIM.COM - Disoroti karena mitra driver...,https://jatim.tribunnews.com/2024/09/02/pihak-...
9,10,Tak Tahu Tika yang Dilamar di Stadion Sudah Pu...,"Tayang: Minggu, 1 September 2024 18:11 WIB",Regional,TRIBUNJATIM.COM - Pede lamar istri orang di St...,https://jatim.tribunnews.com/2024/09/01/tak-ta...
