# Tugas 1 : Crawling Berita

**Pengertian Crawling**


Crawling adalah proses otomatis yang dilakukan oleh program komputer, yang disebut "crawler" atau "spider," untuk menelusuri dan mengumpulkan data dari situs web secara sistematis. Proses ini biasanya dimulai dengan mengakses halaman web tertentu dan kemudian mengikuti tautan (link) yang ada di dalamnya untuk mengakses halaman-halaman lain. Crawler mengunjungi halaman-halaman tersebut, mengumpulkan informasi seperti teks, gambar, dan metadata, dan menyimpan data tersebut untuk keperluan lebih lanjut, seperti pengindeksan di mesin pencari atau analisis data.

Crawling merupakan bagian penting dari proses web scraping dan pengindeksan mesin pencari, di mana mesin pencari seperti Google menggunakan crawler untuk mengumpulkan informasi dari seluruh web agar dapat menyediakan hasil pencarian yang relevan kepada pengguna.

In [6]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Fungsi untuk mengambil data dari halaman web Detik.com
def get_data(url, kategori):
    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return

    soup = BeautifulSoup(response.content, "html.parser")
    articles = soup.find_all("article", class_="list-content__item")

    for article in articles:
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            return

        try:
            link = article.find("a")["href"]
            article_response = requests.get(link)
            article_response.raise_for_status()
        except (requests.exceptions.RequestException, TypeError) as e:
            print(f"Request for article failed: {e}")
            continue

        article_soup = BeautifulSoup(article_response.content, "html.parser")
        title_element = article_soup.find("h1", class_="detail__title")
        title = title_element.text.strip() if title_element else "Title Not Found"
        date_element = article_soup.find("div", class_="detail__date")
        date = date_element.text.strip() if date_element else "Date Not Found"
        content_element = article_soup.find("div", class_="detail__body-text")
        content = content_element.text.strip() if content_element else "Content Not Found"

        # Menambahkan data ke dalam list
        judul.append(title)
        tanggal.append(date)
        isi.append(content)
        kategori_list.append(kategori)  # Menambahkan kategori ke dalam list

        print(title)
        time.sleep(1)  # Menambahkan jeda waktu 1 detik antara permintaan artikel

# Membuat list url dan kategori yang akan di-crawl
base_urls = ["https://travel.detik.com/travel-news/indeks"]
categories = ["Pariwisata"]

# Inisialisasi list untuk menyimpan data
judul = []
tanggal = []
isi = []
kategori_list = []

# Melakukan iterasi untuk setiap url dan kategori
for base_url, category in zip(base_urls, categories):
    for page in range(1, 4):  # Looping untuk beralih halaman
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            break

        url = f"{base_url}/{page}"
        get_data(url, category)
        time.sleep(2)  # Menambahkan jeda waktu 2 detik antara permintaan halaman

# Membuat dataframe dari list data
df = pd.DataFrame({
    "judul": judul,
    "isi": isi,
    "tanggal": tanggal,
    "kategori": kategori_list
})

# Menyimpan dataframe ke file CSV
df.to_csv("Crawl-berita.csv", index=False)


Keren! Gunung Rinjani Targetkan Pendakian Nol Sampah Mulai 2025
Harimau Serang Pawang, Insiden Paling Langka tapi Terjadi Juga
Pemangku Pariwisata Bali Sepakat Hentikan Alih Fungsi Lahan
Kesederhanaan Paus Fransiskus: Naik Pesawat Komersil, Bukan Jet Pribadi
Mau Liburan Hemat? Serbu Promo Tiket Kereta-Pesawat di Hub Space 2024
Bocah Selamat Setelah Jatuh di Situs Giant's Causeway
Terlalu Nyaman, Tamu-tamu Hotel Ini Nginap Sampai Tahunan
Bali International Air Show 2024 Siap Tarik Ribuan Wisatawan per Hari
Banjir Kritik, Usulan Insentif Nikah untuk Wanita Tokyo Dibatalkan
Satu Airbus 350 Rusak Saat Terbang, Cathay Batalkan 24 Penerbangan


In [7]:
df=pd.read_csv("Crawl-berita.csv")
df

Unnamed: 0,judul,isi,tanggal,kategori
0,Keren! Gunung Rinjani Targetkan Pendakian Nol ...,Jakarta - Balai Taman Nasional Gunung Rinjani ...,"Rabu, 04 Sep 2024 11:05 WIB",Pariwisata
1,"Harimau Serang Pawang, Insiden Paling Langka t...",- Seorang pawang harimau memiliki risiko kerja...,"Rabu, 04 Sep 2024 10:35 WIB",Pariwisata
2,Pemangku Pariwisata Bali Sepakat Hentikan Alih...,Jakarta - Sejumlah pemangku pariwisata Bali se...,"Rabu, 04 Sep 2024 10:13 WIB",Pariwisata
3,Kesederhanaan Paus Fransiskus: Naik Pesawat Ko...,Jakarta - Pemimpin tertinggi Gereja Katolik se...,"Rabu, 04 Sep 2024 09:30 WIB",Pariwisata
4,Mau Liburan Hemat? Serbu Promo Tiket Kereta-Pe...,Jakarta - Merencanakan liburan menjadi satu ha...,"Rabu, 04 Sep 2024 09:30 WIB",Pariwisata
5,Bocah Selamat Setelah Jatuh di Situs Giant's C...,Jakarta - Tim penyelamat menandu seorang bocah...,"Rabu, 04 Sep 2024 09:19 WIB",Pariwisata
6,"Terlalu Nyaman, Tamu-tamu Hotel Ini Nginap Sam...",Subang - Favehotel Pamanukan sebagai hotel ter...,"Rabu, 04 Sep 2024 08:05 WIB",Pariwisata
7,Bali International Air Show 2024 Siap Tarik Ri...,Nusa Dua - Bali International Air Show 2024 me...,"Rabu, 04 Sep 2024 07:39 WIB",Pariwisata
8,"Banjir Kritik, Usulan Insentif Nikah untuk Wan...",Jakarta - Untuk mengatasi rendahnya angka kela...,"Rabu, 04 Sep 2024 07:11 WIB",Pariwisata
9,"Satu Airbus 350 Rusak Saat Terbang, Cathay Bat...",Hong Kong - Penumpang pesawat Cathay Pacific A...,"Rabu, 04 Sep 2024 07:05 WIB",Pariwisata
