# Tugas 1 : Crawling Berita

**Pengertian Crawling**


Crawling adalah proses otomatisasi yang dilakukan oleh program komputer untuk menjelajahi dan mengumpulkan data dari halaman-halaman web di internet. Proses ini sering kali dilakukan oleh bot yang dikenal sebagai web crawlers atau spiders. Web crawlers ini akan menelusuri (crawl) berbagai situs web, mengakses halaman-halaman yang ada, dan mengunduh atau mengekstraksi informasi yang dibutuhkan untuk kemudian disimpan atau diindeks dalam database.

**Fungsi Crawling**



1.   Mengindeks Halaman Web:


*   Crawling adalah langkah pertama dalam proses pengindeksan halaman web oleh mesin pencari. Web crawler akan mengunjungi halaman-halaman web, membaca kontennya, dan menyimpannya ke dalam indeks mesin pencari. Ini memungkinkan mesin pencari untuk menemukan dan menampilkan halaman-halaman tersebut dalam hasil pencarian.



2.   Pengumpulan Data:

*   Crawling memungkinkan pengumpulan data dari berbagai situs web untuk keperluan tertentu, seperti analisis bisnis, riset pasar, atau pengembangan model kecerdasan buatan. Dengan crawling, data dari berbagai sumber bisa dikumpulkan secara otomatis tanpa harus melakukannya secara manual.



3. Pemantauan Perubahan Konten:

*   Dengan crawling, perubahan atau pembaruan pada suatu situs web dapat dipantau secara berkala. Ini berguna untuk aplikasi yang memerlukan informasi terbaru, seperti agregator berita, alat pemantau harga, atau layanan notifikasi.



4. SEO (Search Engine Optimization):

*   Bagi pengelola situs web, memahami bagaimana proses crawling bekerja dapat membantu dalam optimasi mesin pencari (SEO). Dengan memastikan bahwa halaman-halaman web mereka mudah di-crawl dan diindeks, mereka bisa meningkatkan kemungkinan situs web mereka muncul di hasil pencarian mesin pencari.


In [13]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Fungsi untuk mengambil data dari halaman web Detik.com
def get_data(url, kategori):
    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return

    soup = BeautifulSoup(response.content, "html.parser")
    articles = soup.find_all("article", class_="list-content__item")

    for article in articles:
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            return

        try:
            link = article.find("a")["href"]
            article_response = requests.get(link)
            article_response.raise_for_status()
        except (requests.exceptions.RequestException, TypeError) as e:
            print(f"Request for article failed: {e}")
            continue

        article_soup = BeautifulSoup(article_response.content, "html.parser")
        title_element = article_soup.find("h1", class_="detail__title")
        title = title_element.text.strip() if title_element else "Title Not Found"
        date_element = article_soup.find("div", class_="detail__date")
        date = date_element.text.strip() if date_element else "Date Not Found"
        content_element = article_soup.find("div", class_="detail__body-text")
        content = content_element.text.strip() if content_element else "Content Not Found"

        judul.append(title)
        tanggal.append(date)
        isi.append(content)

        print(title)
        time.sleep(1)  # Menambahkan jeda waktu 1 detik antara permintaan artikel

# Membuat list url dan kategori yang akan di-crawl
base_urls = ["https://oto.detik.com/indeks"]
categories = ["Otomotif"]

# Inisialisasi list untuk menyimpan data
judul = []
tanggal = []
isi = []

# Melakukan iterasi untuk setiap url dan kategori
for base_url, category in zip(base_urls, categories):
    for page in range(1, 4):  # Looping untuk beralih halaman
        if len(judul) >= 10:  # Hentikan jika sudah 10 berita
            break

        url = f"{base_url}/{page}"
        get_data(url, category)
        time.sleep(2)  # Menambahkan jeda waktu 2 detik antara permintaan halaman

# Membuat dataframe dari list data
df = pd.DataFrame({
    "judul": judul,
    "tanggal": tanggal,
    "isi": isi
})

# Menyimpan dataframe ke file CSV
df.to_csv("Crawl-berita-Otomotif.csv", index=False)


Rayakan Ultah Ke-18, Komunitas Innova Buktikan Keiritan Mobil Hybrid
Macam-macam Ukuran Helm, Cara Memilih, dan Syarat SNI
Bezzecchi Bela Bagnaia, Kritik Pedas Alex Marquez: Mungkin Dia Buta...
BYD Lebarkan Sayap ke Bali
Cara Menghitung CC Motor dan Faktor yang Menentukan Besarannya
Pebulu Tangkis Fajar Alfian Beri Hadiah Mobil buat Orang Tuanya
Kawasaki Brusky 125 Bakal Dibawa ke Indonesia? Ini Jawaban KMI
Finis Kedua di Aragon, Martin: Ini yang Terbaik, Marquez Ada di Level Lain
Kala Ariel sampai Raffi Ahmad Pakai Motor Bebek Jadul: Ada Shogun sampai F1ZR
Cara Menghemat Baterai Mobil Listrik


In [14]:
df=pd.read_csv("Crawl-berita-Otomotif.csv")
df

Unnamed: 0,judul,tanggal,isi
0,"Rayakan Ultah Ke-18, Komunitas Innova Buktikan...","Senin, 02 Sep 2024 20:39 WIB",Jakarta - Berbeda dengan perayaan hari jadi se...
1,"Macam-macam Ukuran Helm, Cara Memilih, dan Sya...","Senin, 02 Sep 2024 20:03 WIB",Daftar Isi\n\n\n\n\r\n\t\t\t\t\t\t\tPanduan Uk...
2,"Bezzecchi Bela Bagnaia, Kritik Pedas Alex Marq...","Senin, 02 Sep 2024 19:22 WIB",Jakarta - Respons pebalap terkait kecelakaan b...
3,BYD Lebarkan Sayap ke Bali,"Senin, 02 Sep 2024 18:38 WIB","Jakarta - Produsen mobil asal China, BYD, kemb..."
4,Cara Menghitung CC Motor dan Faktor yang Menen...,"Senin, 02 Sep 2024 18:07 WIB",Daftar Isi\n\n\n\n\r\n\t\t\t\t\t\t\tCara Mengh...
5,Pebulu Tangkis Fajar Alfian Beri Hadiah Mobil ...,"Senin, 02 Sep 2024 17:34 WIB","Jakarta - Fajar Alfian, pebulu tangkis nasiona..."
6,Kawasaki Brusky 125 Bakal Dibawa ke Indonesia?...,"Senin, 02 Sep 2024 17:07 WIB",Jakarta - Kawasaki Brusky 125 baru saja dilunc...
7,"Finis Kedua di Aragon, Martin: Ini yang Terbai...","Senin, 02 Sep 2024 16:30 WIB",Jakarta - Jorge Martin finis kedua pada balap ...
8,Kala Ariel sampai Raffi Ahmad Pakai Motor Bebe...,"Senin, 02 Sep 2024 16:08 WIB","Jakarta - Para artis seperti Ariel, Raffi Ahma..."
9,Cara Menghemat Baterai Mobil Listrik,"Senin, 02 Sep 2024 15:36 WIB",Jakarta - Anda salah satu pengguna mobil listr...
