# **Crawling Berita Online**

## Konsep Crawling

Crawling data, atau web scraping, adalah proses otomatis untuk mengumpulkan data dari situs web menggunakan program yang disebut web crawler atau scraper. Program ini bekerja dengan mengakses halaman-halaman web, membaca konten HTML, dan mengekstrak informasi yang relevan seperti teks, gambar, atau tautan.

Untuk melakukan ini, crawler mengirimkan permintaan HTTP ke server web dan kemudian menerima konten halaman sebagai respons. Setelah konten halaman diperoleh, teknik parsing digunakan untuk menavigasi struktur HTML dan mengambil data yang diinginkan, seringkali dengan bantuan pustaka seperti BeautifulSoup atau Scrapy. Data yang diambil kemudian disimpan dalam format yang terstruktur, seperti CSV, JSON, atau dalam database, agar mudah dianalisis lebih lanjut. Saat melakukan crawling, penting untuk memperhatikan frekuensi permintaan agar tidak membebani server dan tetap mematuhi aturan yang ada, seperti file robots.txt atau ketentuan layanan situs web. Web scraping digunakan dalam berbagai aplikasi, termasuk pengumpulan data berita, pemantauan harga produk, dan analisis media sosial. Meskipun sangat berguna, kegiatan ini harus dilakukan dengan mematuhi etika dan peraturan hukum yang berlaku.

## Teknik dan Cara Crawling Menggunakan Python
Crawling data menggunakan Python dapat dilakukan dengan berbagai cara, mulai dari menggunakan pustaka sederhana seperti Requests dan BeautifulSoup untuk kebutuhan dasar, hingga framework yang lebih kompleks seperti Scrapy untuk kebutuhan yang lebih lanjut dan skalabilitas yang lebih tinggi. Teknik ini memungkinkan pengumpulan data otomatis dari situs web untuk berbagai tujuan, seperti analisis data, penelitian, dan pemantauan informasi secara real-time.

Berikut merupakan teknik dan cara Crawling menggunakan Python:
1. Menggunakan Requests dan BeautifulSoup
  Berikut merupakan langkah menggunakan Request dan BeautifulSoup untuk Crawling:
  1. Install library yang dibutuhkan, pastikan untuk menginstal library requests dan beautifulsoup4.
  2. Mnegirim permintaan HTTP dan mendapatkan konten halaman, Gunakan requests untuk mengirim permintaan HTTP ke halaman web yang ingin di-crawl.
  3. Parsing HTML dengan BeautifulSoup, gunakan BeautifulSoup untuk parsing HTML dan mengekstrak data yang dibutuhkan.
  4. Menyimpan Data yang Diperoleh setelah mengekstraksi data, simpan dalam format yang diinginkan seperti CSV, JSON, atau database.

2. Menggunakan Scrapy

  Scrapy adalah framework crawling dan scraping yang lebih kuat dan canggih, yang memungkinkan scraping data dari beberapa halaman dengan efisiensi tinggi. Scrapy juga menyediakan berbagai fitur seperti manajemen sesi, pemrosesan asinkron, dan dukungan untuk scraping paralel.

  Berikut merupakan langkah-langkah menggunakan scrapy:
  1. Install scrapy
  2. Buat proyek scrapy baru
  3. Membuat spider scrapy
  4. Menulis logika crawling dalam spider, buka file spider lalu tulis logika untuk merayapi dan mengekstrak data yang diinginkan.
  5. Jalankan spider

## Tool yang Digunakan (Library)

1. Request
  
     Pustaka ini digunakan untuk mengirim permintaan HTTP ke server web dan mendapatkan konten halaman web. Permintaan HTTP dapat menggunakan metode GET (untuk mengambil data) atau POST (untuk mengirim data).
2. BeautifulSoup
      Setelah konten halaman diperoleh menggunakan Requests, BeautifulSoup digunakan untuk parsing HTML dan mengekstrak elemen-elemen yang diinginkan berdasarkan tag HTML, atribut, atau struktur lainnya.
3. Pandas

      Pustaka Python open source yang berfungsi untuk mengolah dan menganalisis data, disini pandas akan digunakan untuk mengelola data hasil scraping dalam bentuk tabel (DataFrame) dan memanipulasi data lebih lanjut.

4. Time

      Untuk mengatur jeda antara permintaan saat melakukan scraping agar tidak terdeteksi sebagai bot oleh server target.

## Proses Crawling

Install pustaka yang dibutuhkan

In [None]:
!pip install requests
!pip install beautifulsoup4
!pip install pandas



**Mengatur URL Dasar**

Isi dengan URL dasar yang akan digunakan untuk mengakses halaman kategori "kuliner" di situs web Kompas.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# URL dasar untuk kategori 'kuliner'
base_url = 'https://www.kompas.id/kategori/gaya-hidup/kuliner?open_from=Side_Menu'


**Inisiliasi List Untuk Menyimpan Hasil Scrape**

Membuat list kosong yang akan diisi dengan data berita yang berhasil di-scrape dari situs web.

In [None]:
# Inisialisasi list untuk menyimpan hasil scrape
data_berita = []

**Menambahkan Headers**

Menentukan "User-Agent" agar permintaan terlihat seperti berasal dari browser biasa, untuk menghindari blokir dari situs web yang mendeteksi permintaan otomatis.

In [None]:
# Tambahkan headers
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

**Scraping**

1. Loop pertama yaitu Loop untuk Pagination

  - Loop ini digunakan untuk mengakses beberapa halaman (dalam hal ini, halaman 1 hingga 10) dari kategori "kuliner" di situs Kompas. Angka 11 di range(1, 11) menunjukkan bahwa loop ini berjalan untuk 10 halaman (1 sampai 10).
  - Menggunakan f-string untuk membuat URL lengkap untuk setiap halaman. base_url adalah URL dasar dari kategori "kuliner", dan page={page} menambahkan nomor halaman yang sedang diakses.
  - Mengirim permintaan HTTP GET ke URL yang sudah dihasilkan dengan requests.get(). headers berisi informasi "User-Agent" untuk menyamar sebagai browser.
  - Menggunakan BeautifulSoup untuk mem-parsing respons HTML yang diterima dari situs web, agar kita bisa mengekstrak data yang diperlukan.
2. Tunggu Sebelum Permintaan Berikutnya
  Membuat jeda waktu selama 3 detik sebelum mengirim permintaan berikutnya. Ini bertujuan untuk menghindari pengiriman terlalu banyak permintaan dalam waktu singkat yang bisa menyebabkan server menolak permintaan lebih lanjut atau memblokir IP.
3. Menggunakan find_all untuk mencari semua elemen <div> dengan kelas CSS tertentu yang mengidentifikasi bahwa elemen tersebut berisi informasi berita. Kelas CSS digunakan untuk menemukan bagian yang relevan dari halaman web.
4. Loop Untuk Iterasi

Loop ini akan melakukan iterasi melalui setiap elemen berita yang ditemukan. Mengambil elemen judul, link berita, kategori, dan tanggal.
5. Mengambil Konten Isi Berita
  - Mengirim permintaan GET untuk mengakses konten berita lengkap menggunakan link_berita.
  - Memeriksa apakah respons dari permintaan tersebut berhasil (kode status 200 menunjukkan sukses).
  - Mem-parsing respons HTML dari konten berita menggunakan BeautifulSoup.
  - Mencari elemen paragraf (<p>) yang berisi isi berita menggunakan kelas CSS tertentu.
  - kemudian dibuat kondisi apakah elemen berisi isi berita ditemukan, jika tidak maka diatur ke 'N/A'
  - Menyimpan data berita yang berhasil diambil (judul, isi berita, tanggal, kategori) ke dalam list data_berita. Data ini nantinya akan digunakan untuk membuat DataFrame atau disimpan dalam file CSV.



In [None]:
# Loop untuk menangani pagination
for page in range(1, 11):  # Misalnya, kita ambil 10 halaman
    url = f'{base_url}?page={page}'
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')

    # Tunggu 2-5 detik sebelum permintaan berikutnya
    time.sleep(3)

    berita_items = soup.find_all('div', class_='block clearfix text-grey-60 kui-PGc kui-2Qi kui-Ysv')

    for item in berita_items:
        try:
            judul = item.find('h4', class_='hover:underline font-sans leading-tight text-grey-60 hover:underline').get_text(strip=True)
            link_berita = 'https://www.kompas.id' + item.find('a')['href']
            kategori = item.find('span', text=True).get_text(strip=True) if item.find('span', text=True) else 'N/A'
            tanggal = item.find('time')['datetime'] if item.find('time') else 'N/A'

            response_berita = requests.get(link_berita, headers=headers)

            if response_berita.status_code == 200:
                soup_berita = BeautifulSoup(response_berita.text, 'html.parser')
                isi_berita_element = soup_berita.find('p', class_='ksm-1ST ksm-2Uv')
                if isi_berita_element:
                    isi_berita = isi_berita_element.get_text(strip=True)
                else:
                    isi_berita = 'N/A'
            else:
                print(f"Failed to fetch article content, status code: {response_berita.status_code}")
                isi_berita = 'N/A'

            data_berita.append({
                'Judul': judul,
                'Isi Berita': isi_berita,
                'Tanggal': tanggal,
                'Kategori': kategori,
                # 'Link': link_berita
            })
        except Exception as e:
            print(f'Error processing item: {e}')

  kategori = item.find('span', text=True).get_text(strip=True) if item.find('span', text=True) else 'N/A'


Print data berita dengan dataframe

In [None]:
df = pd.DataFrame(data_berita)
print(df)

                                                Judul  \
0                Nyanyian Kelezatan Kuliner Nusantara   
1                                      Kue Basah Asin   
2   Icip-icip Soto Betawi dan Mi Ayam di Sekitar S...   
3           Musim Semi Kuliner di Sekitar Stasiun MRT   
4        Berburu Kuliner Viral di Sekitar Stasiun MRT   
..                                                ...   
95                           Inspirasi Menu Sederhana   
96                    Gurih Legit Bebek Madura Ma’Isa   
97      Merayakan Kebinekaan Menu Zamrud Khatulistiwa   
98              Cita Rasa Malaysia di Selatan Jakarta   
99                 Australia Gencarkan Promosi Pangan   

                                           Isi Berita              Tanggal  \
0   Merayakan hari baik dengan makan-makan bermenu...  2024-08-18 14:05:23   
1   Selama ini kue basah digambarkan sebagai kue y...  2024-08-18 09:00:38   
2   Usahakulinerdi sekitar stasiunMRTsemakin berag...  2024-08-16 14:30:00   
3  

**Menyimpan Data Dalam CSV**

In [None]:
# Simpan hasil ke CSV jika perlu
df.to_csv('/content/drive/MyDrive/KULIAH/SEMESTER 7/PPW/TUGAS/data_berita_kuliner.csv', index=False)