# Crawling Berita Online



### Konsep Crawling Data
Crawling data adalah proses otomatis di mana sebuah program komputer (disebut "crawler" atau "spider") menjelajahi internet untuk mengumpulkan informasi dari berbagai situs web. Bayangkan seperti laba-laba yang berjalan di seluruh jaring untuk menemukan dan mengumpulkan informasi. Crawler ini biasanya digunakan untuk mengindeks halaman web, sehingga informasi tersebut dapat dicari dan diakses dengan mudah, seperti yang dilakukan oleh mesin pencari seperti Google.

Crawling digunakan untuk mengumpulkan data dari berbagai sumber web untuk analisis, pelatihan model machine learning, atau keperluan riset. Mesin pencari seperti Google menggunakan crawler untuk mengindeks halaman web sehingga dapat ditampilkan dalam hasil pencarian, dan Beberapa perusahaan menggunakan crawling untuk memantau harga produk, berita, atau ulasan secara real-time.


### Teknik dan Cara Crawling Menggunakan Python

Crawling data dengan Python adalah proses mengambil data dari situs web secara otomatis dengan menggunakan alat dan pustaka tertentu. Berikut adalah penjelasan langkah-langkahnya:

1. Persiapan Lingkungan (Instalasi Pustaka Python) : menginstal beberapa pustaka Python yang digunakan untuk mengakses dan memanipulasi data web. Pustaka utama yang biasanya digunakan meliputi:
  - Requests: Untuk mengirim permintaan HTTP ke situs web dan mengambil halaman web sebagai respons.
  - BeautifulSoup: Untuk mem-parsing dan mengekstrak data dari konten HTML yang didapatkan dari situs web.
  - Scrapy: Sebuah framework yang lebih canggih yang dirancang khusus untuk crawling data dalam skala besar.
  - Selenium: Digunakan untuk situs web yang menggunakan JavaScript, di mana berinteraksi dengan elemen web yang dinamis.

2. Mengirim Permintaan HTTP : Langkah pertama dalam crawling adalah mengirimkan permintaan ke situs web target menggunakan metode HTTP, seperti GET. Hal ini memungkinkan untuk mendapatkan konten halaman web yang kemudian dapat diolah lebih lanjut.

3. Parsing HTML
Setelah menerima respons dari situs web, akan mendapatkan konten HTML dari halaman tersebut. HTML ini perlu diurai untuk mengekstrak informasi yang relevan seperti teks, gambar, link, atau data lain yang diinginkan.
Pustaka seperti BeautifulSoup memungkinkan untuk mengurai struktur HTML dan menavigasi melalui elemen-elemen di dalamnya, seperti tag div, a, p, dan lainnya, untuk menemukan data yang dibutuhkan.
4. Mengatasi Halaman Web Dinamis
Beberapa situs web tidak menampilkan konten secara langsung dalam HTML, melainkan menggunakan JavaScript untuk memuat data secara dinamis. Untuk meng-crawl data dari situs semacam ini, perlu menggunakan alat seperti Selenium, yang dapat mengotomatiskan browser web untuk berinteraksi dengan elemen halaman (seperti klik tombol atau mengisi formulir) dan mengambil data setelah halaman sepenuhnya dimuat.
5. Framework Scrapy
Untuk crawling yang lebih kompleks dan dalam skala besar, Scrapy merupakan pilihan yang tepat. Framework ini memungkinkan untuk mengelola seluruh proses crawling, mulai dari mengirim permintaan, mengolah data, hingga menyimpannya dalam berbagai format. Scrapy juga mendukung fitur seperti crawling paralel, pengaturan ulang URL yang akan dikunjungi, dan middleware untuk menyesuaikan perilaku crawler.
6. Pengaturan Batasan dan Kepatuhan
Dalam melakukan crawling, penting untuk memperhatikan beberapa batasan agar tidak membebani server situs web yang ditargetkan. Ini termasuk mengatur interval waktu antara permintaan dan mematuhi aturan yang ditetapkan oleh situs dalam file robots.txt, yang mengatur halaman mana yang boleh di-crawl dan mana yang tidak.
7. Penyimpanan Data
Setelah data diekstraksi dari situs web, langkah berikutnya adalah menyimpannya. Data ini bisa disimpan dalam berbagai format seperti CSV, JSON, atau langsung dimasukkan ke dalam database. Penyimpanan ini memungkinkan untuk menganalisis data lebih lanjut atau menggunakannya untuk tujuan lain.
8. Pemantauan dan Pemeliharaan
Proses crawling perlu dipantau untuk memastikan bahwa tidak ada masalah yang muncul, seperti situs web yang mengubah struktur HTML mereka. Pemeliharaan rutin mungkin diperlukan untuk memperbarui crawler agar tetap efektif dalam mengumpulkan data.
Dengan memahami dan menerapkan langkah-langkah ini, dapat melakukan crawling data menggunakan Python dengan cara yang efisien dan sesuai dengan praktik terbaik.



### Tools yang Digunakan (Lybrary)

Dalam proses crawling data menggunakan Python, beberapa pustaka (library) utama sering digunakan. Berikut adalah pustaka-pustaka tersebut beserta fungsinya:

1. Requests
  
  Fungsi: Mengirimkan permintaan HTTP ke situs web untuk mendapatkan data.
  Kegunaan: Mengambil konten halaman web seperti HTML, JSON, atau file lainnya.

2. BeautifulSoup (bs4)

  Fungsi: Mem-parsing HTML dan XML untuk mengekstrak informasi.
  Kegunaan: Menavigasi dan mencari elemen dalam struktur HTML, seperti tag div, a, p, dll., untuk mendapatkan data yang diinginkan.

3. Scrapy

  Fungsi: Framework komprehensif untuk crawling dan scraping data web.
  Kegunaan: Mengelola seluruh proses crawling termasuk pengiriman permintaan, parsing data, dan penyimpanan hasil. Mendukung fitur seperti pengaturan concurrency, pengelolaan antrian URL, dan pengolahan middleware.

4. Selenium

  Fungsi: Mengotomatiskan interaksi dengan browser web.
  Kegunaan: Cocok untuk situs web dinamis yang memerlukan interaksi pengguna, seperti klik tombol, pengisian formulir, atau berinteraksi dengan elemen yang dimuat dengan JavaScript.
5. Pandas

  Fungsi: Memanipulasi dan menganalisis data dalam format tabular.
  Kegunaan: Setelah data diambil, Pandas dapat digunakan untuk membersihkan, mengolah, dan menganalisis data sebelum menyimpannya dalam format seperti CSV atau Excel.
6. BeautifulSoup4

  Fungsi: Memparsing dan mengekstrak data dari halaman web.
  Kegunaan: Mirip dengan BeautifulSoup, sering digunakan untuk proses ekstraksi data

### Code Crawling Berita Online

1. Meng-import Library yang Dibutuhkan
  - requests: untuk mengirim permintaan HTTP ke server dan mendapatkan respons.
  - BeautifulSoup dari bs4: untuk mem-parsing HTML dan mengekstrak informasi dari halaman web.
  - pandas: untuk mengelola dan memanipulasi data dalam bentuk DataFrame.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

2. Menentukan URL Awal

  base_url menyimpan URL halaman web utama yang akan di-crawl, dalam hal ini adalah halaman politik dari situs Times Indonesia.

In [None]:
# URL awal
base_url = 'https://timesindonesia.co.id/kanal/politik'

3. Fungsi untuk Mengambil Konten Berita dari Link Detail

  Fungsi get_content(news_url) digunakan untuk mengambil isi berita dari halaman detail. Fungsi ini melakukan hal berikut:

  - Mengirim permintaan GET ke news_url.
  - Memparsing konten HTML respons menggunakan BeautifulSoup.
  - Mencari div dengan id="news_content" yang diharapkan berisi teks berita.
  - Mengembalikan teks yang telah di-strip jika ditemukan, atau mengembalikan string kosong jika tidak ditemukan.

In [None]:
# Fungsi untuk mengambil konten berita dari link detail
def get_content(news_url):
    response = requests.get(news_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    content_div = soup.find('div', id='news_content')
    if content_div:
        return content_div.text.strip()
    return ""


4. Membuat List untuk Menyimpan Data

  List data dibuat untuk menyimpan informasi dari setiap artikel berita yang akan diambil.

In [None]:
# List untuk menyimpan data
data = []

5. Looping untuk Mengambil 50 Berita Pertama

  Looping ini bertujuan untuk terus mengambil data dari halaman web hingga jumlah berita yang terkumpul mencapai 50 berita dari kanal politik.

  1. Looping Utama:

    - Variabel page diinisialisasi dengan nilai 1, yang mewakili halaman pertama.
    - Looping while len(data) < 50: akan terus berjalan selama jumlah berita yang terkumpul di dalam list data belum mencapai 50.

  2. Mengambil Konten Setiap Halaman:
    - Dalam setiap iterasi, program mengirimkan permintaan GET ke URL halaman yang sesuai dengan page saat ini.
    - Konten HTML dari respons tersebut kemudian diparsing menggunakan BeautifulSoup.

  3. Mengidentifikasi dan Mengekstrak Artikel:

    - Semua artikel berita pada halaman tersebut diidentifikasi dengan mencari elemen div yang memiliki kelas media-body.
    - Looping for article in articles: digunakan untuk mengiterasi setiap artikel yang ditemukan.

  4. Pengambilan dan Penyimpanan Data Artikel:

    - Untuk setiap artikel, jika list data sudah berisi 50 berita, maka proses looping dihentikan dengan break.
    - Selanjutnya, kode mencoba untuk mengekstrak judul berita, tanggal, dan link ke halaman detail artikel dari tag HTML yang sesuai.
    - Jika semua elemen yang dibutuhkan (judul, tanggal, link) ditemukan, data tersebut diproses lebih lanjut.
    - Isi berita diambil dengan memanggil fungsi get_content(link).
    - Data dari artikel tersebut kemudian disimpan dalam list data sebagai dictionary.

  5. Pindah ke Halaman Berikutnya:

    - Setelah semua artikel pada halaman saat ini selesai diproses, variabel page ditingkatkan (page += 1) untuk melanjutkan ke halaman berikutnya dalam iterasi berikutnya.
    - Proses ini terus berjalan hingga list data berisi 50 berita, di mana proses looping akan berhenti.

In [None]:
# Looping untuk 50 berita pertama
page = 1
while len(data) < 50:
    response = requests.get(base_url + f'?page={page}')
    soup = BeautifulSoup(response.content, 'html.parser')

    articles = soup.find_all('div', class_='media-body')

    for article in articles:
        if len(data) >= 50:
            break
        # Mengambil data dari tag yang sesuai
        title_tag = article.find('h2', class_='h6 mt-0 mb-1')
        date_tag = article.find('small', class_='text-muted')
        link_tag = article.find('a', class_='text-light stretched-link')

        if title_tag and date_tag and link_tag:
            title = title_tag.text.strip()
            date = date_tag.text.strip()
            category = "Politik"  # Kategori tetap karena berasal dari kanal Politik
            link = 'https://timesindonesia.co.id' + link_tag['href']
            content = get_content(link)

            # Menyimpan data dalam dictionary
            data.append({
                'judul_berita': title,
                'isi_berita': content,
                'tanggal_berita': date,
                'kategori_berita': category
            })

    page += 1

6. Mengonversi Data menjadi DataFrame

  Setelah 50 artikel terkumpul, data tersebut dikonversi menjadi DataFrame menggunakan pandas untuk memudahkan manipulasi data lebih lanjut.

In [None]:
# Mengonversi data menjadi DataFrame
df = pd.DataFrame(data)

7. Menyimpan Data ke dalam File CSV

  DataFrame disimpan ke dalam file CSV dengan nama Tugas-Crawling-Data-Berita.csv

In [None]:
# Menyimpan data ke dalam file CSV
df.to_csv('Tugas-Crawling-Data-Berita.csv', index=False)

8. Mencetak Jumlah Artikel yang Berhasil Diambil

  

In [None]:
print(f'Successfully scraped {len(data)} articles.')

Successfully scraped 50 articles.


In [None]:
print(df)

                                         judul_berita  \
0   Bacawabup Lathifah Solidkan Seribu Relawan, Si...   
1   Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...   
2   Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...   
3   Sejumlah Kader Partai Golkar dan PKB Berbalik ...   
4   Sukiman Azmy Mantapkan Dukungan pada Iqbal-Din...   
5   Menkumham Supratman Teken SK Baru PKB, Duet Ca...   
6   Pengamat: Pilgub Jatim Lebih Dominan Melihat F...   
7   Pilkada Majalengka, Aceng Sunanto Alihkan Duku...   
8   Bacawabup Lathifah Solidkan Seribu Relawan, Si...   
9   Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...   
10  Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...   
11  Sejumlah Kader Partai Golkar dan PKB Berbalik ...   
12  Sukiman Azmy Mantapkan Dukungan pada Iqbal-Din...   
13  Menkumham Supratman Teken SK Baru PKB, Duet Ca...   
14  Pengamat: Pilgub Jatim Lebih Dominan Melihat F...   
15  Pilkada Majalengka, Aceng Sunanto Alihkan Duku...   
16  Bacawabup Lathifah Solidkan