# **Crawling Berita Online**

## Konsep Crawling

Crawling data, atau web scraping, adalah proses otomatis untuk mengumpulkan data dari situs web menggunakan program yang disebut web crawler atau scraper. Program ini bekerja dengan mengakses halaman-halaman web, membaca konten HTML, dan mengekstrak informasi yang relevan seperti teks, gambar, atau tautan.

Untuk melakukan ini, crawler mengirimkan permintaan HTTP ke server web dan kemudian menerima konten halaman sebagai respons. Setelah konten halaman diperoleh, teknik parsing digunakan untuk menavigasi struktur HTML dan mengambil data yang diinginkan, seringkali dengan bantuan pustaka seperti BeautifulSoup atau Scrapy. Data yang diambil kemudian disimpan dalam format yang terstruktur, seperti CSV, JSON, atau dalam database, agar mudah dianalisis lebih lanjut. Saat melakukan crawling, penting untuk memperhatikan frekuensi permintaan agar tidak membebani server dan tetap mematuhi aturan yang ada, seperti file robots.txt atau ketentuan layanan situs web. Web scraping digunakan dalam berbagai aplikasi, termasuk pengumpulan data berita, pemantauan harga produk, dan analisis media sosial. Meskipun sangat berguna, kegiatan ini harus dilakukan dengan mematuhi etika dan peraturan hukum yang berlaku.

## Teknik dan Cara Crawling Menggunakan Python
Crawling data menggunakan Python dapat dilakukan dengan berbagai cara, mulai dari menggunakan pustaka sederhana seperti Requests dan BeautifulSoup untuk kebutuhan dasar, hingga framework yang lebih kompleks seperti Scrapy untuk kebutuhan yang lebih lanjut dan skalabilitas yang lebih tinggi. Teknik ini memungkinkan pengumpulan data otomatis dari situs web untuk berbagai tujuan, seperti analisis data, penelitian, dan pemantauan informasi secara real-time.

Berikut merupakan teknik dan cara Crawling menggunakan Python:
1. Menggunakan Requests dan BeautifulSoup
  Berikut merupakan langkah menggunakan Request dan BeautifulSoup untuk Crawling:
  1. Install library yang dibutuhkan, pastikan untuk menginstal library requests dan beautifulsoup4.
  2. Mnegirim permintaan HTTP dan mendapatkan konten halaman, Gunakan requests untuk mengirim permintaan HTTP ke halaman web yang ingin di-crawl.
  3. Parsing HTML dengan BeautifulSoup, gunakan BeautifulSoup untuk parsing HTML dan mengekstrak data yang dibutuhkan.
  4. Menyimpan Data yang Diperoleh setelah mengekstraksi data, simpan dalam format yang diinginkan seperti CSV, JSON, atau database.

2. Menggunakan Scrapy

  Scrapy adalah framework crawling dan scraping yang lebih kuat dan canggih, yang memungkinkan scraping data dari beberapa halaman dengan efisiensi tinggi. Scrapy juga menyediakan berbagai fitur seperti manajemen sesi, pemrosesan asinkron, dan dukungan untuk scraping paralel.

  Berikut merupakan langkah-langkah menggunakan scrapy:
  1. Install scrapy
  2. Buat proyek scrapy baru
  3. Membuat spider scrapy
  4. Menulis logika crawling dalam spider, buka file spider lalu tulis logika untuk merayapi dan mengekstrak data yang diinginkan.
  5. Jalankan spider

## Tool yang Digunakan (Library)

1. Request
  
     Pustaka ini digunakan untuk mengirim permintaan HTTP ke server web dan mendapatkan konten halaman web. Permintaan HTTP dapat menggunakan metode GET (untuk mengambil data) atau POST (untuk mengirim data).
2. BeautifulSoup

      Setelah konten halaman diperoleh menggunakan Requests, BeautifulSoup digunakan untuk parsing HTML dan mengekstrak elemen-elemen yang diinginkan berdasarkan tag HTML, atribut, atau struktur lainnya.
3. Pandas

  Pustaka Python open source yang berfungsi untuk mengolah dan menganalisis data, disini pandas akan digunakan untuk mengelola data hasil scraping dalam bentuk tabel (DataFrame) dan memanipulasi data lebih lanjut.


## Proses Crawling

**Import pustaka yang dibutuhkan**

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

**Mengatur URL Dasar**

Isi dengan URL dasar yang akan digunakan untuk mengakses halaman kategori "kuliner" di situs web Times Indonesia.


In [None]:
# URL awal untuk dua kategori
base_urls = {
    'Wisata': 'https://timesindonesia.co.id/kanal/wisata',
    'Kuliner': 'https://timesindonesia.co.id/kanal/kuliner'
}

**Mengambil Konten Berita**

Fungsi get_content(news_url) digunakan untuk mengambil dan mengembalikan teks berita dari halaman web yang URL-nya diberikan, khususnya dari elemen HTML dengan ID news_content. Jika elemen tersebut tidak ditemukan, fungsi ini akan mengembalikan string kosong.

In [None]:
# Fungsi untuk mengambil konten berita dari link detail
def get_content(news_url):
    response = requests.get(news_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    content_div = soup.find('div', id='news_content')
    if content_div:
        return content_div.text.strip()
    return ""


**Inisiliasi List Untuk Menyimpan Hasil Scrape**

Membuat list kosong yang akan diisi dengan data berita yang berhasil di-scrape dari situs web.

In [None]:
# List untuk menyimpan data
data = []

**Mengumpulkan Berita dari Berbagai Kategori**

Kode ini bertujuan untuk mengumpulkan berita dari berbagai kategori dengan mengiterasi melalui setiap kategori yang URL-nya disimpan dalam base_urls. Untuk setiap kategori, kode mengambil hingga 50 berita dengan melakukan permintaan HTTP ke URL kategori, menambahkan parameter page untuk mengakses halaman-halaman berita. Setelah memperoleh halaman berita, kode menggunakan BeautifulSoup untuk mengekstrak informasi dari elemen HTML yang relevan, seperti judul, tanggal, dan tautan berita. Isi berita kemudian diambil menggunakan fungsi get_content(link). Data yang diperoleh dari setiap artikel disimpan dalam dictionary dan ditambahkan ke list data. Proses ini dilanjutkan dengan mengakses halaman berikutnya hingga 50 berita terkumpul per kategori. Akhirnya, seluruh data yang dikumpulkan diubah menjadi DataFrame pandas untuk analisis lebih lanjut atau penyimpanan.

In [None]:
# Looping melalui tiap kategori
for category, base_url in base_urls.items():
    page = 1
    category_count = 0  # Menghitung jumlah berita per kategori

    while category_count < 50:  # Mengambil 50 berita per kategori
        response = requests.get(base_url + f'?page={page}')
        soup = BeautifulSoup(response.content, 'html.parser')

        articles = soup.find_all('div', class_='media-body')

        for index, article in enumerate(articles, start=len(data) + 1):
            if category_count >= 50:
                break
            # Mengambil data dari tag yang sesuai
            title_tag = article.find('h2', class_='h6 mt-0 mb-1')
            date_tag = article.find('small', class_='text-muted')
            link_tag = article.find('a', class_='text-light stretched-link')

            if title_tag and date_tag and link_tag:
                title = title_tag.text.strip()
                date = date_tag.text.strip()
                link = 'https://timesindonesia.co.id' + link_tag['href']
                content = get_content(link)

                # Menyimpan data dalam dictionary dengan nomor urut
                data.append({
                    'Judul Berita': title,
                    'Isi Berita': content,
                    'Tanggal Berita': date,
                    'Kategori Berita': category  # Dinamis berdasarkan kategori
                })

                category_count += 1  # Menambah hitungan berita per kategori

        page += 1

# Mengonversi data menjadi DataFrame
df = pd.DataFrame(data)

In [None]:
print(df)

                                         Judul Berita  \
0   Kedubes RI di Tunisia Ajak Jelajahi Keindahan ...   
1   Rekomendasi Hotel Bintang 5 di Kawasan Puncak ...   
2   Menikmati Sensasi Petik Melon di Desa Balongwo...   
3   Sejumlah Influencer Kepincut Pelayanan dan Fas...   
4   5 Pantai Unik dan Cantik Masuk Kawasan TN Mata...   
..                                                ...   
95  Keberagaman Kuliner Nusantara hadir di Pesta B...   
96  3 Rekomendasi Oleh-oleh Khas Cianjur, Ada Tauc...   
97  Mencicipi Lezatnya Hidangan Kerajaan Khas Suku...   
98  Menengok Keseruan Edukasi Memasak Bareng Aston...   
99  Kimaya Sudirman Yogyakarta Hadirkan Promo Kama...   

                                           Isi Berita      Tanggal Berita  \
0   TIMESINDONESIA, BANYUWANGI – Kedutaan Besar Re...  08/09/2024 - 19:47   
1   TIMESINDONESIA, CIANJUR – Berlibur atau melaku...  08/09/2024 - 09:00   
2   TIMESINDONESIA, MOJOKERTO – Ketika bosan denga...  07/09/2024 - 13:09   
3   TIM

**Menyimpan Data Dalam CSV**

In [None]:
# Menyimpan data ke dalam file CSV
df.to_csv('/content/drive/MyDrive/KULIAH/SEMESTER 7/PPW/data-berita-2kategori.csv', index=False)

print(f'Successfully scraped {len(data)} articles.')

Successfully scraped 100 articles.


In [None]:
import pandas as pd
# Membaca file CSV
data = pd.read_csv('/content/drive/MyDrive/KULIAH/SEMESTER 7/PPW/data-berita-2kategori.csv')
data

Unnamed: 0,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita
0,Kedubes RI di Tunisia Ajak Jelajahi Keindahan ...,"TIMESINDONESIA, BANYUWANGI – Kedutaan Besar Re...",08/09/2024 - 19:47,Wisata
1,Rekomendasi Hotel Bintang 5 di Kawasan Puncak ...,"TIMESINDONESIA, CIANJUR – Berlibur atau melaku...",08/09/2024 - 09:00,Wisata
2,Menikmati Sensasi Petik Melon di Desa Balongwo...,"TIMESINDONESIA, MOJOKERTO – Ketika bosan denga...",07/09/2024 - 13:09,Wisata
3,Sejumlah Influencer Kepincut Pelayanan dan Fas...,"TIMESINDONESIA, BANYUWANGI – Luminor Hotel Ban...",07/09/2024 - 06:08,Wisata
4,5 Pantai Unik dan Cantik Masuk Kawasan TN Mata...,"TIMESINDONESIA, SUMBA TIMUR – Ternyata di Pula...",01/09/2024 - 14:16,Wisata
...,...,...,...,...
95,Keberagaman Kuliner Nusantara hadir di Pesta B...,"TIMESINDONESIA, SURABAYA – Pesta Bakaran Indon...",01/09/2024 - 11:00,Kuliner
96,"3 Rekomendasi Oleh-oleh Khas Cianjur, Ada Tauc...","TIMESINDONESIA, CIANJUR – Kabupaten Cianjur ad...",01/09/2024 - 05:25,Kuliner
97,Mencicipi Lezatnya Hidangan Kerajaan Khas Suku...,"TIMESINDONESIA, BANYUWANGI – Banyuwangi terken...",29/08/2024 - 02:00,Kuliner
98,Menengok Keseruan Edukasi Memasak Bareng Aston...,"TIMESINDONESIA, MOJOKERTO – Aston Mojokerto Ho...",07/09/2024 - 03:22,Kuliner


In [None]:
# Menghitung total tiap kategori
total_kategori = df['Kategori Berita'].value_counts()

print(total_kategori)

Kategori Berita
Wisata     50
Kuliner    50
Name: count, dtype: int64
