<a href="https://colab.research.google.com/github/fdhliakbar/IR-Lab/blob/main/Prak02_Web_Scraper.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Web Crawl & Web Scraper

<img src="https://static.octoparse.com/en/20240506164045767.png" alt="Web Crawler and Web Scrapper Image"/>

## Web Crawling

Web Crawling adalah proses otomatis dan sistematis yang dilakukan oleh program yang disebut Web Crawler (atau spider atau bot) untuk menjelajahi (merayapi) halaman-halaman web di internet secara luas.

Tujuan Utama: Menemukan dan mengindeks semua URL atau tautan yang ada pada sebuah situs atau seluruh web.

Fokus & Cakupan: Luas, seperti mesin pencari (Google, Bing) yang bertujuan membangun indeks besar dari konten web. Outputnya adalah daftar URL yang telah dirayapi.

## Web Scraping

Web Scraping adalah teknik untuk mengekstrak data spesifik dari halaman web dan menyimpannya ke format yang dapat digunakan (misalnya CSV, JSON, atau database).
 - Tujuan Utama: Mengumpulkan data terstruktur tertentu (misalnya nama produk, harga, deskripsi) dari halaman web target.

- Fokus & Cakupan: Spesifik, berfokus pada pengambilan data tertentu dari halaman yang sudah diketahui. Outputnya adalah data yang terstruktur (contoh: nama, harga, rating).

Cara Kerja Sederhana:
1. Mengakses URL halaman web target (seringkali URL ini didapatkan dari proses crawling).

2. Mengambil konten HTML/XML.

3. Mem-parsing (menganalisis) struktur HTML untuk menemukan elemen-elemen spesifik (menggunakan tag, class, ID, atau XPath/CSS Selector).

4. Mengekstrak data dari elemen-elemen tersebut.

5. Menyimpan data yang diekstrak.

## Perbedaan

| Perbedaan | Web Crawling | Web Scraping |
|-------|-----|--------|
| Fokus | Penemuan dan pengindeksan URL | Ekstraksi data spesifik
| Cakupan | Luas | Spesifik |
| Output | Daftar URL | Data terstruktur |


## Lanjut Langkah Praktikum 😁

### Install Requiments yang Dibutuhkan

In [None]:
!pip install beautifulsoup4
!pip install requests



## Program Utama

In [5]:
import json
import requests
from bs4 import BeautifulSoup
from datetime import datetime

news_data = []
data_json = {
    'title': '',
    'content': '',
    'author': '',
    'url': '',
    'published_at': '',
    'scraped_at': ''
}
filename = 'scraping_result.json'

# Ganti dengan URL yang akan di-scrape
url = 'https://opendesa.id/berita/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# Request ke halaman utama
page_response = requests.get(url, headers=headers)
soup = BeautifulSoup(page_response.text, 'html.parser')

if page_response.status_code == 200:
    # ambil semua card artikel
    populer = soup.find_all('div', class_='elementskit-post-image-card')

    if populer:
        for item in populer:
            # ambil url dan judul
            title_tag = item.find('h2', class_='entry-title').find('a')
            data_json['url'] = title_tag.get('href')
            data_json['title'] = title_tag.text.strip()

            # Mengambil URL artikel
            article_url = data_json['url']
            url_response = requests.get(article_url, headers=headers)
            soup2 = BeautifulSoup(url_response.text, 'html.parser')

            if url_response.status_code == 200:
                # bagian konten artikel
                article = soup2.find('div', class_='entry-content')
                if article:
                    text = ''
                    for paragraph in article.find_all('p'):
                        text += paragraph.text.strip() + ' '
                    data_json['content'] = text.strip()
                else:
                    data_json['content'] = ''

                # penulis & tanggal
                author_tag = soup2.find('span', class_='author-name')
                date_tag = soup2.find('time', class_='entry-date')

                data_json['author'] = author_tag.text.strip() if author_tag else 'Tidak diketahui'
                data_json['published_at'] = date_tag.text.strip() if date_tag else 'Tidak diketahui'

            else:
                print(f'Request url {article_url} gagal (Status code: {url_response.status_code}) !!!')

            # Tambahkan waktu scraping
            data_json['scraped_at'] = datetime.now().strftime('%d %B %Y %H:%M WIB')
            news_data.append(dict(data_json))

else:
    print(f'Request url {url} gagal (Status code: {page_response.status_code}) !!!')

# Menyimpan data yang berhasil di-scrape
if news_data:
    with open(filename, 'w', encoding='utf-8') as write_file:
        json.dump(news_data, write_file, indent=3, ensure_ascii=False)
        print(f'Data berhasil disimpan ke dalam file {filename}!')
else:
    print('Data tidak ditemukan !!!')


Data berhasil disimpan ke dalam file scraping_result.json!


## POSTEST

In [3]:
import json
import requests
from bs4 import BeautifulSoup
from datetime import datetime

news_data = []
data_json = {
    'title': '',
    'content': '',
    'author': '',
    'url': '',
    'published_at': '',
    'scraped_at': ''
}
filename = 'Hasil_Scrapping.json'

# Ganti dengan URL yang akan di-scrape
url = 'https://uad.ac.id/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# Request ke halaman utama
page_response = requests.get(url, headers=headers)
soup = BeautifulSoup(page_response.text, 'html.parser')

if page_response.status_code == 200:
    # ambil semua card artikel
    populer = soup.find_all('li', class_='wp_rss_retriever_item')

    if populer:
        for item in populer:
            # ambil url dan judul
            title_tag = item.find('a', class_='wp_rss_retriever_title')
            if not title_tag:
                continue

            data_json['url'] = title_tag.get('href')
            data_json['title'] = title_tag.text.strip()

            # Mengambil URL artikel
            article_url = data_json['url']
            url_response = requests.get(article_url, headers=headers)
            soup2 = BeautifulSoup(url_response.text, 'html.parser')

            if url_response.status_code == 200:
                # bagian konten artikel
                article = soup2.find('div', class_='entry-content')
                if article:
                    text = ''
                    for paragraph in article.find_all('p'):
                        text += paragraph.text.strip() + ' '
                    data_json['content'] = text.strip()
                else:
                    data_json['content'] = ''

                # penulis & tanggal mungkin tidak ada, jadi optional
                author_tag = soup2.find('span', class_='author-name')
                date_tag = soup2.find('time', class_='entry-date')

                data_json['author'] = author_tag.text.strip() if author_tag else 'Tidak diketahui'
                data_json['published_at'] = date_tag.text.strip() if date_tag else 'Tidak diketahui'

            else:
                print(f'Request url {article_url} gagal (Status code: {url_response.status_code}) !!!')

            # Tambahkan waktu scraping
            data_json['scraped_at'] = datetime.now().strftime('%d %B %Y %H:%M WIB')
            news_data.append(dict(data_json))

else:
    print(f'Request url {url} gagal (Status code: {page_response.status_code}) !!!')

# Menyimpan data yang berhasil di-scrape
if news_data:
    with open(filename, 'w', encoding='utf-8') as write_file:
        json.dump(news_data, write_file, indent=3, ensure_ascii=False)
        print(f'Data berhasil disimpan ke dalam file {filename}!')
else:
    print('Data tidak ditemukan !!!')

Data berhasil disimpan ke dalam file Hasil_Scrapping.json!


## Menampilkan Hasil Scrapping

### Hasil Scrapping Artikel UAD

In [4]:
filename = 'Hasil_Scrapping.json'
with open(filename, 'r', encoding='utf-8') as file:
    data = json.load(file)

print(f"Jumlah Artikel: {len(data)}\n")


for i, artikel in enumerate(data, start=1):
  print(f"Artikel ke-{i}")
  print(f"Title        : {artikel['title']}")
  print(f"Content      : {artikel['content']}")
  print(f"Authpr       : {artikel['author']}")
  print(f"URL          : {artikel['url']}")
  print(f"Published at : {artikel['published_at']}")
  print(f"Scraped at   : {artikel['scraped_at']}")


Jumlah Artikel: 8

Artikel ke-1
Title        : Mahasiswa Gizi UAD Gandeng Puskesmas Umbulharjo I Adakan Edukasi
Content      : Mahasiswa PKL Gizi Universitas Ahmad Dahlan (UAD) bersama Puskesmas Umbulharjo I mengadakan edukasi gizi (Foto. PPL Gizi UAD) Anemia merupakan kondisi berkurangnya jumlah eritrosit yang ditandai dengan penurunan kadar hemoglobin, hematokrit, dan eritrosit dalam darah. Penyakit ini menyebabkan kadar hemoglobin rendah, yang mengakibatkan mudah lelah, kulit pucat, kesulitan berkonsentrasi, hingga menurunnya prestasi belajar. Anemia masih menjadi masalah kesehatan yang signifikan bagi remaja putri di Indonesia. Berdasarkan data Riskesdas 2018, prevalensi anemia pada remaja putri meningkat menjadi 48,9%. Data Survei Kesehatan Rumah Tangga (SKRT) juga menunjukkan bahwa 57,1% remaja putri usia 10–18 tahun mengalami anemia. Untuk mencegah anemia sejak dini, Puskesmas Umbulharjo I bekerja sama dengan mahasiswa PKL Gizi Universitas Ahmad Dahlan (UAD) mengadakan edukasi g

### Hasil Scrapping Artikel Opendesa.id

In [6]:
filename = 'scraping_result.json'
with open(filename, 'r', encoding='utf-8') as file:
    data = json.load(file)

print(f"Jumlah Artikel: {len(data)}\n")


for i, artikel in enumerate(data, start=1):
  print(f"Artikel ke-{i}")
  print(f"Title        : {artikel['title']}")
  print(f"Content      : {artikel['content']}")
  print(f"Authpr       : {artikel['author']}")
  print(f"URL          : {artikel['url']}")
  print(f"Published at : {artikel['published_at']}")
  print(f"Scraped at   : {artikel['scraped_at']}")


Jumlah Artikel: 99

Artikel ke-1
Title        : Lowongan : Programmer
Content      : 
Authpr       : Tidak diketahui
URL          : https://opendesa.id/lowongan-programmer-2/
Published at : Tidak diketahui
Scraped at   : 20 October 2025 08:52 WIB
Artikel ke-2
Title        : Takalar Percepat Transformasi Digital Desa melalui Bimtek OpenSID Gelombang 3
Content      : 
Authpr       : Tidak diketahui
URL          : https://opendesa.id/takalar-percepat-transformasi-digital-desa-melalui-bimtek-opensid-gelombang-3/
Published at : Tidak diketahui
Scraped at   : 20 October 2025 08:52 WIB
Artikel ke-3
Title        : Menuju Desa Digital Terpadu: Kabupaten Takalar Gelar Pelatihan Tahap 2 OpenSID
Content      : 
Authpr       : Tidak diketahui
URL          : https://opendesa.id/menuju-desa-digital-terpadu-kabupaten-takalar-gelar-pelatihan-tahap-2-opensid/
Published at : Tidak diketahui
Scraped at   : 20 October 2025 08:52 WIB
Artikel ke-4
Title        : Menuju Desa Digital Terintegrasi: Kabupaten Ta

## Petunjuk Pengerjaan

1. Lakukan scraping untuk mengambil data Artikel di Web UAD https://uad.ac.id/
2. Simpan file dalam bentuk json atau xlsx!

## Petunjuk pengumpulan:
1. Silahkan kerjakan POSTEST dengan ketentuan yang dikumpulkan adalah File PDF
2. Codingan boleh ketik dan berikan penjelasan singkat
3. Dalam laporan jangan lupa berikan **link kode program** yang telah kalian buat di `Google Colab`
4. Penamaan file tugas: Postest (Post-ke_NIM_Kelas_Nama)

Batas Pengumpulan Sampai Jam 23.59 Hari ini.

---

## Selamat Mengerjakan :)

<div align="center">
<img src="https://i.pinimg.com/1200x/5e/93/65/5e936554d2f69562f31c03deb0356548.jpg" width="60%" alt="Monkey Thinking" />
</div>