# ⚙️ Implementasi Scraper Artikel Wikipedia dengan `requests` dan `BeautifulSoup` di Python

Berikut adalah skrip Python untuk mengambil dan memproses konten artikel Wikipedia:

* **Fungsi `get_wikipedia_page(topic)`:** Membuat URL Wikipedia berdasarkan topik, mengirimkan permintaan GET, dan mengembalikan konten HTML jika berhasil (status kode 200). Menangani kesalahan jika pengambilan data gagal.
* **Fungsi `get_article_title(soup)`:** Menerima objek BeautifulSoup dan mengekstrak teks dari tag `<h1>` yang berisi judul artikel.
* **Fungsi `get_article_summary(soup)`:** Menerima objek BeautifulSoup dan mencari paragraf `<p>` pertama yang tidak kosong untuk dijadikan ringkasan.
* **Fungsi `get_headings(soup)`:** Menerima objek BeautifulSoup dan mengekstrak teks dari semua tag `<h2>`, `<h3>`, dan `<h4>` untuk mendapatkan heading artikel.
* **Fungsi `get_related_links(soup)`:** Menerima objek BeautifulSoup, mencari tag `<a>` dengan atribut `href` yang dimulai dengan `/wiki/` dan tidak mengandung ":", lalu mengembalikan hingga 5 tautan unik terkait artikel.
* **Fungsi `main()`:**
    * Meminta pengguna memasukkan topik pencarian.
    * Memanggil `get_wikipedia_page()` untuk mendapatkan konten halaman.
    * Jika konten berhasil diambil, membuat objek BeautifulSoup untuk parsing HTML.
    * Memanggil fungsi-fungsi ekstraksi untuk mendapatkan judul, ringkasan, heading, dan tautan terkait.
    * Menampilkan informasi yang diekstrak.
* **Blok `if __name__ == "__main__":`:** Memastikan fungsi `main()` hanya dijalankan saat skrip dieksekusi secara langsung.

Jalankan sel kode di bawah untuk menjelajahi informasi dari Wikipedia!

In [1]:
# Wikipedia Article Scraper
import requests
from bs4 import BeautifulSoup

# Step 1: Get Wikipedia Article URL
def get_wikipedia_page(topic):
  url = f"https://en.wikipedia.org/wiki/{topic.replace(' ', '_')}"
  response = requests.get(url)
  if response.status_code == 200:
    return response.text
  else:
    print(f"Failed to retrieve data. Status code: {response.status_code}. Check the topic and try again")
    return None

# Step 2: Extract Article Title
def get_article_title(soup):
  return soup.find('h1').text

# Step 3: Extract Article Summary
def get_article_summary(soup):
  paragraphs = soup.find_all('p')
  for para in paragraphs:
    if para.text.strip():
      return para.text.strip()
  return "No summary found"

# Step 4: Extract Headings
def get_headings(soup):
  headings = [heading.text.strip() for heading in soup.find_all(['h2', 'h3', 'h4'])]
  return headings

# Step 5: Extract Related Links
def get_related_links(soup):
  links = []
  for a_tag in soup.find_all('a', href=True):
    href = a_tag['href']
    if href.startswith('/wiki/') and ":" not in href:
      links.append(f"https://en.wikipedia.org{href}")
  return list(set(links))[:5]

# Step 6: Main Program
def main():
  topic = input("Enter a topic to search on Wikipedia: ").strip()
  page_content = get_wikipedia_page(topic)

  if page_content:
    soup = BeautifulSoup(page_content, 'html.parser')
    title = get_article_title(soup)
    summary = get_article_summary(soup)
    headings = get_headings(soup)
    related_links = get_related_links(soup)

    print("\n--- Wikipedia Article Details ---")
    print(f"\nTitle: {title}")
    print(f"\nSummary: {summary}")
    print("\nHeadings:")
    for heading in headings[:5]:
      print(f"- {heading}")

    print("\nRelated Links:")
    for link in related_links:
      print(f"- {link}")

# Run Program
if __name__ == "__main__":
  main()

Enter a topic to search on Wikipedia:  Python



--- Wikipedia Article Details ---

Title: Python

Summary: Python may refer to:

Headings:
- Contents
- Snakes
- Computing
- People
- Roller coasters

Related Links:
- https://en.wikipedia.org/wiki/Main_Page
- https://en.wikipedia.org/wiki/Python_(genus)
- https://en.wikipedia.org/wiki/CMU_Common_Lisp
- https://en.wikipedia.org/wiki/Python_(nuclear_primary)
- https://en.wikipedia.org/wiki/Python_(Efteling)
