<a href="https://colab.research.google.com/github/rezaldii/Analyzing-Wikipedia-Pages/blob/main/Analyzing_Wikipedia_Pages.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyzing Wikipedia Pages

In [None]:
# Instalasi Library Requests dan BeautifulSoup
!pip install requests beautifulsoup4



## Mengunduh dan Menyimpan Halaman Wikipedia Secara Acak

Kode ini mengunduh halaman acak dari Wikipedia, mengekstrak judulnya, dan menyimpannya dalam folder lokal dengan nama file berdasarkan judul halaman.

1. **`get_article_title(html_content)`**:  
   Mengekstrak judul dari konten HTML halaman Wikipedia dengan mencari tag `<h1>`, membersihkannya dari karakter ilegal, dan mengubahnya menjadi format yang aman untuk nama file.

2. **`get_random_wikipedia_pages(num_pages)`**:  
   Mengunduh sejumlah halaman acak dari Wikipedia menggunakan URL `https://en.wikipedia.org/wiki/Special:Random`. Setiap halaman disimpan dalam tuple berisi URL dan konten HTML-nya.

3. **`save_pages_to_folder(pages, folder_name="wiki")`**:  
   Menyimpan halaman yang diunduh ke folder `wiki`. Nama file diambil dari judul halaman yang sudah dibersihkan. Folder dibuat jika belum ada.

4. **Proses Utama**:  
   - Mengunduh 999 halaman acak dari Wikipedia.
   - Menyimpan setiap halaman dalam folder `wiki` dengan nama file sesuai judul halaman.
   - Hasilnya adalah folder `wiki` berisi file-file HTML dari halaman Wikipedia yang telah diunduh.

Kode ini memungkinkan pengumpulan halaman Wikipedia acak untuk analisis lebih lanjut.

In [None]:
import requests
from bs4 import BeautifulSoup
import os
import time

# Fungsi untuk mendapatkan judul Pages dari halaman HTML
def get_article_title(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    title_tag = soup.find('h1', {'id': 'firstHeading'})
    if title_tag:
        title = title_tag.text.strip()
        # Membersihkan karakter ilegal dari nama file
        clean_title = "".join([c for c in title if c.isalpha() or c.isdigit() or c in (' ', '-', '_')]).rstrip()
        return clean_title.replace(" ", "_") + ".html"
    return None

# Fungsi untuk mendapatkan Pages acak dari Wikipedia
def get_random_wikipedia_pages(num_pages):
    pages = []
    unique_urls = set()  # Set untuk menyimpan URL unik

    while len(pages) < num_pages:
        # URL untuk mendapatkan Pages acak
        url = "https://en.wikipedia.org/wiki/Special:Random"
        response = requests.get(url)

        # Dapatkan konten HTML dari Pages tersebut
        if response.status_code == 200:
            if response.url not in unique_urls:  # Cek apakah URL sudah ada di set
                unique_urls.add(response.url)  # Tambahkan URL ke set
                pages.append((response.url, response.text))
                print(f"Berhasil mengunduh Pages ke-{len(pages)}")
            else:
                print(f"Pages dengan URL {response.url} sudah diunduh sebelumnya. Mencoba lagi...")
        else:
            print(f"Gagal mengambil Pages dari {url}. Mencoba lagi...")

        # Menghormati batasan API dengan menunggu 1 detik
        time.sleep(1)

    return pages

# Fungsi untuk menyimpan Pages ke folder wiki dengan nama asli Pages
def save_pages_to_folder(pages, folder_name="wiki"):
    # Membuat folder jika belum ada
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

    for article_url, article_html in pages:
        # Dapatkan nama file berdasarkan judul Pages
        file_name = get_article_title(article_html)
        if file_name:
            file_path = os.path.join(folder_name, file_name)
            if not os.path.exists(file_path):  # Cek apakah file sudah ada
                with open(file_path, "w", encoding="utf-8") as file:
                    file.write(article_html)
                print(f"Pages disimpan: {file_path}")
            else:
                print(f"Pages dengan judul {file_name} sudah ada. Melewati...")
        else:
            print(f"Gagal mendapatkan judul Pages dari {article_url}")

# Jumlah Pages yang ingin diunduh
num_pages = 1000

# Mendapatkan Pages acak
print("Mengunduh Pages...")
pages = get_random_wikipedia_pages(num_pages)

# Menyimpan Pages ke folder wiki
print("Menyimpan Pages ke folder wiki...")
save_pages_to_folder(pages)

print(f"Selesai! {len(pages)} Pages telah disimpan dalam folder 'wiki'.")

Mengunduh Pages...
Berhasil mengunduh Pages ke-1
Berhasil mengunduh Pages ke-2
Berhasil mengunduh Pages ke-3
Berhasil mengunduh Pages ke-4
Berhasil mengunduh Pages ke-5
Berhasil mengunduh Pages ke-6
Berhasil mengunduh Pages ke-7
Berhasil mengunduh Pages ke-8
Berhasil mengunduh Pages ke-9
Berhasil mengunduh Pages ke-10
Berhasil mengunduh Pages ke-11
Berhasil mengunduh Pages ke-12
Berhasil mengunduh Pages ke-13
Berhasil mengunduh Pages ke-14
Berhasil mengunduh Pages ke-15
Berhasil mengunduh Pages ke-16
Berhasil mengunduh Pages ke-17
Berhasil mengunduh Pages ke-18
Berhasil mengunduh Pages ke-19
Berhasil mengunduh Pages ke-20
Berhasil mengunduh Pages ke-21
Berhasil mengunduh Pages ke-22
Berhasil mengunduh Pages ke-23
Berhasil mengunduh Pages ke-24
Berhasil mengunduh Pages ke-25
Berhasil mengunduh Pages ke-26
Berhasil mengunduh Pages ke-27
Berhasil mengunduh Pages ke-28
Berhasil mengunduh Pages ke-29
Berhasil mengunduh Pages ke-30
Berhasil mengunduh Pages ke-31
Berhasil mengunduh Pages ke-3

In [None]:
file_names = os.listdir("wiki")
len(file_names)

1000

In [None]:
# Mengompres folder 'wiki' ke dalam file 'wiki.zip'
!zip -r wiki.zip wiki

# Mengunduh file ZIP menggunakan modul files dari google.colab
from google.colab import files
files.download("wiki.zip")


  adding: wiki/ (stored 0%)
  adding: wiki/Homayoun_Seraji.html (deflated 77%)
  adding: wiki/Zabel_given_name.html (deflated 77%)
  adding: wiki/Phil_Graham_Australian_rules.html (deflated 78%)
  adding: wiki/Charles_Manning_Reed.html (deflated 81%)
  adding: wiki/LejeuneBP.html (deflated 78%)
  adding: wiki/Chile_at_the_2014_Summer_Youth_Olympics.html (deflated 83%)
  adding: wiki/Adrijus_Glebauskas.html (deflated 78%)
  adding: wiki/Prema_Katha.html (deflated 78%)
  adding: wiki/Krummesse.html (deflated 76%)
  adding: wiki/Astylopsis_perplexa.html (deflated 78%)
  adding: wiki/The_Devil-Doll.html (deflated 78%)
  adding: wiki/2015_in_Sweden.html (deflated 80%)
  adding: wiki/Committee_in_Support_of_Solidarity.html (deflated 77%)
  adding: wiki/Alamo_North_Dakota.html (deflated 80%)
  adding: wiki/Someday_Theyre_Coming_Home_Again.html (deflated 77%)
  adding: wiki/Pekat.html (deflated 78%)
  adding: wiki/Dos_Mou_Ena_Fili_Afto_to_Kalokairi.html (deflated 78%)
  adding: wiki/Whites_Onl

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>