<a href="https://colab.research.google.com/github/rezaldii/Analyzing-Wikipedia-Pages/blob/main/Analyzing_Wikipedia_Pages.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyzing Wikipedia Pages

In [None]:
# Instalasi Library Requests dan BeautifulSoup
!pip install requests beautifulsoup4



## Mengunduh dan Menyimpan 1000 Halaman Wikipedia Acak dengan Validasi Duplikat

Kode ini digunakan untuk mengunduh **1000 halaman acak dari Wikipedia** tanpa duplikat dan menyimpannya di folder lokal bernama `wiki`. Berikut penjelasan sederhananya:

---

1. **`get_article_title(html_content)`**:
   - Mengekstrak judul halaman Wikipedia dari HTML.
   - Membersihkan judul dari karakter ilegal dan mengubahnya menjadi nama file yang valid (contoh: `Judul_Halaman.html`).

---

2. **`get_random_wikipedia_pages(num_pages)`**:
   - Mengunduh halaman acak dari Wikipedia menggunakan URL khusus (`https://en.wikipedia.org/wiki/Special:Random`).
   - Menggunakan **set** (`unique_urls`) untuk memastikan tidak ada halaman yang diunduh lebih dari sekali.
   - Menambahkan jeda **1 detik** antara setiap unduhan untuk menghormati batasan API Wikipedia.
   - Menyimpan setiap halaman yang berhasil diunduh sebagai tuple berisi URL dan konten HTML.

---

3. **`save_pages_to_folder(pages, folder_name="wiki")`**:
   - Menyimpan halaman yang diunduh ke folder `wiki`. Jika folder belum ada, kode akan membuatnya.
   - Nama file diambil dari judul halaman yang sudah dibersihkan.
   - Jika file dengan nama yang sama sudah ada, file tersebut dilewati untuk menghindari duplikasi.

---

4. **Proses Utama**:
   - Mengunduh 1000 halaman acak dari Wikipedia.
   - Mencetak status pengunduhan (misalnya, "Berhasil mengunduh Halaman ke-X" atau "Halaman sudah ada. Melewati...").
   - Menyimpan semua halaman ke folder `wiki` dan mencetak jumlah total halaman yang berhasil disimpan.

---

### Keunggulan Kode:
- **Tidak ada duplikat**: Menggunakan `set` untuk memastikan setiap halaman unik.
- **Manajemen file**: Memeriksa keberadaan file sebelum menyimpan.
- **Etis**: Menambahkan jeda waktu 1 detik antara unduhan untuk menghormati Wikipedia.

Dengan kode ini, Anda bisa mengumpulkan 1000 halaman Wikipedia acak untuk analisis teks atau pembuatan dataset tanpa masalah duplikasi atau pelanggaran etika.

In [None]:
import requests
from bs4 import BeautifulSoup
import os
import time

# Fungsi untuk mendapatkan judul Pages dari halaman HTML
def get_article_title(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    title_tag = soup.find('h1', {'id': 'firstHeading'})
    if title_tag:
        title = title_tag.text.strip()
        # Membersihkan karakter ilegal dari nama file
        clean_title = "".join([c for c in title if c.isalpha() or c.isdigit() or c in (' ', '-', '_')]).rstrip()
        return clean_title.replace(" ", "_") + ".html"
    return None

# Fungsi untuk mendapatkan Pages acak dari Wikipedia
def get_random_wikipedia_pages(num_pages):
    pages = []
    unique_urls = set()  # Set untuk menyimpan URL unik

    while len(pages) < num_pages:
        # URL untuk mendapatkan Pages acak
        url = "https://en.wikipedia.org/wiki/Special:Random"
        response = requests.get(url)

        # Dapatkan konten HTML dari Pages tersebut
        if response.status_code == 200:
            if response.url not in unique_urls:  # Cek apakah URL sudah ada di set
                unique_urls.add(response.url)  # Tambahkan URL ke set
                pages.append((response.url, response.text))
                print(f"Berhasil mengunduh Pages ke-{len(pages)}")
            else:
                print(f"Pages dengan URL {response.url} sudah diunduh sebelumnya. Mencoba lagi...")
        else:
            print(f"Gagal mengambil Pages dari {url}. Mencoba lagi...")

        # Menghormati batasan API dengan menunggu 1 detik
        time.sleep(1)

    return pages

# Fungsi untuk menyimpan Pages ke folder wiki dengan nama asli Pages
def save_pages_to_folder(pages, folder_name="wiki"):
    # Membuat folder jika belum ada
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)

    for article_url, article_html in pages:
        # Dapatkan nama file berdasarkan judul Pages
        file_name = get_article_title(article_html)
        if file_name:
            file_path = os.path.join(folder_name, file_name)
            if not os.path.exists(file_path):  # Cek apakah file sudah ada
                with open(file_path, "w", encoding="utf-8") as file:
                    file.write(article_html)
                print(f"Pages disimpan: {file_path}")
            else:
                print(f"Pages dengan judul {file_name} sudah ada. Melewati...")
        else:
            print(f"Gagal mendapatkan judul Pages dari {article_url}")

# Jumlah Pages yang ingin diunduh
num_pages = 1000

# Mendapatkan Pages acak
print("Mengunduh Pages...")
pages = get_random_wikipedia_pages(num_pages)

# Menyimpan Pages ke folder wiki
print("Menyimpan Pages ke folder wiki...")
save_pages_to_folder(pages)

print(f"Selesai! {len(pages)} Pages telah disimpan dalam folder 'wiki'.")

Mengunduh Pages...
Berhasil mengunduh Pages ke-1
Berhasil mengunduh Pages ke-2
Berhasil mengunduh Pages ke-3
Berhasil mengunduh Pages ke-4
Berhasil mengunduh Pages ke-5
Berhasil mengunduh Pages ke-6
Berhasil mengunduh Pages ke-7
Berhasil mengunduh Pages ke-8
Berhasil mengunduh Pages ke-9
Berhasil mengunduh Pages ke-10
Berhasil mengunduh Pages ke-11
Berhasil mengunduh Pages ke-12
Berhasil mengunduh Pages ke-13
Berhasil mengunduh Pages ke-14
Berhasil mengunduh Pages ke-15
Berhasil mengunduh Pages ke-16
Berhasil mengunduh Pages ke-17
Berhasil mengunduh Pages ke-18
Berhasil mengunduh Pages ke-19
Berhasil mengunduh Pages ke-20
Berhasil mengunduh Pages ke-21
Berhasil mengunduh Pages ke-22
Berhasil mengunduh Pages ke-23
Berhasil mengunduh Pages ke-24
Berhasil mengunduh Pages ke-25
Berhasil mengunduh Pages ke-26
Berhasil mengunduh Pages ke-27
Berhasil mengunduh Pages ke-28
Berhasil mengunduh Pages ke-29
Berhasil mengunduh Pages ke-30
Berhasil mengunduh Pages ke-31
Berhasil mengunduh Pages ke-3

## Menghitung Jumlah File dalam Folder Dataset Wiki

In [2]:
import os

# Path ke folder dataset Wikipedia
dataset_path = "/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki"

# Memastikan folder dataset ada
if not os.path.exists(dataset_path):
    raise FileNotFoundError(f"Folder tidak ditemukan: {dataset_path}")

# Mendapatkan daftar nama file dalam folder dataset
file_names = os.listdir(dataset_path)

# Menampilkan jumlah file yang ditemukan
print(f"Jumlah file dalam folder '{dataset_path}': {len(file_names)}")

Jumlah file dalam folder '/content/drive/MyDrive/Project/data-science/Analyzing-Wikipedia-Pages/wiki': 1000


## Membaca dan Menampilkan Seluruh Konten File Pertama dari Dataset Wiki

### Penjelasan Singkat:

Kode ini digunakan untuk **membaca dan menampilkan seluruh isi file pertama** dari folder dataset Wikipedia yang disimpan di Google Drive. Berikut penjelasan singkatnya:

1. **`dataset_path`**:  
   - Menyimpan lokasi folder dataset di Google Drive.

2. **Cek Folder dan File**:  
   - Kode memeriksa apakah folder dataset ada. Jika tidak, muncul pesan error (`FileNotFoundError`).  
   - Kode juga memastikan folder tidak kosong. Jika kosong, muncul pesan error (`ValueError`).

3. **Baca File Pertama**:  
   - Kode mengambil file pertama di folder, lalu membacanya dengan encoding `utf-8` agar bisa membaca karakter khusus.

4. **Tampilkan Konten File**:  
   - Seluruh isi file ditampilkan tanpa batasan karakter.  
   - Jika ada error saat membaca file (misalnya file rusak), kode akan menampilkan pesan error.

---

In [4]:
# Memastikan ada file dalam folder
if not file_names:
    raise ValueError("Tidak ada file dalam folder dataset.")

# Membuka dan membaca file pertama dalam folder
first_file_path = os.path.join(dataset_path, file_names[0])

try:
    with open(first_file_path, "r", encoding="utf-8") as f:
        file_content = f.read()
        print("Konten dari file pertama:")
        print(file_content)
except Exception as e:
    print(f"Gagal membaca file '{first_file_path}': {e}")

Konten dari file pertama:
<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-enabled vector-feature-custom-font-size-clientpref-1 vector-feature-appearance-pinned-clientpref-1 vector-feature-night-mode-enabled skin-theme-clientpref-day vector-sticky-header-enabled vector-toc-available" lang="en" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Asdorf - Wikipedia</title>
<script>(function(){var className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-clientpref-1 vector-feature-main-menu-pinned-disabled vector-feature-limited-width-clientpref-1 vector-feature-limited-width-content-e