# Meretrieve halaman Wikipedia dengan `pywikibot`

In [1]:
import pywikibot
import mwparserfromhell
import csv

## Meretrieve halaman berdasarkan kategori

In [2]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')  # Ganti 'Tokoh Orde Baru' dengan nama kategori

for article in cat.articles():
    print(article.title())

Orde Baru
Aspri
Badan Pembinaan Pendidikan Pelaksanaan Pedoman Penghayatan dan Pengamalan Pancasila
Badan Penyangga dan Pemasaran Cengkeh
Bakorperagon
Bapakisme
Budi pekerti
De-Soekarnoisasi
Genosida Timor Timur
Gerakan 30 September
Ibuisme negara
Tahun Kunjungan Indonesia
Invasi Indonesia ke Timor Timur
Jonggol sebagai Kandidat Ibukota Indonesia
Kamp pengasingan Moncongloe
Kasus biskuit beracun
Kasus dugaan korupsi Soeharto
Kebijakan 15 November 1978
Kejatuhan Soeharto
Kelompencapir
Kepresidenan Sementara Soeharto
Kerusuhan Banjarmasin
Kerusuhan Mei 1998
Kerusuhan Situbondo
Klobotisme
Komando Operasi Pemulihan Keamanan dan Ketertiban
Mafia Berkeley
Malari
Amir Murtono
Normalisasi Kehidupan Kampus/Badan Koordinasi Kemahasiswaan
Operasi militer Indonesia di Aceh 1990-1998
Paket Kebijaksanaan Oktober 1988
Partai Golongan Karya
Pembantaian Beutong Ateueh
Pembantaian Purwodadi
Pembantaian Santa Cruz
Pemberdayaan Kesejahteraan Keluarga
Pendidikan Moral Pancasila
Pendudukan Gedung DPR/MPR
Pe

## Meretrieve infobox dari suatu halaman

In [30]:
def get_infobox(page):
    if page.isRedirectPage():
        return
    
    wikitext = page.get()
    wikicode = mwparserfromhell.parse(wikitext)

    templates = wikicode.filter_templates()

    for template in templates:
        if template.name.strip().lower().startswith("infobox") or template.name.strip().lower().startswith("kotak info"):
            return template
        
    return None

In [20]:
site = pywikibot.Site("id", "wikipedia")
page = pywikibot.Page(site, 'Kerusuhan Mei 1998')
    
print(get_infobox(page))

{{Infobox civil conflict
| title = Kerusuhan Mei 1998
| partof = [[Kejatuhan Soeharto]], [[Krisis finansial Asia 1997]] dan [[Diskriminasi terhadap Tionghoa-Indonesia|Sentimen anti-Tionghoa di Indonesia]]
| image = [[File:Jakarta riot 14 May 1998.jpg|300px|alt=A man wearing a buttoned shirt, pants, and flip-flops throws an office chair into a burning pile of other chairs in the middle of a city street. Behind him, several dozen people gather in front of a building with broken windows.]]
| caption = Para perusuh membakar perabot kantor di jalanan Jakarta pada 14 Mei 1998
| date = 4–8 dan 12–15 Mei 1998
| place = Kerusuhan besar terjadi di [[Medan]], [[Jakarta]], dan [[Surakarta]] dengan sejumlah insiden terpisah di tempat lain
| coordinates = 
| causes = * Ketidakpuasan atas pemerintahan [[Orde Baru (Indonesia)|Orde Baru]]
* Dugaan [[Kecurangan pemilihan umum|kecurangan suara]] dalam [[Pemilihan umum legislatif Indonesia 1997|pemilu legislatif 1997]]
* Keruntuhan ekonomi sebagai akibat 

## Mendapatkan subkategori dari suatu kategori

In [21]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')

for subcat in cat.subcategories(recurse=1):
    print(subcat.title())

Kategori:Donatur Orde Baru
Kategori:Kamp konsentrasi Moncongloe
Kategori:Panglima Komando Keamanan dan Ketertiban
Kategori:Paramiliter Orde Baru
Kategori:Penandatangan Petisi 50
Kategori:Pendudukan Indonesia di Timor Timur
Kategori:Perserikatan Orde Baru
Kategori:Propaganda Orde Baru
Kategori:Tokoh Orde Baru
Kategori:Tokoh Orde Lama


## Mendapatkan infobox yang berhubungan dengan Orde Baru

Pertama-tama, kumpulkan seluruh kategori dan subkategori yang berhubungan dengan Orde Baru

In [22]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')

cats = [cat] + list(cat.subcategories(recurse=1))
cats

[Category('Kategori:Orde Baru'),
 Category('Kategori:Donatur Orde Baru'),
 Category('Kategori:Kamp konsentrasi Moncongloe'),
 Category('Kategori:Panglima Komando Keamanan dan Ketertiban'),
 Category('Kategori:Paramiliter Orde Baru'),
 Category('Kategori:Penandatangan Petisi 50'),
 Category('Kategori:Pendudukan Indonesia di Timor Timur'),
 Category('Kategori:Perserikatan Orde Baru'),
 Category('Kategori:Propaganda Orde Baru'),
 Category('Kategori:Tokoh Orde Baru'),
 Category('Kategori:Tokoh Orde Lama')]

Untuk setiap kategori, ambil article dan *parse* judul dan infoboxnya. Hasilnya kemudian ditulis ke dalam file csv

In [26]:
orde_baru_articles = {article for cat in cats for article in cat.articles()}

with open('data_orde_baru_pages.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

Terdapat kategori `Indonesia dalam tahun ...` yang juga dapat digunakan

In [28]:
site = pywikibot.Site("id", "wikipedia")
cats = [f'indonesia dalam tahun {tahun}' for tahun in range(1966,1999)]
orde_baru_articles = {article for cat in cats for article in pywikibot.Category(site, cat).articles()}

In [31]:
with open('data_orde_baru_dalam_tahun_pages.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

## Mengambil artikel dari suatu templat

In [45]:
site = pywikibot.Site("id", "wikipedia")
template = pywikibot.Page(site, 'Templat:Bencana di Indonesia tahun 1960-an')

for page in template.linkedPages():
    print(page.title())


Bencana alam di Indonesia
Daftar gempa bumi di Indonesia
Garuda Indonesia Penerbangan 708
Gempa bumi Laut Seram 1965
Gempa bumi Sulawesi 1968
Gempa bumi Sulawesi 1969
Gempa bumi Sulawesi Barat 1967
Gempa bumi Sulawesi Tengah 1968
Gerakan 30 September
Indonesia
Krisis Selat Sunda
Operasi Trikora
Operasi tempur tahun 1963 pada konfrontasi Indonesia–Malaysia
Operasi tempur tahun 1964 pada konfrontasi Indonesia–Malaysia
Operasi tempur tahun 1965 pada konfrontasi Indonesia–Malaysia
Pembantaian Purwodadi
Pembantaian di Indonesia 1965–1966
Pendaratan di Labis
Peristiwa Arfai
Peristiwa Kanigoro
Pertempuran Laut Aru
Pertempuran Sungei Koemba
Serangan ke Limbang
Surat Perintah Sebelas Maret
Tabrakan kereta api Ratujaya 1968






In [32]:
templates = [
    'Templat:Bencana di Indonesia tahun 1960-an',
    'Templat:Bencana di Indonesia tahun 1970-an',
    'Templat:Bencana di Indonesia tahun 1980-an',
    'Templat:Bencana di Indonesia tahun 1990-an'
]

In [40]:
site = pywikibot.Site("id", "wikipedia")
bencanas = {page for template in templates for page in pywikibot.Page(site, template).linkedPages()}

In [41]:
with open('data_bencana_dalam_orde_baru.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in bencanas:
        writer.writerow([article.title(), get_infobox(article)])

NoPageError: Page [[id:Pembicaraan Templat:Bencana di Indonesia tahun 1980-an]] doesn't exist.