# Meretrieve halaman Wikipedia dengan `pywikibot`

In [1]:
import pywikibot
import mwparserfromhell
import csv

## Meretrieve halaman berdasarkan kategori

In [2]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')  # Ganti 'Tokoh Orde Baru' dengan nama kategori

for article in cat.articles():
    print(article.title())

Orde Baru
Aspri
Badan Pembinaan Pendidikan Pelaksanaan Pedoman Penghayatan dan Pengamalan Pancasila
Badan Penyangga dan Pemasaran Cengkeh
Bakorperagon
Bapakisme
Budi pekerti
De-Soekarnoisasi
Genosida Timor Timur
Gerakan 30 September
Ibuisme negara
Tahun Kunjungan Indonesia
Invasi Indonesia ke Timor Timur
Jonggol sebagai Kandidat Ibukota Indonesia
Kamp pengasingan Moncongloe
Kasus biskuit beracun
Kasus dugaan korupsi Soeharto
Kebijakan 15 November 1978
Kejatuhan Soeharto
Kelompencapir
Kepresidenan Sementara Soeharto
Kerusuhan Banjarmasin
Kerusuhan Mei 1998
Kerusuhan Situbondo
Klobotisme
Komando Operasi Pemulihan Keamanan dan Ketertiban
Mafia Berkeley
Malari
Amir Murtono
Normalisasi Kehidupan Kampus/Badan Koordinasi Kemahasiswaan
Operasi militer Indonesia di Aceh 1990-1998
Paket Kebijaksanaan Oktober 1988
Partai Golongan Karya
Pembantaian Beutong Ateueh
Pembantaian Purwodadi
Pembantaian Santa Cruz
Pemberdayaan Kesejahteraan Keluarga
Pendidikan Moral Pancasila
Pendudukan Gedung DPR/MPR
Pe

## Meretrieve infobox dari suatu halaman

In [2]:
def get_infobox(page):
    if page.isRedirectPage() or not page.exists():
        return
    
    wikitext = page.get()
    wikicode = mwparserfromhell.parse(wikitext)

    templates = wikicode.filter_templates()

    for template in templates:
        if template.name.strip().lower().startswith("infobox") or template.name.strip().lower().startswith("kotak info"):
            return template

In [20]:
site = pywikibot.Site("id", "wikipedia")
page = pywikibot.Page(site, 'Kerusuhan Mei 1998')
    
print(get_infobox(page))

{{Infobox civil conflict
| title = Kerusuhan Mei 1998
| partof = [[Kejatuhan Soeharto]], [[Krisis finansial Asia 1997]] dan [[Diskriminasi terhadap Tionghoa-Indonesia|Sentimen anti-Tionghoa di Indonesia]]
| image = [[File:Jakarta riot 14 May 1998.jpg|300px|alt=A man wearing a buttoned shirt, pants, and flip-flops throws an office chair into a burning pile of other chairs in the middle of a city street. Behind him, several dozen people gather in front of a building with broken windows.]]
| caption = Para perusuh membakar perabot kantor di jalanan Jakarta pada 14 Mei 1998
| date = 4–8 dan 12–15 Mei 1998
| place = Kerusuhan besar terjadi di [[Medan]], [[Jakarta]], dan [[Surakarta]] dengan sejumlah insiden terpisah di tempat lain
| coordinates = 
| causes = * Ketidakpuasan atas pemerintahan [[Orde Baru (Indonesia)|Orde Baru]]
* Dugaan [[Kecurangan pemilihan umum|kecurangan suara]] dalam [[Pemilihan umum legislatif Indonesia 1997|pemilu legislatif 1997]]
* Keruntuhan ekonomi sebagai akibat 

## Mendapatkan subkategori dari suatu kategori

In [3]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')

for subcat in cat.subcategories(recurse=1):
    print(subcat.title())

Kategori:Donatur Orde Baru
Kategori:Kamp konsentrasi Moncongloe
Kategori:Panglima Komando Keamanan dan Ketertiban
Kategori:Paramiliter Orde Baru
Kategori:Penandatangan Petisi 50
Kategori:Pendudukan Indonesia di Timor Timur
Kategori:Perserikatan Orde Baru
Kategori:Propaganda Orde Baru
Kategori:Tokoh Orde Baru
Kategori:Tokoh Orde Lama


## Mendapatkan infobox yang berhubungan dengan Orde Baru

Pertama-tama, kumpulkan seluruh kategori dan subkategori yang berhubungan dengan Orde Baru

In [17]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')

cats = [cat] + list(cat.subcategories(recurse=1))
cats

[Category('Kategori:Orde Baru'),
 Category('Kategori:Donatur Orde Baru'),
 Category('Kategori:Kamp konsentrasi Moncongloe'),
 Category('Kategori:Panglima Komando Keamanan dan Ketertiban'),
 Category('Kategori:Paramiliter Orde Baru'),
 Category('Kategori:Penandatangan Petisi 50'),
 Category('Kategori:Pendudukan Indonesia di Timor Timur'),
 Category('Kategori:Perserikatan Orde Baru'),
 Category('Kategori:Propaganda Orde Baru'),
 Category('Kategori:Tokoh Orde Baru'),
 Category('Kategori:Tokoh Orde Lama')]

Untuk setiap kategori, ambil article dan *parse* judul dan infoboxnya. Hasilnya kemudian ditulis ke dalam file csv

In [26]:
orde_baru_articles = {article for cat in cats for article in cat.articles()}

with open('data_orde_baru_pages.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

Terdapat kategori `Indonesia dalam tahun ...` yang juga dapat digunakan

In [28]:
site = pywikibot.Site("id", "wikipedia")
cats = [f'indonesia dalam tahun {tahun}' for tahun in range(1966,1999)]
orde_baru_articles = {article for cat in cats for article in pywikibot.Category(site, cat).articles()}

In [31]:
with open('data_orde_baru_dalam_tahun_pages.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

## Mengambil artikel dari suatu templat

In [49]:
site = pywikibot.Site("id", "wikipedia")
template = pywikibot.Page(site, 'Templat:Bencana di Indonesia tahun 1960-an')

for page in template.linkedPages():
    print(page.title())

Pembicaraan Templat:Bencana di Indonesia tahun 1960-an
Bencana alam di Indonesia
Daftar gempa bumi di Indonesia
Garuda Indonesia Penerbangan 708
Gempa bumi Laut Seram 1965
Gempa bumi Sulawesi 1968
Gempa bumi Sulawesi 1969
Gempa bumi Sulawesi Barat 1967
Gempa bumi Sulawesi Tengah 1968
Gerakan 30 September
Indonesia
Krisis Selat Sunda
Operasi Trikora
Operasi tempur tahun 1963 pada konfrontasi Indonesia–Malaysia
Operasi tempur tahun 1964 pada konfrontasi Indonesia–Malaysia
Operasi tempur tahun 1965 pada konfrontasi Indonesia–Malaysia
Pembantaian Purwodadi
Pembantaian di Indonesia 1965–1966
Pendaratan di Labis
Peristiwa Arfai
Peristiwa Kanigoro
Pertempuran Laut Aru
Pertempuran Sungei Koemba
Serangan ke Limbang
Surat Perintah Sebelas Maret
Tabrakan kereta api Ratujaya 1968
Templat:Bencana di Indonesia tahun 1950-an
Templat:Bencana di Indonesia tahun 1970-an
Kategori:Indonesia dalam tahun 1960
Kategori:Indonesia dalam tahun 1969


In [32]:
templates = [
    'Templat:Bencana di Indonesia tahun 1960-an',
    'Templat:Bencana di Indonesia tahun 1970-an',
    'Templat:Bencana di Indonesia tahun 1980-an',
    'Templat:Bencana di Indonesia tahun 1990-an'
]

In [40]:
site = pywikibot.Site("id", "wikipedia")
bencanas = {page for template in templates for page in pywikibot.Page(site, template).linkedPages()}

In [48]:
with open('data_bencana_dalam_orde_baru.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in bencanas:
        writer.writerow([article.title(), get_infobox(article)])

## Meretrieve halaman dari Wikipedia bahasa Inggris

In [11]:
site = pywikibot.Site("en", "wikipedia")
cats = [f'{tahun} in Indonesia' for tahun in range(1966,1999)]
cats += [f'{tahun} establishments in Indonesia' for tahun in range(1966,1999)]
orde_baru_articles = {article for cat in cats for article in pywikibot.Category(site, cat).articles()}

In [13]:
with open('data_orde_baru_dalam_tahun_pages_english.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

ERROR: Traceback (most recent call last):
  File "d:\kuliah\semester 8\ta\wikidumps\.env\lib\site-packages\pywikibot\data\api\_requests.py", line 682, in _http_request
    response = http.request(self.site, uri=uri,
  File "d:\kuliah\semester 8\ta\wikidumps\.env\lib\site-packages\pywikibot\comms\http.py", line 283, in request
    r = fetch(baseuri, headers=headers, **kwargs)
  File "d:\kuliah\semester 8\ta\wikidumps\.env\lib\site-packages\pywikibot\comms\http.py", line 457, in fetch
    callback(response)
  File "d:\kuliah\semester 8\ta\wikidumps\.env\lib\site-packages\pywikibot\comms\http.py", line 333, in error_handling_callback
    raise ServerError(response)
pywikibot.exceptions.ServerError: HTTPSConnectionPool(host='en.wikipedia.org', port=443): Read timed out. (read timeout=45)



In [18]:
site = pywikibot.Site("en", "wikipedia")
cat = pywikibot.Category(site, 'New Order (Indonesia)')

cats = [cat] + list(cat.subcategories(recurse=1))
cats

[Category('Category:New Order (Indonesia)'),
 Category('Category:Indonesian occupation of East Timor'),
 Category('Category:Suharto family and associates')]

In [None]:
orde_baru_articles = {article for cat in cats for article in cat.articles()}

with open('data_orde_baru_pages_english.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["Title", "Properties"])
    
    for article in orde_baru_articles:
        writer.writerow([article.title(), get_infobox(article)])

In [2]:
with open('data_orde_baru_pages.csv', 'r', newline='', encoding='UTF-8') as file:
    reader = csv.reader(file)
    next(reader)
    total = 0
    for row in reader:
        total += 1
    print(total)

288


In [3]:
with open('data_orde_baru_dalam_tahun_pages.csv', 'r', newline='', encoding='UTF-8') as file:
    reader = csv.reader(file)
    next(reader)
    total = 0
    for row in reader:
        total += 1
    print(total)

187


## Mendapatkan jenis infobox

Pertama-tama, akan dikumpulkan terlebih dahulu semua kategori yang relevan dengan Orde Baru.

In [3]:
site = pywikibot.Site("id", "wikipedia")
cat = pywikibot.Category(site, 'Orde Baru')

cats = [cat] + list(cat.subcategories(recurse=1))
cats

[Category('Kategori:Orde Baru'),
 Category('Kategori:Donatur Orde Baru'),
 Category('Kategori:Kamp konsentrasi Moncongloe'),
 Category('Kategori:Panglima Komando Keamanan dan Ketertiban'),
 Category('Kategori:Paramiliter Orde Baru'),
 Category('Kategori:Penandatangan Petisi 50'),
 Category('Kategori:Pendudukan Indonesia di Timor Timur'),
 Category('Kategori:Perserikatan Orde Baru'),
 Category('Kategori:Propaganda Orde Baru'),
 Category('Kategori:Tokoh Orde Baru'),
 Category('Kategori:Tokoh Orde Lama')]

In [4]:
cats.pop() # Untuk menghapus kategori tokoh orde lama

site = pywikibot.Site("id", "wikipedia")
cats += [pywikibot.Category(site, f'indonesia dalam tahun {tahun}') for tahun in range(1966,1999)]
cats += [pywikibot.Category(site, f'pendirian tahun {tahun} di indonesia') for tahun in range(1966, 1999)]

cats

[Category('Kategori:Orde Baru'),
 Category('Kategori:Donatur Orde Baru'),
 Category('Kategori:Kamp konsentrasi Moncongloe'),
 Category('Kategori:Panglima Komando Keamanan dan Ketertiban'),
 Category('Kategori:Paramiliter Orde Baru'),
 Category('Kategori:Penandatangan Petisi 50'),
 Category('Kategori:Pendudukan Indonesia di Timor Timur'),
 Category('Kategori:Perserikatan Orde Baru'),
 Category('Kategori:Propaganda Orde Baru'),
 Category('Kategori:Tokoh Orde Baru'),
 Category('Kategori:Indonesia dalam tahun 1966'),
 Category('Kategori:Indonesia dalam tahun 1967'),
 Category('Kategori:Indonesia dalam tahun 1968'),
 Category('Kategori:Indonesia dalam tahun 1969'),
 Category('Kategori:Indonesia dalam tahun 1970'),
 Category('Kategori:Indonesia dalam tahun 1971'),
 Category('Kategori:Indonesia dalam tahun 1972'),
 Category('Kategori:Indonesia dalam tahun 1973'),
 Category('Kategori:Indonesia dalam tahun 1974'),
 Category('Kategori:Indonesia dalam tahun 1975'),
 Category('Kategori:Indonesia d

In [5]:
articles = {article for cat in cats for article in cat.articles()}
len(articles)

412

Selanjutnya, tambahkan artikel yang berhubungan dengan templat bencana di Indonesia tahun ...

In [6]:
templates = [
    'Templat:Bencana di Indonesia tahun 1960-an',
    'Templat:Bencana di Indonesia tahun 1970-an',
    'Templat:Bencana di Indonesia tahun 1980-an',
    'Templat:Bencana di Indonesia tahun 1990-an'
]

In [7]:
site = pywikibot.Site("id", "wikipedia")
bencanas = {page for template in templates for page in pywikibot.Page(site, template).linkedPages()}

articles = articles.union(bencanas)
len(articles)

461

Kemudian, untuk setiap artikel yang memiliki infobox, akan diparsing jenis infoboxnya

In [8]:
def get_infobox(page):
    if page.isRedirectPage() or not page.exists():
        return
    
    wikitext = page.get()
    wikicode = mwparserfromhell.parse(wikitext)

    templates = wikicode.filter_templates()

    for template in templates:
        if template.name.strip().lower().startswith("infobox") or template.name.strip().lower().startswith("kotak info"):
            return template.name.strip().lower(), template

In [9]:
with open('all_data_orde_baru.csv', 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    
    writer.writerow(["title", "jenis_infobox", "infobox"])
    
    for article in articles:
        infobox = get_infobox(article) or [None, None]
        writer.writerow([article.title(), *infobox])

In [17]:
infoboxes = set()

for article in articles:
    infobox = get_infobox(article)
    if infobox is not None:
        infoboxes.add(infobox[0])

len(infoboxes)

46

In [18]:
infoboxes

{'infobox',
 'infobox aircraft occurrence',
 'infobox airliner accident',
 'infobox artifact',
 'infobox award',
 'infobox civil conflict',
 'infobox civilian attack',
 'infobox company',
 'infobox document',
 'infobox earthquake',
 'infobox election',
 'infobox film',
 'infobox film awards',
 'infobox former country',
 'infobox games',
 'infobox government agency',
 'infobox governor',
 'infobox grand prix motorcycle race report',
 'infobox historical event',
 'infobox indonesian political party',
 'infobox international football competition',
 'infobox konflik',
 'infobox lembaga nonkementerian',
 'infobox militant organization',
 'infobox military conflict',
 'infobox military unit',
 'infobox news event',
 'infobox officeholder',
 'infobox organization',
 'infobox partai politik indonesia',
 'infobox person',
 'infobox pm',
 'infobox political party',
 'infobox president',
 'infobox prison',
 'infobox public transit accident',
 'infobox rail accident',
 'infobox rail accident\n<!--

In [12]:
def get_properties(infobox):
    if infobox is None:
        return
    
    infobox_template = mwparserfromhell.parse(infobox).filter_templates()
    properties = {param.name.strip_code().strip(): param.value.strip_code().strip()
                  for param in infobox_template[0].params}
    
    return properties

In [24]:
def get_articles_per_infobox():
    infoboxes_dict = {}
    for article in articles:
        infobox = get_infobox(article)
        if infobox is not None:
            infobox_type = infobox[0]
            if infobox_type.startswith('infobox rail accident'):
                infobox_type = 'infobox rail accident'
            elif infobox_type.startswith('infobox short story'):
                infobox_type = 'infobox short story'
            elif infobox_type.startswith('kotak info pemegang jabatan'):
                infobox_type = 'infobox_officeholder'
            
            if infobox_type not in infoboxes_dict:
                infoboxes_dict[infobox_type] = []
                
            infoboxes_dict[infobox_type].append((article.title(), get_properties(infobox[1])))
    
    return infoboxes_dict

In [25]:
articles_per_infobox = get_articles_per_infobox()

In [None]:
def complete_data(properties_list):
    all_keys = set().union(*(properties.keys() for properties in properties_list))