In [2]:
import bz2

data_path = 'idwiki-latest-pages-articles-multistream.xml.bz2'

## Class Helper

In [3]:
import xml.sax

class WikiXmlHandler(xml.sax.handler.ContentHandler):
    """Content handler for Wiki XML data using SAX"""
    def __init__(self):
        xml.sax.handler.ContentHandler.__init__(self)
        self._buffer = None
        self._values = {}
        self._current_tag = None
        self._pages = []

    def characters(self, content):
        """Characters between opening and closing tags"""
        if self._current_tag:
            self._buffer.append(content)

    def startElement(self, name, attrs):
        """Opening tag of element"""
        if name in ('title', 'text', 'timestamp'):
            self._current_tag = name
            self._buffer = []

    def endElement(self, name):
        """Closing tag of element"""
        if name == self._current_tag:
            self._values[name] = ' '.join(self._buffer)

        if name == 'page':
            self._pages.append((self._values['title'], self._values['text']))

### Get 5 Judul Artikel

In [4]:
# Object for handling xml
handler = WikiXmlHandler()

# Parsing object
parser = xml.sax.make_parser()
parser.setContentHandler(handler)

for i, line in enumerate(bz2.BZ2File(data_path, 'r')):
    if len(handler._pages) == 5:
        break
        
    parser.feed(line)

In [5]:
[x[0] for x in handler._pages]

['Asam deoksiribonukleat',
 'Asam Deoksiribosanukleat',
 'Anwar Sadat',
 'Azhar Mansor',
 'Arkeologi']

#### mwparserfromhell

In [6]:
import mwparserfromhell

print(handler._pages[2][0])

# Create the wiki article
wiki = mwparserfromhell.parse(handler._pages[2][1])

Anwar Sadat


#### infobox dan data didalamnya

In [7]:
templates = wiki.filter_templates()
print(f'There are {len(templates)} templates.')
for template in templates:
    print(template.name)

There are 33 templates.
Infobox officeholder 
 
lang
List collapsed
Plainlist
List collapsed
Plainlist
lang
birth date
death date and age
unbulleted list 
citation
efn
IPAc-en
IPAc-en
IPAc-en
cite web
Pranala mati
Cite Oxford Dictionaries
Cite Merriam-Webster
lang-ar
IPA-arz
lahirmati
cite news 
cite web
cite news 
noteslist
Reflist
kotak mulai
kotak suksesi 
kotak selesai
Nobel Perdamaian
Authority control
DEFAULTSORT:Sadat, Anwar


In [8]:
infobox = wiki.filter_templates(matches = 'Infobox')[0]
infobox

"{{Infobox officeholder \n | native_name         = {{lang|ar|أنور السادات}} \n | image               = Anwar Sadat cropped.jpg \n | caption             = Anwar Sadat pada 1980 \n | office              = [[Presiden Mesir]] ke-3 \n | term_start          = 15 Oktober 1970 \n | term_end            = 6 Oktober 1981 < br / > Penjabat: 28 September 1970 – 15 Oktober 1970 \n | vicepresident       = {{List collapsed|title=Lihat daftar|1={{Plainlist| \n * [[Ali Sabri]] \n * [[Mahmoud Fawzi]] \n * [[Hosni Mubarak]] \n }} \n }} \n | primeminister       = {{List collapsed|title=Lihat daftar|1={{Plainlist| \n * [[Mahmoud Fawzi]] \n * [[Aziz Sedki]] \n * ''Diri sendiri'' \n * [[Abd El Aziz Muhammad Hegazi]] \n * [[Mamdouh Salem]] \n * [[Mustafa Khalil]] \n * ''Diri sendiri'' \n }} \n }} \n | predecessor         = [[Gamal Abdel Nasser]] \n | successor           = [[Sufi Abu Taleb]] (Acting) \n | office2             = [[Perdana Menteri Mesir]] \n | president2          = ''Himself'' \n | term_start2    

In [9]:
information = {param.name.strip_code().strip(): param.value.strip_code().strip() for param in infobox.params}
information

{'native_name': '',
 'image': 'Anwar Sadat cropped.jpg',
 'caption': 'Anwar Sadat pada 1980',
 'office': 'Presiden Mesir ke-3',
 'term_start': '15 Oktober 1970',
 'term_end': '6 Oktober 1981 < br / > Penjabat: 28 September 1970 – 15 Oktober 1970',
 'vicepresident': '',
 'primeminister': '',
 'predecessor': 'Gamal Abdel Nasser',
 'successor': 'Sufi Abu Taleb (Acting)',
 'office2': 'Perdana Menteri Mesir',
 'president2': 'Himself',
 'term_start2': '15 Mei 1980',
 'term_end2': '6 Oktober 1981',
 'predecessor2': 'Mustafa Khalil',
 'successor2': 'Hosni Mubarak',
 'president3': 'Diri sendiri',
 'term_start3': '26 March 1973',
 'term_end3': '25 September 1974',
 'predecessor3': 'Aziz Sedki',
 'successor3': 'Abd El Aziz Muhammad Hegazi',
 'office4': 'Wakil Presiden Mesir',
 'president4': 'Gamal Abdel Nasser',
 'term_start4': '19 Desember 1969',
 'term_end4': '14 Oktober 1970',
 'predecessor4': 'Hussein el-Shafei',
 'successor4': 'Ali Sabri',
 'president5': 'Gamal Abdel Nasser',
 'term_start5':

#### what if dia gaada infobox?

In [10]:
print(handler._pages[0][0])

# Create the wiki article
wiki_without_infobox = mwparserfromhell.parse(handler._pages[0][1])

Asam deoksiribonukleat


In [11]:
templates_without_infobox = wiki_without_infobox.filter_templates()
print(f'There are {len(templates_without_infobox)} templates.')
for template in templates_without_infobox:
    print(template.name)

There are 52 templates.
genetika
Cite book
cite book
cite journal 
cite book
cite book
cite book
en
cite web 
 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
DOI
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
Further2
cite journal 
cite journal 
cite journal 
cite journal 
Further2
cite journal 
cite journal 
cite journal 
cite journal 
cite journal 
Further2
cite journal 
cite journal 
cite journal 
cite journal 
Cite web
Cite web
lang-en
en
cite book 
 
reflist
Asam nukleat
Authority control


In [34]:
without_infobox = wiki_without_infobox.filter_templates(matches = 'Infobox')
without_infobox

[]

### Cari yg contain sejarah indonesia di index.txt nya

In [13]:
index_path = 'idwiki-latest-pages-articles-multistream-index.txt.bz2'

In [14]:
index_list = []

for i, line in enumerate(bz2.BZ2File(index_path, 'r')):
    line = line.decode('utf-8')

    if ('Sejarah Indonesia' in line):
        index_list.append(line)

In [15]:
index_list

['16042049:8552:Kategori:Sejarah Indonesia\n',
 '26611995:15867:Templat:Sejarah Indonesia\n',
 '83543263:83411:Sejarah Indonesia (1945–1949)\n',
 '122821675:196087:Potret Sejarah Indonesia\n',
 '126008388:203256:Sejarah Indonesia (Era Orde Baru)\n',
 '143388604:245643:Sejarah Indonesia (1509-1602)\n',
 '143388604:245645:Sejarah Indonesia (1602-1800)\n',
 '143388604:245647:Sejarah Indonesia (1800-1940)\n',
 '206949110:450548:Sejarah Indonesia\n',
 '209088818:458718:Kategori:Sejarah Indonesia menurut provinsi\n',
 '222417206:525660:Sejarah Indonesia (1942-1945)\n',
 '222417206:525664:Sejarah Indonesia (1968-1998)\n',
 '222417206:525666:Sejarah Indonesia (1959-1968)\n',
 '225497047:532851:Wikipedia:Artikel pilihan/Usulan/Sejarah Indonesia\n',
 '253461123:652243:Kategori:Sejarah Indonesia menurut kota\n',
 '283296905:777199:Sejarah Indonesia (1945-1949)\n',
 '356317956:1151450:Sejarah Indonesia (1965–1966)\n',
 '356317956:1151468:Sejarah Indonesia (1959-1966)\n',
 '384483829:1401781:Templa

##### Index ternyata berisi title

### What to do with the index?

In [16]:
class SejarahIndonesiaHandler(WikiXmlHandler):
    def endElement(self, name):
        """Closing tag of element"""
        if name == self._current_tag:
            self._values[name] = ' '.join(self._buffer)

        if name == 'page' and ('[[Kategori:Sejarah Indonesia]]' in self._values['text']):
            self._pages.append((self._values['title'], self._values['text']))

In [17]:
# Object for handling xml
sejarah_indonesia_handler = SejarahIndonesiaHandler()

# Parsing object
sejarah_indonesia_parser = xml.sax.make_parser()
sejarah_indonesia_parser.setContentHandler(sejarah_indonesia_handler)

for i, line in enumerate(bz2.BZ2File(data_path, 'r')):
    sejarah_indonesia_parser.feed(line)

In [18]:
len(sejarah_indonesia_handler._pages)

539

In [19]:
sejarah_indonesia_handler._pages[1][0]

'Dekrit Presiden Republik Indonesia 1959'

In [20]:
sejarah_indonesia_handler._pages[1][1]

"{{short description|Keputusan Presiden Sukarno untuk kembali kepada Undang-Undang Dasar 1945}} \n {{Infobox legislation \n |short_title         = Dekrit No. 150 tahun 1959 \n |legislature         = [[Presiden Indonesia|Presiden Republik Indonesia]] \n |long_title          = Keputusan Presiden Republik Indonesia Nomor 150 Tahun 1959 Tentang Kembali kepada Undang-Undang Dasar 1945 \n |image               = Indonesian Presidential Seal gold.svg \n |imagesize           = 150px \n |imagealt            =  \n |citation            =  \n |territorial_extent  = [[Indonesia]] \n |enacted_by          = [[Soekarno]] \n |date_signed         = 5 Juli 1959 \n |date_assented       =  \n |date_enacted        = 5 Juli 1959 \n |date_commenced      = 5 Juli 1959 \n }} \n [[Berkas:1959 Decree 1.jpg|300px|jmpl|Dekret Presiden 1959]] \n {{Sejarah Indonesia}} \n '''Keputusan Presiden Nomor 150 Tahun 1959 tentang Kembali kepada Undang-Undang Dasar 1945''', atau yang lebih dikenal sebagai '''Dekret Presiden 5 J

In [21]:
for i, n in enumerate(sejarah_indonesia_handler._pages):
    print(n[0])

Daftar presiden Indonesia
Dekrit Presiden Republik Indonesia 1959
Surat Perintah Sebelas Maret
Konstituante Republik Indonesia
Volksraad
Pendudukan Jepang di Hindia-Belanda
Vivere pericoloso
Partai Komunis Indonesia
Komando Operasi Pemulihan Keamanan dan Ketertiban
Peristiwa Kapal Tujuh Provinsi
Kategori:Sejarah Nusantara
Pancasila
Kesultanan Aceh
Proklamasi Kemerdekaan Indonesia
Perundingan Linggarjati
Pemerintahan Darurat Republik Indonesia
Gunting Syafruddin
Gerakan 30 September
Sejarah Nusantara (1602–1800)
Orde Baru
Reformasi Indonesia (1998–sekarang)
Eduard Douwes Dekker
Perang Bubat
Perusahaan Hindia Timur Belanda
Peristiwa Rengasdengklok
Ianfu
Orde Lama
Kategori:Pahlawan nasional Indonesia
Perjanjian Roem-Roijen
Konferensi Meja Bundar
Manifesto Kebudayaan
Jalan Raya Pos
Pemberontakan PKI 1948
Meer Uitgebreid Lager Onderwijs
Europeesche Lagere School
Henk Sneevliet
Babad Suropati
Malari
Kategori:Gerakan mahasiswa
Peristiwa Gejayan
Algemeene Middelbare School
Ade Irma Suryani Nas

##### Data yang memiliki kategori Sejarah Indonesia sudah diambil semua. Perlu dilihat bahwa halaman yang diambil berasal langsung dari xml file, bukan dari page 'Kategori Sejarah Indonesia', dikarenakan tidak sinkron.

##### Contoh: Perundingan Linggarjati tidak termasuk dalam page 'Kategori Sejarah Indonesia', tetapi pada laman 'Perundingan Linggarjati', laman tersebut memiliki kategori sejarah indonesia

##### What about the 'Kategori Sejarah Indonesia' page itself?

In [22]:
class SejarahIndonesiaPageHandler(WikiXmlHandler):
    def endElement(self, name):
        """Closing tag of element"""
        if name == self._current_tag:
            self._values[name] = ' '.join(self._buffer)

        if name == 'page' and (self._values['title'] == 'Kategori:Sejarah Indonesia'):
            self._pages.append((self._values['title'], self._values['text']))

In [23]:
# Object for handling xml
sejarah_indonesia_page_handler = SejarahIndonesiaPageHandler()

# Parsing object
sejarah_indonesia_page_parser = xml.sax.make_parser()
sejarah_indonesia_page_parser.setContentHandler(sejarah_indonesia_page_handler)

for i, line in enumerate(bz2.BZ2File(data_path, 'r')):
    sejarah_indonesia_page_parser.feed(line)

In [24]:
sejarah_indonesia_page_handler._pages

[('Kategori:Sejarah Indonesia',
  '{{Commonscat|History of Indonesia}} \n {{cattree|Sejarah Indonesia}} \n {{Sejarahnegara|negara=Indonesia|benua=Asia Tenggara}} \n {{Indonesia|navbar=plain|prefix=:Kategori:Sejarah|title=Daftar sejarah di Indonesia menurut provinsi (kategori)|image=}}')]

In [25]:
len(sejarah_indonesia_page_handler._pages)

1

##### Tidak terdapat banyak informasi yang bisa digunakan

### Pemisahan ada infobox dan tidak ada

In [45]:
len(sejarah_indonesia_handler._pages)

539

In [56]:
page_with_infobox = []
page_without_infobox = []

In [57]:
def infobox_information(page_list, index):
    wiki_infobox_information = mwparserfromhell.parse(page_list[index][1])
    try:
        wiki_infobox_information.filter_templates(matches = 'Infobox')[0]
        page_with_infobox.append((page_list[index][0], page_list[index][1]))
    except IndexError :
        page_without_infobox.append((page_list[index][0], page_list[index][1]))

for i, n in enumerate (sejarah_indonesia_handler._pages):
    infobox_information(sejarah_indonesia_handler._pages, i)

In [58]:
len(page_with_infobox)

152

In [59]:
len(page_without_infobox)

387

In [78]:
import pandas as pd

df_with_infobox = pd.DataFrame(page_with_infobox)
df_without_infobox = pd.DataFrame(page_without_infobox)

writer = pd.ExcelWriter('idwiki-dump-latest.xlsx', engine='xlsxwriter')

df_with_infobox.to_excel(writer, sheet_name='Sejarah Indonesia Infobox', index=False, header=['Title', 'Text'])
df_without_infobox.to_excel(writer, sheet_name='Sejarah Indonesia', index=False, header=['Title', 'Text'])
writer.close()

In [80]:
page_with_infobox[0][1]

"{{short description|Keputusan Presiden Sukarno untuk kembali kepada Undang-Undang Dasar 1945}} \n {{Infobox legislation \n |short_title         = Dekrit No. 150 tahun 1959 \n |legislature         = [[Presiden Indonesia|Presiden Republik Indonesia]] \n |long_title          = Keputusan Presiden Republik Indonesia Nomor 150 Tahun 1959 Tentang Kembali kepada Undang-Undang Dasar 1945 \n |image               = Indonesian Presidential Seal gold.svg \n |imagesize           = 150px \n |imagealt            =  \n |citation            =  \n |territorial_extent  = [[Indonesia]] \n |enacted_by          = [[Soekarno]] \n |date_signed         = 5 Juli 1959 \n |date_assented       =  \n |date_enacted        = 5 Juli 1959 \n |date_commenced      = 5 Juli 1959 \n }} \n [[Berkas:1959 Decree 1.jpg|300px|jmpl|Dekret Presiden 1959]] \n {{Sejarah Indonesia}} \n '''Keputusan Presiden Nomor 150 Tahun 1959 tentang Kembali kepada Undang-Undang Dasar 1945''', atau yang lebih dikenal sebagai '''Dekret Presiden 5 J