# WIKIPEDIA SCRAPING
## Mendapatkan Daftar Kabupaten/Kota di Indonesia

### Tutorial ini disusun untuk memenuhi tugas Data Mining dan Kecerdasan Bisnis yang diampu oleh Edi Winarko, Ph.D..

### Disusun oleh:
- Kadek Dwi Budi Utama (A11.2014.08011)

### https://github.com/kadekutama

Di dalam tutorial scraping ini, kita akan melakukan scraping pada website Wikipedia untuk mendapatkan daftar kabupaten/kota di Indonesia beserta informasi detailnya.

### Inisialisasi URL dan Mendapatkan Akses ke Wikipedia
Untuk menghindari pemblokiran dari Wikipedia, kita menggunakan user agent browser Mozilla.

Kita menggunakan library urllib3 untuk melakukan request dan mengakses Wikipedia.

In [13]:
import urllib3 as u3

wiki = "https://id.wikipedia.org/wiki/Daftar_kabupaten_dan_kota_di_Indonesia"
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:49.0) Gecko/20100101 Firefox/49.0'}

u3.disable_warnings()
http = u3.PoolManager(10, headers=header)
req = http.urlopen('GET', wiki)
print(req)
page = req.data
print(page[1:1000])

<urllib3.response.HTTPResponse object at 0x000001F812C11470>
b'!DOCTYPE html>\n<html class="client-nojs" lang="id" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Daftar kabupaten dan kota di Indonesia - Wikipedia bahasa Indonesia, ensiklopedia bebas</title>\n<script>document.documentElement.className = document.documentElement.className.replace( /(^|\\s)client-nojs(\\s|$)/, "$1client-js$2" );</script>\n<script>(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Daftar_kabupaten_dan_kota_di_Indonesia","wgTitle":"Daftar kabupaten dan kota di Indonesia","wgCurRevisionId":11796008,"wgRevisionId":11796008,"wgArticleId":3759,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Halaman dengan gambar rusak","Semua daftar pilihan","Daftar pembagian administratif Indonesia","Kabupaten di Indonesia","Kota di Indonesia","Daftar ko

### Mendapatkan HTML dari Web Wikipedia
Kita menggunakan library BeautifulSoup untuk mempermudah proses scraping. String HTML yang didapatkan dikonversikan menjadi objek BeautifulSoup menggunakan lxml parser

In [14]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page, "lxml")
print(type(soup))
print(soup.prettify()[1:1000])

<class 'bs4.BeautifulSoup'>
!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="id">
 <head>
  <meta charset="utf-8"/>
  <title>
   Daftar kabupaten dan kota di Indonesia - Wikipedia bahasa Indonesia, ensiklopedia bebas
  </title>
  <script>
   document.documentElement.className = document.documentElement.className.replace( /(^|\s)client-nojs(\s|$)/, "$1client-js$2" );
  </script>
  <script>
   (window.RLQ=window.RLQ||[]).push(function(){mw.config.set({"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Daftar_kabupaten_dan_kota_di_Indonesia","wgTitle":"Daftar kabupaten dan kota di Indonesia","wgCurRevisionId":11796008,"wgRevisionId":11796008,"wgArticleId":3759,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Halaman dengan gambar rusak","Semua daftar pilihan","Daftar pembagian administratif Indonesia","Kabupaten di Indonesia","Kota di Indonesia","Daftar kota di Indonesia"

### Membuat Data Frame dari Objek BeautifulSoup

Berdasarkan web Wikipedia yang digunakan, kita akan mengambil 6 macam informasi, antara lain nama kabupaten/kota, provinsi, pulau, pusat pemerintahan, jumlah kecamatan, serta jumlah kelurahan/desa.

Untuk mendapatkan keenam informasi tersebut, kita harus bisa mengakses tabel yang menyediakan keenam informasi tersebut. Ada 33 tabel dengan nama kelas "wikipedia sortable" yang terdeteksi di objek soup. Di halaman web Wikipedia, ternyata terdapat 2 tabel pada posisi paling akhir yang berisi daftar kabupaten dan daftar kota. Jadi, kita harus mengakses tabel ke-31 dan ke-32 untuk mendapatkan keenam informasi yang diinginkan.

Kita membutuhkan 2 perulangan. Perulangan pertama digunakan untuk mengakses 2 tabel terakhir, sedangkan perulangan kedua digunakan untuk mengakses tiap baris informasi di dalam tabel.

Tiap tabel, terdapat 7 kolom. Kita tidak membutuhkan kolom pertama, karena berisi nomor indeks. Jadi, kita hanya membutuhkan kolom indeks kedua sampai ketujuh.

Informasi pada kolom kelima sampai ketujuh ternyata tidak konsisten akibat ketidaktersediaan informasi yang dimiliki Wikipedia, sehingga harus dilakukan manipulasi. Pada kolom kelima, terdapat informasi kosong (null). Informasi kosong tersebut kita ganti dengan "-". Pada kolom keenam, terdapat informasi non-angka berupa "Daftar kecamatan" alias jumlah tidak diketahui. Kita akan menggantinya dengan angka 0. Pada kolom ketujuh, terdapat informasi non-angka berupa "Daftar kelurahan", "Daftar desa", dan "-". Kita akan menggantinya dengan angka 0. Ternyata ada sejumlah kota/kabupaten yang memiliki jumlah kelurahan/desa lebih dari 1000. Kita harus menghapus tanda titik (".") pada angka supaya dapat dikonversikan menjadi bilangan integer.

Untuk membuat data frame dari keenam list (KabupatenKota, Provinsi, Pulau, PusatPemerintahan, Kecamatan, dan KelurahanDesa), kita membutuhkan library panda.

In [36]:
import pandas as pd

KabupatenKota = []
Provinsi = []
Pulau = []
PusatPemerintahan = []
Kecamatan = []
KelurahanDesa = []

ListTable = soup.find_all("table","wikitable sortable")

#print len(ListTable)

for i in range(31,33):
    for row in ListTable[i].find_all("tr"):
        cells = row.find_all("td")
        if len(cells) == 7:
            kk = cells[1].find(text=True)
            pr = cells[2].find(text=True)
            pu = cells[3].find(text=True)
            if cells[4].find(text=True) is None:
                pp = '-'
            else:
                pp = cells[4].find(text=True)
            if cells[5].find(text=True) == 'Daftar kecamatan':
                ke = int(0)
            else:
                ke = int(cells[5].find(text=True))
            if (cells[6].find(text=True) == 'Daftar kelurahan') | (cells[6].find(text=True) == 'Daftar desa') | (cells[6].find(text=True) == '-'):
                kd = int(0)
            else:
                kd = cells[6].find(text=True)
                kd = kd.replace('.','')
                kd = int(kd)
            KabupatenKota.append(kk)
            Provinsi.append(pr)
            Pulau.append(pu)
            PusatPemerintahan.append(pp)
            Kecamatan.append(ke)
            KelurahanDesa.append(kd)

ListKabupatenKota = {'KabupatenKota':KabupatenKota,'Provinsi':Provinsi,'Pulau':Pulau,'PusatPemerintahan':PusatPemerintahan,'Kecamatan':Kecamatan,'KelurahanDesa':KelurahanDesa}
df = pd.DataFrame(ListKabupatenKota,columns = ['KabupatenKota','Provinsi','Pulau','PusatPemerintahan','Kecamatan','KelurahanDesa'])
df.sort_values('KabupatenKota',ascending=True)

Unnamed: 0,KabupatenKota,Provinsi,Pulau,PusatPemerintahan,Kecamatan,KelurahanDesa
1,Kabupaten Aceh Barat,Aceh,Sumatera,Meulaboh,12,321
0,Kabupaten Aceh Barat Daya,Aceh,Sumatera,Blangpidie,9,132
2,Kabupaten Aceh Besar,Aceh,Sumatera,Kota Jantho,23,592
3,Kabupaten Aceh Jaya,Aceh,Sumatera,Calang,6,172
4,Kabupaten Aceh Selatan,Aceh,Sumatera,Tapak Tuan,16,369
5,Kabupaten Aceh Singkil,Aceh,Sumatera,Singkil,10,127
6,Kabupaten Aceh Tamiang,Aceh,Sumatera,Karang Baru,12,128
7,Kabupaten Aceh Tengah,Aceh,Sumatera,Takengon,14,268
8,Kabupaten Aceh Tenggara,Aceh,Sumatera,Kutacane,11,164
9,Kabupaten Aceh Timur,Aceh,Sumatera,Idi Rayeuk,21,580


### Konversi Data Frame ke File CSV
Langkah terakhir ialah mengonversi data frame yang telah dibuat menjadi file CSV agar dapat digunakan untuk berbagai keperluan.

In [37]:
df.to_csv("Wikipedia - Daftar Kabupaten-Kota di Indonesia.csv",sep=";")