# Scrapping Digital Library ITB



## abstrak
salah satu nama proker di divisi himpunan saya: "Lex Luthor's Database" (tebak siapa yang ngusulkan nama itu). Secara sederhana, *#tidakmendetail*, proker ini bertugas untuk mencatat segala hal* ke sebuah database. Salah satunya, topik TA anak matematika. Tapi, jika anda membaca ini ketika notebook ini ditulis, website [Digital Library ITB](www.digilib.itb.ac.id) did not spark fun. Hal ini disebabkan karena bagian "Pencarian Lanjut" (advanced search)-nya error terus. Tapi, fear not! masih ada cara untuk mendapatkan informasi TA anak matematika dari website sialan ini.

In [0]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [0]:
# regular expression
import re

# object serialization
import pickle
import numpy as np
import pandas as pd 

# proses request dan edit HTML
import urllib.request as U
from bs4 import BeautifulSoup as bs

# pretty print
from pprint import pprint

# menampilkan proses iterasi
from tqdm import tqdm

pertama, kita perlu fungsi untuk mengambil data dari halaman digilib

In [0]:
import re
import sys
import pickle
import urllib.request as U
from bs4 import BeautifulSoup as bs
from pprint import pprint
from tqdm import tqdm


URL = 'https://digilib.itb.ac.id/index.php/gdl/view/{}'

def dictify(num):
  res = {}

  try:
    with U.urlopen('https://digilib.itb.ac.id/index.php/gdl/view/' + str(num)) as f:
      raw = f.read().decode('utf8', 'ignore')
      soup = bs(raw, 'html.parser')

      tmp = []
      for p in soup.findAll('p')[1:]:
        # pakai try-except karna ada p tanpa class
        # cuma <p>
        try:
          if 'text-left' in p['class']:
            tmp2 = re.sub('(\n|\r|\t)', '', p.decode_contents())
            tmp2 = re.sub(' +', ' ', tmp2)
            tmp.append(tmp2.strip())
        except: pass
      res['judul'] = tmp[0]

      if len(tmp[1]) >= 3:
            res['abstrak'] = tmp[1]

      tmp = soup.findAll('blockquote')[0]

      for tr in tmp.findAll('tr'):
        cols = [x.decode_contents() for x in tr.findAll('td')]
        key = cols[0]
        val = re.sub('(<. [^>]*>|<\/.>)', '', cols[2])
        val = re.sub('(\n|\r|\t)', '', val)
        val = re.sub(' +', ' ', val)

        if val!='':
          if key=='Kontributor / Dosen Pembimbing' and len(val) >= 3:
              res['kontributor'] = val

          elif key=='Jenis Koleksi':                 res['jenis'] = val
          elif key=='Penerbit':                      res['penerbit'] = val
          elif key=='Fakultas':                      res['fakultas'] = val
          elif key=='Subjek':                        res['subjek'] = val
          elif key=='Kata Kunci':                    res['kunci'] = val
          elif key=='Tanggal Input':                 res['tanggal'] = val
  
  except: pass
  return res

lalu kita perlu fungsi untuk mengautomasi proses download. Karena program ini dijalankan di cloud, terdapat batasan waktu sekitar 2-3 jam sebelum proses ini dihentikan secara otomatis oleh sistem (dari sisi provider, tentunya mereka tidak ingin resource mereka terbuang karena satu *chunck* kode berjalan selama itu). Jadi, cara saya dengan mendownload 100 data lalu menyimpannya ke sebuah file pickle biar mudah digabungkan nantinya.

In [0]:
def batch_download(start, end, batch_size=100):
    for batch in range(start, end+1, batch_size):
        
        result = {}
        for num in tqdm(range(batch, batch+batch_size), desc=str(batch)):
            tmp = str(num)
            result[tmp] = dictify(tmp)

        with open('drive/My Drive/pickles/pickle_'+tmp, 'wb') as outfile:
            pickle.dump(result, outfile, -1)

In [0]:
#batch_download(33301, 33400)

selanjutnya kita tinggal menggabungkan data

In [0]:
result = {}
for n in tqdm(range(1, 420)):
  with open('drive/My Drive/pickles/pickle_{}00'.format(n), 'rb') as outfile:
    result.update(pickle.load(outfile))

data = pd.DataFrame.from_dict(result, orient='index')

100%|██████████| 419/419 [00:00<00:00, 542.12it/s]


In [0]:
data.head()

Unnamed: 0,judul,abstrak,oleh,kontributor,jenis,tanggal,penerbit,fakultas,kunci,subjek
1,A Design and An Implementation of Parallel Bat...,A,"Adang Suwandi, DR. IR.",A,Literatur Kelabu,2007-02-14 18:46:57,,,,
10,Hukum dan warfare,a,"Onno W. Purbo, PhD",#,Literatur Kelabu,2007-02-14 18:46:56,,,,
100,Murattal Quran: 110-An Nashr,MP3 File Audio.,Ghamiidi,digitized by Unit Salman.,Anggota,2004-09-15 16:24:44,,,"murattal quran, an nashr.",
1000,STRUKTUR PASAR DAN PERFORMANSI INDUSTRI PERBAN...,S,Rina Indiastuti,P,S2 - Tesis,2017-09-27 14:50:29,FTI - Teknik dan Manajemen Industri,Fakultas Teknologi Industri (FTI),,
10000,FACTORS THAT INFLUENCES Y GREEN TEA CONSUMER P...,Persaingan di antara produsen minuman teh hija...,ARIA WIRA SAMUDERA (NIM 19005050),"Pembimbing : Drs. Herry Hudrasyah, M.A.",S1-Tugas Akhir,2009-07-03 16:07:42,Sekolah Bisnis dan Manajemen,Sekolah Bisnis dan Manajemen (SBM),"Preferensi, Fenomena, Konsumen, Faktor analisa",


karena kita perlu mengubah data ini ke bentuk csv, kita perlu cari separator yang cocok untuk data ini.

In [0]:
'$' in data.to_string()

False

karena data ternyata punya karakter non UTF-8, kita terpaksa ngebuang karakter-karakter tersebut

In [0]:
with open('drive/My Drive/digi.csv', 'w', encoding='utf8', errors='replace') as f:
    data.to_csv(f, sep='$')

## Merapikan Data

Setelah mendapatkan data mentah dari Digital Library, kita melihat banyak data yang berantakan. Karena saya berfokus untuk mencari data "S1-Tugas Akhir", saya mencoba mencari tahu informasi dari kolom `oleh`.

In [1]:
import pandas as pd
import numpy as np
import re

In [2]:
digi = pd.read_csv('digi.csv', sep='$')
digi.head()

Unnamed: 0,index,judul,abstrak,oleh,kontributor,jenis,tanggal,penerbit,fakultas,kunci,subjek
0,1,A Design and An Implementation of Parallel Bat...,A,"Adang Suwandi, DR. IR.",A,Literatur Kelabu,2007-02-14 18:46:57,,,,
1,10,Hukum dan warfare,a,"Onno W. Purbo, PhD",#,Literatur Kelabu,2007-02-14 18:46:56,,,,
2,100,Murattal Quran: 110-An Nashr,MP3 File Audio.,Ghamiidi,digitized by Unit Salman.,Anggota,2004-09-15 16:24:44,,,"murattal quran, an nashr.",
3,1000,STRUKTUR PASAR DAN PERFORMANSI INDUSTRI PERBAN...,S,Rina Indiastuti,P,S2 - Tesis,2017-09-27 14:50:29,FTI - Teknik dan Manajemen Industri,Fakultas Teknologi Industri (FTI),,
4,10000,FACTORS THAT INFLUENCES Y GREEN TEA CONSUMER P...,Persaingan di antara produsen minuman teh hija...,ARIA WIRA SAMUDERA (NIM 19005050),"Pembimbing : Drs. Herry Hudrasyah, M.A.",S1-Tugas Akhir,2009-07-03 16:07:42,Sekolah Bisnis dan Manajemen,Sekolah Bisnis dan Manajemen (SBM),"Preferensi, Fenomena, Konsumen, Faktor analisa",


In [3]:
digi.oleh[:100]

0                                Adang Suwandi, DR. IR.
1                                    Onno W. Purbo, PhD
2                                              Ghamiidi
3                                       Rina Indiastuti
4                     ARIA WIRA SAMUDERA (NIM 19005050)
5                ARIEF BARKAH KOESDWIADY (NIM 13304079)
6                       ARIEF MUCHANDOKO (NIM 28191039)
7                  ARIEF PERDANA PUTRA (NIM 152 04 052)
8                    ARIEF PLANTALUKMANA (NIM 13003082)
9                         ARIEF SUDIANTO (NIM 25406043)
10                     ARIEF TYAS ASMARA (NIM 28195045)
11    ARIE PURNOMO RUSLI (NIM 15004020) dan RIASTRI ...
12                          ARIF HAENDRA (NIM 23105001)
13                     ARIF RAHMAN HAKIM (NIM 13102048)
14                                               Rizwar
15                     ARIF RAHMAN HAKIM (NIM 13102121)
16                     ARIF RAHMAN HAKIM (NIM 13102121)
17                             ARIFUDDIN (NIM:22

Terlihat sebagian data di kolom ini mengandung informasi NIM. Pengamatan lebih lanjut, banyak pul data yang meletakkan data `kontributor` di sini. Ada kasus dimana sebuah buku dicetak oleh dua orang atau lebih. Saya memilih untuk memikirkan hal ini nanti saja, dan memutuskan untuk memisahkan data orang pertama dengan data NIM mereka.

In [4]:
pd.options.mode.chained_assignment = None

digi['nim'] = 0

for idx in digi.index:
    text = digi['oleh'][idx]
    
    if type(text)==str:    
        if '(' in text:
            nama, b = text.split('(', 1)
            nim = re.sub('\D', '', b)[:8]
        elif '[' in text:
            nama, b = text.split('[', 1)
            nim = re.sub('\D', '', b)[:8]
        else: continue

        if nim=='': nim=0;
        digi['oleh'][idx] = nama.title()
        digi['nim'][idx]  = int(nim)

In [6]:
digi

Unnamed: 0,index,judul,abstrak,oleh,kontributor,jenis,tanggal,penerbit,fakultas,kunci,subjek,nim
0,1,A Design and An Implementation of Parallel Bat...,A,"Adang Suwandi, DR. IR.",A,Literatur Kelabu,2007-02-14 18:46:57,,,,,0
1,10,Hukum dan warfare,a,"Onno W. Purbo, PhD",#,Literatur Kelabu,2007-02-14 18:46:56,,,,,0
2,100,Murattal Quran: 110-An Nashr,MP3 File Audio.,Ghamiidi,digitized by Unit Salman.,Anggota,2004-09-15 16:24:44,,,"murattal quran, an nashr.",,0
3,1000,STRUKTUR PASAR DAN PERFORMANSI INDUSTRI PERBAN...,S,Rina Indiastuti,P,S2 - Tesis,2017-09-27 14:50:29,FTI - Teknik dan Manajemen Industri,Fakultas Teknologi Industri (FTI),,,0
4,10000,FACTORS THAT INFLUENCES Y GREEN TEA CONSUMER P...,Persaingan di antara produsen minuman teh hija...,Aria Wira Samudera,"Pembimbing : Drs. Herry Hudrasyah, M.A.",S1-Tugas Akhir,2009-07-03 16:07:42,Sekolah Bisnis dan Manajemen,Sekolah Bisnis dan Manajemen (SBM),"Preferensi, Fenomena, Konsumen, Faktor analisa",,19005050
5,10001,PEMBUATAN PERANGKAT AKUISISI DATA TOMOGRAFI EL...,Tomografi Elektrik adalah metoda pencitraan di...,Arief Barkah Koesdwiady,Pembimbing : Dr. Ir. Deddy kurniadi dan Dr. Ir...,S1-Tugas Akhir,2017-09-27 11:05:12,,,"Tomografi elektrik 3-D, Distribusi resistivita...",,13304079
6,10002,MANAJEMEN PERUBAHAN SUMBER DAYA MANUSIA UNTUK ...,Suatu perusahaan merupakan sistem terbuka yang...,Arief Muchandoko,"Pembimbing: Ir. Imam Istiyanto, MBA.",S2 - Tesis,2009-07-03 13:34:04,Magister Bisnis dan Administrasi - Teknologi,Sekolah Bisnis dan Manajemen (SBM),"SDM, PN Padalarang, manajemen perubahan",,28191039
7,10003,RUMAH SAKIT KANKER SURABAYA,Perancangan Tugas Akhir ini mengambil kasus pr...,Arief Perdana Putra,"Pembimbing: Dr. Ir. Woerjantari K.Soedarsono.,...",S1-Tugas Akhir,2017-09-27 10:22:04,,,"rumah sakit, kanker, radiologi, Surabaya",,15204052
8,10004,MEMBRAN KRISTALISATOR UNTUK PENGOLAHAN AIR LAUT,Membran kristalisator (MCr) merupakan teknik b...,Arief Plantalukmana,"Pembimbing : Ir. I. G. Wenten, M.Sc., Ph.D.",S1-Tugas Akhir,2017-09-27 11:39:33,,,"Membran kristalisator, Distilasi, Reverse osmo...",,13003082
9,10005,THE ROLE OF MARKET FORCES AND SPATIAL PLANNING...,This study is about the role of market forces ...,Arief Sudianto,Pembimbing: Prof. Dr. Peter Ho dan Ir. Haryo W...,S2 - Tesis,2017-10-09 10:25:29,SAPPK - Perencanaan Wilayah dan Kota,"Sekolah Arsitektur, Perencanaan dan Pengembang...","market forces, spatial planning, land developm...",,25406043


In [7]:
digi.to_csv('digi_corrected.csv', sep='$', index=False)

## Mencari Data TA Anak Matematika

In [8]:
digi = pd.read_csv('digi_corrected.csv', sep='$')
digi.head()

Unnamed: 0,index,judul,abstrak,oleh,kontributor,jenis,tanggal,penerbit,fakultas,kunci,subjek,nim
0,1,A Design and An Implementation of Parallel Bat...,A,"Adang Suwandi, DR. IR.",A,Literatur Kelabu,2007-02-14 18:46:57,,,,,0
1,10,Hukum dan warfare,a,"Onno W. Purbo, PhD",#,Literatur Kelabu,2007-02-14 18:46:56,,,,,0
2,100,Murattal Quran: 110-An Nashr,MP3 File Audio.,Ghamiidi,digitized by Unit Salman.,Anggota,2004-09-15 16:24:44,,,"murattal quran, an nashr.",,0
3,1000,STRUKTUR PASAR DAN PERFORMANSI INDUSTRI PERBAN...,S,Rina Indiastuti,P,S2 - Tesis,2017-09-27 14:50:29,FTI - Teknik dan Manajemen Industri,Fakultas Teknologi Industri (FTI),,,0
4,10000,FACTORS THAT INFLUENCES Y GREEN TEA CONSUMER P...,Persaingan di antara produsen minuman teh hija...,Aria Wira Samudera,"Pembimbing : Drs. Herry Hudrasyah, M.A.",S1-Tugas Akhir,2009-07-03 16:07:42,Sekolah Bisnis dan Manajemen,Sekolah Bisnis dan Manajemen (SBM),"Preferensi, Fenomena, Konsumen, Faktor analisa",,19005050


In [11]:
data = []
for idx in digi.index:
    if str(digi['nim'][idx])[:3]=='101': data.append(idx)

maths1 = digi.iloc[data].fillna('')
maths1.head()

Unnamed: 0,index,judul,abstrak,oleh,kontributor,jenis,tanggal,penerbit,fakultas,kunci,subjek,nim
47,10040,MODEL PENYEBARAN PENYAKIT AFRICAN HORSE SICKNE...,Tugas akhir ini membahas masalah model penyeba...,Asnaini Maulidia,Pembimbing: Dr. Nuning Nuraini,S1-Tugas Akhir,2017-09-27 11:43:07,,,"basic reproduction number, titik kesetimbangan...",,10103037
54,10048,PEMBUATAN PORTFOLIO OPTIMAL YANG ROBUST DENGAN...,Pembuatan portfolio dalam keuangan dengan meng...,Astrid Ayuningtyas,Pembimbing: Dr. Roberd Saragih dan Dr. Jalina ...,S1-Tugas Akhir,2017-09-27 11:43:06,,,"Mean-Variansi Markowitz, Outlier, Jarak Mahala...",,10104055
70,10062,PENGGUNAAN SKEMA BAGI RAHASIA UNTUK MELAKUKAN ...,Skema bagi rahasia merupakan salah satu metode...,Ayatullah Arruhul Amin,Pembimbing: Dr. Rinovia M. G. Simanjuntak,S1-Tugas Akhir,2017-09-27 11:43:05,,,"polinom, skema bagi rahasia, field, query",,10103061
72,10064,EFISIENSI PENDESAKAN MINYAK PADA LOW-TENSION F...,Low-Tension Flood merupakan salah satu metode ...,Ayu Fitra Sari,Pembimbing: Prof.Dr. Edy Soewono dan Prof.Dr.I...,S1-Tugas Akhir,2017-09-27 11:43:06,,,"Low-Tension Flood, Injeksi Surfactant, persama...",,10104077
73,10065,PELABELAN TOTAL LINGKARAN AJAIB SUPER PADA GRA...,"Pada tugas akhir ini, dibuktikan bahwa suatu g...",Ayuningtyas,Pembimbing: Dr. M. Salman A.N,S1-Tugas Akhir,2017-09-27 11:43:08,,,"pelabelan total ajaib super, Cn - cactus, graf...",,10105066


In [12]:
maths1.to_csv('mathS1.csv', sep='$', index=False)