# Web Scraping LPSE - Blacklist Detailed Data

---

For introduction of Selenium, please be kind to open [**this site**](https://www.scrapingbee.com/blog/selenium-python/)

## Import modules

`%pip freeze > requirements.txt`

In [62]:
# Module for web scraping
from selenium import webdriver
# Module for data manipulation
import pandas as pd
from bs4 import BeautifulSoup
# Module for regular expression
import re

## Load the Chromedriver

Read how to download webdriver for Chrome [**here**]('https://chromedriver.chromium.org/downloads')

In [110]:
# Detailed link
detailed_link = 'https://inaproc.id/daftar-hitam?page=26#3459'

In [111]:
# Access to detailed link
DRIVER_PATH = '../bin/chromedriver'
driver = webdriver.Chrome(executable_path = DRIVER_PATH)
driver.get(detailed_link)

## Core Procedure

### 1 Prepare the column names

In [112]:
# Data collection
dataCollection = driver.find_element_by_id('injunctions').find_element_by_tag_name('tbody')

### 2 Get the data

In [115]:
# Prepare blank dictionary for full data set
dict_init = {}

# Length of rows in page
lenMax = dataCollection.find_elements_by_tag_name('td')
lengthRows = dataCollection.find_elements_by_class_name('item')
indexFinal = int(len(lenMax) / len(lengthRows))

# Number of law
lawList = []
for elem in dataCollection.find_elements_by_tag_name('td')[0::int(indexFinal)]:
    string = elem.text
    lawList.append(string)

for row in range(len(lengthRows)):
    # Get data for first column
    valVioHeader = dataCollection.find_elements_by_class_name('header')[row].text
    valVioContent = dataCollection.find_elements_by_class_name('description')[row].text
    # Key-value for first column
    dict_val_first = {
        'Judul Pelanggaran': valVioHeader,
        'Isi Pelanggaran': valVioContent,
        'SK Penetapan': lawList[row]
    }
    # Get data for second column
    elemDeep = dataCollection.find_elements_by_tag_name('tbody')[row].find_elements_by_tag_name('td')
    colList, valList = [], []
    elemCol, elemVal = elemDeep[0::2], elemDeep[1::2]
    for col, val in zip(elemCol, elemVal):
        elemColSub, elemValSub = col.text, val.text
        colList.append(elemColSub)
        valList.append(elemValSub)
    
    # Append between two columns
    data_row = {**dict_val_first, **dict(zip(colList, valList))}
    # Append the dictionary
    dict_init = {**dict_init, **{
            row: data_row
        }
    }

In [116]:
# Data
dict_init

{0: {'Judul Pelanggaran': 'Peraturan LKPP No. 17 Tahun 2018 Pasal 3 huruf a',
  'Isi Pelanggaran': 'peserta pemilihan menyampaikan dokumen atau keterangan palsu/tidak benar untuk memenuhi persyaratan yang ditentukan dalam Dokumen Pemilihan',
  'SK Penetapan': 'No : 620/027/416-103/2020',
  'Nama KLPD': 'Pemerintah Daerah Kabupaten Mojokerto',
  'Nama Satker': 'DINAS PEKERJAAN UMUM DAN PENATAAN RUANG',
  'Masa Berlaku Sanksi': '7 Jan 2020 s/d 7 Jan 2022',
  'Tanggal Penayangan': '-'},
 1: {'Judul Pelanggaran': 'Peraturan LKPP No. 17 Tahun 2018 Pasal 3 huruf a',
  'Isi Pelanggaran': 'peserta pemilihan menyampaikan dokumen atau keterangan palsu/tidak benar untuk memenuhi persyaratan yang ditentukan dalam Dokumen Pemilihan',
  'SK Penetapan': 'No : 188/241/415.19/2020',
  'Nama KLPD': 'Pemerintah Daerah Kabupaten Jombang',
  'Nama Satker': 'DINAS PERUMAHAN DAN PERMUKIMAN',
  'Masa Berlaku Sanksi': '10 Mar 2020 s/d 10 Mar 2022',
  'Tanggal Penayangan': '6 Apr 2020'}}

## Convert into JSON

In [108]:
# Dictionary for data
current_data = '4537'
dict_full = {
    current_data: dict_init
}

In [109]:
# Data
dict_full

{'4537': {0: {'Judul Pelanggaran': 'Peraturan LKPP No. 17 Tahun 2018 Pasal 3 huruf a',
   'Isi Pelanggaran': 'peserta pemilihan menyampaikan dokumen atau keterangan palsu/tidak benar untuk memenuhi persyaratan yang ditentukan dalam Dokumen Pemilihan',
   'SK Penetapan': 'No : 1086/KPTS/BPJN-NTB/2021',
   'Nama KLPD': 'Kementerian Pekerjaan Umum dan Perumahan Rakyat',
   'Nama Satker': 'Balai Pelaksanaan Jalan Nasional Nusa Tenggara Barat',
   'Masa Berlaku Sanksi': '20 Sep 2021 s/d 20 Sep 2023',
   'Tanggal Penayangan': '20 Sep 2021'},
  1: {'Judul Pelanggaran': 'Peraturan LKPP No. 17 Tahun 2018 Pasal 3 huruf a',
   'Isi Pelanggaran': 'peserta pemilihan menyampaikan dokumen atau keterangan palsu/tidak benar untuk memenuhi persyaratan yang ditentukan dalam Dokumen Pemilihan',
   'SK Penetapan': 'No : 04/KPTS/Bb16/448007/2021',
   'Nama KLPD': 'Kementerian Pekerjaan Umum dan Perumahan Rakyat',
   'Nama Satker': 'Balai Pelaksanaan Jalan Nasional Maluku',
   'Masa Berlaku Sanksi': '19 Agu 