# Web Scraping LPSE - Tender Data

---

For introduction of Selenium, please be kind to open [**this site**](https://www.scrapingbee.com/blog/selenium-python/)

## Import modules

`%pip freeze > requirements.txt`

In [49]:
# Module for web scraping
from selenium import webdriver
# Module for data manipulation
import pandas as pd
from bs4 import BeautifulSoup
# Module for dropdown selector
from selenium.webdriver.support.ui import Select

## Load the Chromedriver

Read how to download webdriver for Chrome [**here**]('https://chromedriver.chromium.org/downloads')

In [50]:
# Main pages in LPSE
main_links = {
    'Tender': 'https://lpse.lkpp.go.id/eproc4/lelang',
    'Non Tender': 'https://lpse.lkpp.go.id/eproc4/nontender',
    'Pencatatan Non Tender': 'https://lpse.lkpp.go.id/eproc4/pencatatan',
    'Pencatatan Swakelola': 'https://lpse.lkpp.go.id/eproc4/swakelola',
    'Pencatatan Pengadaan Darurat': 'https://lpse.lkpp.go.id/eproc4/darurat'
}

In [51]:
# Access to main link
DRIVER_PATH = '../bin/chromedriver'
driver = webdriver.Chrome(executable_path = DRIVER_PATH)
driver.get(main_links['Tender'])

## Core Procedure

### Select match category

#### 1 Tender type

In [52]:
dropdownTenders = driver.find_element_by_name('kategoriId')
selectorTenders = Select(dropdownTenders)

In [53]:
# List of dropdown list
listTenderType = []
options = selectorTenders.options
for index in range(len(options)):
    listTenderType.append(options[index].text)

In [54]:
# Messy categories
listTenderType

['',
 'Pengadaan Barang',
 'Pekerjaan Konstruksi',
 'Jasa Konsultansi Badan Usaha Non Konstruksi',
 'Jasa Konsultansi Badan Usaha Konstruksi',
 'Jasa Konsultansi Perorangan',
 'Jasa Lainnya',
 'Semua']

In [55]:
# Clean categories
listTenderTypeClean = listTenderType[1: len(listTenderType)]
listTenderTypeClean

['Pengadaan Barang',
 'Pekerjaan Konstruksi',
 'Jasa Konsultansi Badan Usaha Non Konstruksi',
 'Jasa Konsultansi Badan Usaha Konstruksi',
 'Jasa Konsultansi Perorangan',
 'Jasa Lainnya',
 'Semua']

In [56]:
# Select by visible text
selectorTenders.select_by_visible_text(listTenderTypeClean[len(listTenderTypeClean) - 1])

#### 2 Institutions

In [57]:
dropdownInstitution = driver.find_element_by_name('instansiId')
selectorInstitution = Select(dropdownInstitution)

In [58]:
# List of dropdown list
listInstitutions = []
options = selectorInstitution.options
for index in range(len(options)):
    listInstitutions.append(options[index].text)

In [59]:
# Messy categories
listInstitutions

['',
 'Kementerian Pekerjaan Umum',
 'Tentara Nasional Republik Indonesia',
 'Kementerian Koordinator Bidang Kesejahteraan Rakyat',
 'PT Sarana Pembangunan Jawa Tengah',
 'Badan Ekonomi Kreatif',
 'Universitas Diponegoro',
 'Badan Penyelenggara Jaminan Sosial Kesehatan',
 'Pemerintah Daerah Kota Salatiga',
 'Kementerian Pekerjaan Umum dan Perumahan Rakyat',
 'PDAM Tirta Moedal',
 'PDAM Lawu Tirta',
 'Badan Pengkajian Dan Penerapan Teknologi',
 'Lembaga Administrasi Negara',
 'PDAM Tirta Mahakam',
 'Kementerian Luar Negeri',
 'Arsip Nasional Republik Indonesia',
 'Kementerian Perencanaan Pembangunan Nasional',
 'Komisi Pemilihan Umum',
 'Mahkamah Agung',
 'Badan Pemeriksa Keuangan',
 'Kementerian Pertanian',
 'Lembaga Ketahanan Nasional',
 'Kementerian Perdagangan',
 'Kementerian Koordinator Bidang Perekonomian',
 'Kementerian Komunikasi Dan Informatika',
 'Kementerian Sekretariat Negara',
 'Kementerian Pemberdayaan Perempuan Dan Perlindungan Anak',
 'Majelis Permusyawaratan Rakyat',
 '

In [60]:
# Clean categories
listInstitutionsClean = listInstitutions[1: len(listInstitutions)]
listInstitutionsClean

['Kementerian Pekerjaan Umum',
 'Tentara Nasional Republik Indonesia',
 'Kementerian Koordinator Bidang Kesejahteraan Rakyat',
 'PT Sarana Pembangunan Jawa Tengah',
 'Badan Ekonomi Kreatif',
 'Universitas Diponegoro',
 'Badan Penyelenggara Jaminan Sosial Kesehatan',
 'Pemerintah Daerah Kota Salatiga',
 'Kementerian Pekerjaan Umum dan Perumahan Rakyat',
 'PDAM Tirta Moedal',
 'PDAM Lawu Tirta',
 'Badan Pengkajian Dan Penerapan Teknologi',
 'Lembaga Administrasi Negara',
 'PDAM Tirta Mahakam',
 'Kementerian Luar Negeri',
 'Arsip Nasional Republik Indonesia',
 'Kementerian Perencanaan Pembangunan Nasional',
 'Komisi Pemilihan Umum',
 'Mahkamah Agung',
 'Badan Pemeriksa Keuangan',
 'Kementerian Pertanian',
 'Lembaga Ketahanan Nasional',
 'Kementerian Perdagangan',
 'Kementerian Koordinator Bidang Perekonomian',
 'Kementerian Komunikasi Dan Informatika',
 'Kementerian Sekretariat Negara',
 'Kementerian Pemberdayaan Perempuan Dan Perlindungan Anak',
 'Majelis Permusyawaratan Rakyat',
 'Kemen

In [61]:
# Select by visible text
selectorInstitution.select_by_visible_text(listInstitutionsClean[len(listInstitutionsClean) - 1])

#### 3 Fiscal year

In [62]:
dropdownYear = driver.find_element_by_name('tahun')
selectorYear = Select(dropdownYear)

In [63]:
# List of dropdown list
listYears = []
options = selectorYear.options
for index in range(len(options)):
    listYears.append(options[index].text)

In [64]:
# Messy categories
listYears

['',
 '2010',
 '2011',
 '2012',
 '2013',
 '2014',
 '2015',
 '2016',
 '2017',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022',
 'Semua']

In [65]:
# Clean categories
listYearsClean = listYears[1: len(listYears)]
listYearsClean

['2010',
 '2011',
 '2012',
 '2013',
 '2014',
 '2015',
 '2016',
 '2017',
 '2018',
 '2019',
 '2020',
 '2021',
 '2022',
 'Semua']

In [66]:
# Select by visible text
selectorYear.select_by_visible_text(listYearsClean[len(listYearsClean) - 1])

### Get the tender summary data

#### 1 Get column names

In [67]:
# Get the column elements
tenderSummaryData = driver.find_element_by_id('tbllelang')

In [68]:
# element for column names
colNames = tenderSummaryData.find_element_by_tag_name('thead').find_elements_by_tag_name('th')

In [69]:
# Column names
listCols = []
for elem in colNames:
    col_raw = elem.text
    listCols.append(col_raw)
# Result
listCols = [i.replace('\n', ' ') for i in listCols]
listCols

['Kode', 'Nama Paket', 'K/L/PD', 'Tahapan', 'HPS']

#### 2 Get values

In [70]:
# Data collections
dataCollection = tenderSummaryData.find_element_by_tag_name('tbody').find_elements_by_tag_name('tr')
print('Length of data in one page: {} rows'.format(len(dataCollection)))

Length of data in one page: 25 rows


In [71]:
# Dictionary with blank list
dict_init = {key: [] for key in listCols}
dict_init

{'Kode': [], 'Nama Paket': [], 'K/L/PD': [], 'Tahapan': [], 'HPS': []}

In [72]:
# Get data
for row in dataCollection:
    elemValues = row.find_elements_by_tag_name('td')
    for col in range(len(elemValues)):
        try:
            value = elemValues[col].find_elements_by_tag_name('a')[0].text
        except:
            value = elemValues[col].text
        # Append values
        dict_init[list(dict_init.keys())[col]].append(value)

In [73]:
dict_init

{'Kode': ['7749119',
  '7744119',
  '7742119',
  '7730119',
  '7725119',
  '7720119',
  '7719119',
  '7718119',
  '7713119',
  '7712119',
  '7710119',
  '7709119',
  '7708119',
  '7706119',
  '7705119',
  '7703119',
  '7702119',
  '7701119',
  '7699119',
  '7695119',
  '7694119',
  '7692119',
  '7687119',
  '7683119',
  '7682119'],
 'Nama Paket': ['- 3 Renovasi Ruang Pengaduan Pusat',
  'Pengadaan Alat-Alat Laboratorium Untuk Tahun 2021',
  'Jasa Lainnya Event Organizer Rapat Koordinasi Nasional Pengadaan Barang/Jasa Tahun 2021',
  'Pegadaan Antene dan Pemancar FM di Joglo',
  'Pengadaan Water Meter dia. ½ inch Sebanyak 1500 Buah Untuk Stok gudang PDAM Kabupaten Semarang',
  'Pengadaan alat pengolah data untuk Asdep Naster',
  'Pengadaan alat pengolah data untuk Asdep Penyelenggaraan Persidangan (Asdep DKK 1)',
  'Pengadaan vitamin bagi Pejabat/Pegawai',
  'Pengadaan Konten Server Pemancar',
  'IT Software Architect Tender Ulang',
  'Pemasangan pipa instalasi dalam, inspection chamber 

In [83]:
# Link
listLinkTitle = []
for idx in range(len(dataCollection)):
    linkTitleElement = dataCollection[idx].find_elements_by_tag_name('td')[1]
    link_title_text_raw = linkTitleElement.find_elements_by_tag_name('a')[0].get_attribute('href')
    listLinkTitle.append(link_title_text_raw)
# Print result
listLinkTitle

['https://lpse.lkpp.go.id/eproc4/lelang/7749119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7744119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7742119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7730119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7725119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7720119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7719119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7718119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7713119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7712119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7710119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7709119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7708119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7706119/pengumumanlelang',
 'https://lpse.lkpp.go.id/eproc4/lelang/7705119/pengumumanlela

In [85]:
# Subtitle
listSubtitle = []
for idx in range(len(dataCollection)):
    subtitleElement = dataCollection[idx].find_elements_by_tag_name('td')[1]
    subtitle_text_raw = subtitleElement.find_elements_by_tag_name('p')[1].text
    listSubtitle.append(subtitle_text_raw)
# Print result
listSubtitle

['Pekerjaan Konstruksi - TA 2021 - Tender - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender Cepat - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Jasa Lainnya - TA 2021 - Tender - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender Cepat - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender Cepat - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender Cepat - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender Cepat - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Pengadaan Barang - TA 2021 - Tender - Pascakualifikasi Satu File Harga Terendah Sistem Gugur',
 'Jasa Konsultansi Perorangan - TA 2021 - Seleksi - Pascakualifikasi Dua File Kualitas',
 'Pekerj

In [86]:
# Captions
listCaption = []
for idx in range(len(dataCollection)):
    captionElement = dataCollection[idx].find_elements_by_tag_name('td')[1]
    caption_text_raw = captionElement.find_elements_by_tag_name('p')[2].text
    listCaption.append(caption_text_raw)
# Print result
listCaption

['Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Rp. 354.255.000,00',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Rp. 292.000.000,00',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontrak belum dibuat',
 'Nilai Kontrak : Nilai Kontr

In [87]:
# Annotation
listAnnotation = []
for idx in range(len(dataCollection)):
    annotationElement = dataCollection[idx].find_elements_by_tag_name('td')[1]
    annotationElements = annotationElement.find_elements_by_tag_name('span')
    
    listInAnnotation = []
    for j in range(len(annotationElements)):
        annotation_text_raw = annotationElements[j].text
        listInAnnotation.append(annotation_text_raw)
    
    listAnnotation.append(listInAnnotation)
# Print result
listAnnotation

[['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['Tender Ulang', 'spse 4.4'],
 ['Tender Ulang', 'spse 4.4'],
 ['Seleksi Ulang', 'spse 4.4'],
 ['spse 4.4'],
 ['Tender Ulang', 'spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['spse 4.4'],
 ['Tender Dibatalkan', 'Tender Ulang', 'spse 4.4'],
 ['spse 4.4'],
 ['Tender Ulang', 'spse 4.4'],
 ['Tender Dibatalkan', 'spse 4.4'],
 ['spse 4.4', 'Evaluasi Ulang'],
 ['spse 4.4'],
 ['spse 4.4']]

In [88]:
# Tender schedule
listLinkStatus = []
for idx in range(len(dataCollection)):
    linkStatusElement = dataCollection[idx].find_elements_by_tag_name('td')[3]
    links_status_text_raw = linkStatusElement.find_elements_by_tag_name('a')[0].get_attribute('href')
    listLinkStatus.append(links_status_text_raw)
# Print result
listLinkStatus

['https://lpse.lkpp.go.id/eproc4/lelang/7749119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7744119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7742119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7730119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7725119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7720119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7719119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7718119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7713119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7712119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7710119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7709119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7708119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7706119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7705119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7703119/jadwal',
 'https://lpse.lkpp.go.id/eproc4/lelang/7702119/jadwal',
 'https://lpse.lkpp.go.id/eproc

## Convert into JSON

In [93]:
# Append dictionary
dict_init['Link Paket'] = listLinkTitle
dict_init['Penjelasan Singkat Paket'] = listSubtitle
dict_init['Status Harga Paket'] = listCaption
dict_init['Spesifikasi Paket'] = listAnnotation
dict_init['Link Tahapan Paket'] = listLinkStatus

In [95]:
# Add tender's code as identifier
dict_full = {
    '139119': dict_init
}

In [96]:
dict_full

{'139119': {'Kode': ['7749119',
   '7744119',
   '7742119',
   '7730119',
   '7725119',
   '7720119',
   '7719119',
   '7718119',
   '7713119',
   '7712119',
   '7710119',
   '7709119',
   '7708119',
   '7706119',
   '7705119',
   '7703119',
   '7702119',
   '7701119',
   '7699119',
   '7695119',
   '7694119',
   '7692119',
   '7687119',
   '7683119',
   '7682119'],
  'Nama Paket': ['- 3 Renovasi Ruang Pengaduan Pusat',
   'Pengadaan Alat-Alat Laboratorium Untuk Tahun 2021',
   'Jasa Lainnya Event Organizer Rapat Koordinasi Nasional Pengadaan Barang/Jasa Tahun 2021',
   'Pegadaan Antene dan Pemancar FM di Joglo',
   'Pengadaan Water Meter dia. ½ inch Sebanyak 1500 Buah Untuk Stok gudang PDAM Kabupaten Semarang',
   'Pengadaan alat pengolah data untuk Asdep Naster',
   'Pengadaan alat pengolah data untuk Asdep Penyelenggaraan Persidangan (Asdep DKK 1)',
   'Pengadaan vitamin bagi Pejabat/Pegawai',
   'Pengadaan Konten Server Pemancar',
   'IT Software Architect Tender Ulang',
   'Pemasa

## Convert into data frame

In [98]:
# Dictionary of data
dict_data = dict_full['139119']
# Add tender code
dict_data['Kode Tender'] = ['139119'] * len(dict_full['139119']['Kode'])

In [99]:
# Create a data frame
df = pd.DataFrame(
        data = dict_data
)

In [100]:
print('Dimension: {} rows and {} columns'.format(len(df), len(df.columns)))
df.head()

Dimension: 25 rows and 11 columns


Unnamed: 0,Kode,Nama Paket,K/L/PD,Tahapan,HPS,Link Paket,Penjelasan Singkat Paket,Status Harga Paket,Spesifikasi Paket,Link Tahapan Paket,Kode Tender
0,7749119,- 3 Renovasi Ruang Pengaduan Pusat,Komisi Nasional Hak Asasi Manusia,Pengumuman Pascakualifikasi [...],"713,6 Jt",https://lpse.lkpp.go.id/eproc4/lelang/7749119/...,Pekerjaan Konstruksi - TA 2021 - Tender - Pasc...,Nilai Kontrak : Nilai Kontrak belum dibuat,[spse 4.4],https://lpse.lkpp.go.id/eproc4/lelang/7749119/...,139119
1,7744119,Pengadaan Alat-Alat Laboratorium Untuk Tahun 2021,PDAM Tirta Mahakam,Tender Sudah Selesai,"413,9 Jt",https://lpse.lkpp.go.id/eproc4/lelang/7744119/...,Pengadaan Barang - TA 2021 - Tender Cepat - Pa...,Nilai Kontrak : Nilai Kontrak belum dibuat,[spse 4.4],https://lpse.lkpp.go.id/eproc4/lelang/7744119/...,139119
2,7742119,Jasa Lainnya Event Organizer Rapat Koordinasi ...,Lembaga Kebijakan Pengadaan Barang/Jasa Pemeri...,Pengumuman Pascakualifikasi [...],"991,8 Jt",https://lpse.lkpp.go.id/eproc4/lelang/7742119/...,Jasa Lainnya - TA 2021 - Tender - Pascakualifi...,Nilai Kontrak : Nilai Kontrak belum dibuat,[spse 4.4],https://lpse.lkpp.go.id/eproc4/lelang/7742119/...,139119
3,7730119,Pegadaan Antene dan Pemancar FM di Joglo,Lembaga Penyiaran Radio Republik Indonesia,Pengumuman Pascakualifikasi [...],"29,5 M",https://lpse.lkpp.go.id/eproc4/lelang/7730119/...,Pengadaan Barang - TA 2021 - Tender - Pascakua...,Nilai Kontrak : Nilai Kontrak belum dibuat,[spse 4.4],https://lpse.lkpp.go.id/eproc4/lelang/7730119/...,139119
4,7725119,Pengadaan Water Meter dia. ½ inch Sebanyak 150...,PDAM Kabupaten Semarang,Tender Sudah Selesai,"437,2 Jt",https://lpse.lkpp.go.id/eproc4/lelang/7725119/...,Pengadaan Barang - TA 2021 - Tender Cepat - Pa...,"Nilai Kontrak : Rp. 354.255.000,00",[spse 4.4],https://lpse.lkpp.go.id/eproc4/lelang/7725119/...,139119
