# 1. Import the libraries

In [None]:
# Import requests, BS4, and pandas
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 2. Send the Request to `izin.co.id`

In [None]:
# Send a GET request to the website
url = 'https://izin.co.id/kbli-terbaru.php'
response = requests.get(url)

# 3. Parse the HTML

In [None]:
# Parse the HTML content using BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')

# 4. Table and Row

In [None]:
# Find the table that contains the data
table = soup.find('table', {'class': 'table'})

# Extract the `Kode`, `Judul`, and `Keterangan` columns

In [None]:
# Loop through each row and extract the Kode and Judul columns
data = []
for row in table.find_all('tr')[1:]:
    kode, judul, keterangan = row.find_all('td')[:3]
    data.append({'Kode': kode.text.strip(), 
                 'Judul': judul.text.strip(), 
                 'Keterangan': keterangan.text.strip()})
df = pd.DataFrame(data)

In [None]:
data

[{'Kode': '02142',
  'Judul': 'Pengusahaan Pembibitan Tanaman Pinus',
  'Keterangan': 'Subgolongan ini mencakup usaha pembibitan/penyemaian tanaman pinus dan pemeliharaannya sampai dengan umur tertentu untuk ditanam dengan tujuan komersil.'},
 {'Kode': '20132',
  'Judul': 'Industri Karet Buatan',
  'Keterangan': 'Kelompok ini mencakup usaha pembuatan karet buatan, seperti styrene butadiene rubber (SBR), polychloroprene (neoprene), acrylonitrile butadine rubber (nitrile rubber), silicone rubber (polysiloxane) dan isoprene rubber'},
 {'Kode': '37012',
  'Judul': 'Pengumpulan Air Limbah Berbahaya',
  'Keterangan': 'Kelompok ini mencakup kegiatan pengumpulan dan pengangkutan air limbah industri atau air limbah rumah tangga yang berbahaya melalui saluran dari jaringan pembuangan air limbah, pengumpul air limbah dan fasilitas pengangkutan lainnya (kendaraan pengangkutan limbah/kotoran). Kelompok ini juga mencakup kegiatan penyedotan dan pembersihan tangki, bak dan lubang pembuangan air limba

In [None]:
# Check the dataframe
df

Unnamed: 0,Kode,Judul,Keterangan
0,02142,Pengusahaan Pembibitan Tanaman Pinus,Subgolongan ini mencakup usaha pembibitan/peny...
1,20132,Industri Karet Buatan,Kelompok ini mencakup usaha pembuatan karet bu...
2,37012,Pengumpulan Air Limbah Berbahaya,Kelompok ini mencakup kegiatan pengumpulan dan...
3,01262,Perkebunan Buah Kelapa Sawit,Kelompok ini mencakup usaha perkebunan mulai d...
4,42113,Konstruksi Landasan Pacu Pesawat Terbang,"Kelompok ini mencakup usaha pembangunan, penin..."
...,...,...,...
1569,01286,Pertanian Tanaman Obat Atau Biofarmaka Non Rim...,Kelompok ini mencakup usaha pertanian mulai da...
1570,23921,Industri Batu Bata Dari Tanah Liat/keramik,Kelompok ini mencakup usaha pembuatan macam-ma...
1571,31003,Industri Furnitur Dari Plastik,Kelompok ini mencakup pembuatan furnitur yang ...
1572,02304,Pemungutan Daun Kayu Putih,"Kelompok ini mencakup usaha pemungutan hasil, ..."


# 6. Convert the `Kode` datatype column into Integer

In [None]:
# Convert the datatype
df['Kode'] = df['Kode'].astype('int64')

In [None]:
# Check the 'Kode' column
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1574 entries, 0 to 1573
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Kode        1574 non-null   int64 
 1   Judul       1574 non-null   object
 2   Keterangan  1574 non-null   object
dtypes: int64(1), object(2)
memory usage: 37.0+ KB


# 7. Filter the `Kode` column with ascending order

In [None]:
df = df.sort_values('Kode', ascending = True)

# 8. Convert to CSV

In [None]:
kbli_csv = df.to_csv('kbli_data.csv', index=False)