## Crawling data UMKM menggunakan python 

> penarikan data menggunakan endpoint `https://data.diskopukm.jatimprov.go.id/satu_data/webnya/loadData/0`
> dengan jumlah sample data yang di ambil adalah 350 records

<h5><b> Import Library </b></h5>
<ol>
<li>requests: Digunakan untuk mengirimkan permintaan HTTP ke URL dan menerima respons.</li>
<li>ujson: Library untuk mengurai dan membangun data JSON dengan kecepatan tinggi.</li>
<li>ujson: Library untuk mengurai dan membangun data JSON dengan kecepatan tinggi.</li>
<li>ThreadPoolExecutor: Untuk melakukan eksekusi paralel dari fungsi-fungsi.</li>
<li>pandas: Library yang digunakan untuk memanipulasi dan menganalisis data.</li>
<li>islice dari itertools: Digunakan untuk mengambil sebagian dari sebuah iterator.</li>
</ol>

In [4]:
import requests
import ujson
from concurrent.futures import ThreadPoolExecutor
import pandas as pd
from itertools import islice

def fetch_data(url):
    response = requests.get(url)
    if response.status_code == 200:
        return ujson.loads(response.content)
    else:
        print(f"Failed to fetch data from {url}")
        return None

def fetch_umkm_data(base_url, page):
    page_url = f"{base_url}/{page}"
    result = fetch_data(page_url)
    if result and 'empData' in result:
        return result['empData']
    else:
        return []

def fetch_all_umkm_data(base_url, total_records):
    num_pages = total_records // 10 + 1  
    with ThreadPoolExecutor(max_workers=10) as executor:
        futures = (executor.submit(fetch_umkm_data, base_url, page) for page in range(1, num_pages + 1))
        results = pd.concat((pd.DataFrame(future.result()) for future in futures), ignore_index=True)
        return islice(results.itertuples(index=False), total_records)

def main():
    base_url = "https://data.diskopukm.jatimprov.go.id/satu_data/webnya/loadData/0"
    total_records = 1000

    umkm_data = fetch_all_umkm_data(base_url, total_records)
    
    if umkm_data:
        umkm_df = pd.DataFrame(umkm_data)
        print(umkm_df.to_string(index=False))

        print(f"{total_records} data.")

if __name__ == "__main__":
    main()

 NO_REG NAMA_UKM                                                           ALAMAT PROV   PROVINSI  KAB     KABUPATEN     KEC        KECAMATAN        DES              DESA TANUN_OPERASI LAPORAN_KEUANGAN KATEGORI KU_KONSTUKSI KU_AKOMODASI JARINGAN_USAHA JUMLAH_TENAGA_KERJA MEMANFAATKAN_MEDIA SISTEM_WARALABA PENDAFTARAN_WARALABA              NAMA_KETUA JENIS_KELAMIN NOMOR_HP PENDIDIKAN_TERAKHIR OMSET SKALA_USAHA PENIMBANG  NIK UMUR JENIS_KEGIATAN STATUS_USAHA SERTIFIKASI NPWP LATITUDE LONGITUDE TENAGA_KERJA_1 TAHUN_TENAGA_KERJA_1 TENAGA_KERJA_2 TAHUN_TENAGA_KERJA_2 TENAGA_KERJA_3 TAHUN_TENAGA_KERJA_3 OMSET_1 TAHUN_OMSET_1 OMSET_2 TAHUN_OMSET_2 OMSET_3 TAHUN_OMSET_3 PENDAPATAN_LAIN OMSET_LAIN_1 TAHUN_OMSET_LAIN_1 OMSET_LAIN_2 TAHUN_OMSET_LAIN_2 OMSET_LAIN_3 TAHUN_OMSET_LAIN_3 ID_KLASIFIKASI_USAHA BIAYA_PRODUKSI_1 TAHUN_BIAYA_PRODUKSI_1 BIAYA_PRODUKSI_2 TAHUN_BIAYA_PRODUKSI_2 BIAYA_PRODUKSI_3 TAHUN_PRODUKSI_3 GAJI_KARYAWAN_1 TAHUN_GAJI_KARYAWAN_1 GAJI_KARYAWAN_2 TAHUN_GAJI_KARYAWAN_2 GAJI_K