# 🏢 JobStreet Company Intelligence Crawler

## 📋 Deskripsi Proyek

Notebook ini merupakan **tool crawling profesional** untuk mengekstrak informasi detail perusahaan dari platform JobStreet Indonesia. Dikembangkan sebagai bagian dari penelitian untuk menganalisis profil perusahaan yang terdaftar di JobStreet.

## ✨ Fitur Utama

- **🔍 Multiple Keywords Search**: Mendukung pencarian dengan beberapa kata kunci sekaligus
- **📊 Data Komprehensif**: Mengekstrak nama, rating, ulasan, website, industri, ukuran, dan lokasi perusahaan
- **🎨 Interface Profesional**: GUI dengan widget yang user-friendly dan modern
- **💾 Export Multi-Format**: Mendukung ekspor ke Excel, CSV, dan JSON
- **🚀 Selenium WebDriver**: Menggunakan Chrome headless untuk crawling yang stabil
- **⚡ Auto-Install Dependencies**: Instalasi otomatis pustaka yang diperlukan

## 🔧 Teknologi yang Digunakan

- **Selenium WebDriver**: Untuk navigasi dan interaksi dengan website
- **BeautifulSoup**: Untuk parsing HTML dan ekstraksi data
- **Pandas**: Untuk manipulasi dan analisis data
- **IPython Widgets**: Untuk antarmuka pengguna interaktif
- **Chrome Driver Manager**: Untuk manajemen driver browser otomatis

## 📁 Struktur Notebook

Notebook ini terdiri dari 4 tahap utama:

1. **📦 Import & Setup Pustaka**: Instalasi dan import semua dependency yang diperlukan
2. **⚙️ Setup Driver & Fungsi Crawling**: Konfigurasi WebDriver dan fungsi ekstraksi data
3. **🎮 Event Handlers**: Logika pemrosesan dan fungsi ekspor data
4. **🎨 Interface Widget**: Antarmuka pengguna profesional dengan kontrol lengkap

## 🎯 Target Output

- Ekstraksi data 500 perusahaan per keyword (dapat disesuaikan)
- Format data terstruktur dengan informasi lengkap
- Real-time monitoring proses crawling
- Export hasil dalam berbagai format

## 👨‍💻 Author

**Ferdian Bangkit Wijaya** - Universitas Sultan Ageng Tirtayasa (UNTIRTA)

---

## 📦 TAHAP 1: Import & Setup Pustaka

**Tujuan**: Mempersiapkan semua dependency yang diperlukan untuk proses crawling

### 🔧 Proses yang Dilakukan:
- **Auto-Install**: Instalasi otomatis pustaka jika belum tersedia
- **Import Libraries**: Memuat semua modul yang diperlukan
- **Dependency Check**: Validasi ketersediaan semua pustaka

### 📚 Pustaka yang Digunakan:
- `requests`: HTTP requests untuk komunikasi web
- `beautifulsoup4`: Parsing HTML dan ekstraksi data
- `pandas`: Manipulasi dan analisis data terstruktur
- `ipywidgets`: Interface widget untuk interaksi pengguna
- `selenium`: WebDriver untuk automasi browser
- `webdriver-manager`: Manajemen Chrome driver otomatis

### ⚠️ Catatan Penting:
Cell ini wajib dijalankan terlebih dahulu sebelum cell lainnya untuk memastikan semua dependency siap digunakan.

In [1]:
# ========================================================================
# 🏢 JOBSTREET COMPANY CRAWLER - IMPORT PUSTAKA
# ========================================================================
# Cell 1: Import pustaka dan instalasi package
# ========================================================================

import subprocess
import sys
import os
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Pustaka yang diperlukan
libraries_to_check = {
    'requests': 'requests',
    'beautifulsoup4': 'bs4',
    'pandas': 'pandas', 
    'ipywidgets': 'ipywidgets',
    'selenium': 'selenium',
    'webdriver-manager': 'webdriver_manager'
}

# Import dengan auto-install
for package_name, import_name in libraries_to_check.items():
    try:
        if import_name == 'bs4':
            from bs4 import BeautifulSoup
        elif import_name == 'pandas':
            import pandas as pd
        elif import_name == 'ipywidgets':
            import ipywidgets as widgets
            from IPython.display import display, clear_output, Image as IPImage
        elif import_name == 'selenium':
            from selenium import webdriver
            from selenium.webdriver.common.by import By
            from selenium.webdriver.chrome.service import Service
            from selenium.webdriver.chrome.options import Options
            from selenium.webdriver.support.ui import WebDriverWait
            from selenium.webdriver.support import expected_conditions as EC
        elif import_name == 'webdriver_manager':
            from webdriver_manager.chrome import ChromeDriverManager
        else:
            __import__(import_name)
    except ImportError:
        subprocess.check_call([sys.executable, "-m", "pip", "install", package_name])
        if import_name == 'bs4':
            from bs4 import BeautifulSoup
        elif import_name == 'pandas':
            import pandas as pd
        elif import_name == 'ipywidgets':
            import ipywidgets as widgets
            from IPython.display import display, clear_output, Image as IPImage
        elif import_name == 'selenium':
            from selenium import webdriver
            from selenium.webdriver.common.by import By
            from selenium.webdriver.chrome.service import Service
            from selenium.webdriver.chrome.options import Options
            from selenium.webdriver.support.ui import WebDriverWait
            from selenium.webdriver.support import expected_conditions as EC
        elif import_name == 'webdriver_manager':
            from webdriver_manager.chrome import ChromeDriverManager
        else:
            __import__(import_name)

# Import pustaka tambahan
import requests
import time
import urllib.parse
import json
from datetime import datetime

print("✅ Semua pustaka berhasil dimuat!")
print("🔧 Memuat modul crawling...")
print("📦 Selenium WebDriver: Siap")
print("🌐 Request Handler: Siap") 
print("📊 Pandas Data Processing: Siap")
print("🎨 IPython Widgets: Siap")
print("⚙️ Chrome Driver Manager: Siap")
print("=" * 50)

✅ Semua pustaka berhasil dimuat!
🔧 Memuat modul crawling...
📦 Selenium WebDriver: Siap
🌐 Request Handler: Siap
📊 Pandas Data Processing: Siap
🎨 IPython Widgets: Siap
⚙️ Chrome Driver Manager: Siap


## ⚙️ TAHAP 2: Setup Driver & Fungsi Crawling

**Tujuan**: Mempersiapkan WebDriver dan mengimplementasikan fungsi utama untuk ekstraksi data perusahaan

### 🚀 Fungsi Utama:

#### `setup_driver()`
- **Konfigurasi Chrome**: Mode headless untuk background operation
- **Optimisasi Performance**: Memory management dan background throttling
- **Anti-Detection**: Bypass automation detection
- **Error Handling**: Robust error handling untuk stabilitas

#### `crawl_company_info()`
- **Multiple Keywords**: Mendukung pencarian dengan banyak kata kunci
- **Dynamic Scraping**: Navigasi otomatis antar halaman perusahaan
- **Data Extraction**: Mengekstrak 9 field data utama per perusahaan
- **Real-time Logging**: Monitoring progress secara real-time

### 📊 Data yang Diekstrak:
1. **search_keyword**: Kata kunci pencarian yang digunakan
2. **company_name**: Nama resmi perusahaan
3. **rating**: Rating perusahaan (skala bintang)
4. **reviews_count**: Jumlah ulasan karyawan
5. **website**: URL website resmi perusahaan
6. **industry**: Sektor industri perusahaan
7. **company_size**: Ukuran perusahaan (jumlah karyawan)
8. **location**: Lokasi utama perusahaan
9. **final_url**: URL halaman detail di JobStreet

### 🎯 Target & Konfigurasi:
- **Default Target**: 500 perusahaan per keyword
- **Base URL**: `https://id.jobstreet.com/companies/search`
- **Navigation**: Auto back-navigation untuk multiple companies
- **Error Recovery**: Retry mechanism untuk stabilitas

In [2]:
# ========================================================================
# 🏢 JOBSTREET COMPANY CRAWLER - SETUP & FUNGSI
# ========================================================================
# Cell 2: Setup driver dan fungsi ekstraksi informasi perusahaan
# ========================================================================

BASE_URL = "https://id.jobstreet.com/companies/search"

def setup_driver():
    """Setup Chrome driver dengan pengaturan optimal untuk berjalan di background"""
    chrome_options = Options()
    
    # Mode headless untuk background running
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-dev-shm-usage")
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument("--disable-extensions")
    chrome_options.add_argument("--disable-plugins")
    chrome_options.add_argument("--disable-images")
    chrome_options.add_argument("--disable-javascript")
    chrome_options.add_argument("--window-size=1920,1080")
    chrome_options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36")
    
    # Performance optimizations untuk background
    chrome_options.add_argument("--memory-pressure-off")
    chrome_options.add_argument("--max_old_space_size=4096")
    chrome_options.add_argument("--disable-background-timer-throttling")
    chrome_options.add_argument("--disable-renderer-backgrounding")
    chrome_options.add_argument("--disable-backgrounding-occluded-windows")
    
    # Anti-detection settings
    chrome_options.add_experimental_option("excludeSwitches", ["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension', False)
    chrome_options.add_argument("--disable-blink-features=AutomationControlled")
    
    try:
        service = Service(ChromeDriverManager().install())
        driver = webdriver.Chrome(service=service, options=chrome_options)
        driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")
        return driver
    except Exception as e:
        return None

def crawl_company_info(search_terms, companies_per_keyword=500, output_widget=None, debug_mode=False):
    """Mengekstrak informasi detail perusahaan dari halaman JobStreet dengan dukungan multiple keywords dan multiple companies per keyword (default 500, berhenti jika jumlah maksimum perusahaan tercapai)"""
    driver = None
    all_company_data = []
    
    # Konversi input menjadi list jika berupa string
    if isinstance(search_terms, str):
        # Split berdasarkan newline saja
        search_terms = [term.strip() for term in search_terms.split('\n') if term.strip()]
    
    def log_output(message):
        if output_widget:
            with output_widget:
                print(message)
        else:
            print(message)
    
    try:
        driver = setup_driver()
        if not driver:
            log_output("❌ Gagal memuat Chrome driver")
            return []
        
        log_output(f"🔍 Total keywords yang akan dicari: {len(search_terms)}")
        log_output(f"📋 Target per keyword: {companies_per_keyword} perusahaan (default 500, berhenti jika maksimum tercapai)")
        log_output(f"📝 Daftar keywords: {', '.join(search_terms)}")
        log_output("=" * 70)
        
        # Loop untuk setiap keyword pencarian
        for idx, search_term in enumerate(search_terms, 1):
            try:
                log_output(f"\n🎯 [{idx}/{len(search_terms)}] MENCARI KEYWORD: {search_term}")
                log_output("=" * 70)
                
                # Langkah 1: Buka halaman pencarian
                search_url = f"{BASE_URL}?term={urllib.parse.quote(search_term)}"
                log_output(f"🌐 URL Pencarian: {search_url}")
                driver.get(search_url)
                time.sleep(3)
                
                # Debug: Log URL aktual setelah redirect
                current_url = driver.current_url
                log_output(f"📍 URL Aktual: {current_url}")
        
                # Langkah 2: Tunggu halaman dimuat
                time.sleep(3)
                
                # Langkah 3: Periksa apakah ada pesan "No matching search results"
                no_results_found = False
                no_results_selectors = [
                    "div[data-automation='no-matching-results']",
                    "*[text()*='No matching search results']",
                    "*[text()*='no matching search results']",
                    "*[text()*='Tidak ada hasil']",
                    "*[text()*='tidak ditemukan']",
                    "div[class*='no-results']",
                    "div[class*='empty-state']"
                ]
                
                # Cek dengan XPath untuk text yang mengandung "no matching" atau sejenisnya
                try:
                    no_results_elements = driver.find_elements(By.XPATH, "//*[contains(text(), 'No matching search results') or contains(text(), 'no matching search results') or contains(text(), 'Tidak ada hasil') or contains(text(), 'tidak ditemukan') or contains(text(), 'Sorry, no companies match your search')]")
                    if no_results_elements:
                        no_results_found = True
                        for elem in no_results_elements:
                            log_output(f"❌ Tidak ditemukan hasil untuk '{search_term}' - Ditemukan pesan: '{elem.text.strip()}'")
                            break
                except:
                    pass
                
                # Periksa juga apakah halaman berisi indikator jumlah hasil = 0
                try:
                    # Cari elemen yang mungkin menunjukkan jumlah hasil
                    result_count_elements = driver.find_elements(By.XPATH, "//*[contains(text(), '0 result') or contains(text(), '0 companies') or contains(text(), 'No companies found')]")
                    if result_count_elements:
                        no_results_found = True
                        for elem in result_count_elements:
                            log_output(f"❌ Tidak ditemukan hasil untuk '{search_term}' - Jumlah hasil: '{elem.text.strip()}'")
                            break
                except:
                    pass
                
                # Jika tidak ada hasil, skip keyword ini
                if no_results_found:
                    continue
        
                # Langkah 4: Cari kartu perusahaan
                try:
                    WebDriverWait(driver, 10).until(
                        EC.any_of(
                            EC.presence_of_element_located((By.CSS_SELECTOR, "[data-automation='company-card']")),
                            EC.presence_of_element_located((By.CSS_SELECTOR, "a[href*='/companies/']"))
                        )
                    )
                except:
                    log_output("⚠️ Timeout menunggu loading kartu perusahaan")
        
                # Coba berbagai selector untuk menemukan kartu perusahaan
                company_cards = []
                selectors = [
                    "div._1ngo8fw0._1alua088s._1alua087o._1alua08b0._1alua089w._1alua085g._1alua086c._1alua08ic._1alua084k._1alua084d._3aetw410._3aetw413._1alua0834._1alua0837",
                    "[data-automation='company-card']",
                    "div[data-testid='company-card']", 
                    "a[href*='/companies/']",
                    "div[class*='company']",
                    "div._1ngo8fw0._1alua08i"  # Parent container dari struktur yang diberikan
                ]
                
                for selector in selectors:
                    company_cards = driver.find_elements(By.CSS_SELECTOR, selector)
                    if company_cards:
                        log_output(f"✅ Ditemukan {len(company_cards)} perusahaan untuk '{search_term}' menggunakan selector: {selector}")
                        break
                
                # Double-check: Jika tidak ada kartu perusahaan, periksa lagi apakah ada pesan no results
                if not company_cards:
                    try:
                        # Cek seluruh text halaman untuk mencari indikasi tidak ada hasil
                        page_text = driver.find_element(By.TAG_NAME, "body").text.lower()
                        no_results_indicators = [
                            "no matching search results",
                            "tidak ada hasil",
                            "tidak ditemukan", 
                            "no results found",
                            "0 results",
                            "0 companies",
                            "sorry, no companies found",
                            "sorry, no companies match your search",
                            "no companies match",
                            "we couldn't find any companies"
                        ]
                        
                        # Debug: Tampilkan sebagian text halaman untuk analisis
                        log_output(f"🔍 Debug - Sebagian text halaman: {page_text[:500]}...")
                        
                        # Jika debug mode aktif, simpan screenshot untuk analisis
                        if debug_mode:
                            try:
                                timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
                                screenshot_filename = f"debug_no_results_{search_term}_{timestamp}.png"
                                driver.save_screenshot(screenshot_filename)
                                log_output(f"📸 Screenshot debug disimpan: {screenshot_filename}")
                            except Exception as screenshot_error:
                                log_output(f"⚠️ Gagal menyimpan screenshot: {screenshot_error}")
                        
                        for indicator in no_results_indicators:
                            if indicator in page_text:
                                log_output(f"❌ Tidak ditemukan hasil untuk '{search_term}' - Halaman menunjukkan: {indicator}")
                                no_results_found = True
                                break
                        
                        # Jika masih belum menemukan indikator, cek elemen-elemen spesifik
                        if not no_results_found:
                            # Cek elemen dengan class atau data attribute yang menunjukkan empty state
                            empty_state_selectors = [
                                "[class*='empty']",
                                "[class*='no-result']", 
                                "[class*='not-found']",
                                "[data-automation*='empty']",
                                "[data-automation*='no-result']"
                            ]
                            
                            for selector in empty_state_selectors:
                                try:
                                    empty_elements = driver.find_elements(By.CSS_SELECTOR, selector)
                                    if empty_elements:
                                        log_output(f"🔍 Ditemukan elemen empty state: {selector}")
                                        for elem in empty_elements:
                                            elem_text = elem.text.strip()
                                            if elem_text:
                                                log_output(f"📝 Text elemen: {elem_text}")
                                                if any(indicator in elem_text.lower() for indicator in no_results_indicators):
                                                    no_results_found = True
                                                    break
                                        if no_results_found:
                                            break
                                except:
                                    continue
                    except:
                        pass
                    
                    if not no_results_found:
                        log_output(f"❌ Tidak ditemukan perusahaan untuk '{search_term}' - Kartu perusahaan tidak terdeteksi")
                        log_output(f"🔍 Debug - Halaman mungkin memuat dengan cara berbeda, akan dicoba lagi")
                        
                        # Periksa apakah ada elemen pagination atau result counter
                        try:
                            # Cari elemen yang mungkin menunjukkan informasi hasil pencarian
                            pagination_elements = driver.find_elements(By.CSS_SELECTOR, "[class*='pagination'], [class*='result'], [data-automation*='result']")
                            for elem in pagination_elements:
                                elem_text = elem.text.strip()
                                if elem_text:
                                    log_output(f"📄 Info pagination/result: {elem_text}")
                                    if any(indicator in elem_text.lower() for indicator in ["0 result", "0 companies", "no result"]):
                                        log_output(f"❌ Konfirmasi tidak ada hasil dari pagination: {elem_text}")
                                        no_results_found = True
                                        break
                        except:
                            pass
                    continue
                
                # Ambil maksimal sesuai companies_per_keyword atau semua yang ditemukan
                target_companies = min(len(company_cards), companies_per_keyword)
                log_output(f"🎯 Akan mengekstrak {target_companies} perusahaan (ditemukan: {len(company_cards)})")
        
                # Langkah 3: Loop untuk setiap perusahaan yang akan diklik
                for company_idx in range(target_companies):
                    try:
                        log_output(f"\n📊 PERUSAHAAN #{company_idx + 1} dari keyword '{search_term}'")
                        log_output("-" * 50)
                        
                        # Re-find company cards untuk menghindari stale element
                        if company_idx > 0:
                            log_output("🔄 Mencari ulang kartu perusahaan untuk menghindari stale element...")
                            
                            # Simpan URL pencarian untuk navigasi kembali
                            search_url_backup = f"{BASE_URL}?term={urllib.parse.quote(search_term)}"
                            
                            # Re-find company cards dengan retry mechanism
                            retry_count = 0
                            max_retries = 3
                            company_cards_found = False
                            
                            while retry_count < max_retries and not company_cards_found:
                                try:
                                    log_output(f"🔍 Mencari kartu perusahaan (attempt {retry_count + 1}/{max_retries})...")
                                    
                                    # Tunggu elemen dimuat
                                    WebDriverWait(driver, 10).until(
                                        EC.any_of(
                                            EC.presence_of_element_located((By.CSS_SELECTOR, "[data-automation='company-card']")),
                                            EC.presence_of_element_located((By.CSS_SELECTOR, "a[href*='/companies/']")),
                                            EC.presence_of_element_located((By.CSS_SELECTOR, "div._1ngo8fw0._1alua088s._1alua087o._1alua08b0._1alua089w._1alua085g._1alua086c._1alua08ic._1alua084k._1alua084d._3aetw410._3aetw413._1alua0834._1alua0837"))
                                        )
                                    )
                                    
                                    # Re-find company cards dengan selector yang lebih spesifik
                                    company_cards = []
                                    for selector in selectors:
                                        company_cards = driver.find_elements(By.CSS_SELECTOR, selector)
                                        if company_cards and len(company_cards) > company_idx:
                                            log_output(f"✅ Ditemukan {len(company_cards)} kartu perusahaan dengan selector: {selector}")
                                            company_cards_found = True
                                            break
                                    
                                    if not company_cards_found:
                                        retry_count += 1
                                        if retry_count < max_retries:
                                            log_output(f"⚠️ Kartu tidak ditemukan, refresh halaman...")
                                            driver.refresh()
                                            time.sleep(3)
                                
                                except Exception as find_error:
                                    log_output(f"⚠️ Error mencari kartu: {str(find_error)}")
                                    retry_count += 1
                                    if retry_count < max_retries:
                                        driver.refresh()
                                        time.sleep(3)
                            
                            if not company_cards_found:
                                log_output("❌ Tidak dapat menemukan kartu perusahaan setelah beberapa percobaan")
                                break
                        
                        # Ambil kartu perusahaan yang sesuai
                        card = company_cards[company_idx]
                        
                        # Scroll ke kartu perusahaan
                        driver.execute_script("arguments[0].scrollIntoView({behavior: 'smooth', block: 'center'});", card)
                        time.sleep(2)
                        
                        # Dapatkan nama perusahaan dari halaman pencarian
                        company_name = f"Perusahaan_{search_term}_{company_idx+1}"
                        try:
                            name_selectors = [
                                "span.c3e5vf4",
                                "span._1ngo8fw0._1alua0850._3aetw40._3aetw43._3aetw41t._3aetw48.c3e5vf4",
                                "[data-automation='company-name']",
                                "h3, h2, h4",
                                ".company-name"
                            ]
                            
                            for selector in name_selectors:
                                try:
                                    name_element = card.find_element(By.CSS_SELECTOR, selector)
                                    name_text = name_element.text.strip()
                                    if name_text and name_text != "N/A" and len(name_text) > 1:
                                        company_name = name_text
                                        break
                                except:
                                    continue
                        except:
                            pass
                        
                        log_output(f"🏢 Target: {company_name}")
                        
                        # Klik kartu perusahaan
                        clicked = False
                        original_windows = len(driver.window_handles)
                        
                        try:
                            # Coba klik dengan JavaScript
                            driver.execute_script("arguments[0].click();", card)
                            clicked = True
                            log_output("✅ Berhasil mengklik dengan JavaScript")
                        except Exception:
                            try:
                                # Coba klik link di dalam kartu
                                link_element = card.find_element(By.CSS_SELECTOR, "a, [href]")
                                driver.execute_script("arguments[0].click();", link_element)
                                clicked = True
                                log_output("✅ Berhasil mengklik link dalam kartu")
                            except:
                                try:
                                    # Coba klik normal
                                    card.click()
                                    clicked = True
                                    log_output("✅ Berhasil mengklik normal")
                                except:
                                    log_output(f"❌ Tidak dapat mengklik kartu perusahaan")
                        
                        if not clicked:
                            continue
                        
                        # Tunggu halaman perusahaan dimuat
                        log_output(f"⏳ Memuat halaman perusahaan...")
                        time.sleep(8)
                        
                        # Periksa apakah ada tab baru atau navigasi dalam tab yang sama
                        current_windows = len(driver.window_handles)
                        if current_windows > original_windows:
                            # Ada tab baru, switch ke tab tersebut
                            driver.switch_to.window(driver.window_handles[-1])
                            log_output("🔄 Beralih ke tab baru")
                        
                        time.sleep(3)
                        
                        # Langkah 4: Ekstrak informasi perusahaan
                        final_url = driver.current_url
                        log_output(f"📊 URL Detail: {final_url}")
                        log_output(f"📝 Mengekstrak informasi perusahaan...")
                        
                        # Struktur data perusahaan
                        company_info = {
                            'search_keyword': search_term,
                            'company_name': '',
                            'rating': '',
                            'reviews_count': '',
                            'website': '',
                            'industry': '',
                            'company_size': '',
                            'location': '',
                            'description': '',
                            'final_url': final_url
                        }
                        
                        # Ekstrak nama perusahaan dari halaman detail
                        try:
                            name_selectors = [
                                "span._1ngo8fw0._1alua0850._3aetw40._3aetw4h._3aetw4o.c3e5vf4._3aetw41t",
                                "span.c3e5vf4._3aetw41t",
                                "span.c3e5vf4",
                                "h1", "h2"
                            ]
                            
                            for selector in name_selectors:
                                try:
                                    name_element = driver.find_element(By.CSS_SELECTOR, selector)
                                    name_text = name_element.text.strip()
                                    if name_text and len(name_text) > 1:
                                        company_info['company_name'] = name_text
                                        break
                                except:
                                    continue
                            
                            if not company_info['company_name']:
                                company_info['company_name'] = company_name
                        except:
                            company_info['company_name'] = company_name
                        
                        # Ekstrak rating
                        try:
                            rating_selectors = [
                                "span._1ngo8fw0._1alua08b4",
                                "span[aria-hidden='true']",
                                "span[class*='_1alua08b4']"
                            ]
                            
                            for selector in rating_selectors:
                                try:
                                    rating_element = driver.find_element(By.CSS_SELECTOR, selector)
                                    rating_text = rating_element.text.strip()
                                    if rating_text and ('.' in rating_text or rating_text.replace('.', '').isdigit()):
                                        company_info['rating'] = rating_text
                                        break
                                except:
                                    continue
                        except:
                            pass
                        
                        # Ekstrak jumlah ulasan
                        try:
                            reviews_selectors = [
                                "span._1ngo8fw0._1alua086._11quj0l2._11quj0l3._1alua08i",
                                "span[role='button'][tabindex='0']"
                            ]
                            
                            for selector in reviews_selectors:
                                try:
                                    reviews_element = driver.find_element(By.CSS_SELECTOR, selector)
                                    reviews_text = reviews_element.text.strip()
                                    if reviews_text and ('review' in reviews_text.lower() or 'ulasan' in reviews_text.lower()):
                                        company_info['reviews_count'] = reviews_text
                                        break
                                except:
                                    continue
                            
                            # Coba dengan XPath untuk teks yang mengandung 'review'
                            if not company_info['reviews_count']:
                                try:
                                    reviews_element = driver.find_element(By.XPATH, "//span[contains(text(), 'review')]")
                                    company_info['reviews_count'] = reviews_element.text.strip()
                                except:
                                    pass
                        except:
                            pass
                        
                        # Ekstrak website
                        try:
                            website_element = driver.find_element(By.CSS_SELECTOR, "a[id='website-value']")
                            if website_element:
                                company_info['website'] = website_element.get_attribute('href')
                        except:
                            pass
                        
                        # Ekstrak informasi industri, ukuran perusahaan, lokasi
                        info_sections = driver.find_elements(By.CSS_SELECTOR, "div._1ngo8fw0._1alua085c._1alua08hk._1alua08hd._1alua08gw._1alua08o.govd2h2j.govd2h2p")
                        
                        for section in info_sections:
                            try:
                                header = section.find_element(By.CSS_SELECTOR, "h3.c3e5vf4")
                                header_text = header.text.strip().lower()
                                
                                if 'industry' in header_text or 'industri' in header_text:
                                    value_element = section.find_element(By.CSS_SELECTOR, "span.c3e5vf4")
                                    company_info['industry'] = value_element.text.strip()
                                
                                elif 'company size' in header_text or 'size' in header_text or 'ukuran' in header_text:
                                    value_element = section.find_element(By.CSS_SELECTOR, "span.c3e5vf4")
                                    company_info['company_size'] = value_element.text.strip()
                                
                                elif 'location' in header_text or 'lokasi' in header_text or 'primary location' in header_text:
                                    value_element = section.find_element(By.CSS_SELECTOR, "span.c3e5vf4")
                                    company_info['location'] = value_element.text.strip()
                            except:
                                continue
                        
                        # Ekstrak deskripsi
                        try:
                            description_selectors = [
                                "span._3aetw41u",
                                "span[class*='_3aetw41u']",
                                "div._1ngo8fw0.vs4bd92 span._3aetw41u",
                                "div[class*='vs4bd92'] span._3aetw41u"
                            ]
                            
                            description_parts = []
                            found_description = False
                            
                            for selector in description_selectors:
                                try:
                                    description_elements = driver.find_elements(By.CSS_SELECTOR, selector)
                                    if description_elements:
                                        for elem in description_elements[:10]:
                                            text = elem.text.strip()
                                            if text and len(text) > 5:
                                                if not text.lower().startswith(('requirements:', 'application letter', 'curriculum vitae', 'copy of id', 'official', 'colored photo', 'for your information:')):
                                                    description_parts.append(text)
                                        
                                        if description_parts:
                                            found_description = True
                                            break
                                except:
                                    continue
                            
                            if found_description and description_parts:
                                company_info['description'] = " ".join(description_parts)
                                
                        except Exception:
                            pass
                        
                        all_company_data.append(company_info)
                        log_output(f"✅ Data perusahaan '{company_info['company_name']}' berhasil diekstrak!")
                        
                        # Jika bukan perusahaan terakhir, kembali ke halaman pencarian
                        if company_idx < target_companies - 1:
                            log_output(f"🔄 Kembali ke halaman pencarian untuk perusahaan berikutnya...")
                            
                            try:
                                # Tutup tab jika ada tab baru, atau navigasi kembali
                                if current_windows > original_windows:
                                    driver.close()
                                    driver.switch_to.window(driver.window_handles[0])
                                    log_output("🔙 Tab ditutup, kembali ke tab pencarian")
                                else:
                                    driver.back()
                                    log_output("🔙 Navigasi kembali ke halaman pencarian")
                                
                                # Tunggu halaman dimuat
                                time.sleep(4)
                                
                                # Verifikasi bahwa kita sudah kembali ke halaman pencarian
                                current_url = driver.current_url
                                if "search" not in current_url or search_term.lower() not in current_url.lower():
                                    log_output("⚠️ Halaman pencarian tidak terdeteksi, navigasi ulang...")
                                    driver.get(search_url_backup)
                                    time.sleep(3)
                                
                                log_output(f"✅ Berhasil kembali ke halaman pencarian")
                                
                            except Exception as nav_error:
                                log_output(f"⚠️ Error navigasi kembali: {str(nav_error)}")
                                log_output("🔄 Mencoba navigasi ulang ke halaman pencarian...")
                                try:
                                    driver.get(search_url_backup)
                                    time.sleep(3)
                                except Exception as retry_error:
                                    log_output(f"❌ Error navigasi ulang: {str(retry_error)}")
                                    break
                        
                    except Exception as e:
                        log_output(f"❌ Error memproses perusahaan #{company_idx+1}: {str(e)}")
                        continue
                
                log_output(f"✅ Selesai mengekstrak {len([c for c in all_company_data if c['search_keyword'] == search_term])} perusahaan untuk keyword '{search_term}'")
                
            except Exception as e:
                log_output(f"❌ Error pada keyword '{search_term}': {str(e)}")
                continue
        
        log_output(f"\n🎉 PROSES EKSTRAKSI SELESAI!")
        log_output(f"📊 Total data berhasil diekstrak: {len(all_company_data)} perusahaan")
        log_output("=" * 70)
        
    except Exception as e:
        log_output(f"❌ Error: {str(e)}")
    finally:
        if driver:
            driver.quit()
    
    return all_company_data

print("✅ Fungsi crawling siap digunakan!")
print("🚀 Driver Chrome: Mode headless background")
print("🔍 Parser Multiple Keywords: Newline separator")
print("📊 Ekstraksi Data: Nama, rating, ulasan, website, industri")
print("🎯 Multiple Companies: 500 perusahaan per keyword (default, berhenti jika maksimum tercapai)")
print("🔄 Auto Navigation: Kembali ke pencarian setelah setiap perusahaan")
print("🌐 Target URL:", BASE_URL)
print("=" * 50)

✅ Fungsi crawling siap digunakan!
🚀 Driver Chrome: Mode headless background
🔍 Parser Multiple Keywords: Newline separator
📊 Ekstraksi Data: Nama, rating, ulasan, website, industri
🎯 Multiple Companies: 500 perusahaan per keyword (default, berhenti jika maksimum tercapai)
🔄 Auto Navigation: Kembali ke pencarian setelah setiap perusahaan
🌐 Target URL: https://id.jobstreet.com/companies/search


## 🎮 TAHAP 3: Event Handlers & Logika Pemrosesan

**Tujuan**: Mengimplementasikan logika kontrol dan fungsi pemrosesan data untuk antarmuka pengguna

### 🔧 Event Handlers Utama:

#### `on_start_click()`
- **Input Validation**: Validasi input keywords dari pengguna
- **Keywords Parsing**: Memproses multiple keywords (separated by newline)
- **Crawling Execution**: Menjalankan fungsi crawling utama
- **Status Management**: Update status real-time selama proses
- **UI Control**: Mengatur state tombol berdasarkan hasil

#### `on_view_click()`
- **Data Visualization**: Menampilkan data dalam format tabel profesional
- **HTML Styling**: Tabel dengan CSS styling dan efek hover
- **Link Processing**: Konversi URL menjadi clickable links
- **Column Management**: Pengaturan urutan dan nama kolom yang user-friendly

### 💾 Fungsi Export:

#### `export_to_excel()`
- **Format**: File Excel (.xlsx) dengan timestamp
- **Data**: DataFrame lengkap dengan semua kolom
- **Error Handling**: Robust error handling

#### `export_to_csv()`
- **Format**: Comma-separated values untuk analisis
- **Encoding**: UTF-8 untuk kompatibilitas karakter
- **Lightweight**: Format yang ringan dan universal

#### `export_to_json()`
- **Format**: JavaScript Object Notation
- **Structure**: Data terstruktur untuk API integration
- **Encoding**: UTF-8 dengan formatting yang rapi

### 🗑️ Utilitas:

#### `clear_data()`
- **Reset Data**: Mengosongkan semua data hasil crawling
- **UI Reset**: Mengembalikan state awal semua widget
- **Clean Interface**: Membersihkan output area

### 🎯 Fitur Khusus:
- **Real-time Updates**: Status dan progress monitoring
- **Error Recovery**: Graceful error handling
- **Data Persistence**: Data tersimpan sampai manual clear
- **Export Timestamp**: File naming dengan timestamp otomatis

In [4]:
# ========================================================================
# 🏢 JOBSTREET COMPANY CRAWLER - EVENT HANDLERS & FUNGSI
# ========================================================================
# Cell 3: Event handlers dan logika pemrosesan
# ========================================================================

# Event handlers dengan fungsionalitas lengkap
def on_start_click(b):
    global company_data, output, status, search_input, view_button, export_excel_button, export_csv_button, export_json_button
    
    output.clear_output()
    status.value = "<div style='color: #fd7e14; font-weight: 500;'>🔄 Status: Sedang mengekstrak informasi perusahaan...</div>"
    
    search_terms = search_input.value.strip()
    if not search_terms:
        with output:
            print("❌ Mohon masukkan nama perusahaan!")
        status.value = "<div style='color: #dc3545; font-weight: 500;'>❌ Status: Nama perusahaan kosong</div>"
        return
    
    # Parse multiple keywords (hanya newline)
    keywords_list = [term.strip() for term in search_terms.split('\n') if term.strip()]
    
    try:
        with output:
            print("🚀 JOBSTREET COMPANY CRAWLER DIMULAI")
            print("=" * 60)
            print(f"🎯 Total Keywords: {len(keywords_list)}")
            print(f"📋 Keywords: {', '.join(keywords_list)}")
            print(f"🔢 Target: 500 perusahaan per keyword (berhenti jika maksimum tercapai)")
            print(f"⏰ Dimulai pada: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
            print("=" * 60)
        
        company_data = crawl_company_info(
            search_terms=keywords_list,
            companies_per_keyword=500,
            output_widget=output,
            debug_mode=True  # Aktifkan debug mode untuk analisis
        )
        
        if company_data:
            with output:
                print(f"\n🎉 BERHASIL! Informasi perusahaan berhasil diekstrak")
                print("=" * 60)
                
                for i, company in enumerate(company_data, 1):
                    print(f"📊 PERUSAHAAN #{i}")
                    print(f"🔍 Keyword: {company['search_keyword']}")
                    print(f"📋 Nama: {company['company_name']}")
                    print(f"⭐ Rating: {company['rating']}")
                    print(f"💬 Ulasan: {company['reviews_count']}")
                    print(f"🌐 Website: {company['website']}")
                    print(f"🏭 Industri: {company['industry']}")
                    print(f"👥 Ukuran: {company['company_size']}")
                    print(f"📍 Lokasi: {company['location']}")
                    print(f"🔗 URL: {company['final_url']}")
                    print("=" * 60)
                
                print("💡 Gunakan 'Lihat Data' untuk format tabel atau opsi ekspor!")
            
            status.value = "<div style='color: #28a745; font-weight: 500;'>✅ Status: Ekstraksi data berhasil diselesaikan</div>"
            view_button.disabled = False
            export_excel_button.disabled = False
            export_csv_button.disabled = False
            export_json_button.disabled = False
        else:
            status.value = "<div style='color: #dc3545; font-weight: 500;'>❌ Status: Tidak ditemukan informasi perusahaan</div>"
            view_button.disabled = True
            
    except Exception as e:
        with output:
            print(f"❌ ERROR CRAWLING: {str(e)}")
        status.value = f"<div style='color: #dc3545; font-weight: 500;'>❌ Status: Error - {str(e)}</div>"

def on_view_click(b):
    global company_data, output
    
    if company_data:
        output.clear_output()
        with output:
            print("📊 PENAMPIL DATA PERUSAHAAN - FORMAT PROFESIONAL")
            print("=" * 70)
            
            # Buat DataFrame untuk visualisasi yang lebih baik
            df = pd.DataFrame(company_data)
            
            # Urutkan kolom untuk presentasi yang lebih baik
            column_order = ['search_keyword', 'company_name', 'rating', 'reviews_count', 'industry', 
                          'company_size', 'location', 'website', 'final_url']
            
            # Hanya sertakan kolom yang ada
            available_columns = [col for col in column_order if col in df.columns]
            df_display = df[available_columns]
            
            # Konversi URL menjadi link yang dapat diklik di DataFrame
            if 'website' in df_display.columns:
                df_display['website'] = df_display['website'].apply(
                    lambda x: f'<a href="{x}" target="_blank" style="color: #007bff; text-decoration: none; font-weight: 500;">{x}</a>' if x else 'N/A'
                )
            
            if 'final_url' in df_display.columns:
                df_display['final_url'] = df_display['final_url'].apply(
                    lambda x: f'<a href="{x}" target="_blank" style="color: #28a745; text-decoration: none; font-weight: 500;">Halaman JobStreet</a>' if x else 'N/A'
                )
            
            # Ubah nama kolom untuk tampilan yang lebih baik
            column_names = {
                'search_keyword': 'Keyword Pencarian',
                'company_name': 'Nama Perusahaan',
                'rating': 'Rating',
                'reviews_count': 'Ulasan',
                'industry': 'Industri',
                'company_size': 'Ukuran Perusahaan',
                'location': 'Lokasi',
                'website': 'Website',
                'final_url': 'Halaman JobStreet'
            }
            
            df_display = df_display.rename(columns=column_names)
            
            print(f"📈 Total Perusahaan: {len(df_display)}")
            print(f"🕐 Dibuat pada: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
            print("\n" + "=" * 70)
            
            # Buat tabel HTML dengan styling dan scroll horizontal serta link yang dapat diklik
            html_table = df_display.to_html(escape=False, index=False, table_id='company_table')
            
            # Tambahkan styling CSS untuk scroll horizontal dan tampilan yang lebih baik
            styled_html = f"""
            <div style="overflow-x: auto; max-width: 100%; border: 1px solid #ddd; border-radius: 8px;">
                <style>
                    #company_table {{
                        width: 100%;
                        border-collapse: collapse;
                        margin: 0;
                        font-size: 14px;
                        font-family: Arial, sans-serif;
                        white-space: nowrap;
                    }}
                    #company_table th {{
                        background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
                        color: white;
                        padding: 12px 15px;
                        text-align: left;
                        font-weight: 600;
                        border-bottom: 2px solid #ddd;
                        position: sticky;
                        top: 0;
                        z-index: 10;
                    }}
                    #company_table td {{
                        padding: 10px 15px;
                        border-bottom: 1px solid #eee;
                        max-width: 200px;
                        overflow: hidden;
                        text-overflow: ellipsis;
                    }}
                    #company_table tr:nth-child(even) {{
                        background-color: #f8f9fa;
                    }}
                    #company_table tr:hover {{
                        background-color: #e3f2fd;
                        transition: background-color 0.3s ease;
                    }}
                    #company_table a {{
                        color: #007bff;
                        text-decoration: none;
                        font-weight: 500;
                    }}
                    #company_table a:hover {{
                        text-decoration: underline;
                        color: #0056b3;
                    }}
                </style>
                {html_table}
            </div>
            """
            
            # Tampilkan tabel dengan styling
            display(HTML(styled_html))
            
            print("\n" + "=" * 70)
            print("💡 FITUR:")
            print("• ↔️ Scroll horizontal untuk melihat semua kolom")
            print("• 🔗 Klik link website dan halaman JobStreet secara langsung")
            print("• 📄 Ekspor ke Excel/CSV/JSON untuk analisis lebih lanjut")
            print("• 🎨 Styling profesional dengan efek hover")
            print("=" * 70)

# Fungsi ekspor
def export_to_excel():
    if company_data:
        try:
            df = pd.DataFrame(company_data)
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            filename = f"perusahaan_jobstreet_{timestamp}.xlsx"
            df.to_excel(filename, index=False)
            
            with output:
                print(f"✅ Data berhasil diekspor ke {filename}")
        except Exception as e:
            with output:
                print(f"❌ Error ekspor: {str(e)}")

def export_to_csv():
    if company_data:
        try:
            df = pd.DataFrame(company_data)
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            filename = f"perusahaan_jobstreet_{timestamp}.csv"
            df.to_csv(filename, index=False)
            
            with output:
                print(f"✅ Data berhasil diekspor ke {filename}")
        except Exception as e:
            with output:
                print(f"❌ Error ekspor: {str(e)}")

def export_to_json():
    if company_data:
        try:
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            filename = f"perusahaan_jobstreet_{timestamp}.json"
            with open(filename, 'w', encoding='utf-8') as f:
                json.dump(company_data, f, indent=2, ensure_ascii=False)
            
            with output:
                print(f"✅ Data berhasil diekspor ke {filename}")
        except Exception as e:
            with output:
                print(f"❌ Error ekspor: {str(e)}")

def clear_data():
    global company_data, search_input
    company_data = []
    search_input.value = ''  # Bersihkan kotak pencarian
    output.clear_output()
    status.value = "<div style='color: #6c757d; font-weight: 500;'>Status: Siap untuk mengekstrak informasi perusahaan</div>"
    view_button.disabled = True
    export_excel_button.disabled = True
    export_csv_button.disabled = True
    export_json_button.disabled = True
    with output:
        print("✅ Data dan kotak pencarian berhasil dibersihkan!")

print("✅ Event handlers dan fungsi siap digunakan!")
print("🎯 Handler Mulai Crawling: Multiple keywords support")
print("📋 Handler Lihat Data: Tabel profesional dengan styling")
print("💾 Handler Ekspor: Excel, CSV, JSON dengan timestamp")
print("🗑️ Handler Bersihkan: Reset data dan kotak pencarian")
print("🔄 Semua event handler terhubung dengan widget")
print("🚀 Default Target: 500 perusahaan per keyword (berhenti jika maksimum tercapai)")
print("=" * 50)

✅ Event handlers dan fungsi siap digunakan!
🎯 Handler Mulai Crawling: Multiple keywords support
📋 Handler Lihat Data: Tabel profesional dengan styling
💾 Handler Ekspor: Excel, CSV, JSON dengan timestamp
🗑️ Handler Bersihkan: Reset data dan kotak pencarian
🔄 Semua event handler terhubung dengan widget
🚀 Default Target: 500 perusahaan per keyword (berhenti jika maksimum tercapai)


## 🎨 TAHAP 4: Interface Widget Profesional

**Tujuan**: Membuat antarmuka pengguna yang modern, intuitif, dan fungsional untuk operasi crawling

### 🎨 Komponen UI Utama:

#### Header & Branding
- **Gradient Design**: Background dengan gradient modern (blue-purple)
- **Brand Identity**: Nama tool dan informasi creator
- **Professional Look**: Styling yang clean dan corporate

#### Features Information
- **Feature Tags**: Tampilan fitur-fitur utama dengan color coding
- **Usage Tips**: Petunjuk penggunaan multiple keywords
- **Visual Indicators**: Badge system untuk kategori fitur

### 🔧 Widget Kontrol:

#### Input Area
- **Textarea Widget**: Multi-line input untuk multiple keywords
- **Placeholder Examples**: Contoh penggunaan yang jelas
- **Responsive Design**: Layout yang adaptif

#### Control Buttons
- **🚀 Mulai Crawling**: Trigger utama untuk memulai proses
- **📊 Lihat Data**: Visualisasi data dalam format tabel
- **🗑️ Bersihkan**: Reset semua data dan interface
- **State Management**: Automatic enable/disable berdasarkan kondisi

#### Export Controls
- **📄 Excel**: Export ke format spreadsheet
- **📊 CSV**: Export ke format comma-separated values
- **🔗 JSON**: Export ke format JavaScript Object Notation
- **Conditional Enable**: Aktif hanya setelah data tersedia

### 📊 Output & Monitoring:

#### Status Display
- **Real-time Status**: Update status operasi secara live
- **Color Coding**: Visual feedback berdasarkan kondisi (success/error/progress)
- **HTML Formatting**: Rich text dengan styling

#### Output Area
- **Bordered Container**: Area output dengan styling professional
- **Scrollable**: Support untuk output yang panjang
- **Real-time Logging**: Monitoring progress step-by-step

### 🎯 Event Binding:

#### Setup Event Handlers
- **Button Connections**: Menghubungkan semua tombol dengan fungsi
- **Error Handling**: Graceful handling untuk event binding errors
- **Function Mapping**: Lambda functions untuk export buttons

### 💡 User Experience Features:
- **Responsive Layout**: Interface yang menyesuaikan berbagai ukuran layar
- **Professional Styling**: CSS styling yang konsisten dan modern
- **Intuitive Controls**: Tombol dan kontrol yang mudah dipahami
- **Visual Feedback**: Clear indication untuk setiap aksi pengguna
- **Help Information**: Petunjuk penggunaan yang komprehensif

### 🎨 Design Philosophy:
- **Modern UI/UX**: Mengikuti prinsip design modern
- **Color Psychology**: Penggunaan warna yang meaningful
- **Information Hierarchy**: Struktur informasi yang jelas
- **Accessibility**: Interface yang mudah digunakan untuk semua user

In [None]:
# ========================================================================
# 🏢 JOBSTREET COMPANY CRAWLER - INTERFACE WIDGET PROFESIONAL
# ========================================================================
# Cell 4: Interface widget profesional dengan event binding
# ========================================================================

# Import widget untuk interface
import ipywidgets as widgets
from IPython.display import display, HTML
import pandas as pd
import json
from datetime import datetime

# Header dengan branding
brand_header = widgets.HTML("""
<div style="
    background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);
    color: white;
    padding: 20px;
    border-radius: 15px;
    text-align: center;
    margin-bottom: 15px;
    box-shadow: 0 4px 15px rgba(0,0,0,0.2);
    font-family: Arial, sans-serif;
">
    <h2 style="margin: 0; font-size: 28px; font-weight: bold;">
        JobStreet Company Intelligence Crawler
    </h2>
    <p style="margin: 10px 0 5px 0; font-size: 16px; opacity: 0.9;">
        Tool Ekstraksi & Analisis Informasi Perusahaan
    </p>
    <div style="font-size: 12px; opacity: 0.8; border-top: 1px solid rgba(255,255,255,0.3); padding-top: 10px; margin-top: 10px;">
        Dibuat oleh <strong>Ferdian Bangkit Wijaya</strong> - UNTIRTA
    </div>
</div>
""")

# Deskripsi fitur dengan update multiple keywords
features_info = widgets.HTML("""
<div style="
    background: #f8f9fa;
    border: 1px solid #e9ecef;
    border-radius: 10px;
    padding: 15px;
    margin-bottom: 15px;
    font-family: Arial, sans-serif;
">
    <h4 style="color: #495057; margin-top: 0;">Fitur Unggulan:</h4>
    <div style="display: flex; flex-wrap: wrap; gap: 10px; margin-bottom: 10px;">
        <span style="background: #e3f2fd; color: #1976d2; padding: 5px 10px; border-radius: 15px; font-size: 12px;">✨ Multiple Keywords</span>
        <span style="background: #f3e5f5; color: #7b1fa2; padding: 5px 10px; border-radius: 15px; font-size: 12px;">📊 Profil Perusahaan</span>
        <span style="background: #fff3e0; color: #f57c00; padding: 5px 10px; border-radius: 15px; font-size: 12px;">⭐ Rating & Ulasan</span>
        <span style="background: #e8f5e8; color: #388e3c; padding: 5px 10px; border-radius: 15px; font-size: 12px;">🌐 Link Website</span>
        <span style="background: #fce4ec; color: #c2185b; padding: 5px 10px; border-radius: 15px; font-size: 12px;">🏭 Data Industri</span>
        <span style="background: #f1f8e9; color: #689f38; padding: 5px 10px; border-radius: 15px; font-size: 12px;">📄 Ekspor Excel/CSV/JSON</span>
    </div>
    <div style="background: #fff8e1; border-left: 4px solid #ff9800; padding: 10px; border-radius: 4px; margin-top: 10px;">
        <strong>💡 Tip Multiple Keywords:</strong> Masukkan setiap nama perusahaan di baris terpisah<br>
        <em>Contoh:<br>
        Bank BCA<br>
        Telkom Indonesia<br>
        PT Astra International</em>
    </div>
</div>
""")

# Variabel global untuk menyimpan hasil
company_data = []

# Input pencarian dengan Textarea untuk multiple lines
search_input = widgets.Textarea(
    value='',
    placeholder='Bank BCA\nTelkom Indonesia\nPT Astra International\nGojek\nTokopedia',
    description='Pencarian:',
    style={'description_width': '80px'},
    layout=widgets.Layout(width='100%', height='120px')
)

# Tombol kontrol dengan styling modern
start_button = widgets.Button(
    description="🚀 Mulai Crawling",
    button_style='primary',
    layout=widgets.Layout(width='180px', height='40px')
)

view_button = widgets.Button(
    description="📊 Lihat Data",
    button_style='info',
    layout=widgets.Layout(width='140px', height='40px'),
    disabled=True
)

clear_button = widgets.Button(
    description="🗑️ Bersihkan",
    button_style='warning',
    layout=widgets.Layout(width='120px', height='40px')
)

# Tombol ekspor
export_excel_button = widgets.Button(
    description="📄 Excel",
    button_style='success',
    layout=widgets.Layout(width='100px', height='35px'),
    disabled=True
)

export_csv_button = widgets.Button(
    description="📊 CSV",
    button_style='success',
    layout=widgets.Layout(width='90px', height='35px'),
    disabled=True
)

export_json_button = widgets.Button(
    description="🔗 JSON",
    button_style='success',
    layout=widgets.Layout(width='100px', height='35px'),
    disabled=True
)

# Status dan output
status = widgets.HTML(
    value="<div style='color: #6c757d; font-weight: 500;'>✅ Status: Siap mengekstrak informasi perusahaan</div>",
    layout=widgets.Layout(width='100%')
)

output = widgets.Output(
    layout=widgets.Layout(
        width='100%',
        min_height='300px',
        border='1px solid #dee2e6',
        border_radius='8px',
        padding='10px'
    )
)

# Header bagian ekspor
export_header = widgets.HTML("<div style='font-weight: 600; margin: 15px 0 8px 0; color: #495057;'>📤 Opsi Ekspor:</div>")

# Layout profesional
control_section = widgets.VBox([
    search_input,
    widgets.HBox([
        start_button,
        view_button,
        clear_button
    ], layout=widgets.Layout(justify_content='flex-start', margin='10px 0')),
    
    export_header,
    widgets.HBox([
        export_excel_button,
        export_csv_button,
        export_json_button
    ], layout=widgets.Layout(justify_content='flex-start')),
    
    status
], layout=widgets.Layout(margin='0 0 15px 0'))

# Interface utama
main_interface = widgets.VBox([
    brand_header,
    features_info,
    control_section,
    output
], layout=widgets.Layout(
    width='100%',
    max_width='1200px',
    margin='0 auto',
    padding='20px'
))

# Bind events ke buttons
def setup_event_handlers():
    """Setup event handlers untuk widget buttons"""
    try:
        # Bind tombol fungsi utama
        start_button.on_click(on_start_click)
        view_button.on_click(on_view_click)
        clear_button.on_click(lambda b: clear_data())
        
        # Bind tombol ekspor
        export_excel_button.on_click(lambda b: export_to_excel())
        export_csv_button.on_click(lambda b: export_to_csv())
        export_json_button.on_click(lambda b: export_to_json())
        
    except Exception as e:
        print(f"⚠️ Error setting up event handlers: {e}")

# Setup event handlers
setup_event_handlers()

# Tampilkan interface
display(main_interface)

print("🎉 INTERFACE JOBSTREET CRAWLER PROFESIONAL SIAP!")
print("=" * 50)
print("🎨 Interface Widget: Aktif dengan gradient design")
print("📝 Input Textarea: Multi-line dengan placeholder contoh")
print("🔘 Tombol Kontrol: Mulai, Lihat Data, Bersihkan")
print("💾 Tombol Ekspor: Excel, CSV, JSON")
print("📊 Output Area: Real-time logging dengan border styling") 
print("🎯 Event Binding: Semua tombol terhubung dengan fungsi")
print("=" * 50)
print("📋 Petunjuk Penggunaan:")
print("1. Masukkan nama perusahaan di kotak pencarian")
print("   💡 Multiple keywords: tulis setiap perusahaan di baris baru")
print("   📝 Contoh:")
print("      Bank BCA")
print("      Telkom Indonesia")
print("      PT Astra International")
print("2. Klik '🚀 Mulai Crawling' untuk memulai ekstraksi")
print("3. Gunakan '📊 Lihat Data' untuk melihat hasil dalam format tabel")
print("4. Ekspor data menggunakan tombol Excel/CSV/JSON")
print("5. Gunakan '🗑️ Bersihkan' untuk mereset semua data")
print("=" * 50)

VBox(children=(HTML(value='\n<div style="\n    background: linear-gradient(135deg, #667eea 0%, #764ba2 100%);\…

🎉 INTERFACE JOBSTREET CRAWLER PROFESIONAL SIAP!
🎨 Interface Widget: Aktif dengan gradient design
📝 Input Textarea: Multi-line dengan placeholder contoh
🔘 Tombol Kontrol: Mulai, Lihat Data, Bersihkan
💾 Tombol Ekspor: Excel, CSV, JSON
📊 Output Area: Real-time logging dengan border styling
🎯 Event Binding: Semua tombol terhubung dengan fungsi
📋 Petunjuk Penggunaan:
1. Masukkan nama perusahaan di kotak pencarian
   💡 Multiple keywords: tulis setiap perusahaan di baris baru
   📝 Contoh:
      Bank BCA
      Telkom Indonesia
      PT Astra International
2. Klik '🚀 Mulai Crawling' untuk memulai ekstraksi
3. Gunakan '📊 Lihat Data' untuk melihat hasil dalam format tabel
4. Ekspor data menggunakan tombol Excel/CSV/JSON
5. Gunakan '🗑️ Bersihkan' untuk mereset semua data


## 📋 PETUNJUK PENGGUNAAN LENGKAP

### 🚀 Langkah-Langkah Eksekusi:

#### 1. **Persiapan Awal**
```
✅ Jalankan Cell 1: Import & Setup Pustaka
✅ Jalankan Cell 2: Setup Driver & Fungsi Crawling  
✅ Jalankan Cell 3: Event Handlers & Logika Pemrosesan
✅ Jalankan Cell 4: Interface Widget Profesional
```

#### 2. **Input Keywords**
- Masukkan nama perusahaan di kotak pencarian
- **Format Multiple Keywords**: Setiap perusahaan di baris terpisah
- **Contoh Input**:
  ```
  Bank BCA
  Telkom Indonesia
  PT Astra International
  Gojek
  Tokopedia
  ```

#### 3. **Eksekusi Crawling**
- Klik tombol "🚀 Mulai Crawling"
- Monitor progress di area output
- Tunggu hingga proses selesai (ditandai status hijau)

#### 4. **Visualisasi Data**
- Klik "📊 Lihat Data" untuk melihat hasil dalam format tabel
- Tabel mendukung horizontal scroll
- Link website dan JobStreet dapat diklik langsung

#### 5. **Export Data**
- **📄 Excel**: Format .xlsx untuk analisis lanjutan
- **📊 CSV**: Format universal untuk berbagai aplikasi
- **🔗 JSON**: Format untuk integrasi API atau web development

### ⚙️ Konfigurasi & Pengaturan:

#### Target Crawling:
- **Default**: 500 perusahaan per keyword
- **Auto-Stop**: Berhenti jika mencapai maksimum perusahaan tersedia
- **Real-time**: Monitoring progress untuk setiap keyword

#### Browser Settings:
- **Mode**: Headless Chrome (background operation)
- **Anti-Detection**: Bypass automation detection
- **Performance**: Optimized untuk speed dan stability

### 📊 Output Data Fields:

| Field | Deskripsi | Contoh |
|-------|-----------|---------|
| `search_keyword` | Kata kunci pencarian | "Bank BCA" |
| `company_name` | Nama resmi perusahaan | "PT Bank Central Asia Tbk" |
| `rating` | Rating perusahaan | "4.2" |
| `reviews_count` | Jumlah ulasan | "1,234 reviews" |
| `website` | URL website resmi | "https://www.bca.co.id" |
| `industry` | Sektor industri | "Banking & Financial Services" |
| `company_size` | Ukuran perusahaan | "10,000+ employees" |
| `location` | Lokasi utama | "Jakarta, Indonesia" |
| `final_url` | Halaman detail JobStreet | "https://id.jobstreet.com/companies/..." |

### 🔧 Troubleshooting:

#### Masalah Umum:
- **Chrome Driver Error**: Restart kernel dan jalankan ulang Cell 1-2
- **No Results Found**: Periksa ejaan nama perusahaan
- **Timeout Error**: Coba dengan jumlah keywords yang lebih sedikit
- **Memory Error**: Restart kernel dan clear output sebelum menjalankan

#### Tips Optimisasi:
- **Gunakan keywords spesifik** untuk hasil yang lebih akurat
- **Batch processing**: Pisahkan keywords besar menjadi beberapa batch kecil
- **Monitor memory usage**: Clear data setelah export untuk menghemat memory

### 📈 Use Cases:

#### 🎯 Penelitian Akademik:
- Analisis profil perusahaan di industri tertentu
- Studi komparatif rating dan ulasan perusahaan
- Mapping distribusi perusahaan berdasarkan lokasi

#### 💼 Business Intelligence:
- Kompetitor analysis dan market research
- Due diligence untuk partnership atau investment
- Talent acquisition strategy berdasarkan company profile

#### 📊 Data Analytics:
- Dataset untuk machine learning projects
- Visualization dan dashboard creation
- Statistical analysis dari profil perusahaan

### ⚠️ Catatan Penting:

#### Legal & Ethical:
- **Responsible Crawling**: Tool ini dirancang untuk penggunaan penelitian dan edukasi
- **Rate Limiting**: Built-in delays untuk menghormati server resources
- **Data Usage**: Gunakan data sesuai dengan terms of service JobStreet

#### Performance:
- **Resource Intensive**: Proses crawling membutuhkan CPU dan memory yang cukup
- **Network Dependent**: Kualitas koneksi internet mempengaruhi stabilitas
- **Time Consumption**: Estimasi 5-10 detik per perusahaan

---

### 👨‍💻 Informasi Developer

**Developed by**: Ferdian Bangkit Wijaya  
**Institution**: Universitas Sultan Ageng Tirtayasa (UNTIRTA)  
**Purpose**: Academic Research & Data Analysis  
**Version**: v.1.0.0
**Last Updated**: August 2025

---

> 💡 **Pro Tip**: Untuk hasil optimal, gunakan keywords yang spesifik dan hindari istilah yang terlalu umum. Tool ini sangat powerful untuk research dan analisis mendalam tentang landscape perusahaan di Indonesia.