# Headless Browsing

## Pengertian
**Headless browsers** adalah peramban web yang dapat dikendalikan secara otomatis tanpa antarmuka pengguna grafis (GUI). Lingkungan cara kerja dari headless browser serupa dengan Chrome atau Firefox, namun tanpa tampilan antar muka.
## Fungsi
Memungkinkan skrip(program) dalam mengontrol dan berinteraksi dengan halaman web, dengan untuk tujuan pengujian otomatis, web scraping, dan pemantauan kinerja. Secara lengkap adalah sebagai berikut.  
- Otomatisasi
Headless browsers digunakan untuk pengujian otomatisasi untuk memeriksa formulir pengiriman, klik mouse, input keyboard, dll.
- Layout testing
Headless browsers dapat merender dan menafsirkan elemen HTML dan CSS seperti browser sebenarnya. Mereka digunakan untuk pemeriksaan tata letak, misalnya untuk menentukan lebar halaman default dan koordinat elemen. 
- Performance
Performa situs web dapat diuji dengan cepat menggunakan headless browser karena browser tanpa GUI memuat situs web lebih cepat.
- Ekstraksi data
Dalam melakukan web scrapping dan ekstrasi data dengan headless browser memungkinkan navigasi situs web menjadi lebih cepat dalam mengumpulkan data publik.

## Penggunaan Headless Browsing dengan Tujuan yang Jahat(Malicious)
1. Melakukan serangan DDoS (Distributed Denial of Service) pada situs web
Serang ini dilakukan dengan mengirimkan banyak permintaan secara bersamaan ke suatu situs web hingga tidak dapat menangani lalu lintas web. Akibatnya situs web tidak dapat diakses oleh pengguna normal.
2. Meningkatkan tayangan iklan (advertisement impressions)
Memanfaatkan browser headless untuk secara otomatis mengunjungi halaman-halaman web yang menampilkan iklan, sehingga meningkatkan jumlah tayangan iklan tanpa ada pengguna manusia yang benar-benar melihatnya(ad fraud). 
3. Mengotomatisasi situs web dengan cara yang tidak diinginkan (credential stuffing)
Menggunakan browser headless untuk mencoba kombinasi username dan password secara otomatis pada situs web sehingga penyerang mendapatkan akses tidak sah ke akun pengguna.

### Framework Puppeteer
- **Framework Populer**: Sebuah *framework* JavaScript yang sangat populer untuk headless browsing.
- **Sumber**: [https://github.com/puppeteer/puppeteer](https://github.com/puppeteer/puppeteer).

- **Fungsi Utama**: Puppeteer digunakan untuk mengotomatisasi browser Chrome dalam mode headless. Artinya, Puppeteer dapat membuka halaman web, menjalankan JavaScript, mengisi formulir, mengklik tombol, dan melakukan semua tindakan yang bisa dilakukan pengguna, tetapi tanpa membuka jendela browser.

- **Pyppeteer**
   - **Port ke Python**: Pyppeteer adalah versi Puppeteer yang diporting ke bahasa pemrograman Python. 

**Lihat file headless_browsing.py**

### Makna Keseluruhan
Kode ini digunakan untuk otomatisasi browser dengan tujuan mengambil tangkapan layar dari halaman web tertentu. Dengan menggunakan `pyppeteer`, kode ini secara otomatis membuka halaman web, mengambil gambar dari halaman tersebut, dan menyimpannya di direktori yang sama dengan nama `example.png`.

Kode ini menggunakan pustaka `asyncio` dan `pyppeteer` untuk membuka sebuah halaman web, mengambil tangkapan layar (screenshot), dan menyimpannya sebagai file gambar. Berikut adalah penjelasan rinci dari setiap bagian kode:

1. **Import Pustaka**:
   ```python
   import asyncio
   from pyppeteer import launch
   ```
   - `asyncio`: Modul ini mendukung penulisan kode asinkronis, sehingga dapat menjalankan operasi input/output (I/O) tanpa memblokir eksekusi kode lainnya.
   - `pyppeteer`: Pustaka ini adalah porting dari Puppeteer (pustaka populer untuk mengontrol browser Chrome/Chromium menggunakan Node.js) ke Python. `pyppeteer` memungkinkan untuk mengotomatisasi interaksi dengan halaman web menggunakan browser tanpa tampilan (headless).

2. **Fungsi Asinkron `main`**:
   ```python
   async def main():
       browser = await launch()
       page = await browser.newPage()
       await page.goto('https://www.w3schools.com/python/')
       await page.screenshot({'path': 'example.png'})
       await browser.close()
   ```
   - `async def main()`: Definisi method asinkron yang memungkinkan penggunaan kata kunci `await` di dalamnya.
   - `browser = await launch()`: Meluncurkan instance browser baru dalam mode headless (tanpa antarmuka pengguna grafis).
   - `page = await browser.newPage()`: Membuka tab atau halaman baru di browser.
   - `await page.goto('https://www.w3schools.com/python/')`: Menavigasi ke URL yang diberikan (https://www.w3schools.com/python/).
   - `await page.screenshot({'path': 'example.png'})`: Mengambil tangkapan layar dari halaman yang dimuat dan menyimpannya ke file bernama `example.png`.
   - `await browser.close()`: Menutup browser.

3. **Menjalankan Fungsi Asinkron**:
   ```python
   asyncio.run(main())
   ```
   - `asyncio.run(main())`: Menjalankan fungsi `main()` dalam event loop asyncio, yang memungkinkan eksekusi kode asinkron.


### Catatan
Pastikan sudah menginstal library yang diperlukan sebelum menjalankan kode.
```bash
pip install pyppeteer  
pip install asyncio pyppeteer
```

**Ekstraksi Elemen dari Halaman Web**
**Lihat file headless_browsing2.py**
```python
import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto('https://www.w3schools.com/python/')
    
    # Mengekstrak teks dari elemen tertentu
    element = await page.querySelector('h1')
    text = await page.evaluate('(element) => element.textContent', element)
    
    print(f"Teks yang diekstrak: {text}")
    
    await browser.close()

asyncio.run(main())
```

Pada contoh di atas:
- `page.querySelector('h1')` menemukan elemen `<h1>` pertama di halaman.
- `page.evaluate('(element) => element.textContent', element)` mengambil teks dari elemen tersebut.
- Teks yang diekstrak kemudian dicetak ke terminal.

### Kegunaan
Skrip seperti ini sangat berguna dalam berbagai aplikasi, seperti:
- **Web Scraping**: Mengumpulkan data dari situs web secara otomatis.
- **Pengujian Web**: Mengotomatiskan pengujian fungsi dan tampilan halaman web.
- **Pemantauan**: Memantau perubahan konten di halaman web tertentu.