# Web Crawling

Web crawling adalah proses otomatis untuk menjelajahi dan mengumpulkan data dari halaman-halaman web menggunakan program yang disebut **web crawler** atau **spider**. Tujuannya biasanya untuk mengindeks konten website agar bisa dicari atau dianalisis lebih lanjut.


In [1]:
!pip install -q sprynger


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


Perintah `!pip install -q sprynger` dipakai untuk **memasang paket Python `sprynger`**, dengan `-q` agar proses instalasinya **tidak banyak menampilkan teks di layar**.


In [2]:
import requests
import pandas as pd


* `requests` → Digunakan untuk **mengirim permintaan HTTP** ke website atau API, misalnya untuk mengambil data dari internet.
* `pandas` → Digunakan untuk **mengolah data dalam bentuk tabel** (DataFrame), serta memudahkan menyimpan atau membaca data dari file CSV, Excel, dll.


In [3]:
# API Key Springer Nature
api_key = "d6df4295af2e3cb62e7cec236b3c76d1"

# daftar kata kunci
keywords = ["web mining", "web usage mining", "web structure mining"]

#alamat url
url = "https://api.springernature.com/meta/v2/json"

all_records = []

for kw in keywords:
    params = {
        "q": kw,
        "api_key": api_key,
        "p": 25
    }

    response = requests.get(url, params=params)

    if response.status_code == 200:
        data = response.json()
        print(f"Kata kunci: {kw} | Total hasil: {data['result'][0]['total']}\n")

        for record in data['records']:
            doi = record.get('doi', 'N/A')
            title = record.get('title', 'No title')
            abstract = record.get('abstract', 'No abstract')

            print(f"DOI: {doi}")
            print(f"Title: {title}")
            print(f"Abstract: {abstract}\n")

            all_records.append({
                "Keyword": kw,
                "DOI": doi,
                "Title": title,
                "Abstract": abstract
            })
    else:
        print("Error:", response.status_code, response.text)


KeyboardInterrupt: 

Kode ini **mengambil data artikel dari Springer Nature untuk beberapa keyword sekaligus** dan menyimpannya ke list.

1. `api_key` adalah kunci API untuk mengakses Springer Nature.
2. `keywords` berisi daftar kata kunci: `"web mining"`, `"web usage mining"`, dan `"web structure mining"`.
3. `url` adalah alamat endpoint API.
4. `for kw in keywords:` → Looping tiap keyword:

   * Siapkan parameter (`q`, `api_key`, `p`) untuk permintaan API.
   * `requests.get` mengirim permintaan ke API.
   * Jika berhasil (`status_code == 200`), ambil hasil JSON.
   * Cetak total hasil untuk keyword tersebut.
   * Loop tiap artikel (`record`) untuk ambil `doi`, `title`, dan `abstract`.
   * Simpan semua artikel ke list `all_records` dengan keyword terkait.
5. Jika gagal, cetak error dari API.

Hasil akhirnya: `all_records` berisi **gabungan semua artikel dari ketiga keyword**.

Kalau mau, aku bisa buat versi **yang langsung menyimpan tiap keyword ke CSV berbeda**, jadi tidak digabung.


In [None]:
# simpan ke CSV gabungan
df = pd.DataFrame(all_records)
df.to_csv("Hasilcrawling.csv", index=False, encoding="utf-8")
print("✅ Semua hasil sudah disimpan ke Hasilcrawling.csv")

✅ Semua hasil sudah disimpan ke Hasilcrawling.csv


Kode ini **menyimpan semua data artikel yang sudah dikumpulkan** ke dalam satu file CSV:

1. `pd.DataFrame(all_records)` → Mengubah list `all_records` menjadi **tabel (DataFrame)**.
2. `df.to_csv("Hasilcrawling.csv", index=False, encoding="utf-8")` → Menyimpan DataFrame ke file CSV bernama `Hasilcrawling.csv` tanpa menulis indeks baris dan menggunakan encoding UTF-8.
3. `print(...)` → Memberi tanda bahwa penyimpanan berhasil.

Hasilnya: **satu file CSV berisi semua artikel dari semua keyword**.
