# Crawling

Crawling adalah proses otomatis dalam mengumpulkan data atau informasi dari internet menggunakan program yang disebut web crawler (atau bot). Web crawler bekerja dengan cara mengunjungi halaman-halaman web, membaca konten, lalu menyimpannya agar dapat diproses lebih lanjut.

Secara umum, web crawling adalah tahapan awal data mining di web.

## Instalasi Library


In [9]:
!pip install sprynger
!pip install requests pandas




* sprynger → library Python tidak wajib sebenarnya, karena kita langsung akses API pakai requests. Jadi baris ini bisa dilewati kalau tidak dipakai.

* requests → untuk mengirim request ke API Springer Nature.

* pandas → untuk mengolah hasil (tabel) dan simpan ke CSV.

### Import library



In [10]:
import requests
import pandas as pd


Mengimpor library yang sudah diinstall.

* requests dipakai untuk melakukan GET ke API.

* pandas dipakai untuk membuat tabel data (DataFrame) dan menyimpan CSV.

## Set API Key dan URL


In [11]:
# Masukkan API Key yang sudah dibuat di https://dev.springernature.com
api_key = "41f6b1017b46699a8e98995ada251823"
url = "https://api.springernature.com/meta/v2/json"


* api_key → kunci akses yang kamu buat di website Springer Developer.

* url → endpoint Meta API dalam format JSON.

* Endpoint ini hanya mengembalikan metadata (judul, DOI, abstrak, dsb.), bukan full-text artikel.

## Proses Crawling

In [12]:
def crawl_springer(query, api_key, rows=10):
    params = {
        "q": query,
        "api_key": api_key,
        "p": rows
    }
    response = requests.get(url, params=params)

    if response.status_code == 200:
        data = response.json()
        records = []
        for record in data.get("records", []):
            records.append({
                "DOI": record.get("doi", "N/A"),
                "Title": record.get("title", "No title"),
                "Abstract": record.get("abstract", "No abstract"),
                "Publication": record.get("publicationName", "N/A"),
                "URL": record.get("url", [{}])[0].get("value", "N/A"),
                "Keyword": query
            })
        return records
    else:
        print("Error:", response.status_code, response.text)
        return []


Fungsi `crawl_springer` menerima keyword, lalu request ke API.

Parameter utama:

* q: kata kunci pencarian.

* p: jumlah hasil (default 10).

Jika sukses (status_code == 200), hasil JSON diproses dan diubah ke list of dict. Disimpan informasi: DOI, Title, Abstract, Publication, URL, dan Keyword.

Jika gagal, cetak error.

## Menentukan kata kunci

Tentukan kata kunci yang akan dilakukan crawling ingin apa saja.

Menambahkan kata kunci "web mining", "web usage mining", "data mining"

In [8]:
keywords = ["web mining", "web usage mining", "data mining"]

## Crawling untuk semua keyword

In [13]:
all_results = []

for kw in keywords:
    print(f"Mengambil data untuk keyword: {kw}")
    results = crawl_springer(kw, api_key, rows=10)
    all_results.extend(results)

print(f"\nTotal data terkumpul: {len(all_results)}")

df = pd.DataFrame(all_results)
df.to_csv("springer_results.csv", index=False, encoding="utf-8")

print("✅ Data berhasil disimpan ke springer_results.csv")
df.head()


Mengambil data untuk keyword: web mining
Mengambil data untuk keyword: web usage mining
Mengambil data untuk keyword: data mining

Total data terkumpul: 30
✅ Data berhasil disimpan ke springer_results.csv


Unnamed: 0,DOI,Title,Abstract,Publication,URL,Keyword
0,10.1007/978-3-032-00983-8_5,Survey on Data Mining and Machine Learning Met...,It is observed that the Mental illness by the ...,"Renewable Energy, Green Computing, and Sustain...",http://link.springer.com/openurl/fulltext?id=d...,web mining
1,10.1007/978-3-031-93802-3_7,Unveiling Power Laws in Graph Mining: Techniqu...,Power laws play a crucial role in understandin...,Graph Mining,http://link.springer.com/openurl/fulltext?id=d...,web mining
2,10.1007/978-981-96-7238-7_2,Architecture Mining Approach for Systems-of-Sy...,Context: Systems of Systems (SoS) constitute a...,Service-Oriented Computing – ICSOC 2024 Workshops,http://link.springer.com/openurl/fulltext?id=d...,web mining
3,10.1007/978-3-031-95296-8_15,A Mathematical Model and Algorithm for Data An...,Machine learning methods play an important rol...,"Internet of Things, Smart Spaces, and Next Gen...",http://link.springer.com/openurl/fulltext?id=d...,web mining
4,10.1007/978-3-031-90470-7_6,‘Internet of Things’ and ‘Social Networking’: ...,"Moving to the post-2000 period, or the post-fo...",Collective Principles and the Formation of the...,http://link.springer.com/openurl/fulltext?id=d...,web mining


all_results menampung semua hasil dari berbagai keyword.

Looping for kw in keywords: akan memanggil fungsi crawl_springer untuk setiap keyword.

extend() → menambahkan hasil ke list utama.

Print jumlah total artikel yang berhasil dikumpulkan.


**Hasil crawling didapatkan 30 dari keyword tersebut**

### Download CSV di Google Colab

In [14]:
from google.colab import files
files.download("springer_results.csv")


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Keismpulan

Crawling = teknik mengumpulkan data dari web secara otomatis.

Digunakan untuk:

* Search engine (Google, Bing, Yahoo).

* Analisis data (data mining, web mining).

* Penelitian (scraping data jurnal, berita, media sosial).