# **Crawling**

Crawling adalah proses otomatis untuk mengambil data dari internet. Jika biasanya kita mencari dan menyalin informasi manual, crawling membuat komputer melakukannya sendiri, misalnya mengumpulkan judul, abstrak, dan link jurnal dari Springer secara cepat dan terstruktur.

In [49]:
pip install sprynger



Kode ini digunakan untuk menambahkan pustaka sprynger ke Python, yang mempermudah akses ke Springer API untuk mencari dan mengambil data jurnal secara cepat dan terstruktur.

# **Import Library**


In [50]:
import requests
import pandas as pd

Kode ini mengimpor dua pustaka penting. Requests digunakan untuk mengambil data dari internet atau API dengan mudah.Sementara itu, pandas berfungsi untuk mengolah data dalam bentuk tabel (DataFrame), sehingga informasi yang diambil dapat disusun rapi, dianalisis, atau disimpan dalam format seperti CSV. Kombinasi keduanya memungkinkan proses pengambilan sekaligus pengelolaan data berjalan lebih efisien.

# **Menyiapkan API Key dan URL API**

In [51]:
api_key = "6bcc13d850fe0788fc38b6433765777c"
url = "https://api.springernature.com/meta/v2/json"

Kode ini digunakan untuk menyimpan informasi penting agar program dapat mengakses Springer API. Variabel api_key menyimpan kunci autentikasi yang berfungsi seperti password agar permintaan kita dikenali dan diizinkan oleh Springer, sedangkan url menyimpan alamat endpoint API yang menyediakan data artikel dalam format JSON.

# **Menentukan Kata Kunci Pencarian**

In [52]:
keywords = ["web mining", "web usage mining", "information retrieval"]

Selanjutnya kode di atas berfungsi untuk mencari artikel di API Springer, yaitu ***Web mining, web usage mining, dan information retrival***

# **Menyediakan wadah untuk menyimpan hasil**

In [53]:
all_results = []

Kode ini berfungsi sebagai wadah penyimpanan sementara untuk menampung semua data artikel yang berhasil diambil dari API sebelum akhirnya disimpan ke file CSV

# **Proses crawling untuk setiap kata kunci**

In [54]:
for keyword in keywords:
    params = {
        "q": keyword,
        "api_key": api_key,
        "p": 20
    }

    response = requests.get(url, params=params)

Disini saya melakukan proses crawling yang berfungsi untuk melakukan pencarian data artikel dari API Springer berdasarkan daftar kata kunci. Setiap kata kunci dimasukkan ke dalam parameter pencarian bersama API key dan jumlah hasil yang ingin ditampilkan (p=20), lalu dikirim menggunakan requests.get ke URL API Springer. Dengan cara ini, program dapat mengambil data artikel yang relevan sesuai kata kunci yang sedang diproses.

# **Mengecek apakah request berhasil**

In [55]:
if response.status_code == 200:
    data = response.json()
    total = data['result'][0]['total']
    print(f"Kata kunci '{keyword}' menghasilkan {total} hasil (ditampilkan sebagian).")

Kata kunci 'information retrieval' menghasilkan 957626 hasil (ditampilkan sebagian).


Kode ini berguuna untuk memastikan apakah permintaan ke API berhasil. Jika **response.status_code == 200**, artinya permintaan sukses, lalu data hasil pencarian diubah menjadi format JSON dengan **response.json()**. Dari data tersebut, diambil informasi total jumlah hasil pencarian untuk kata kunci tertentu **(data['result'][0]['total'])**, kemudian ditampilkan di layar dengan pesan berapa banyak hasil yang ditemukan.

# **Menyimpan data penting dari hasil pencarian**

In [56]:
for record in data['records']:
    all_results.append({
        "keyword": keyword,
        "doi": record.get('doi', 'N/A'),
        "title": record.get('title', 'No title'),
        "publicationName": record.get('publicationName', 'Unknown'),
        "publicationDate": record.get('publicationDate', 'Unknown'),
        "url": record.get('url', [{}])[0].get('value', 'N/A'),
        "abstract": record.get('abstract', 'No abstract')
    })

Kode ini menyimpan tiap artikel dari data['records'] ke dalam all_results dengan informasi seperti keyword, DOI, judul, publikasi, tanggal, URL, dan abstrak, sambil memberi nilai default jika data tidak ada.

# **Menyimpan hasil ke file CSV**

In [57]:
filename = "springer_crawling.csv"
df = pd.DataFrame(all_results)
df.to_csv(filename, index=False, encoding="utf-8")

print(f"✅ Data berhasil disimpan ke {filename}")

✅ Data berhasil disimpan ke springer_crawling.csv


Kode ini membuat nama file **springer_crawling.csv**, lalu mengubah kumpulan data all_results menjadi **DataFrame** dengan pandas. Setelah itu, data disimpan ke file CSV tanpa menuliskan index dan menggunakan encoding UTF-8. Terakhir, program mencetak pesan bahwa file berhasil dibuat.

# **Mengunduh file CSV**

In [58]:
from google.colab import files
files.download("springer_crawling.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Kode ini digunakan di Google Colab untuk mengunduh file hasil penyimpanan. Baris pertama mengimpor modul **files** dari **google.colab**, lalu baris kedua memanggil fungsi files.download() agar file **springer_crawling.csv** yang sudah dibuat bisa langsung diunduh ke komputer pengguna.