# Web Crawling

## Langkah-langkah mengerjakan
Siapkan website untuk kalian crawling, dalam contoh kasus ini kita akan mengambil jurnal yang ada di website springer nature. Selanjutnya, buka website https://dev.springernature.com/ lalu buat akun untuk mendapat API yang kalian butuhkan (meta API), copy API yang kalian dapatkan dan paste ke kode yang telah kalian buat.

Setelah itu, ketikkan kata kunci yang ingin kalian cari di kode bagian q:"(disini kalian isi apa yang kalian inginn cari)" kemudian run kode lalu setelah itu akan muncul semua judul yang mencakup kata kunci yang telah diketikkan sebelumnya. Dan, buat kode untuk mengkonversikan output dari kode kalian menjadi file csv.

In [8]:
pip install sprynger



In [None]:
import requests
# Silahkan membuat api key dari https://dev.springernature.com/#api
api_key = "ce144a12624a303d0e0047e0bd6349a8"
isbn = "978-3-031-63497-0"

url = "https://api.springernature.com/meta/v2/json"
params = {
    "q": f"web mining",
    "api_key": api_key,
    "p": 10
}

response = requests.get(url, params=params)

if response.status_code == 200:
    data = response.json()
    print(f"Total hasil: {data['result'][0]['total']}\n")
    for record in data['records']:
        doi = record.get('doi', 'N/A')
        title = record.get('title', 'No title')
        abstract = record.get('abstract', 'No abstract')
        print(f"DOI: {doi}")
        print(f"Title: {title}")
        print(f"Abstract: {abstract}\n")
else:
    print("Error:", response.status_code, response.text)

Total hasil: 156

DOI: 10.1007/s44447-025-00033-8
Title: Development strategy for smallholder oil palm and coconut plantation in Pesisir Selatan Regency
Abstract: This study aims to formulate development strategies for smallholder oil palm and coconut commodities in Pesisir Selatan Regency, West Sumatera Province, using the A'WOT method, which combines the Analytic Hierarchy Process (AHP) and SWOT (Strengths, Weaknesses, Opportunities, Threats). AHP assigns weights and prioritises factors identified in the SWOT analysis, which evaluates the strengths, weaknesses, opportunities, and threats of developing both commodities. The findings reveal that the primary strategy for oil palm development focuses on adopting technology to improve production efficiency and quality while reducing dependence on intermediaries. For coconut, the primary strategy emphasises government support for plantation replanting programs and establishing value-added processing industries to enhance farmers' economic 

In [10]:
import requests
import csv

# API Key Springer
api_key = "ce144a12624a303d0e0047e0bd6349a8"

# Daftar kata kunci pencarian
keywords = ["web mining", "web usage mining", "web content mining"]

# URL endpoint API Springer
url = "https://api.springernature.com/meta/v2/json"

# Buat file CSV
with open("springer_crawling.csv", "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    # Header CSV
    writer.writerow(["keyword", "doi", "title", "abstract"])

    # Loop setiap keyword
    for keyword in keywords:
        params = {
            "q": keyword,
            "api_key": api_key,
            "p": 10   # jumlah hasil per query (maks 50 per request)
        }

        response = requests.get(url, params=params)

        if response.status_code == 200:
            data = response.json()
            total = data['result'][0]['total']
            print(f"[{keyword}] Total hasil: {total}")

            # Simpan ke CSV
            for record in data['records']:
                doi = record.get('doi', 'N/A')
                title = record.get('title', 'No title')
                abstract = record.get('abstract', 'No abstract')

                writer.writerow([keyword, doi, title, abstract])

                # Print di console (opsional)
                print(f"DOI: {doi}")
                print(f"Title: {title}")
                print(f"Abstract: {abstract[:150]}...\n")
        else:
            print(f"Error {response.status_code} untuk keyword {keyword}")

[web mining] Total hasil: 317019
DOI: 10.1007/978-3-032-00983-8_5
Title: Survey on Data Mining and Machine Learning Methods Used in Analyzing Tweets
Abstract: It is observed that the Mental illness by the actions and individual emotions and expressions towards a particular situation. It indicates that Americ...

DOI: 10.1007/978-3-031-93802-3_7
Title: Unveiling Power Laws in Graph Mining: Techniques and Applications in Graph Query Analysis
Abstract: Power laws play a crucial role in understanding the structural and functional properties of real-world graphs, influencing various aspects of graph mi...

DOI: 10.1007/978-981-96-7238-7_2
Title: Architecture Mining Approach for Systems-of-Systems: Monitoring and Discovery
Abstract: Context: Systems of Systems (SoS) constitute a type of complex software systems resulting from integrating heterogeneous constituent systems that are ...

DOI: 10.1007/978-3-031-95296-8_15
Title: A Mathematical Model and Algorithm for Data Analysis in the Intelli

## Simpan Hasil ke CSV

In [11]:
# --- Simpan hasil crawling ke CSV ---
import pandas as pd

if 'all_results' in globals() and all_results:
    df = pd.DataFrame(all_results)
    output_csv = "crawling_results.csv"
    df.to_csv(output_csv, index=False, encoding="utf-8")
    print(f"Hasil crawling berhasil disimpan ke {output_csv} dengan {len(df)} baris.")
    display(df.head(10))
else:
    print("Belum ada hasil crawling. Pastikan sudah menjalankan proses crawling.")

Belum ada hasil crawling. Pastikan sudah menjalankan proses crawling.


In [12]:
from google.colab import files

# Nama file CSV yang ingin diunduh
output_csv_filename = "springer_crawling.csv"

try:
    files.download(output_csv_filename)
    print(f"File '{output_csv_filename}' berhasil diunduh.")
except FileNotFoundError:
    print(f"File '{output_csv_filename}' tidak ditemukan. Pastikan file sudah dibuat.")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

File 'springer_crawling.csv' berhasil diunduh.


## Simpan Hasil ke CSV

Kode di sel ini bertanggung jawab untuk melakukan crawling data dari API Springer Nature berdasarkan daftar kata kunci yang telah ditentukan dan menyimpannya ke dalam file CSV lokal.

**Langkah-langkah yang dilakukan:**

1.  **Import Library:** Mengimpor library `requests` untuk membuat permintaan HTTP ke API dan `csv` untuk bekerja dengan file CSV.
2.  **Inisialisasi Variabel:** Menentukan API Key Springer Anda, daftar kata kunci yang akan dicari, dan URL endpoint API.
3.  **Membuat File CSV:** Membuka (atau membuat jika belum ada) file CSV bernama `springer_crawling.csv` dalam mode tulis (`"w"`). `newline=""` mencegah penambahan baris kosong di antara baris, dan `encoding="utf-8"` memastikan karakter khusus dapat ditangani dengan benar.
4.  **Menulis Header CSV:** Menulis baris header ke file CSV, yang akan menjadi nama kolom data (keyword, doi, title, abstract).
5.  **Loop Kata Kunci:** Mengiterasi melalui setiap kata kunci dalam daftar `keywords`.
6.  **Membuat Permintaan API:** Untuk setiap kata kunci, membuat dictionary `params` yang berisi parameter query (kata kunci, API key, dan jumlah hasil per halaman `p`). Kemudian, menggunakan `requests.get()` untuk mengirim permintaan GET ke API Springer.
7.  **Memeriksa Status Respon:** Memeriksa apakah status kode respon adalah 200 (OK). Jika ya, ini berarti permintaan berhasil.
8.  **Memproses Data Hasil:** Jika permintaan berhasil, mengurai respon JSON menjadi dictionary Python. Mengakses total hasil dari data.
9.  **Menyimpan ke CSV:** Mengiterasi melalui setiap `record` (artikel/publikasi) dalam respon data. Mengekstrak informasi seperti DOI, judul, dan abstrak. Menggunakan `writer.writerow()` untuk menulis baris data ke file CSV.
10. **Menampilkan Hasil (Opsional):** Mencetak informasi DOI, judul, dan sebagian abstrak ke konsol untuk memantau proses.
11. **Menangani Error:** Jika status kode respon bukan 200, mencetak pesan error.

Setelah sel ini selesai dieksekusi, Anda akan memiliki file `springer_crawling.csv` yang berisi data hasil crawling untuk setiap kata kunci.