# **Crawling Data Website PTA Trunojoyo**

## **1. Apa itu Crawling?**


> **Crawling** merupakan alat otomatis yang mengumpulkan beragam informasi dengan menjelajahi berbagai halaman web. Proses ini mencakup identifikasi serta ekstraksi elemen-elemen seperti teks, gambar, dan unsur lainnya, sehingga membentuk pemahaman menyeluruh tentang konten yang tersebar di internet.

## **2. Tujuan Crawling**

> Tujuan dari crawling sebagai berikut:


1.   Pengumpulan data besar: Mengumpulkan data besar dari berbagai sumber seperti situs web, database, atau dokumen dalam waktu singkat dan efisien.
2.   Analisis data: Menggunakan data yang dikumpulkan untuk melakukan analisis data seperti analisis pasar, analisis perilaku pelanggan, dan lain-lain.
3.  Pemantauan informasi: Memantau informasi dari berbagai sumber seperti media sosial, situs web, dan lain-lain untuk memastikan bahwa informasi yang diterima akurat dan up-to-date.

> *Sumber: https://ivosights.com/read/artikel/data-crawling-pengertian-tujuan-dan-cara-kerjanya*



## **3. Implementasi Crawling**


### Soal
> Lakukan crawling data pada data pta.trunojoyo.ac.id dan data dimpan dalam format .csv

*   Judul
*   Nama penulis
*   Pembimbing I
*   Pembimbing II
*   Abstrak



### 1. Install package request
> jika pada pc anda belum terinstall package *requests* maka melakukan langkah awal installasi *requests* yang bertujuan untuk mengirim permintaan HTTP ke server.

In [None]:
!pip install requests

### 2. Install dan import library

> Dalam implementasi berikut, saya menggunakan package request dan library BeautifulSoup. serta memanggil modul csv untuk format penyimpanan data

In [None]:
# requirements
import requests
from bs4 import BeautifulSoup
import csv

### 3. Create code implementasi

In [None]:
# membuat variabel place dan indeks untuk menjadikan fleksibel link yang ingin dicrawling. dengan memasukkan kata kunci tujuan
place   = 'byprod'
number  =  10

# Menyimpan link web yang akan dicrawling ke dalam variabel url
url = 'https://pta.trunojoyo.ac.id/c_search/{}/{}/'.format(place, number)

In [None]:
def crawling(url):
  # membuat variabel datas (array kosong) untuk menyimpan semua data yang dicrawling
  datas = []

  for ipages in range(1,50):
    response = requests.get(url+str(ipages)) # variabel response melakukan permintaan HTTP get ke url yang disimpan dan mendapatkan data dari halaman web
    soup = BeautifulSoup(response.text, 'html.parser') #Isi teks dari respons HTTP yang diterima dari server web setelah melakukan permintaan GET.
    pages = soup.findAll('li', {'data-id' :'id-1'}) #menemukan semua <li> yang memuat data-id : id-1

    i = 0
    # menemukan data judul, penulis, dan pembimbing
    for items in pages:
      print(f'...Crawling data pages {ipages} data ke-{i+1}')
      # ==== mencari judul ====
      data_title           = items.find('a','title').text #setiap iterasi list pages mencari <a> class 'title'
      # data_span            = items.find_all('span')

      # ==== mencari penulis ====
      data_penulis         = items.find_all('span')[0].text.replace('Penulis :','') #setiap iterasi list pages mencari <span> ambil indeksnya [0]

      # ==== mencari pembimbing ====
      data_pembimbing1     = items.find_all('span')[1].text.replace('Dosen Pembimbing I :','') #[1]
      data_pembimbing2     = items.find_all('span')[2].text.replace('Dosen Pembimbing II :','') #[2]

      # ==== mencari abstrak ====
      button_abstrak_pages   = items.find('a','gray button').get('href') #setiap iterasi list pages mencari <a> ambil link href
      response_abstrak_pages = requests.get(button_abstrak_pages) #meminta HTTP dari setiap link yang ada di variabel button_abstrak_pages

      soup_abstrak = BeautifulSoup(response_abstrak_pages.text, 'html.parser') # Isi teks dari respons HTTP yang diterima dari server web
      abstrak =  soup_abstrak.find('p', {'align' :'justify'}).text.replace('ABSTRAK','')
      # print(abstrak)

      datas.append({
            'Judul': data_title,
            'Nama Penulis': data_penulis,
            'Pembimbing I': data_pembimbing1,
            'Pembimbing II': data_pembimbing2,
            'Abstrak' : abstrak
            })
      i+=1
    print("\n")
  print ("data telah selesai dicrawling")
  return datas

In [None]:
#panggil fungsi
datas = crawling(url)

### 4. Simpan file format csv

In [None]:
# Menyimpan data dalam bentuk CSV
csv_filename = 'data_crawling_pta.csv'
with open(csv_filename, 'w', newline='', encoding='utf-8') as csv_file:
    fieldnames = ['Judul', 'Nama Penulis', 'Pembimbing I', 'Pembimbing II', 'Abstrak']
    csv_writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
    csv_writer.writeheader()

    for entry in datas:
        csv_writer.writerow(entry)

print(f"Data telah disimpan dalam file {csv_filename}")