In [5]:
pip install requests



Perintah pip install requests digunakan untuk menginstal library requests, yang merupakan salah satu pustaka paling populer dalam bahasa pemrograman Python untuk melakukan permintaan HTTP. Library ini memungkinkan pengembang untuk mengirimkan permintaan HTTP dengan cara yang sederhana dan intuitif, mendukung berbagai metode HTTP seperti GET, POST, PUT, dan DELETE. Dengan menggunakan requests, pengguna dapat dengan mudah berinteraksi dengan API (Application Programming Interface) atau mengambil data dari situs web, seperti melakukan web scraping. Library ini juga menyediakan fitur tambahan seperti pengelolaan cookie, otentikasi, dan pengaturan timeout, sehingga sangat berguna untuk berbagai aplikasi jaringan dan web. Dengan memasukkan perintah ini ke dalam terminal atau command prompt, pengguna akan mengunduh dan menginstal library requests beserta semua dependensinya, sehingga dapat langsung digunakan dalam proyek Python mereka.

In [6]:
pip install beautifulsoup4



Perintah pip install beautifulsoup4 digunakan untuk menginstal library Beautiful Soup, yang merupakan alat penting dalam pemrosesan data HTML dan XML di Python. Library ini dirancang untuk memudahkan pengambilan data dari dokumen HTML yang tidak terstruktur, memungkinkan pengembang untuk melakukan web scraping dengan lebih efisien. Dengan Beautiful Soup, pengguna dapat dengan mudah mencari dan menavigasi elemen-elemen dalam dokumen HTML, serta mengekstrak informasi yang relevan, seperti teks, atribut, dan tag. Library ini juga menyediakan berbagai metode untuk mengubah struktur dokumen, sehingga memungkinkan pengguna untuk membersihkan dan menyusun data sebelum dianalisis lebih lanjut. Menggunakan perintah ini di terminal atau command prompt akan mengunduh dan menginstal versi terbaru dari Beautiful Soup beserta semua dependensinya, sehingga siap digunakan dalam proyek pengembangan yang memerlukan analisis atau ekstraksi data dari web.

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

Kode di atas mengimpor tiga library penting dalam pemrograman Python yang sering digunakan untuk web scraping dan analisis data. Pertama, requests adalah library yang memungkinkan pengguna untuk melakukan permintaan HTTP dengan cara yang sederhana dan efisien, sehingga dapat mengambil konten dari halaman web. Kedua, BeautifulSoup dari modul bs4 adalah alat yang dirancang untuk memudahkan analisis dan ekstraksi data dari dokumen HTML dan XML, memungkinkan pengguna untuk menavigasi struktur dokumen dengan mudah. Ketiga, pandas adalah library yang sangat populer untuk analisis data dan manipulasi data dalam format tabel, seperti DataFrame, yang memungkinkan pengguna untuk melakukan operasi data yang kompleks dengan mudah. Dengan mengimpor ketiga library ini, pengguna dapat membangun aplikasi yang mampu mengambil data dari situs web, menganalisisnya, dan menyimpannya dalam format yang dapat digunakan untuk analisis lebih lanjut atau visualisasi.


In [3]:
url = 'https://www.sastra.org/koran-majalah-dan-jurnal/pusaka-jawi/2512-pusaka-jawi-java-instituut-1926-06-341'
request = requests.get(url)

Dalam kode di atas, variabel url diisi dengan string yang merupakan alamat web dari halaman yang ingin diambil datanya, yaitu sebuah artikel di situs sastra.org. Kemudian, menggunakan library requests, fungsi requests.get(url) digunakan untuk mengirimkan permintaan HTTP GET ke URL tersebut. Permintaan ini bertujuan untuk mengambil konten dari halaman web yang ditentukan. Jika permintaan berhasil, server akan mengirimkan kembali halaman web dalam bentuk teks, yang kemudian dapat diproses lebih lanjut untuk mengekstrak informasi yang relevan, seperti teks artikel, gambar, atau elemen HTML lainnya. Dengan pendekatan ini, pengguna dapat mengakses data dari situs web secara otomatis, yang sangat berguna dalam konteks web scraping dan pengumpulan data untuk analisis lebih lanjut.


In [4]:
request.text



request.text adalah atribut dari objek Response yang dihasilkan setelah melakukan permintaan HTTP menggunakan library requests di Python. Atribut ini berisi konten halaman web yang diambil dalam bentuk string, dengan encoding yang sudah diatur secara otomatis berdasarkan header dari respons server. Dengan menggunakan request.text, pengguna dapat mengakses seluruh teks HTML dari halaman yang diminta, yang kemudian dapat diproses lebih lanjut untuk ekstraksi data atau analisis. Misalnya, pengguna dapat memanfaatkan library seperti BeautifulSoup untuk mengurai teks HTML ini, mencari elemen tertentu, dan mengambil informasi yang dibutuhkan, seperti judul, paragraf, atau gambar. Dengan demikian, request.text merupakan langkah awal yang krusial dalam proses web scraping, memungkinkan pengguna untuk mendapatkan dan bekerja dengan data yang tersedia di situs web.

In [5]:
judul = []
subjudul = []
terakhirdiubah = []
isikalimat = []
url = 'https://www.sastra.org/kisah-cerita-dan-kronikal/novel/907-prabangkara-padmasusastra-1921-43'
request = requests.get(url)
soup = BeautifulSoup(request.text, "html.parser")
for all in soup.find_all('div', {'class': 'com-content-article__body'}):
  for awalan in all.find_all('div', {'class': 'ysl-stk-nxs'}):
      for jd in awalan.find_all('h1', {'class': 'ysl-mrg-b08'}):
          judul.append(jd.text)
      for td in awalan.find_all('div', {'class': 'ysl-tmb-grp'}):
          for td2 in td.find_all('div', {'class': 'ysl-txt-sml ysl-txt-usn ysl-wrp-rmv'}):
              terakhirdiubah.append(td2.text)
  for i in all.find_all('div', {'id': 'mark_range'}):
      for sb1 in i.find_all('h2'):
          subjudul.append(sb1.text)
      for i2 in i.find_all('p'):
          isikalimat.append(i2.text)

print(judul)
print(terakhirdiubah)
print(subjudul)
print(isikalimat)

['Prabangkara, Padmasusastra, 1921, #43']
['Terakhir diubah: 16-08-2021']
['Sêrat Prabangkara']
['PRABANGKORO', '--- [0] ---', 'Nyariyosakên Prabu Ăndakara ing Nagari Indhu kecalan putra ingkang binadhe raja, nama Pangeran Adipati Prabangkara. Ngantos dumugi ing konduripun, krama angsal pacanganipun nama Rara Apyu.', 'Kaanggit dening: Ki Padmasusastra', 'Tiyang mardika ingkang amarsudi kasusastran Jawi ing Surakarta', 'Kawedalakên sarta kasade dening Toko Buku: Tan Kun Swi Ing Kadhiri Taun 1921.', '--- 1 ---', 'Ing nagari Indhu wontên ingkang jumênêng nata ajêjuluk Maha Prabu Ăndakara, agêng karatonipun, pintên-pintên nagari ingkang sami suyud nungkul aris botên kalayan kagêbag ing prang, kapraban ing kawibawan dening kontaping asmanipun sang prabu, dhasar ratu agung binathara, nyakrawati ambaudhêndha. Patihipun sang nata taksih kalêbêt santana ajêjuluk Radèn Apatih Giripawaka, bijaksana mêngku bang-bang pangalum-aluming praja, sinuyudan ing wadyabala. Putranipun sang nata kakung putri

Kode di atas adalah contoh web scraping yang dirancang untuk mengambil berbagai informasi dari sebuah halaman web yang berisi artikel atau novel di situs **sastra.org**. Pertama, beberapa daftar kosong didefinisikan untuk menyimpan data yang akan diekstraksi, yaitu `judul`, `subjudul`, `terakhirdiubah`, dan `isikalimat`. URL yang ingin diambil datanya kemudian disimpan dalam variabel `url`, dan permintaan HTTP dikirim menggunakan `requests.get(url)` untuk mendapatkan konten halaman tersebut. Setelah itu, BeautifulSoup digunakan untuk mengurai konten HTML dari respons tersebut.

Dalam bagian utama dari kode, loop digunakan untuk menemukan elemen-elemen tertentu dalam HTML. Pertama, kode mencari `div` dengan kelas `'com-content-article__body'`, yang berisi konten artikel. Di dalamnya, kode mencari judul artikel dengan mencari elemen `h1` yang memiliki kelas `'ysl-mrg-b08'`, dan menambahkannya ke dalam daftar `judul`. Selanjutnya, informasi tentang kapan artikel terakhir diubah dicari dalam `div` dengan kelas `'ysl-tmb-grp'`, dan disimpan dalam daftar `terakhirdiubah`. 

Kemudian, kode melanjutkan untuk menemukan subjudul yang terdapat dalam elemen `h2` dan isi paragraf artikel dalam elemen `p` yang berada di dalam `div` dengan id `'mark_range'`. Setiap bagian informasi yang ditemukan disimpan dalam daftar masing-masing. Terakhir, semua daftar yang berisi informasi yang telah diekstraksi dicetak ke layar. Dengan cara ini, kode ini secara sistematis mengumpulkan dan menyimpan data dari halaman web untuk analisis atau penggunaan lebih lanjut.

In [6]:
product_df = pd.DataFrame(zip(judul,terakhirdiubah,subjudul,isikalimat), columns = ['Judul','Terakhir di ubah', 'Sub Judul', 'Kalimat'])
product_df.to_csv("sastra.csv",index=False)

Dalam kode di atas, sebuah DataFrame dari library **pandas** dibuat dengan menggunakan data yang telah diekstraksi sebelumnya dari halaman web. Variabel `product_df` diisi dengan objek DataFrame yang dibangun dari empat daftar yang berisi informasi, yaitu `judul`, `terakhirdiubah`, `subjudul`, dan `isikalimat`. Fungsi `zip()` digunakan untuk menggabungkan keempat daftar tersebut menjadi satu iterable yang berisi tuple, di mana setiap tuple berisi satu set informasi terkait. Kolom-kolom DataFrame diberi label sesuai dengan jenis informasi yang terkandung di dalamnya, yaitu 'Judul', 'Terakhir di ubah', 'Sub Judul', dan 'Kalimat'.

Setelah DataFrame dibentuk, data tersebut kemudian disimpan dalam file CSV dengan nama "sastra.csv" menggunakan metode `to_csv()`. Parameter `index=False` digunakan untuk menghindari penyimpanan indeks DataFrame sebagai kolom tambahan dalam file CSV. Dengan cara ini, kode ini menghasilkan file CSV yang terstruktur dengan baik, yang dapat digunakan untuk analisis data lebih lanjut, pemrosesan, atau sebagai arsip dari informasi yang telah diambil dari situs web.

In [7]:
data = pd.read_csv("sastra.csv")
data.head()


Unnamed: 0,Judul,Terakhir di ubah,Sub Judul,Kalimat
0,"Prabangkara, Padmasusastra, 1921, #43",Terakhir diubah: 16-08-2021,Sêrat Prabangkara,PRABANGKORO


Kode di atas digunakan untuk membaca file CSV yang telah disimpan sebelumnya dengan nama "sastra.csv" menggunakan library **pandas**. Fungsi `pd.read_csv("sastra.csv")` akan memuat konten dari file CSV tersebut ke dalam sebuah DataFrame yang disebut `data`. DataFrame ini adalah struktur data dua dimensi yang mirip dengan tabel, di mana setiap kolom dapat berisi jenis data yang berbeda. Setelah file CSV berhasil dibaca, metode `data.head()` digunakan untuk menampilkan lima baris pertama dari DataFrame. Ini berguna untuk memberikan gambaran awal tentang isi dan struktur data yang dimuat, termasuk kolom-kolom yang ada serta nilai-nilai yang terkandung di dalamnya. Dengan cara ini, pengguna dapat dengan cepat memverifikasi apakah data telah dimuat dengan benar dan memeriksa format serta tipe data yang tersedia untuk analisis lebih lanjut.