# <center><b>🔥 DATA SCRAPING EDM STUDY GROUP: KELOMPOK 4  🔥</b></center>
---

Sebelum kita melangkah lebih jauh, mari kita pahami apa yang dimaksud dengan scraping web. 

**Web scraping** adalah teknik untuk mengambil informasi dari halaman web secara otomatis. Ini melibatkan membuat permintaan HTTP ke halaman web, mengekstrak data dari HTML, dan kemudian menyimpan atau mengolah data tersebut sesuai kebutuhan kita.

Pertama-tama, kita harus mengimport dua modul penting yang akan kita gunakan untuk melakukan data scrapping pada web <i>books.toscrape.com</i> yaitu `requests`, `pandas`, dan `BeautifulSoup`.


In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

### <b>💴 Saatnya Kita Scraping! 📚</b>
---

Sebelum kita melihat kode scraping, mari kita bahas apa yang akan kita lakukan:

1. **List Data Kosong (`df`)**: Pertama, kita akan membuat sebuah list kosong yang akan kita gunakan untuk menyimpan data yang kita scrape dari situs web.

2. **Variabel `page_position`**: Kita juga akan menyiapkan variabel `page_position` yang akan digunakan untuk melacak posisi halaman saat kita melakukan scraping.

3. **Headers untuk Permintaan HTTP**: Kemudian, kita akan menentukan `headers` yang menyatakan identitas browser saat melakukan permintaan HTTP. Ini membantu dalam mencegah situs web dari menolak permintaan atau memperlakukan permintaan dengan cara yang berbeda.

4. **Loop `for` untuk Melakukan Scraping**: Selanjutnya, kita akan menggunakan loop `for` untuk mengiterasi melalui 50 halaman situs web yang ingin kita scrape. Di setiap iterasi, kita akan melakukan hal berikut:

    - Membuat URL untuk halaman yang akan kita scrape.
    
    - Mengirim permintaan HTTP ke URL menggunakan modul `requests` dan menyimpan responsnya.
    
    - Mengurai HTML menggunakan BeautifulSoup untuk mengekstrak informasi yang kita butuhkan, seperti judul buku, harga, rating, dan URL gambar.
    
    - Menyimpan informasi yang kita ekstrak ke dalam list `df`.

Dengan demikian, kita akan memiliki data yang kita butuhkan untuk dianalisis atau diproses lebih lanjut setelah melakukan scraping dari 50 halaman situs web <i>books.toscrape.com</i>


In [2]:
df = []
page_position = 0
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}

for i in range(1,51): 
    page_position += 1
    print('Scrapping Halaman:', page_position)
    link = f'http://books.toscrape.com/catalogue/page-{i}.html'
    response = requests.get(link, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    
    book = soup.findAll('li', 'col-xs-6 col-sm-4 col-md-3 col-lg-3')

    for i in book:
        book_title = i.find('article', 'product_pod').find('h3').text
        book_price = float(i.find('article', 'product_pod').find('div', 'product_price').find('p', 'price_color').text.replace('Â£', ''))
        rating = i.p["class"][1]
        if rating == "One":
            rating_book = 1
        elif rating == "Two":
            rating_book = 2
        elif rating == "Three":
            rating_book = 3
        elif rating == "Four":
            rating_book = 4
        elif rating == "Five":
            rating_book = 5
        book_image = "https://books.toscrape.com" + i.find('article', 'product_pod').find('div', 'image_container').find('a').find('img')['src'].replace("..", "")
        df.append([book_title, book_price, rating_book, book_image])

Scrapping Halaman: 1
Scrapping Halaman: 2
Scrapping Halaman: 3
Scrapping Halaman: 4
Scrapping Halaman: 5
Scrapping Halaman: 6
Scrapping Halaman: 7
Scrapping Halaman: 8
Scrapping Halaman: 9
Scrapping Halaman: 10
Scrapping Halaman: 11
Scrapping Halaman: 12
Scrapping Halaman: 13
Scrapping Halaman: 14
Scrapping Halaman: 15
Scrapping Halaman: 16
Scrapping Halaman: 17
Scrapping Halaman: 18
Scrapping Halaman: 19
Scrapping Halaman: 20
Scrapping Halaman: 21
Scrapping Halaman: 22
Scrapping Halaman: 23
Scrapping Halaman: 24
Scrapping Halaman: 25
Scrapping Halaman: 26
Scrapping Halaman: 27
Scrapping Halaman: 28
Scrapping Halaman: 29
Scrapping Halaman: 30
Scrapping Halaman: 31
Scrapping Halaman: 32
Scrapping Halaman: 33
Scrapping Halaman: 34
Scrapping Halaman: 35
Scrapping Halaman: 36
Scrapping Halaman: 37
Scrapping Halaman: 38
Scrapping Halaman: 39
Scrapping Halaman: 40
Scrapping Halaman: 41
Scrapping Halaman: 42
Scrapping Halaman: 43
Scrapping Halaman: 44
Scrapping Halaman: 45
Scrapping Halaman: 

1. **Membuat DataFrame**: Kode pertama membuat DataFrame dari list `df` yang berisi data yang telah kita scrap sebelumnya. DataFrame ini memiliki kolom-kolom yang ditentukan, yaitu 'judul_buku', 'harga_buku', 'rating_buku', dan 'gambar_buku'.

2. **Menyimpan ke CSV**: Kode kedua menyimpan DataFrame ke dalam file CSV dengan nama 'book_data.csv'. Parameter `index=False` digunakan untuk menghindari menyimpan indeks baris DataFrame ke dalam file CSV.


In [3]:
df = pd.DataFrame(df, columns=['judul_buku', 'harga_buku', 'rating_buku', 'gambar_buku'])

df.to_csv('book_data.csv', index=False)

### <b>💴 YEY KITA BERHASIL MELAKUKAN DATA SCRAPING! 📚</b>
---

In [4]:
import pandas as pd

data = pd.read_csv('book_data.csv')
data.head(10)

Unnamed: 0,judul_buku,harga_buku,rating_buku,gambar_buku
0,A Light in the ...,51.77,3,https://books.toscrape.com/media/cache/2c/da/2...
1,Tipping the Velvet,53.74,1,https://books.toscrape.com/media/cache/26/0c/2...
2,Soumission,50.1,1,https://books.toscrape.com/media/cache/3e/ef/3...
3,Sharp Objects,47.82,4,https://books.toscrape.com/media/cache/32/51/3...
4,Sapiens: A Brief History ...,54.23,5,https://books.toscrape.com/media/cache/be/a5/b...
5,The Requiem Red,22.65,1,https://books.toscrape.com/media/cache/68/33/6...
6,The Dirty Little Secrets ...,33.34,4,https://books.toscrape.com/media/cache/92/27/9...
7,The Coming Woman: A ...,17.93,3,https://books.toscrape.com/media/cache/3d/54/3...
8,The Boys in the ...,22.6,4,https://books.toscrape.com/media/cache/66/88/6...
9,The Black Maria,52.15,1,https://books.toscrape.com/media/cache/58/46/5...
