<a href="https://colab.research.google.com/github/muhammadhafiz27/Python-BeautifulSoup-/blob/main/Python_(BeautifulSoup).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import requests
from bs4 import BeautifulSoup
import csv

In [2]:
def scrape_page(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    quotes = []
    for quote_div in soup.select('div.quote'):
        quote_text = quote_div.find('span', class_='text').get_text()
        author = quote_div.find('small', class_='author').get_text()
        tags = [tag.get_text() for tag in quote_div.select('div.tags a.tag')]
        quotes.append({'text': quote_text, 'author': author, 'tags': tags})
    return quotes

# Example usage (optional, can be removed later)
first_page_quotes = scrape_page("https://quotes.toscrape.com/")
print(first_page_quotes[:5]) # Print first 5 quotes to check

[{'text': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”', 'author': 'Albert Einstein', 'tags': ['change', 'deep-thoughts', 'thinking', 'world']}, {'text': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”', 'author': 'J.K. Rowling', 'tags': ['abilities', 'choices']}, {'text': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”', 'author': 'Albert Einstein', 'tags': ['inspirational', 'life', 'live', 'miracle', 'miracles']}, {'text': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”', 'author': 'Jane Austen', 'tags': ['aliteracy', 'books', 'classic', 'humor']}, {'text': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”", 'author': 'Marilyn Monroe', 'tags': ['be-yourself', 'inspirationa

**Penjelasan Kode Scraping Halaman Tunggal**

Kode di bawah ini mendefinisikan fungsi `scrape_page` yang bertujuan untuk mengambil data kutipan, penulis, dan tag dari satu halaman web di situs Quotes to Scrape.

- **`def scrape_page(url):`**: Mendefinisikan fungsi `scrape_page` yang menerima URL halaman sebagai input.
- **`response = requests.get(url)`**: Mengirim permintaan GET ke URL yang diberikan.
- **`soup = BeautifulSoup(response.text, 'html.parser')`**: Mengurai konten HTML menggunakan BeautifulSoup.
- **`quotes = []`**: Membuat daftar kosong untuk menyimpan data kutipan.
- **`for quote_div in soup.select('div.quote'):`**: Mengulang setiap elemen `div` dengan kelas `quote`.
- **`quote_text = quote_div.find('span', class_='text').get_text()`**: Mengambil teks kutipan.
- **`author = quote_div.find('small', class_='author').get_text()`**: Mengambil nama penulis.
- **`tags = [tag.get_text() for tag in quote_div.select('div.tags a.tag')]`**: Mengambil daftar tag.
- **`quotes.append({'text': quote_text, 'author': author, 'tags': tags})`**: Menambahkan data kutipan ke dalam daftar `quotes`.
- **`return quotes`**: Mengembalikan daftar semua kutipan dari halaman tersebut.

Kode ini dibuat untuk melakukan web scraping ke situs Quotes to Scrape
 menggunakan Python + BeautifulSoup. Fungsinya adalah mengambil data kutipan (quotes), penulis (author), dan tag dari suatu halaman web.

In [3]:
all_quotes = []
base_url = "https://quotes.toscrape.com/page/{}/"

for i in range(1, 4): # Mengambil data dari halaman 1 sampai 3
    url = base_url.format(i)
    print(f"Scraping page: {url}")
    all_quotes.extend(scrape_page(url))

print(f"\nTotal quotes scraped: {len(all_quotes)}")
# print(all_quotes[:10]) # Tampilkan 10 kutipan pertama untuk verifikasi

Scraping page: https://quotes.toscrape.com/page/1/
Scraping page: https://quotes.toscrape.com/page/2/
Scraping page: https://quotes.toscrape.com/page/3/

Total quotes scraped: 30


**Penjelasan Kode Scraping Multiple Halaman**

Kode di bawah ini menggunakan fungsi `scrape_page` yang telah didefinisikan sebelumnya untuk mengambil data kutipan dari beberapa halaman di situs Quotes to Scrape.

- **`all_quotes = []`**: Menginisialisasi daftar kosong untuk menyimpan semua kutipan dari semua halaman.
- **`base_url = "https://quotes.toscrape.com/page/{}/"`**: Mendefinisikan pola URL untuk halaman-halaman situs, dengan placeholder `{}` untuk nomor halaman.
- **`for i in range(1, 4):`**: Loop ini berjalan dari halaman 1 hingga 3.
- **`url = base_url.format(i)`**: Membuat URL lengkap untuk halaman saat ini.
- **`print(f"Scraping page: {url}")`**: Menampilkan halaman yang sedang di-scrape.
- **`all_quotes.extend(scrape_page(url))`**: Memanggil fungsi `scrape_page` untuk halaman saat ini dan menambahkan semua kutipan yang dikembalikan ke dalam daftar `all_quotes`.
- **`print(f"\nTotal quotes scraped: {len(all_quotes)}")`**: Menampilkan jumlah total kutipan yang berhasil di-scrape setelah loop selesai.

Kode ini secara otomatis mengambil data dari 3 halaman pertama dan menggabungkannya ke dalam satu daftar besar.

In [4]:
csv_file = 'quotes.csv'
with open(csv_file, mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['text', 'author', 'tags']) # Menulis header

    for quote in all_quotes:
        # Menggabungkan tag menjadi string yang dipisahkan koma
        tags_str = ", ".join(quote['tags'])
        writer.writerow([quote['text'], quote['author'], tags_str])

print(f"Data berhasil disimpan ke dalam file: {csv_file}")

Data berhasil disimpan ke dalam file: quotes.csv


**Penjelasan Kode Menyimpan Data ke File CSV**

Kode di bawah ini bertanggung jawab untuk menyimpan data kutipan yang telah di-scrape dari beberapa halaman ke dalam file CSV.

- **`csv_file = 'quotes.csv'`**: Mendefinisikan nama file CSV.
- **`with open(csv_file, mode='w', newline='', encoding='utf-8') as file:`**: Membuka file CSV dalam mode tulis (`'w'`). Mode ini akan membuat file jika belum ada atau menimpa isinya jika sudah ada. `newline=''` menghindari baris kosong ekstra, dan `encoding='utf-8'` memastikan penanganan karakter yang luas.
- **`writer = csv.writer(file)`**: Membuat objek `csv.writer` untuk menulis data ke dalam file.
- **`writer.writerow(['text', 'author', 'tags'])`**: Menulis baris header kolom ke dalam file CSV.
- **`for quote in all_quotes:`**: Mengulang setiap kutipan dalam daftar `all_quotes`.
- **`tags_str = ", ".join(quote['tags'])`**: Mengubah daftar tag menjadi string tunggal yang dipisahkan koma.
- **`writer.writerow([quote['text'], quote['author'], tags_str])`**: Menulis data kutipan (teks, penulis, dan tag dalam format string) sebagai satu baris ke dalam file CSV.
- **`print(f"Data berhasil disimpan ke dalam file: {csv_file}")`**: Mencetak pesan konfirmasi setelah data selesai disimpan.

Kode ini memastikan data scraping tersimpan dengan rapi dalam format tabel di file CSV.

In [5]:
import pandas as pd

df = pd.read_csv('quotes.csv')
display(df.head(50))

Unnamed: 0,text,author,tags
0,“The world as we have created it is a process ...,Albert Einstein,"change, deep-thoughts, thinking, world"
1,"“It is our choices, Harry, that show what we t...",J.K. Rowling,"abilities, choices"
2,“There are only two ways to live your life. On...,Albert Einstein,"inspirational, life, live, miracle, miracles"
3,"“The person, be it gentleman or lady, who has ...",Jane Austen,"aliteracy, books, classic, humor"
4,"“Imperfection is beauty, madness is genius and...",Marilyn Monroe,"be-yourself, inspirational"
5,“Try not to become a man of success. Rather be...,Albert Einstein,"adulthood, success, value"
6,“It is better to be hated for what you are tha...,André Gide,"life, love"
7,"“I have not failed. I've just found 10,000 way...",Thomas A. Edison,"edison, failure, inspirational, paraphrased"
8,“A woman is like a tea bag; you never know how...,Eleanor Roosevelt,misattributed-eleanor-roosevelt
9,"“A day without sunshine is like, you know, nig...",Steve Martin,"humor, obvious, simile"


In [6]:
# Memisahkan string tag menjadi daftar tag
all_tags = df['tags'].str.split(', ').explode()

# Menghitung frekuensi setiap tag
tag_counts = all_tags.value_counts()

# Menemukan tag yang paling sering muncul
most_common_tag = tag_counts.idxmax()
most_common_tag_count = tag_counts.max()

print(f"Tag yang paling sering muncul adalah '{most_common_tag}' dengan {most_common_tag_count} kemunculan.")

Tag yang paling sering muncul adalah 'life' dengan 7 kemunculan.


In [7]:
author_counts = df['author'].value_counts()
most_prolific_author = author_counts.idxmax()
most_prolific_author_count = author_counts.max()

print(f"Penulis dengan jumlah kutipan terbanyak adalah '{most_prolific_author}' dengan {most_prolific_author_count} kutipan.")

Penulis dengan jumlah kutipan terbanyak adalah 'Albert Einstein' dengan 6 kutipan.
