### Web Kazıma ile Rakip ve Fiyat Analizi

**İş Problemi**

Online kitap satışı yapan bir şirket, “Seyahat” ve “Kurgu Dışı” kategorilerinde az satış yaptığını tespit ediyor.

Bu sebeple şirketin, rakip firmanın kazınması izin verilen https://books.toscrape.com/ adlı web sitesinden “Travel” ve “Nonfiction” kategorisindeki kitaplara ait bilgileri alıp rakip ve fiyat analizi yapmaya ihtiyacı var.

Şirket sizden, bu kategorilerdeki her bir kitaba ait detay sayfalarına gitmenizi ve orada bulunan bazı bilgileri almanızı bekliyor.

**Projede İstenilen Akış**

"Travel" ve "Nonfiction" kategorilerine ait kitapların yer aldığı sayfa linkleri ana sayfa içerisinden alınmalı.

Sonrasında ilk kategoriye ait ürünlerin bulunduğu sayfa görüntülenerek, tüm kitapların detay sayfalarına erişmek için linkler kazınmalı.

Kazınan linkler kullanılarak o kategoriye ait tüm kitapların detay bilgileri kazınmalı.

Adım 2 ve 3’ü diğer kategori için de yapabilmek adına sistem otomatize edilmeli.

#### Görev 1: Tarayıcıyı Konfigüre Etme ve Başlatma

**Adım 1:** Selenium'un Webdriver sınıfını kullanarak bir adet options adında ChromeOptions tanımlayınız.

In [1]:
from selenium import webdriver
options = webdriver.ChromeOptions()

**Adım 2:** Tanımladığınız options’a tam ekran özelliği ekleyiniz.

In [2]:
options.add_argument("--start-maximized")

**Adım 3:** Bir önceki adımlarda hazırladığınız options’ı da kullanarak bir adet driver adında Chrome tarayıcısı oluşturunuz.

In [3]:
driver = webdriver.Chrome(options)

#### Görev 2: Ana Sayfanın İncelenmesi ve Kazınması

**Adım 1:** Ana Sayfayı driver ile açınız ve inceleyiniz.

In [4]:
import time
sleep_time = 2

In [5]:
driver.get("https://books.toscrape.com/")
time.sleep(sleep_time)

**Adım 2:** "Travel" ile "Nonfiction" kategori sayfalarının linklerini tutan elementleri tek seferde bulan XPath sorgusunu yazınız.

In [6]:
category_elements_xpath = "//a[contains(text(), 'Travel') or contains(text(), 'Nonfiction')]"

**Adım 3:** XPath sorgusu ile yakaladığınız elementleri driver'ı kullanarak bulunuz ve kategori detay linklerini kazıyınız.

In [7]:
from selenium.webdriver.common.by import By
category_elements = driver.find_elements(By.XPATH, category_elements_xpath)

In [8]:
category_urls = [element.get_attribute("href") for element in category_elements]

print(category_urls)

['https://books.toscrape.com/catalogue/category/books/travel_2/index.html', 'https://books.toscrape.com/catalogue/category/books/nonfiction_13/index.html']


#### Görev 3: Kategori Sayfasının İncelenmesi ve Kazınması

**Adım 1:** Herhangi bir detay sayfasına girip o sayfadaki kitapların detay linkini tutan elementleri yakalayan XPath sorgusunu yazınız.

In [9]:
driver.get(category_urls[0])
time.sleep(sleep_time)

In [10]:
book_elements_xpath = "//div[@class = 'image_container']//a"

**Adım 2:** driver ile XPath sorgusunu kullanarak elementleri yakalayınız ve detay linklerini çıkarınız.

In [11]:
book_elements = driver.find_elements(By.XPATH, book_elements_xpath)

book_urls = [element.get_attribute("href") for element in book_elements]

print(book_urls)

['https://books.toscrape.com/catalogue/its-only-the-himalayas_981/index.html', 'https://books.toscrape.com/catalogue/full-moon-over-noahs-ark-an-odyssey-to-mount-ararat-and-beyond_811/index.html', 'https://books.toscrape.com/catalogue/see-america-a-celebration-of-our-national-parks-treasured-sites_732/index.html', 'https://books.toscrape.com/catalogue/vagabonding-an-uncommon-guide-to-the-art-of-long-term-world-travel_552/index.html', 'https://books.toscrape.com/catalogue/under-the-tuscan-sun_504/index.html', 'https://books.toscrape.com/catalogue/a-summer-in-europe_458/index.html', 'https://books.toscrape.com/catalogue/the-great-railway-bazaar_446/index.html', 'https://books.toscrape.com/catalogue/a-year-in-provence-provence-1_421/index.html', 'https://books.toscrape.com/catalogue/the-road-to-little-dribbling-adventures-of-an-american-in-britain-notes-from-a-small-island-2_277/index.html', 'https://books.toscrape.com/catalogue/neither-here-nor-there-travels-in-europe_198/index.html', 'h

In [12]:
print(len(book_urls)) # 11 adet kitap yakalayabildik.

11


**Adım 3:** Sayfalandırma (Pagination) işlemleri için butonlara tıklamak yerine sayfa linklerini manipüle ediniz. İpucu: (Sayfa değiştikçe url'de ne değişiyor gözlemleyiniz).

In [13]:
max_pagination = 3
url = category_urls[0]
book_urls = []

In [14]:
for i in range(1, max_pagination):
    update_url = url if i == 1 else url.replace("index", f"page-{i}")
    driver.get(update_url)
    book_elements = driver.find_elements(By.XPATH, book_elements_xpath)
    
    temp_urls = [element.get_attribute("href") for element in book_elements]
    book_urls.extend(temp_urls)
    
print(book_urls)

['https://books.toscrape.com/catalogue/its-only-the-himalayas_981/index.html', 'https://books.toscrape.com/catalogue/full-moon-over-noahs-ark-an-odyssey-to-mount-ararat-and-beyond_811/index.html', 'https://books.toscrape.com/catalogue/see-america-a-celebration-of-our-national-parks-treasured-sites_732/index.html', 'https://books.toscrape.com/catalogue/vagabonding-an-uncommon-guide-to-the-art-of-long-term-world-travel_552/index.html', 'https://books.toscrape.com/catalogue/under-the-tuscan-sun_504/index.html', 'https://books.toscrape.com/catalogue/a-summer-in-europe_458/index.html', 'https://books.toscrape.com/catalogue/the-great-railway-bazaar_446/index.html', 'https://books.toscrape.com/catalogue/a-year-in-provence-provence-1_421/index.html', 'https://books.toscrape.com/catalogue/the-road-to-little-dribbling-adventures-of-an-american-in-britain-notes-from-a-small-island-2_277/index.html', 'https://books.toscrape.com/catalogue/neither-here-nor-there-travels-in-europe_198/index.html', 'h

In [15]:
print(len(book_urls))

11


**Adım 4:** Sayfalandırmanın sonuna geldiğinizi anlamak adına kategorinin 999. sayfasına giderek karşınıza çıkan sayfayı inceleyiniz. 

**ipucu:** ..../category/books/nonfiction_13/page-999.html

**Adım 5:** Bir önceki adımdaki incelemenin sonucunda sayfalandırma işleminde sonsuz döngüye girmemek adına bu durumu kontrol ediniz.

**ipucu:** text'inde 404 içeren bir h1 var mı?) veya (if not book_elements) ya da (len(book_elemets) <= 0

In [16]:
max_pagination = 3
url = category_urls[1]
book_urls = []

In [17]:
for i in range(1, max_pagination):
    update_url = url if i == 1 else url.replace("index", f"page-{i}")
    driver.get(update_url)
    book_elements = driver.find_elements(By.XPATH, book_elements_xpath)
    if not book_elements:
        break
    temp_urls = [element.get_attribute("href") for element in book_elements]
    book_urls.extend(temp_urls)
    
print(book_urls)

['https://books.toscrape.com/catalogue/worlds-elsewhere-journeys-around-shakespeares-globe_972/index.html', 'https://books.toscrape.com/catalogue/the-five-love-languages-how-to-express-heartfelt-commitment-to-your-mate_969/index.html', 'https://books.toscrape.com/catalogue/reasons-to-stay-alive_959/index.html', 'https://books.toscrape.com/catalogue/higherselfie-wake-up-your-life-free-your-soul-find-your-tribe_957/index.html', 'https://books.toscrape.com/catalogue/unseen-city-the-majesty-of-pigeons-the-discreet-charm-of-snails-other-wonders-of-the-urban-wilderness_952/index.html', 'https://books.toscrape.com/catalogue/throwing-rocks-at-the-google-bus-how-growth-became-the-enemy-of-prosperity_948/index.html', 'https://books.toscrape.com/catalogue/the-life-changing-magic-of-tidying-up-the-japanese-art-of-decluttering-and-organizing_936/index.html', 'https://books.toscrape.com/catalogue/the-gutsy-girl-escapades-for-your-life-of-epic-adventure_934/index.html', 'https://books.toscrape.com/ca

In [18]:
print(len(book_urls))

40


#### Görev 4: Ürün Detay Sayfasının Kazınması

**Adım 1:** Herhangi bir ürünün detay sayfasına girip class attribute'ı content olan div elementini yakalayınız.

In [19]:
driver.get(book_urls[0])
time.sleep(sleep_time)

In [20]:
content_div = driver.find_elements(By.XPATH, "//div[@class ='content']")

**Adım 2:** Yakaladığınız divin html'ini alınız ve inner_html adlı değişkene atayınız.

In [21]:
inner_html = content_div[0].get_attribute("innerHTML")

**Adım 3:** inner_html ile soup objesi oluşturunuz.

In [22]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(inner_html, "html.parser")

**Adım 4:** Oluşturduğunuz soup objesi ile şu bilgileri kazıyınız:

▪ Kitap Adı

▪ Kitap Fiyatı

▪ Kitap Yıldız Sayısı

▪ Kitap Açıklaması

▪ Product Information Başlığı altında kalan tablodaki bilgiler.

In [23]:
# Kitap Adı:

name_elem = soup.find("h1")
book_name = name_elem.text

In [24]:
# Kitap Fiyatı:

price_elem = soup.find("p", attrs = {"class": "price_color"})
book_price = price_elem.text

In [25]:
# Kitap Yıldız Sayısı:

import re
regex = re.compile('^star-rating ')
star_elem = soup.find("p", attrs = {"class": regex})
book_star_count = star_elem["class"][-1]

In [26]:
# Kitap Açıklaması:

desc_elem = soup.find("div", attrs = {"id": "product_description"}).find_next_sibling()
book_desc = desc_elem.text

In [27]:
# Product Information başlığı altında kalan tablodaki bilgiler:

product_info = {}
table_rows = soup.find("table").find_all("tr")

for row in table_rows:
    key = row.find("th").text
    value = row.find("td").text
    product_info[key] = value

#### Görev 5: Fonksiyonlaştırma ve Tüm Süreci Otamatize Etme

**Adım 1:** İşlemleri fonksiyonlaştırınız. 

In [28]:
def initialize_driver():
    options = webdriver.ChromeOptions()
    options.add_argument("--start-maximized");
    driver = webdriver.Chrome(options)
    return driver

In [29]:
def get_travel_and_nonfiction_category_urls(driver, url):
    
    driver.get(url)
    time.sleep(sleep_time)
    
    category_elements_xpath = "//a[contains(text(), 'Travel') or contains(text(), 'Nonfiction')]"
    
    category_elements = driver.find_elements(By.XPATH, category_elements_xpath)
    category_urls = [element.get_attribute("href") for element in category_elements]
    
    return category_urls

In [30]:
def get_book_urls(driver, url):
    
    max_pagination = 3
    
    book_urls = []
    book_elements_xpath = "//div[@class = 'image_container']//a"
    
    for i in range(1, max_pagination):
        update_url = url if i == 1 else url.replace("index", f"page-{i}")
        driver.get(update_url)
        book_elements = driver.find_elements(By.XPATH, book_elements_xpath)
    
        # Controller of pagination
        
        if not book_elements:
            break
        temp_urls = [element.get_attribute("href") for element in book_elements]
        book_urls.extend(temp_urls)
        
    return book_urls 

In [31]:
def get_book_detail(driver, url):
    
    driver.get(url)
    time.sleep(sleep_time)
    content_div = driver.find_elements(By.XPATH, "//div[@class ='content']")
    
    inner_html = content_div[0].get_attribute("innerHTML")
    
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(inner_html, "html.parser")
    
    name_elem = soup.find("h1")
    book_name = name_elem.text
    
    price_elem = soup.find("p", attrs = {"class": "price_color"})
    book_price = price_elem.text
    
    import re
    regex = re.compile('^star-rating ')
    star_elem = soup.find("p", attrs = {"class": regex})
    book_str_count = star_elem["class"][-1]
    
    desc_elem = soup.find("div", attrs = {"id": "product_description"}).find_next_sibling()
    book_des = desc_elem.text
    
    product_info = {}
    table_rows = soup.find("table").find_all("tr")
    for row in table_rows:
        key = row.find("th").text
        value = row.find("td").text
        product_info[key] = value
    
    return {'book_name': book_name, 'book_price': book_price, 'book_star_count': book_star_count,
            'bbok_desc': book_desc, **product_info}

**Adım 2:** Süreci otamatize ediniz.

In [32]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By

sleep_time = 0.25

def main():
    base_url = "https://books.toscrape.com/"
    driver = initialize_driver()
    category_urls = get_travel_and_nonfiction_category_urls(driver, base_url)
    data = []
    for cat_url in category_urls:
        book_urls = get_book_urls(driver, cat_url)
        for book_url in book_urls:
            book_data = get_book_detail(driver, book_url)
            book_data["cat_url"] = cat_url
            data.append(book_data)
            
    len(data)
    
    # Optional
    import pandas as pd
    df = pd.DataFrame(data)
    
    return df

In [33]:
df = main()
print(df.head())
print(df.shape)

                                           book_name book_price  \
0                            It's Only the Himalayas     £45.17   
1  Full Moon over Noah’s Ark: An Odyssey to Mount...     £49.43   
2  See America: A Celebration of Our National Par...     £48.87   
3  Vagabonding: An Uncommon Guide to the Art of L...     £36.94   
4                               Under the Tuscan Sun     £37.33   

  book_star_count                                          bbok_desc  \
0            Five  Anti-apartheid activist, Bollywood screenwrite...   
1            Five  Anti-apartheid activist, Bollywood screenwrite...   
2            Five  Anti-apartheid activist, Bollywood screenwrite...   
3            Five  Anti-apartheid activist, Bollywood screenwrite...   
4            Five  Anti-apartheid activist, Bollywood screenwrite...   

                UPC Product Type Price (excl. tax) Price (incl. tax)    Tax  \
0  a22124811bfa8350        Books            £45.17            £45.17  £0.00   
1  ce6