# Wildberries Scraper

Попытка автоматизировать получение информации о товарах на WB. 
<br>Изображения хранятся в /res/img
<br>data.csv - список ссылок, полученный из выдачи WB
<br>metadata.csv - Информация о конкретном товаре, его описание, метаданные обложки карточки товара (размер, путь, расширение и т.п.)*

<br><i>* Поскольку WB хранит изображения на отдельных серверах (другой домен ~wbbasket.ru), из-за правила 'same-origin policy' изображения нельзя побитово сохранить с помощью JavaScript, также при использовании request с разными хедерами запрос блокируется спустя несколько итераций => для данного способа нужны прокси, а wb определяет использование прокси, соответственно бесплатно эту проблему не решить. Пришлось, как и в случае с LinkedIn, обходить это ограничение с помощью скриншотов</i>

<br><i>В файле metadata.csv есть несколько лишних строк (в начале), которые относятся к тестовым запускам скрапера. Не стал их удалять из самого файла. В конце ноутбука есть удаление дубликатов из датафрейма</i>

### Функции перехода по страницам и получения ссылок карточек выдачи WB

In [155]:
def go_next_page(driver, page_count: int):
    next_page = driver.find_elements(By.CLASS_NAME, ('j-next-page'))
    if next_page:
        page_count += 1
        driver.get(f'https://www.wildberries.ru/catalog/dom/dachniy-sezon/sadovaya-tehnika/trimmery?sort=popular&page={page_count}')
    return page_count

def get_wb_product_links(driver):
    items_count = 0
    cards = driver.find_elements(By.CLASS_NAME, "product-card__link")
    for card in cards:
        title = card.get_attribute('aria-label')
        url = card.get_attribute('href')
        temp_data = {
            'title' : title,
            'url' : url
        }
        items_count += 1 
        write_metadata(temp_data, 'data.csv')
    return items_count

### Функция, имитирующая естественную прокрутку в конец страницы 
(для того, чтобы загрузился динамический контент, затем скролл вверх, чтобы стала видна кнопка следующей страницы)

In [135]:
def scroll_to_bottom(driver):
    page_height = driver.execute_script("return document.body.scrollHeight")
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(2)
    new_page_height = driver.execute_script("return document.body.scrollHeight")
    if new_page_height != page_height:
        scroll_to_bottom(driver)
    time.sleep(1)
    # Scrolling up a little bit
    driver.execute_script("window.scrollBy(0, -250);")

### Функции для скрапинга страницы товара и записи в файл

In [257]:
import csv

def scrape_wb_page(driver, url):
    driver.get(url)
    time.sleep(5)
    
    # Text data
    product_art = driver.find_element(By.ID, 'productNmId').text
    product_title = driver.find_element(By.CSS_SELECTOR, 'h1.product-page__title').text
    product_description = driver.find_element(By.CSS_SELECTOR, 'table.product-params__table').get_attribute("outerHTML")
    
    # Cover image retrieval    
    image_elements = driver.find_elements(By.XPATH, '//img[contains(@alt, "Вид 1")]')
    image_url = image_elements[0].get_attribute("src")
    
    driver.get(image_url)
    time.sleep(2)
    img = driver.find_element(By.TAG_NAME, 'img')

    image_path = f'res/img/{product_art}.png'
    with open(image_path, 'wb') as file:
        file.write(img.screenshot_as_png)
        file.close()

    # Getting image metadata
    
    image = Image.open(image_path)
    filesize = os.path.getsize(image_path) / 1024 # Converting to KB
    
    metadata = {
    "id": int(product_art),
    "product_title": product_title,
    "product_description": BeautifulSoup(product_description, 'html.parser').get_text(),
    "filename": image_path,
    "format": image.format,
    "mode": image.mode,
    "resolution": image.size,
    "filesize": round(filesize, 2),
    "retrieved": time.time()
    }
    
    image.close()

    
    return metadata

def write_metadata(metadata: dict, filename: str):
    csv_file_path = filename

    if not os.path.exists(csv_file_path):
        with open(csv_file_path, 'w', newline='') as csvfile:
            writer = csv.DictWriter(csvfile, fieldnames=metadata.keys())
            writer.writeheader()

    with open(csv_file_path, 'a', newline='') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=metadata.keys())
        writer.writerow(metadata)
    

### Получение ссылок из выдачи WB

In [157]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()


#a.pagination-next.pagination__next.j-next-page


page_url = 'https://www.wildberries.ru/catalog/dom/dachniy-sezon/sadovaya-tehnika/trimmery?sort=popular&page=1'
page_count = 1
items_count = 0
target = 350

driver.get(page_url)

with tqdm(total = target) as pbar:
    while (items_count < target):
        time.sleep(5)
        scroll_to_bottom(driver)
        items_temp = get_wb_product_links(driver)
        print(f'Retrieved {items_temp} items')
        pbar.update(items_temp)
        items_count += items_temp
        try:
            page_count = go_next_page(driver, page_count)
        except: 
            break

driver.quit()

  9%|███▌                                      | 30/350 [00:12<02:12,  2.41it/s]

Retrieved 30 items


 21%|█████████                                 | 75/350 [00:26<01:32,  2.96it/s]

Retrieved 45 items


 34%|██████████████                           | 120/350 [00:38<01:10,  3.25it/s]

Retrieved 45 items


 47%|███████████████████▎                     | 165/350 [00:51<00:55,  3.32it/s]

Retrieved 45 items


 60%|████████████████████████▌                | 210/350 [01:04<00:41,  3.35it/s]

Retrieved 45 items


 73%|█████████████████████████████▊           | 255/350 [01:17<00:27,  3.43it/s]

Retrieved 45 items


 86%|███████████████████████████████████▏     | 300/350 [01:30<00:14,  3.44it/s]

Retrieved 45 items


 99%|████████████████████████████████████████▍| 345/350 [01:42<00:01,  3.50it/s]

Retrieved 45 items


390it [01:55,  3.51it/s]                                                        

Retrieved 45 items


390it [01:55,  3.37it/s]


### Загрузка ссылок в датафрейм
Взял с запасом, на случай возникновения ошибок во время скрапинга

In [173]:
import pandas as pd

data = pd.read_csv('data.csv')
data = data.iloc[:228]

In [174]:
data

Unnamed: 0,title,url
0,Триммер садовый электрический для травы Garden,https://www.wildberries.ru/catalog/209650955/d...
1,Триммер аккумуляторный садовый дачный кусторез...,https://www.wildberries.ru/catalog/77278318/de...
2,"Триммер аккумуляторный GreenCut 20 (20В, акб 2...",https://www.wildberries.ru/catalog/18565737/de...
3,Триммер аккумуляторный садовый дачный кусторез...,https://www.wildberries.ru/catalog/113066515/d...
4,Триммер-газонокосилка аккумуляторный GreenCut ...,https://www.wildberries.ru/catalog/151530782/d...
...,...,...
223,Триммер садовый ЭТ-20-2ЛИ Ресанта,https://www.wildberries.ru/catalog/32788767/de...
224,"Ремень для триммера, бензокосы ранцевый DreamM...",https://www.wildberries.ru/catalog/36485887/de...
225,"Триммер садовый ЭТ-600, 600Вт, ширина - 320мм ...",https://www.wildberries.ru/catalog/32790048/de...
226,Леска для триммера звезда 3 мм катушка 144 мет...,https://www.wildberries.ru/catalog/111124662/d...


### Скрапинг страниц товаров

Одна итерация с ошибкой - не успели загрузиться некоторые html элементы
<br>227 из 228 успешно

In [258]:
from tqdm import tqdm
from IPython.display import clear_output
import warnings

try:
    data = pd.read_csv('data.csv')
    data = data.iloc[:228]
except: 
    raise FileNotFoundError(f"data.csv not found")

driver.quit()
driver = webdriver.Chrome()
driver.get('https://wildberries.ru/')


for _, row in tqdm(data.iterrows(), desc='Processing'):
    #driver = webdriver.Chrome()
    print(f"Working on: {row['title']}")
    print(row['url'])
    try:
        metadata = scrape_wb_page(driver, row['url'])
        write_metadata(metadata, 'metadata.csv')
    except:
        warnings.warn(f"Failed to save {row['title']}")
        continue
    clear_output(wait=True)
    


Processing: 228it [32:22,  8.52s/it]


In [276]:
metadata_csv = pd.read_csv('metadata.csv')
metadata_csv['retrieved'] = pd.to_datetime(metadata_csv['retrieved'], unit='s')
metadata_csv['file_exists'] = metadata_csv['filename'].apply(os.path.exists)
print(f'Rows count: {len(metadata_csv)}\nImages exist: {metadata_csv["file_exists"].sum()}')
metadata_csv

Rows count: 236
Images exist: 236


Unnamed: 0,id,product_title,product_description,filename,format,mode,resolution,filesize,retrieved,file_exists
0,209650955,Триммер садовый электрический для травы,Артикул 209650955 Модель беспроводной; аккуму...,res/img/209650955.png,PNG,RGBA,"(246, 328)",171.35,2024-03-21 11:10:04.299254016,True
1,209650955,Триммер садовый электрический для травы,Артикул 209650955 Модель беспроводной; аккуму...,res/img/209650955.png,PNG,RGBA,"(246, 328)",171.35,2024-03-21 11:13:28.587107072,True
2,77278318,Триммер аккумуляторный садовый дачный кусторез,Артикул 77278318 Модель разборная модель Пита...,res/img/77278318.png,PNG,RGBA,"(246, 328)",160.00,2024-03-21 11:13:44.241293056,True
3,18565737,Триммер аккумуляторный ZITREK GreenCut 20 (20В...,Артикул 18565737 Модель GreenCut 20 Гарантийн...,res/img/18565737.png,PNG,RGBA,"(246, 328)",17.67,2024-03-21 11:13:58.767094016,True
4,113066515,Триммер аккумуляторный садовый дачный кусторез,Артикул 113066515 Модель разборная модель Пит...,res/img/113066515.png,PNG,RGBA,"(246, 328)",128.90,2024-03-21 11:14:13.620366080,True
...,...,...,...,...,...,...,...,...,...,...
231,32788767,Триммер садовый ЭТ-20-2ЛИ,Артикул 32788767 Модель РЕСАНТА ЭТ-20-2ЛИ Гар...,res/img/32788767.png,PNG,RGBA,"(246, 328)",163.56,2024-03-21 11:50:37.481154048,True
232,36485887,"Ремень для триммера, бензокосы ранцевый",Артикул 36485887 Материал изделия металл; пла...,res/img/36485887.png,PNG,RGBA,"(246, 328)",58.48,2024-03-21 11:50:45.337965056,True
233,32790048,"Триммер садовый ЭТ-600, 600Вт, ширина - 320мм",Артикул 32790048 Гарантийный срок 1 Питание о...,res/img/32790048.png,PNG,RGBA,"(246, 328)",165.97,2024-03-21 11:50:53.533938944,True
234,111124662,Леска для триммера звезда 3 мм катушка 144 метра,Артикул 111124662 Длина (м) 19 м Сечение корд...,res/img/111124662.png,PNG,RGBA,"(246, 328)",99.52,2024-03-21 11:51:01.902982912,True


### Избавляемся от следова предыдущих запусков

In [283]:
metadata_csv.drop_duplicates(subset='id')

Unnamed: 0,id,product_title,product_description,filename,format,mode,resolution,filesize,retrieved,file_exists
0,209650955,Триммер садовый электрический для травы,Артикул 209650955 Модель беспроводной; аккуму...,res/img/209650955.png,PNG,RGBA,"(246, 328)",171.35,2024-03-21 11:10:04.299254016,True
2,77278318,Триммер аккумуляторный садовый дачный кусторез,Артикул 77278318 Модель разборная модель Пита...,res/img/77278318.png,PNG,RGBA,"(246, 328)",160.00,2024-03-21 11:13:44.241293056,True
3,18565737,Триммер аккумуляторный ZITREK GreenCut 20 (20В...,Артикул 18565737 Модель GreenCut 20 Гарантийн...,res/img/18565737.png,PNG,RGBA,"(246, 328)",17.67,2024-03-21 11:13:58.767094016,True
4,113066515,Триммер аккумуляторный садовый дачный кусторез,Артикул 113066515 Модель разборная модель Пит...,res/img/113066515.png,PNG,RGBA,"(246, 328)",128.90,2024-03-21 11:14:13.620366080,True
5,151530782,Триммер-газонокосилка аккумуляторный ZITREK Gr...,Артикул 151530782 Модель GreenCut 20 Pro Гара...,res/img/151530782.png,PNG,RGBA,"(246, 328)",128.13,2024-03-21 11:14:27.381707008,True
...,...,...,...,...,...,...,...,...,...,...
231,32788767,Триммер садовый ЭТ-20-2ЛИ,Артикул 32788767 Модель РЕСАНТА ЭТ-20-2ЛИ Гар...,res/img/32788767.png,PNG,RGBA,"(246, 328)",163.56,2024-03-21 11:50:37.481154048,True
232,36485887,"Ремень для триммера, бензокосы ранцевый",Артикул 36485887 Материал изделия металл; пла...,res/img/36485887.png,PNG,RGBA,"(246, 328)",58.48,2024-03-21 11:50:45.337965056,True
233,32790048,"Триммер садовый ЭТ-600, 600Вт, ширина - 320мм",Артикул 32790048 Гарантийный срок 1 Питание о...,res/img/32790048.png,PNG,RGBA,"(246, 328)",165.97,2024-03-21 11:50:53.533938944,True
234,111124662,Леска для триммера звезда 3 мм катушка 144 метра,Артикул 111124662 Длина (м) 19 м Сечение корд...,res/img/111124662.png,PNG,RGBA,"(246, 328)",99.52,2024-03-21 11:51:01.902982912,True
