### import bibliotek

In [26]:
import os
import json
import requests
from bs4 import BeautifulSoup

### Narzędzia

In [27]:
def extract(ancestor, selector=None, attribute=None, multiple=False):
    if selector:
        if multiple:
            if attribute:
                return [tag[attribute].strip() for tag in ancestor.select(selector)]
            return [tag.text.strip() for tag in ancestor.select(selector)]
        if attribute:
            try:
                return ancestor.select_one(selector)[attribute].strip()
            except TypeError:
                return None
        try:
            return ancestor.select_one(selector).text.strip()
        except AttributeError:
            return None
    if attribute:
        return ancestor[attribute].strip()
    return ancestor.text.strip()

In [28]:
selectors = {
    "opinion_id": (None, 'data-entry-id'),
    "author": ("span.user-post__author-name",),
    "recommendation": ("span.user-post__author-recomendation > em",),
    "stars": ("span.user-post__score-count",),
    "content": ("div.user-post__text",),
    "pros": ("div.review-feature__item--positive", None, True),
    "cons": ("div.review-feature__item--negative", None, True),
    "useful": ("button.vote-yes > span",),
    "unuseful": ("button.vote-no > span",),
    "post_date": ("span.user-post__published > time:nth-child(1)", 'datetime'),
    "purchase_date": ("span.user-post__published > time:nth-child(2)", 'datetime'),
}

### Proces ekstrakcji opinii o produkcie ze strony Ceneo.pl

In [29]:
with open("./headers.json", "r") as jf:
    headers = json.load(jf)

### Jeśli istnieje kolejna strona z opiniami, przejście do niej i powtórzenie dla niej kroków 1-4

In [30]:
product_id = input("Podaj kod produktu: ")
next_page = f"https://www.ceneo.pl/{product_id}#tab=reviews"
all_opinions = []
while next_page:
    print(next_page)
    response = requests.get(next_page, headers=headers)
    if response.status_code == 200:
        page_dom = BeautifulSoup(response.text, "html.parser")
        opinions = page_dom.select("div.js_product-review:not(.user-post--highlight)")
        for opinion in opinions:
                single_opinion = {
                     key: extract(opinion, *value)
                     for key, value in selectors.items()
                }
                all_opinions.append(single_opinion)
        try:
            next_page = "https://www.ceneo.pl"+extract(page_dom, "a.pagination__next", "href")
        except TypeError:
            next_page = None
    else: print(response.status_code)

https://www.ceneo.pl/84514582#tab=reviews
https://www.ceneo.pl/84514582/opinie-2
https://www.ceneo.pl/84514582/opinie-3
https://www.ceneo.pl/84514582/opinie-4
https://www.ceneo.pl/84514582/opinie-5
https://www.ceneo.pl/84514582/opinie-6
https://www.ceneo.pl/84514582/opinie-7
https://www.ceneo.pl/84514582/opinie-8
https://www.ceneo.pl/84514582/opinie-9


In [31]:
all_opinions

[{'opinion_id': '12535429',
  'author': 'g...6',
  'recommendation': None,
  'stars': '3/5',
  'content': 'Instalacja łatwa. Oprogramowanie HP Smart bezproblemowe. Zwrot 100zl Cashback z Promocji po kilku dniach od zakupu. Skanuje. Drukuje. \nPrzez pierwsze 2-3 dni wszystko w porządku, wydruki czarne i kolorowe bardzo dobre. Po 3 dniu, zupełnie nagle, drukarka zaczyna drukować białe poziome kreski na wydrukach kolorowych. W czarnym bardzo dobrze. Wydruki w najlepszej jakości są bardzo dobre. Wydruki w jakości normalnej i roboczej są moim zdaniem wadliwe. Kupiłem 2 drukarki. Jedną udało mi się zwrócić w ramach 14 zwrotu. Druga niestety została. \nProducent HP raz uznał gwarancję. HP przysłałi nową głowicę kolorową, a jak problem nie został rozwiązany, całą nową drukarkę. Trzecia drukarka tak samo, drukuje białe kreski na wydrukach kolorowych. \nZgłoszone ponownie do HP, tym razem w ocenie wsparcia HP, drukarki atramentowe tak drukują... Pozostawię to bez komentarza. Chciałem zgłosić w r

### Zapisanie wyników do bazy danych

In [32]:
if not os.path.exists("./opinions"):
    os.mkdir("./opinions")

In [33]:
with open(f"./opinions/{product_id}.json", "w", encoding="UTF-8") as jf:
    json.dump(all_opinions, jf, indent=4, ensure_ascii=False)