# Набір слів

## I. Сентимент-аналіз

Цього тижня ви побудуєте класифікатор для аналізу тональності тексту (позитивна, негативна чи нейтральна). Даними будуть споживацькі відгуки з сайту https://rozetka.com.ua/, написані українською мовою.

### 1. Домен

- виберіть категорію товарів на https://rozetka.com.ua/
- зіскрейпіть відгуки користувачів разом із кількістю зірочок, яку поставив користувач
- відфільтруйте відгуки українською мовою, використавши будь-яку бібліотеку для визначення мови
- зберіть кілька тисяч відгуків та поділіть дані на тренувальні та тестувальні

### 2. Класифікатор

- виберіть будь-який bag-of-words класифікатор (Naive Bayes, Averaged Perceptron, Logistic Regression, SVM, etc.) та імплементуйте першу версію сентимент-аналізу; поміряйте якість на тестовій вибірці
- використайте [тональний словник](https://github.com/lang-uk/tone-dict-uk) для покращення якості класифікатора; поміряйте якість на тестовій вибірці
- спробуйте покращити якість роботи класифікатора іншими способами (фільтрування стоп-слів, використання лем слів, опрацювання заперечень, ваші варіанти)

Запишіть ваші спостереження та результати в окремий файл.

Крайній термін: 6.04.2019 (100% за завдання)

In [9]:
"""rozetka.com.ua scraper"""

import json
import requests
from bs4 import BeautifulSoup as bs
import langdetect

from pprint import pprint as pp

# Local module
from persistent_index import PersistentIndex as pi
from persistent_index import PersistentKeyValueStorage as kvs


STORAGE_FILE = 'notebooks'

def run_request(url):
    """Fetch & soupify url. Use sparingly"""
    
    # This will mask us as a legit user and help avoid 424
    headers = {
        'User-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15',
        'Referer': 'https://rozetka.com.ua/',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Encoding': 'br, gzip, deflate',
        'Host': 'rozetka.com.ua',
        'Connection': 'keep-alive'
    }
        
    # session = trident.init()
    session = requests.session()
    # session.headers.update(headers)
    
    # Run request
    r = session.get(url, headers=headers)
    soup = bs(r.text, 'html.parser')
    
        
    # Return a BS4 object
    return soup

def get_number_of_pages(url):
    
    # Get parsed html
    soup = run_request(url)
    
    # Find number of pages
    pages = soup.find_all('span', class_ = 'paginator-catalog-l-i-active')
    if pages:
        return int(pages[-1].text)
    else:
        return 1

def scrape_links_on_page(root_url, page=1):
    
    # Initialize PersistentIndex object [instead of all_links]
    
    global STORAGE_FILE
    index = pi(db_filename=f'./persistent_index/{STORAGE_FILE}.sqlite', 
               table_name='product_links')
    
    # Get parsed html of root url
    soup = run_request(f"{root_url}page={page}")
    
    # Parse link and add it to the PersistentIndex
    for tag in soup.find_all('div', class_='g-i-tile-i-title'):
        link = tag.a.get('href')
        index.add_unvisited(link)
    index.close()
    
    return soup

def scrape_links_in_section(root_url):
    
    num_pages = get_number_of_pages(root_url)
    
    for i in range(1, num_pages+1):
        scrape_links_on_page(root_url, i)
        print(f'\rScraping {i} of {num_pages}...', end='')
    print("Done.")
    

def find_reviews(url, page = 1):
    "Find all reviews on a page"
    
    result = []
    
    # Init key-value storage
    storage = kvs(db_filename=f'./persistent_index/{STORAGE_FILE}.sqlite', 
                  table_name='kvs')      
    
    target_url = f"{url}/page={page}"
    soup = run_request(target_url)
    reviews = soup.find_all('div', {'itemprop': 'review'})
    
    for review in reviews:
        score = review.find('span', class_='g-rating-stars-i')
        if score:
            score = int(score.get('content'))

        comment = review.find('div', class_='pp-review-text')
        
        if comment:
            comment = comment.text

        if score and len(comment) > 3:
            try:
                lang = langdetect.detect(comment)
                if lang == 'uk':
                    result.append({'Text': comment, 'Score': score})
                    storage.insert(comment, score)
            except:
                pass
    
    # Store fetched content before return
    storage.save_state()
    
    return result
                

def main0(root_url):
    
    # Find number of pages in section
    pages = get_number_of_pages(root_url)
    
    total_reviews = []
    
    # Scrape product links
    scrape_links_in_section(root_url)
    
    index = pi(db_filename=f'./persistent_index/{STORAGE_FILE}.sqlite', 
               table_name='product_links')
    
    unv_links = index.get_unvisited()
    num_links = len(unv_links)

    # Traverse links to scrape reviews
            
    for i, link in enumerate(unv_links):
        
        # Build link
        link = link+'comments'
        
        # Show progress
        print(f'\rItem {i} / {num_links}, page 1 / {pages}, reviews: {len(uk_reviews)}', end='')
        
        # Fetch num pages to process
        pages = get_number_of_pages(link)

        for page in range(2, pages + 1):
            print(f'\rItem {i} / {num_links}, page {page} / {pages}, reviews: {len(uk_reviews)}', end='')
            found_reviews = find_reviews(link, page)
            
            total_reviews.extend(found_reviews)
            
    ############# SAVE REVIEWS ############

    with open('rozetka_mobile_reviews.json', 'w+') as fw:
        json.dump(total_reviews, fw, ensure_ascii=False)
    
    

     
# root_url = 'https://rozetka.com.ua/ua/mobile-phones/c80003/'
root_url = 'https://rozetka.com.ua/notebooks/c80004/filter/'
# root_url = 'https://rozetka.com.ua/protein/c273294/'

all_links = set()
uk_reviews = [] 

main0(root_url)

# get_number_of_pages('https://rozetka.com.ua/ua/prestigio_psp7572duogold/p44474512/comments/')


Scraping 100 of 100...Done.
Item 3115 / 3116, page 1 / 1, reviews: 0

In [88]:
# It appears that Rozetka DOES have a JSON API, but it's regrettably locked behind a 
# JWT security token generated client-side via obfuscated Javascript. Therefore, we 
# decided to revert to old-school scraping.

import urllib.parse


ref1 = 'https://retail.rozetka.com.ua/touch/?m[getCommentsByOffer]=%5B%7B%22offer_id%22%3A72016107%7D%2C108%2C36%5D'
ref2 = 'https://retail.rozetka.com.ua/touch/?m[getCommentsByOffer]=%5B%7B%22offer_id%22%3A72016107%7D%2C36%2C36%5D'
ref3 = 'https://retail.rozetka.com.ua/touch/?m[getCommentsByOffer]=%5B%7B%22offer_id%22%3A72016107%7D%2C72%2C36%5D'

def decode(url):
    return urllib.parse.unquote(url)

def encode(url):
    return urllib.parse.quote(url)

def j_request(offer_id, val1, val2):
    
    offer_id = str(offer_id)
    val1 = str(val1)
    val2 = str(val2)
    
    headers = {
        'User-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15',
        'Referer': 'https://rozetka.com.ua/',
        'Accept': 'application/vnd.retail-v4+json',
        'Accept-Encoding': 'br, gzip, deflate',
        'Host': 'retail.rozetka.com.ua',
        'Origin' : 'https://m.rozetka.com.ua',
        'Connection': 'keep-alive',
        'Referer': f'https://m.rozetka.com.ua/comments/{offer_id}/1',
        'X-Requested-With': 'XMLHttpRequest',
        'Ajax-Referer': 'https://m.rozetka.com.ua/comments/72016107/2',
        'Authorization': 'Bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJpc3MiOjYwMjE1MjksInN1YiI6MTIsImV4cCI6MTU1NDkyMDQ0NiwiZHQiOiJ0b3VjaCIsImp0aSI6IjllYjI1ZTJlMTJkYWUwYTA0MWVkNjA1MGZlNDU0MmMyMThmMTViOGEiLCJ1a2V5IjoiJDJ5JDEwJHEzbEJBNEhcL3hZU3JEYVVYUW83c1R1QnJwUFNUNjVSekNwUVwvZ2RJaHRVbVwvQUk0dFwvQXkxUyJ9.nMhS5hxO4ha8VfbwR6fS5wqLqM2DdnSwuZ6trNnAH13Y25n7aYVKQz11v_zTjAvxvObZFFPnzHjj7AxrSDTIRIEogYKgInmb8IefglpuqltWd7nktBiP1MGed2Rr_JEbporvw-8D4GLX2gMQvHHwU0nlU_gmNGaQ4Kyyuv34h6iM62-uHWxvHnNg3Xk0-jq_1xw-khMPfQD_Wz_tO2OjJIRAthxgh-yEE-uceg_jTg6ho0NC8Os8bUlZcKnGUAI3ovUyKQf8sOvXxcFOmqobIpRyOYRFcMTaU2ILxu9UoijK9idfva704O5VtsopSpiqf9yr5ucuvY8RimglWQdjcC1q1ECnYxN6uH3v29ZAj9o429rPWmv43gylI-3eWiCLCbIe6BtfCbM_lJMqW-YZjFnHGgqpQfs2ryEXi2_qAZSSWdV3py2sOe-q_d6qTWsH4kYWTJZc6tAG2fEW7W4aORYCuZailk0oGd6F2KaFNfLr6WjDFkCq2DWcfIgcDO3gRsJdr6BrODsC_-3n8tQnKoVmM7KC6SG0Ms8BxABsJUVGIeScPMgtSnq8IOHDBgKppE8T0qGzJXB5y0Ffq2AoOKYJ3RMk2xKiRRn9KTP60pKzv5kln3wRKtuWFbhieavbdeLEL2XIZUryK_khuzxUqXwK3wyrfHVF861GGRVX2mE'
    }
    
    url = 'https://retail.rozetka.com.ua/touch/?m[getCommentsByOffer]=[{"offer_id":'+offer_id+'},'+val1+','+val2+']'
        
    # session = trident.init()
    session = requests.session()
    # session.headers.update(headers)
    
    # Run request
    r = session.get(url, headers=headers)
    return r.text
    

    
assert ref1 == decode(encode(ref1))
decode(ref2)

# print(j_request(72016107, 36, 36))

url = 'https://m.rozetka.com.ua/comments/73776633/'
session = requests.session()
r = session.get(url)