# Процесс сбора тренировочных данных 

In [1]:
#Импорт библиотек.
import requests
import bs4
import pandas as pd

## Парсинг отзывов для тренировочной выборки

Первым делом нужно было определиться с выбором сайта. Я взял один из тестовых отзывов и загуглил его. Нашёл сайт http://deal64.ga/ . Отзывы я буду собирать именно с него. Этапы сбора описаны ниже.

In [4]:
#Эти ссылки будут нужны, поэтому завожу для них переменные.
short_main_link = 'http://deal64.ga/'
main_link = 'http://deal64.ga/mobile/'

#Первый раз считываю данные.
req = requests.get(main_link)
soup = bs4.BeautifulSoup(req.text, 'lxml')

Пройдя по ссылке main_link, можно найти список производителей телефонов. Составляю его.

In [5]:
producers = []
divs = soup.findAll('ul', attrs={'class' : 'producers'})
for div in divs:
    for li in div.find_all('li'):
        producers.append(li.text)

print(producers)

['Samsung', 'Nokia', 'Sony', 'HTC', 'LG', 'Lenovo', 'Philips', 'Apple', 'Fly', 'Explay', 'Huawei', 'Alcatel', 'Highscreen', 'ThL', 'BlackBerry', 'ASUS', 'Acer', 'Zopo', 'Xiaomi', 'Caterpillar', 'Jiayu', 'Yota', 'Meizu', 'HONPhone', 'ZTE', 'Motorola', 'iNew']


Теперь мне нужны ссылки на разделы. Создаю их.

In [6]:
producers_links = [main_link + i + '/' for i in producers]
print(producers_links[:3])

['http://deal64.ga/mobile/Samsung/', 'http://deal64.ga/mobile/Nokia/', 'http://deal64.ga/mobile/Sony/']


Возьму одного из производителей для примера. На открывшейся странице есть список его телефонов. Список телефонов может занимать несколько страниц, но я беру данные только с первой - итоговое количество отзывов получилось итак достаточным.

In [7]:
req = requests.get(producers_links[10])
soup = bs4.BeautifulSoup(req.text, 'lxml')
divs = soup.findAll('div', attrs={'class' : 'text'})
phones = []
for a in divs:
    for i in a.find_all('a', href=True):
        phones.append(i['href'])
        
print(phones[:3])

['/entry/huawei-ascend-y300/', '/entry/huawei-ascend-g510/', '/entry/huawei-honor-pro/']


Теперь нужно создать ссылки на отзывы для телефонов.

In [8]:
phones_link = [short_main_link + i + 'reviews/' for i in phones]
phones_link[:10]

['http://deal64.ga//entry/huawei-ascend-y300/reviews/',
 'http://deal64.ga//entry/huawei-ascend-g510/reviews/',
 'http://deal64.ga//entry/huawei-honor-pro/reviews/',
 'http://deal64.ga//entry/huawei-ascend-g700/reviews/',
 'http://deal64.ga//entry/huawei-ascend-mate/reviews/',
 'http://deal64.ga//entry/huawei-honor-3/reviews/',
 'http://deal64.ga//entry/huawei-ascend-p2/reviews/',
 'http://deal64.ga//entry/huawei-ascend-d2/reviews/',
 'http://deal64.ga//entry/huawei-ascend-p6/reviews/']

Возьму один из телефонов. Первое, что нужно сделать - узнать, сколько страниц с отзывами есть для этого телефона.

In [9]:
req = requests.get(phones_link[2])
soup = bs4.BeautifulSoup(req.text, 'lxml')
links = soup.findAll('div', attrs={'class' : 'paging'})
pages_numbers = []
for a in links:
    for i in a.find_all('a', href=True):
        pages_numbers.append(i['href'].split('/')[-2] + '/')

print(pages_numbers)

['page1/', 'page2/', 'page3/', 'page4/', 'page5/']


Далее я добавляю пустое значение в начало листа. Это я делаю для удобства - к первой странице с отзывами номер не добавляется.

In [10]:
pages_numbers.insert(0, '')

Теперь я формирую ссылки на страницы с отзывами для телефона.

In [11]:
pages_links = [phones_link[2] + i for i in pages_numbers]
pages_links[:3]

['http://deal64.ga//entry/huawei-honor-pro/reviews/',
 'http://deal64.ga//entry/huawei-honor-pro/reviews/page1/',
 'http://deal64.ga//entry/huawei-honor-pro/reviews/page2/']

Пришло время для сбора данных!

In [12]:
texts = []
for page_link in pages_links:
    req = requests.get(page_link)
    soup = bs4.BeautifulSoup(req.text, 'lxml')
    divs = soup.findAll('div', attrs={'class' : 'text'})
    for result in divs:
        texts.append(result.text)

Посмотрим на отзывы.

In [13]:
texts[:10]

['Оценка: 5',
 'За: надежный, не дорогой, большой экран, достаточно хорошая сборка',
 'Против: батарея, после 2 лет стал чуть чуть виснуть, нет прошивки',
 'За свои день отличный аппарат, служит уже 2 года, скоро думаю менять но пока не тороплюсь, сеть не теряет, игры норм идут, жпс тоже, в интернет норм серфить, вообщем рекомендую',
 'Оценка: 5',
 'За: Быстродействие системы Камера Громкий звук динамиков Минимально предустановленных программ "от производителя"',
 'Против: Мало оперативки (не критично) Отсутствие новых прошивок',
 'Телефон вполне приемлим для использования, но ждать от телефона (смартфона) большего, чем... от компа + игровой приставки + фотокамеры - не следует изначально!',
 'Оценка: 5',
 'За: дизайн, ЦЕНА, качество исполнения, функционал']

Структура списка отзывов такая:

* Оценка;
* Положительная часть отзыва;
* Негативная часть отзыва;
* Общая часть отзыва;

Если бы задача была сложнее - дать оценку отзыва, проанализировать отзыв полностью или сделать что-то ещё, то могли бы потребоваться какие-то сложные телодвижения. Для решения поставленной задачи достаточно взять положительную и негативную часть отзыва.

Теперь пришла пора спарсить все отзывы.

In [14]:
def parse_site(short_main_link = 'http://deal64.ga/', main_link = 'http://deal64.ga/mobile/', testing=True):
    '''
    Функция для парсинга отзывов с сайта. Параметр testing означает, что функция запускается в тестовом режиме
    и после получения 1000 вызовов она остановится. Укажите testing=False для полноценного парсинга.
    '''
    #Получение списка производителей телефонов.
    req = requests.get(main_link)
    soup = bs4.BeautifulSoup(req.text, 'lxml')
    producers = []
    divs = soup.findAll('ul', attrs={'class' : 'producers'})
    for div in divs:
        for li in div.find_all('li'):
            producers.append(li.text)
    
    producers_links = [main_link + i + '/' for i in producers]
    
    #Получение списка телефонов.
    phones = []
    for producer in producers_links:
        req = requests.get(producer)
        soup = bs4.BeautifulSoup(req.text, 'lxml')
        divs = soup.findAll('div', attrs={'class' : 'text'})

        for a in divs:
            for i in a.find_all('a', href=True):
                phones.append(i['href'])
                
    phones_link = [short_main_link + i + 'reviews/' for i in phones]
    
    #Парсинг всех отзывов для выбранных телефонов.
    texts = []
    
    for link in phones_link:
        req = requests.get(link)
        soup = bs4.BeautifulSoup(req.text, 'lxml')
        links = soup.findAll('div', attrs={'class' : 'paging'})
        pages_numbers = []
        for a in links:
            for i in a.find_all('a', href=True):
                pages_numbers.append(i['href'].split('/')[-2] + '/')
        pages_numbers.insert(0, '')

        pages_links = [link + i for i in pages_numbers]

        for page_link in pages_links:
            req = requests.get(page_link)
            soup = bs4.BeautifulSoup(req.text, 'lxml')
            divs = soup.findAll('div', attrs={'class' : 'text'})
            for result in divs:
                texts.append(result.text)

        if len(texts) > 1000 and testing==True:
            print('Это работает! Напарсено уже 1000 отзывов. На этом пробный запуск завершён.')
            break
    return texts

Попробую.

In [15]:
sample_texts = parse_site()
sample_texts[:10]

Это работает! Напарсено уже 1000 отзывов. На этом пробный запуск завершён.


['Оценка: 5',
 'За: Качественная звонилка, разговоры/СМС без проблем. Долгоиграющий аккумулятор. Достаёт номера из текста СМС.',
 'Против: Разъём зарядки не мини/микро ЮСБ.',
 'Покупали в срочном порядке после поломки предидущего телефона.',
 'Оценка: 5',
 'За: - СМС писать удобнее, чем на 5 дюймовом жкране - Зарядка 2 недели? Да!',
 'Против: - БП почти потерял.',
 'А что еще нужно для счастья? СМС, Звонить. Зачем нужен смартфон, если нет тарифа?',
 'Оценка: 5',
 'За: Цена, надежность, долговечность, хороший динамик, хороший аккумулятор']

Пробный запуск прошёл успешно. Полученные отзывы можно записать в файл.

In [16]:
with open("sample_parsed_reviews.txt", "w", encoding='utf-8') as output:
    output.write(str(sample_texts))

## Обработка напарсенных отзывов

Чтобы работать с этими данными, я делаю 2 шага:

* Разделяю положительные и отрицательные отзывы. Это просто - надо найти элементы листа, начинающиеся с "За:" или с "Против:" и отбросить "За: " или "Против: ";
* Создаю Dataframe с двумя столбцами: тексты отзывов и лейблами (1 для положительных и 0 для отрицательных);

In [17]:
positive = [i[4:] for i in sample_texts if i.startswith('За:')]
negative = [i[8:] for i in sample_texts if i.startswith('Против:')]

In [18]:
pos_data = pd.DataFrame({'text': positive, 'label': [1 for i in positive]})
neg_data = pd.DataFrame({'text': negative, 'label': [0 for i in negative]})
sample_data = pos_data.append(neg_data, ignore_index=True)
sample_data.head(), sample_data.tail()

(   label                                               text
 0      1  Качественная звонилка, разговоры/СМС без пробл...
 1      1  - СМС писать удобнее, чем на 5 дюймовом жкране...
 2      1  Цена, надежность, долговечность, хороший динам...
 3      1  Простой надежный телефон, заряд держит относит...
 4      1  -Презентабельный внешний вид после более чем г...,
      label                                               text
 619      0                                                   
 620      0  за эту цену можно не обращать внимания. но обо...
 621      0  Руки бы отрубать таким производителям телефоно...
 622      0  -якість фото і відео на 3- ;-радіо без гарніту...
 623      0  Недостатков очень и очень много. Например: не ...)

In [19]:
#Запись отзывов в файл.
sample_data.to_csv('sample_parsed_reviews.csv', encoding='utf-8')

Теперь можно либо спарсить все отзывы, либо считать сохранённые данные с диска. Вот функция для этого.

In [20]:
def get_reviews(action='load_reviews'):
    '''
    Функция для получения DataFrame с отзывами и лейблами.
    Параметр action принимает 2 значения:
    parse_reviews - парсит отзывы с сайтов и обрабатывает их.
    load_reviews - загружает отзывы с диска.
    '''
    if action == 'load_reviews':
        data = pd.read_csv(r'd:\_python\Python projects\Coursera_Y_M\parsed_reviews.csv')
        
    elif action == 'parse_reviews':
        texts = parse_site(testing=False)
        positive = [i[4:] for i in texts if i.startswith('За:')]
        negative = [i[8:] for i in texts if i.startswith('Против:')]
        
        pos_data = pd.DataFrame({'text': positive, 'label': [1 for i in positive]})
        neg_data = pd.DataFrame({'text': negative, 'label': [0 for i in negative]})
        data = pos_data.append(neg_data, ignore_index=True)
    return data

In [21]:
data = get_reviews()

In [22]:
data.head()

Unnamed: 0,label,text
0,1,"Качественная звонилка, разговоры/СМС без пробл..."
1,1,"- СМС писать удобнее, чем на 5 дюймовом жкране..."
2,1,"Цена, надежность, долговечность, хороший динам..."
3,1,"Простой надежный телефон, заряд держит относит..."
4,1,-Презентабельный внешний вид после более чем г...


In [23]:
#Некоторые отзывы пусты; при записи в csv и считывании они считаются Nan. Исправяю это, заменяя их на пробелы.
data.fillna(' ', inplace=True)