### 3. Сбор данных

Соберите отзывы (3-5 разных классов) о Россельхозбанке с сайта Банки.ру. Например, класс “Обслуживание” или “Кредит”.

Можно воспользоваться [ссылкой на сайт](https://www.banki.ru/services/responses/bank/rshb/).

Способ получения данных выберите самостоятельно — можете собирать вручную или написать код для парсинга данных.

Убедитесь, что вы имеете достаточно данных по каждому классу.
Чем больше отзывов вы соберете — тем лучше.

Выберу классы: <br>
1. Дебетовая карта *(83 страницы)*
2. Ипотека *(117 страниц)*
3. Потребительский кредит *(53 страницы)*
4. Вклад *(74 страницы)*

Будут собраны следующие данные для каждого класса:
1. Заголовок
2. Текст отзыва
3. URL отзыва
4. Оценка
5. Дата
6. Класс {'debitcard', 'credit', 'deposit', 'hypothec'}

In [161]:
# импортируем необходимые библиотеки
import requests 
from bs4 import BeautifulSoup

import pandas as pd

In [128]:
# Ссылки: 
# Потребительский кредит:
link_credits = 'https://www.banki.ru/services/responses/bank/rshb/product/credits/?page='
# Ипотека: 
link_hypothec = 'https://www.banki.ru/services/responses/bank/rshb/product/hypothec/?page='
# Дебетовая карта: 
link_debitcards = 'https://www.banki.ru/services/responses/bank/rshb/product/debitcards/?page='
# Вклад: 
link_deposits = 'https://www.banki.ru/services/responses/bank/rshb/product/deposits/?page='

In [169]:
# получить список словарей данных для страницы (bs) и присвоить им класс label 
def get_info_for_bs_page(bs, label):
    responses = bs.find_all(class_='responses__item')
    result = [{
            'title': i.find('a').text,
            'url': 'banki.ru' + i.find('a')['href'],
            'text': i.find(class_='responses__item__message markup-inside-small markup-inside-small--bullet').text.strip(), 
            'score': int(i.find(class_='rating-grade').text.strip()) if i.find(class_='rating-grade') else None,
            'date': i.find('time', class_='display-inline-block').text,
            'label': label
    } for i in responses]
        
    return result

In [191]:
# получить все страницы по выбранной ссылке (lin_reviews) с выбранным классом (label)
def get_all_reviews(link_reviews, label):
    # изменим заголовки, чтобы сайт не блокировал запросы
    session = requests.Session() 
    session.headers['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9'
    session.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'


    all_reviews = []
    i = 1
    while 1:
        req = session.get(link_reviews + str(i))
        if req.status_code == 404:
            break
        bs = BeautifulSoup(req.text)
        all_reviews.extend(get_info_for_bs_page(bs, label))
        print(f'Got results for {label}, page {i}')
        i += 1
    return all_reviews

### Кредит

In [174]:
all_credit = get_all_reviews(link_credits, 'credit')

Got results for credit, page 1
Got results for credit, page 2
Got results for credit, page 3
Got results for credit, page 4
Got results for credit, page 5
Got results for credit, page 6
Got results for credit, page 7
Got results for credit, page 8
Got results for credit, page 9
Got results for credit, page 10
Got results for credit, page 11
Got results for credit, page 12
Got results for credit, page 13
Got results for credit, page 14
Got results for credit, page 15
Got results for credit, page 16
Got results for credit, page 17
Got results for credit, page 18
Got results for credit, page 19
Got results for credit, page 20
Got results for credit, page 21
Got results for credit, page 22
Got results for credit, page 23
Got results for credit, page 24
Got results for credit, page 25
Got results for credit, page 26
Got results for credit, page 27
Got results for credit, page 28
Got results for credit, page 29
Got results for credit, page 30
Got results for credit, page 31
Got results for c

In [160]:
len(all_credit)

1314

In [162]:
all_credit_df = pd.DataFrame(all_credit)

In [163]:
all_credit_df.head()

Unnamed: 0,title,url,text,score,date,class
0,Числится задолженность по закрытым кредитам в ...,banki.ru/services/responses/bank/response/1044...,добрый день! подавал заявки на кредит в банки ...,,02.12.2020 11:18,credit
1,Досрочное погашение кредита,banki.ru/services/responses/bank/response/1044...,Требование решить вопрос о корректном закрытии...,1.0,01.12.2020 0:13,credit
2,"Жуткий колхоз, незаконно повышают % по кредиту",banki.ru/services/responses/bank/response/1044...,Осенью 2019 г. взял потребительский кредит.25....,1.0,30.11.2020 21:52,credit
3,Хорошая работа,banki.ru/services/responses/bank/response/1044...,"Здравствуйте, хотел бы оставить отзыв о хороше...",5.0,30.11.2020 15:31,credit
4,Обслуживание,banki.ru/services/responses/bank/response/1044...,Обратился в Хабаровский филиал Россельхозбанка...,5.0,28.11.2020 12:39,credit


In [168]:
# сохраняем как csv
all_credit_df.to_csv('credit_reviews.csv')

### Ипотека

In [192]:
all_hypothec = get_all_reviews(link_hypothec, 'hypothec')

Got results for hypothec, page 1
Got results for hypothec, page 2
Got results for hypothec, page 3
Got results for hypothec, page 4
Got results for hypothec, page 5
Got results for hypothec, page 6
Got results for hypothec, page 7
Got results for hypothec, page 8
Got results for hypothec, page 9
Got results for hypothec, page 10
Got results for hypothec, page 11
Got results for hypothec, page 12
Got results for hypothec, page 13
Got results for hypothec, page 14
Got results for hypothec, page 15
Got results for hypothec, page 16
Got results for hypothec, page 17
Got results for hypothec, page 18
Got results for hypothec, page 19
Got results for hypothec, page 20
Got results for hypothec, page 21
Got results for hypothec, page 22
Got results for hypothec, page 23
Got results for hypothec, page 24
Got results for hypothec, page 25
Got results for hypothec, page 26
Got results for hypothec, page 27
Got results for hypothec, page 28
Got results for hypothec, page 29
Got results for hypothe

In [197]:
len(all_hypothec)

2901

In [198]:
all_hypothec_df = pd.DataFrame(all_hypothec)

In [199]:
all_hypothec_df.head()

Unnamed: 0,title,url,text,score,date,label
0,Жалоба!,banki.ru/services/responses/bank/response/1044...,Здравствуйте!​ ​ ​ ​ ​ ​ ​ ​ ​ ​ Я обратился в...,1.0,02.12.2020 18:00,hypothec
1,Ужасная поддержка клиентов,banki.ru/services/responses/bank/response/1044...,"В отличие от большинства современных банков, к...",1.0,02.12.2020 13:33,hypothec
2,Саботаж досрочного погашения,banki.ru/services/responses/bank/response/1044...,Добрый день!Взяла в РСХБ ипотеку около 2 лет н...,1.0,01.12.2020 21:33,hypothec
3,Нельзя получить справку/выписку по своему кред...,banki.ru/services/responses/bank/response/1044...,Взял ипотеку в данном банке в Челябинске. Особ...,1.0,01.12.2020 20:05,hypothec
4,Настоящий государственный банк,banki.ru/services/responses/bank/response/1044...,Всем привет!!! Вообщем в 2018 г. оформил ипоте...,4.0,01.12.2020 19:20,hypothec


In [200]:
# сохраняем как csv
all_hypothec_df.to_csv('hypothec_reviews.csv')

### Дебетовые карты

In [201]:
all_debitcards = get_all_reviews(link_debitcards, 'debitcard')

Got results for debitcard, page 1
Got results for debitcard, page 2
Got results for debitcard, page 3
Got results for debitcard, page 4
Got results for debitcard, page 5
Got results for debitcard, page 6
Got results for debitcard, page 7
Got results for debitcard, page 8
Got results for debitcard, page 9
Got results for debitcard, page 10
Got results for debitcard, page 11
Got results for debitcard, page 12
Got results for debitcard, page 13
Got results for debitcard, page 14
Got results for debitcard, page 15
Got results for debitcard, page 16
Got results for debitcard, page 17
Got results for debitcard, page 18
Got results for debitcard, page 19
Got results for debitcard, page 20
Got results for debitcard, page 21
Got results for debitcard, page 22
Got results for debitcard, page 23
Got results for debitcard, page 24
Got results for debitcard, page 25
Got results for debitcard, page 26
Got results for debitcard, page 27
Got results for debitcard, page 28
Got results for debitcard, pa

In [202]:
len(all_debitcards)

2039

In [203]:
all_debitcards_df = pd.DataFrame(all_debitcards)

In [204]:
all_debitcards_df.head()

Unnamed: 0,title,url,text,score,date,label
0,Полнейший ад!,banki.ru/services/responses/bank/response/1044...,Оформил дебетовую карту в этом банке колхозник...,1.0,02.12.2020 15:48,debitcard
1,"Начислена комиссия за карту, которую не получала.",banki.ru/services/responses/bank/response/1044...,Так как в разделе вопросы-ответы представители...,1.0,02.12.2020 15:39,debitcard
2,Не закрывают дебетовую/кредитную карту,banki.ru/services/responses/bank/response/1044...,27.08.2020 года обратился в офис по адресу г. ...,1.0,02.12.2020 12:10,debitcard
3,Открыли карту без моего согласия и повысили го...,banki.ru/services/responses/bank/response/1044...,Летом 2020 года за два дня до окончания техник...,1.0,02.12.2020 11:58,debitcard
4,Благодарность,banki.ru/services/responses/bank/response/1044...,"Благодаря хорошим отзывам своих знакомых, кото...",5.0,01.12.2020 19:31,debitcard


In [205]:
# сохраняем как csv
all_debitcards_df.to_csv('debitcards_reviews.csv')

### Вклад

In [206]:
all_deposits = get_all_reviews(link_deposits, 'deposit')

Got results for deposit, page 1
Got results for deposit, page 2
Got results for deposit, page 3
Got results for deposit, page 4
Got results for deposit, page 5
Got results for deposit, page 6
Got results for deposit, page 7
Got results for deposit, page 8
Got results for deposit, page 9
Got results for deposit, page 10
Got results for deposit, page 11
Got results for deposit, page 12
Got results for deposit, page 13
Got results for deposit, page 14
Got results for deposit, page 15
Got results for deposit, page 16
Got results for deposit, page 17
Got results for deposit, page 18
Got results for deposit, page 19
Got results for deposit, page 20
Got results for deposit, page 21
Got results for deposit, page 22
Got results for deposit, page 23
Got results for deposit, page 24
Got results for deposit, page 25
Got results for deposit, page 26
Got results for deposit, page 27
Got results for deposit, page 28
Got results for deposit, page 29
Got results for deposit, page 30
Got results for dep

In [207]:
len(all_deposits)

1828

In [208]:
all_deposits_df = pd.DataFrame(all_deposits)

In [209]:
all_deposits_df.head()

Unnamed: 0,title,url,text,score,date,label
0,Отвратительное обслуживание,banki.ru/services/responses/bank/response/1044...,Отвратительное обслуживание. Дозвониться до ну...,1.0,02.12.2020 19:28,deposit
1,Достали своим SMS-спамом,banki.ru/services/responses/bank/response/1044...,Когда-то давно был вклад в РСХБ. Последние нес...,1.0,02.12.2020 13:15,deposit
2,Вклад,banki.ru/services/responses/bank/response/1044...,В июле решили вложить свои накопления в банк д...,5.0,29.11.2020 9:13,deposit
3,Спасибо,banki.ru/services/responses/bank/response/1044...,Хотелось бы выразить особую благодарность опер...,5.0,28.11.2020 12:09,deposit
4,Спасибо старшему менеджеру Козловой Алисе Влад...,banki.ru/services/responses/bank/response/1044...,Посетив отделение банка «Россельхозбанк» я ост...,5.0,28.11.2020 7:03,deposit


In [210]:
# сохраняем как csv
all_deposits_df.to_csv('deposits_reviews.csv')

Таким образом, были получены все отзывы по четырем классам услуг с сайта banki.ru. При необходимости можно расширить объем данных, прсто добавив название нового файла. 

### 4. Обучение модели

1. Проведите небольшой описательный анализ данных
<br><br>
2. Решите задачу классификации подготовленных данных по определенным ранее вами классам
<br><br>
3. Выберите метрики, по которым будете интерпретировать результат.
<br><br>
4. Объясните ваш выбор метрик
<br><br>
5. Интерпретируйте и визуализируйте полученные результаты