In [1]:
from requests import ConnectionError

import json
import os

import tqdm

from parser import online_parser

In [2]:
DATA_DIR = 'data/'

# ✅Parse Kupus.ru

In [3]:
with open('parser/config/kupus.json', 'r') as file:
    kupus_config = json.loads(file.read())

kupus_parser = online_parser.OnlineParser(
    config=kupus_config
)

kupus_parse_topics = kupus_config['header_links']

In [4]:
parsed_topics = {}

for link in tqdm.tqdm(kupus_parse_topics):
    parsed_topics[link] = kupus_parser.parse_headers(link, deep=10)

100%|█████████████████████████████████████████████| 7/7 [00:40<00:00,  5.82s/it]


In [5]:
with open(os.path.join(DATA_DIR, 'kupus_headers.json'), 'w') as file:
    file.write(json.dumps(parsed_topics))

In [6]:
breakpoint = 0

for topic in tqdm.tqdm(list(parsed_topics.keys())[breakpoint:], desc='Processing topics'):
    try:
        comments = []
        for flud in tqdm.tqdm(parsed_topics[topic], leave=False, desc=f'Processing fluds in {topic}'):
            flud_link = parsed_topics[topic][flud][0]
            comments.append((flud_link, kupus_parser.parse_comments(flud_link, deep=10)))
        with open(os.path.join(DATA_DIR, f'kupus_comments/kupus_comments_{breakpoint}.json'), 'w') as file:
            file.write(json.dumps({topic: comments}))
        breakpoint += 1
    except Exception:
        print(breakpoint)
        breakpoint += 1

Processing topics:   0%|                                  | 0/6 [00:00<?, ?it/s]
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:   0%| | 0/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:   2%| | 1/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:   4%| | 2/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:   6%| | 3/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:   8%| | 4/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  10%| | 5/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  12%| | 6/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  14%|▏| 7/50 [00[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  16%|▏| 8/50 [01[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  18%|▏| 9/50 [01[A
Processing fluds in https://kupus.ru/forum/18-kreditnye-karty/:  20%|▏| 10/50 [

# ✅Parse Hranidengi.com

In [3]:
with open('parser/config/hranidengi.json', 'r') as file:
    hranidengi_config = json.loads(file.read())

hranidengi_parser = online_parser.OnlineParser(
    config=hranidengi_config
)

hranidengi_parse_topics = hranidengi_config['header_links']

In [4]:
parsed_topics = {}

for link in tqdm.tqdm(hranidengi_parse_topics):
    parsed_topics[link] = hranidengi_parser.parse_headers(link, deep=1)

100%|█████████████████████████████████████████████| 8/8 [00:03<00:00,  2.34it/s]


In [5]:
with open(os.path.join(DATA_DIR, 'hranidengi_headers.json'), 'w') as file:
    file.write(json.dumps(parsed_topics))

In [4]:
%%time

test = hranidengi_parser.parse_comments('https://hranidengi.com/threads/blokirovki-v-gazprombanke.1180/', deep=200)

CPU times: user 23.2 s, sys: 153 ms, total: 23.3 s
Wall time: 2min 1s


In [5]:
len(test)

3112

In [6]:
list(parsed_topics.keys())[0]

'https://hranidengi.com/forums/konfliktnye-situacii'

In [6]:
with open(os.path.join(DATA_DIR, 'hranidengi_headers.json'), 'r') as file:
    parsed_topics = dict(json.loads(file.read()))

In [7]:
list(parsed_topics.keys())

['https://hranidengi.com/forums/konfliktnye-situacii',
 'https://hranidengi.com/forums/kreditnye-karty',
 'https://hranidengi.com/forums/debetovye-karty',
 'https://hranidengi.com/forums/kredity',
 'https://hranidengi.com/forums/kreditnaja-istorija',
 'https://hranidengi.com/forums/juridicheskaja-konsultacija',
 'https://hranidengi.com/forums/moshennicheskie-tranzakcii',
 'https://hranidengi.com/forums/sekrety-i-lajfxaki.34']

In [8]:
list(parsed_topics['https://hranidengi.com/forums/juridicheskaja-konsultacija'].keys())

['Отказ в выплате субсидии на ЖКХ',
 'Представление интересов третьего лица по доверенности',
 'Передача банковской карты другому лицу для покупок',
 'Электронный доступ к делу на kad.arbitr.ru',
 'Иск в суд на необоснованное обогащение. Вопросы.',
 'Закон о защите прав потребителя.',
 'Получение водительского удостоверения',
 'Изменение количества зарегистрированных в квартире',
 'Пенсия по потере кормильца',
 'Личные валютные накопления',
 'Судебная повестка',
 'Вопросы наследства',
 '"Кредит" ушедшего и страховка.',
 'Подтверждающие документы для возможных взаимодействий с Банками',
 'Есть ли возможность перевода активов с брокерского счета (ИИС)',
 'Телефонный террор ООО ПКО "Авангард" - как наказать?',
 'Арест и блокировка банковских счетов судебными приставами',
 'Не могу получить выигрыш в лотерее "Русское лото"',
 'Делимся опытом общения с фин.упом',
 'Признание мошеннического договора МТС банка недействительным']

In [10]:
%%time

comments = []
topic = 'https://hranidengi.com/forums/juridicheskaja-konsultacija'
topic_desc = 'juridicheskaja_konsultacija'
topics = parsed_topics[topic]
fluds = list(parsed_topics[topic].keys())
flud_size = len(fluds)
flud = 0

# for flud in tqdm.tqdm(parsed_topics[topic], leave=False, desc=f'Processing fluds in {topic}'):
while flud < flud_size:
    try:
        filename = f'hranidengi_comments/hranidengi_comments_{topic_desc}_{flud}.json'
        if not filename in os.listdir(os.path.join(DATA_DIR, 'hranidengi_comments')):    
            flud_link = topics[fluds[flud]][0]
            parsed = (flud_link, hranidengi_parser.parse_comments(flud_link, deep=200, verbose=True))
            if parsed not in comments:
                comments.append(parsed)
            with open(os.path.join(DATA_DIR, filename), 'w') as file:
                file.write(json.dumps({topic: comments}))
            comments = []
        flud += 1
    except ConnectionError:
        continue

CPU times: user 15min 58s, sys: 5.81 s, total: 16min 3s
Wall time: 1h 16min 11s
