In [7]:
import pandas as pd
import numpy as np
from IPython.display import display, HTML, clear_output
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from lxml import html
import hashlib
import webbrowser
import pickle
import codecs
from datetime import datetime
import time
from multiprocessing import Pool
from multiprocessing.dummy import Pool as ThreadPool
from dataclasses import dataclass
from enum import Enum
import configparser
import os
import logging

codecs.register_error("strict", codecs.ignore_errors)
DEBUG_LEVEL = logging.INFO
log = logging.getLogger(__name__)

@dataclass
class Monitor():
    name: str = 'monitor'
        
    class DownloadMode(Enum):
        DOWNLOAD_ONLY = -1
        DOWNLOAD_AND_ANALIZE = 0
        ANALIZE_ONLY = 1
        
    class AnalizeMode(Enum):
        FROM_FIRST = -1
        NONE = 0
        FROM_LAST = 1
        
    def __init__(self, name):
        self.name = name
        logging.basicConfig(handlers=[logging.FileHandler(f'{self.name}.log', 'w', 'utf-8')], level=DEBUG_LEVEL, format='%(asctime)s - %(levelname)s: %(module)s, %(lineno)s, %(funcName)s - %(message)s', datefmt='%d.%m.%y %H:%M:%S')
        config = configparser.ConfigParser()
        config.read(f'{name}.ini')
        self.url = config['COMMON']['url']
        self.script = config['COMMON']['script'].replace('|', '')
        self.update_interval = int(config['COMMON']['update_interval'])
        self.download_mode = eval(config['COMMON']['download_mode'])
        self.analize_mode = eval(config['COMMON']['analize_mode'])
        self.article = config._sections['ARTICLE']
        self.comments = config._sections['COMMENTS']
        
    def download(self, url):
        options = Options()
        options.add_argument('--headless')
        service = Service(r'C:\Tools\GeckoDriver\geckodriver.exe')
        service.start()
        driver = webdriver.Remote(service.service_url, options=options)
        content = ''
        driver.get(url)
        ldict = {'url': url, 'self': self, 'driver': driver, 'time': time, 'content': content}
        exec(self.script, globals(), ldict)
        content = ldict['content']
        driver.quit()
        with codecs.open(f'{self.name}.html', 'w', 'utf-8') as f:
            f.write(content)
        log.debug(f'downloaded: {int(len(content)/1024)} KB')
        return content

    def analize(self, content, pattern, index = -1, default = '', ref = False):
        try:
            result = html.fromstring(content).xpath(pattern)[index] if index >= 0 else html.fromstring(content).xpath(pattern)
            result = result.get('href') if ref else result
        except:
            result = default
        return result
    
    def highlight(self, s, df, df_prev):
        df_crcs = set([row.loc['CRC'] for index, row in df.iterrows()])
        df_prev_crcs = set(row.loc['CRC'] for index, row in df_prev.iterrows())
        df_news_crcs = df_crcs - df_prev_crcs
        cells_marked = pd.Series(data='', index=s.index)
        if s.loc['CRC'] in df_news_crcs:
#             print('Новый текст комментария (новый комментарий или изменен существующий): ' + s.loc['Текст'] + ' ЖЕЛТЫЙ')            
#             cells_marked['Текст'] = 'yellow'
            cells_marked = pd.Series(data='yellow', index=s.index)
        else:
            df_prev_item = df_prev.loc[df_prev['CRC'] == s.loc['CRC']]
            df_prev_item_score = df_prev_item.iloc[0]['Оценка']
            df_item_score = s.loc['Оценка']
            if df_item_score != df_prev_item_score:
                if df_item_score > df_prev_item_score:
#                     print('Оценка изменена (плюс): ' + str(df_item_score) + ' ЗЕЛЕНЫЙ')
#                     cells_marked['Оценка'] = 'lightgreen'
                    cells_marked = pd.Series(data='lightgreen', index=s.index)
                else:
#                     print('Оценка изменена (минус): ' + str(df_item_score) + ' КРАСНЫЙ')
#                     cells_marked['Оценка'] = 'red'
                    cells_marked = pd.Series(data='red', index=s.index)
        result = [f'background: {cell}' if cell != '' else '' for cell in cells_marked]
        return result

    def run(self):
        url = self.url
        download_mode = self.download_mode
        analize_mode = self.analize_mode
        while (True):
            content = ''
            if download_mode == self.DownloadMode.DOWNLOAD_AND_ANALIZE or download_mode == self.DownloadMode.DOWNLOAD_ONLY:
                log.info(f'download page {url}')
                page_content = self.download(url)
                if download_mode == self.DownloadMode.DOWNLOAD_ONLY:
                    return None
            log.info(f'analize page {url}')
            r = ''
            with codecs.open(f'{self.name}.html', 'r', 'utf-8') as f:
                r = f.read()
            link = title = text = date = author = score = comments = ''    
            expression = ';'.join([f'{k}={v}' for k, v in self.article.items()])
            ldict = {'url': url, 'self': self, 'r': r, 'link': link, 'title': title, 'text' : text, 'date' : date, 'author' : author, 'score' : score, 'comments' : comments}
            exec(expression, globals(), ldict)
            link = ldict['link']; title = ldict['title']; text = ldict['text']; date = ldict['date']; author = ldict['author']; link = ldict['link']; score = ldict['score']; comments = ldict['comments']
            comments_total = len(comments)
            df = pd.DataFrame(columns=['Оценка', 'Текст', 'Дата', 'Автор', 'CRC'], index=range(len(comments)))
            for i in range(comments_total):
                r = html.tostring(comments[i])
                score = text = author = date = link = md5 = ''
                expression = ';'.join([f'{k}={v}' for k, v in self.comments.items()])
                ldict = {'url': url, 'self': self, 'r': r, 'score': score, 'text' : text, 'author' : author, 'date' : date, 'link': link, 'md5' : md5}
                exec(expression, globals(), ldict)
                score = ldict['score']; text = ldict['text']; author = ldict['author']; date = ldict['date']; link = ldict['link']; md5 = ldict['md5']
                df.loc[i, 'Оценка'] = score; df.loc[i, 'Текст'] = text; df.loc[i, 'Дата'] = f'<a target="_blank" href="{link}">{date}</a>'; df.loc[i, 'Автор'] = author; df.loc[i, 'CRC'] = md5
                i += 1
            df['Оценка'] = pd.to_numeric(df['Оценка'])
            df = df.sort_values(by=['Оценка'], ascending=False)
            df = df[(df['Оценка'] > df['Оценка'].mean())]
            file = f'{self.name}_{datetime.now().strftime("%Y%m%d%H%M%S")}.bin'
            log.info(f'current file:  {file}')
            df.to_pickle(file)
            files = sorted([file for file in os.listdir() if file.endswith('.bin')])
            if len(files) == 0:
                log.error('no files for analize')
                return
            if analize_mode == self.AnalizeMode.FROM_FIRST:
                file_prev = files[0]
            if analize_mode == self.AnalizeMode.FROM_LAST:
                if len(files) > 1:
                    file_prev = files[-2]
                else:
                    file_prev = files[0]
            log.info(f'previous file: {file_prev}')
            if os.path.isfile(file_prev):
                df_prev = pd.read_pickle(file_prev)
#             # DEMO CHANGES INJECTION
#             df_prev.at[2, 'Оценка'] = 2
#             df_prev.at[3, 'Текст'] = 'НОВЫЙ ТЕКСТ'
#             df_prev.at[3, 'CRC'] = hashlib.sha256(f'НОВЫЙ ТЕКСТ'.encode('utf-8')).hexdigest()
#             display(pd.concat([df,df_prev]).drop_duplicates(keep=False))
#             set_table_styles([dict(selector='th', props=[('text-align', 'left')])])
            result = df.style.apply(self.highlight, axis=1, df=df, df_prev=df_prev).hide_columns(subset=(['CRC'])).hide_index().set_properties(**{'text-align': 'left', 'border-color': 'black','border-style' :'solid' ,'border-width': '1px','border-collapse':'collapse'})
            display(result)
            if self.update_interval == 0:
                return

            time.sleep(self.update_interval)
            clear_output(True)

monitor = Monitor('monitor')
monitor.run()

Оценка,Текст,Дата,Автор
56,"А нам, интровертам, все ок",29.07.2021 в 09:14,Tzimie
38,Бей экстравертного интроверта!,29.07.2021 в 11:07,todoman
31,"Очень давно, работая в двух разных конторах (в офисе), я категорически настаивал на том, чтобы у меня на рабочем месте не было телефона и чтобы мне никто не вздумал звонить. Потому что довольно быстро усвоил, что есть немалое число людей, которые ставят ситуацию с ног на голову, утверждая, что вслух могут изложить задачу многократно лучше, чем в виде текста (email). На самом деле, только вслух человек осмеливается сказать ""ну, ты же понимаешь, о чём я"" и с чувством сделанного дела, оставить собеседника в недоумении. То же касается способности перебивать, пускать пыль в глаза присутствующим третьим лицам и так далее. Конечно, где-то бывают настоящие дисграфики, которые только с письмом проблемы испытывают, а вслух излагают нормально. Но это большая редкость. Как правило же, упор на вербальное общение вместо текстового структурированного изложения мотивирован ограниченной способностью формулировать мысли вообще, а иногда - желанием переложить с больной головы на здоровую или скрыть факт собственной некомпетентности, которая может стать очевидной третьим лицам при чтении письма в спокойной обстановке, которую автор письма не контролирует.",29.07.2021 в 10:24,Moskus
28,"Звучит как - ""раньше я мог говорить что попало, а потом уже пояснять, что имею ввиду. А сейчас приходится думать, что пишу, это боль"", - ""раньше я мог отвлекать всех от работы, когда хочу, а сейчас приходится ждать, когда человек освободится"" - ""раньше я мог вывалить ему свои непереваренные мысли, и пусть думает, по делу я это или просто так и что с этой инфой делать. А сейчас не по делу особо не подёргаешь"" - ""раньше между режимами ""дом""/""работа"" меня переключало окружение, а теперь приходится переключаться самому"" Короче, в офисе было проще нарушать границы других людей, а на удалёнке стало сложнее Я смотрю, что люди разделились на две неравные группы: одних стали меньше дёргать и у них повысилась продуктивность, а другие потеряли возможность всех дёргать, и у них она понизилась. Обычно первые - инженеры, вторые - менеджеры, но, как видно, не всегда",29.07.2021 в 11:03,salkat
27,Мифический узкий канал связи: Даже работая в офисе все переписки ведёшь в чате. Вот так вот подойти к кому-то и что-то спросить стало уже архаизмом. За кофе обычно о жизни болтали и о не связанных с работой вещах.,29.07.2021 в 09:54,Ovoshlook
24,"Выглядит как попытка максимально натянуть сову. Так и представил себе, как условный Петя Васечкин на удаленке категорически не может тезисно отписаться по этим вопросам, зато очно он двумя жестами, одной эмоцией, и пятью словами прям всё про них тут же начистоту выложит. И главное, все тут же всё поймут.",29.07.2021 в 09:31,JustDont
20,,29.07.2021 в 10:37,ledascho
16,"мы теряем огромную кучу невербалики: жесты, позы, эмоции, запахи — всё это тысячи лет помогает нам лучше понимать друг друга. Wait, what? Разработке программного обеспечения отнюдь не тысячи лет и мне, простите, не понятно, как привычка моего соседа по гребанному опен-спейсу ковырятся в носу или запах бигмака, который кто-то ест, поможет мне лучше понимать проблемы, который я прямо сейчас в слаке с индусами обсуждаю. Это приводит к увеличению удельной “цены” информации. Написать информативное сообщение в чат так, чтобы его однозначно поняли все участники — это искусство, которое требует нескольких этапов и десятков минут редактирования. Написать быстро, а потом там же обсудить разночтения — не вариант, поскольку каждое последующее сообщение будет только добавлять неоднозначности, ввиду тех же ограничений “узкого канала”. Прямо сегодня обсуждали с представителем клиента смену системы авторизации на проекте. Все обсуждение достаточно важного вопроса в слаке заняло 40 минут, причем представитель клиента - норвежец, я беларус, для нас обоих английский язык не родной, но мы прекрасно все поняли и обсудили, причем не тратя ""десятки минут редактирования"" на каждое сообщение ,что мы делаем не так? И поскольку инициализация общения становится дорогой, происходит несколько существенных изменений. Ломаются push/pull стратегии общения. Там, где я мог просто подойти и подключиться к обсуждению, теперь нужно ждать приглашения. Кроме того, если раньше я всегда был готов к беседе, то теперь иногда мне нужно банально ОДЕТЬСЯ до начала разговора. Т.е. проблема в том, что у вас отобрали право просто вмешиваться в чужие разговоры? Да уж, беда! И, о боже, теперь вам надо ОДЕТЬСЯ! Да, вот именно так - ОДЕТЬСЯ, капсом. А раньше вы по офису в трусах ходили? Сегодня чтобы пользоваться каналом связи нужно находиться рядом с девайсом, и вы уже не можете продолжить обсуждение за кофе на кухне. Да, технически можете, но это не кофе, а утоление жажды фоном. В детстве меня заставили выучить стишок: Более того, практика показывает, что ""за кофе"" на кухне/в коридоре/около кофейного автомата никто работу не обсуждает. Удивительно, наверное это потому, что со своего рабочего места люди уходят что бы немного отдохнуть и получить психоэмоциональную разгрузку. Вы не можете полноценно регулярно коммуницировать, если у вас плохо совпадают рабочие часы. Это накладывает определенные ограничения. Если вы думаете, что сможете уехать в условный Тайланд и взаимодействовать с московской командой так же эффективно, как из Москвы — у меня для вас плохие новости. Это у меня для вас плохие новости - у вас просто нет релевантного опыта. Попробуйте погрести на аутсорсинговой галере, там работа в команде, где часть команды - в Индии, часть в Украине, часть в Беларуси, часть в Германии - является нормой. И, о ужас, у всех плохо совпадают рабочие часы! Но ничего, проекты делаются, заказчики довольны. Что мы опять делаем не так? А я, кстати, как-то был на проекте, где была солянка из специалистов из : Беларуси Украины Африки Мексики США Причем там были разрабы из разных частей США, у которых было несколько часов разницы во времени. И ничего - работали. И давали результат. Work/life баланс Разрядка Комментировать не буду, все описанное, ИМХО, это личные субъективные проблемы, являющиеся результатом неспособности организовать работу в домашних условиях. Корпоративная культура Сколько раз читал гневные посты против удаленки, всегда это магическое словосочетание встречал. Самое интересное - всегда на ""проблемы"" с ""корпоративной культурой"", почему-то, жаловались исключительно руководители разных уровней и никогда - рядовые разрабы. Интересно, почему? Возможно, О УЖАС, эта самая корпоративная культура и нужна только этим самым руководителям? Вообще напоминает какой-то каргокульт - сто раз скажи ""корпоративная культура"" и все проблемы магически решаться. Команда — это больше, чем просто люди в ней. Ох, опять магическое заклинание... На этот раз ""команда"". Учитывая, что пост о том, как плохо на удаленке, под ""командой"" автор, видимо, понимал группу людей, сидящих в одной комнате. Т.е. интернациональные команды, вероятно, по логике автора, за команды не считаются? Но как давно вы звонили коллегам, чтобы просто сказать: “[любой фреймворк] — полное г*вно! Я убил день, просто чтобы это запустить!” А, ну да, представил себе - сижу, по уши в работе, куча тасков, дедлайны и тут ко мне подходит какой-то рандомный чувак и начинает ныть как маленькая девочка. Рука-лицо, как же я без такого-то ""счастья"" умудряюсь работать... Руководитель — не просто административный ресурс, планирующий и оценивающий работу подчиненных, но еще и: Тут еще выяснилось, что многие ""руководители"" в условиях удаленки, оказались просто не нужны, потому что имитировать бурную деятельность вне офиса невозможно. И это, как я понимаю, тоже добавляет масла в огонь. Хуже всех описанных мной проблем то, что они проявляют себя очень неспешно. Просто люди чуть быстрее горят, чуть медленнее растут, но в целом, “колеса крутятся — лавэха мутится”(с). А значит, по законам бизнеса, пока проблему можно игнорировать. Наступит ли момент, когда деградация станет очевидной, сколько времени должно для этого пройти? Точно известно, что больше года. На самом деле, существуют исследования, показывающие, чт о опен-спейсы снижают производительность труда, коммуникацию среди сотрудников, зато повышают стресс и вынуждают сотрудников что-то умалчивать и лгать.",29.07.2021 в 11:20,BiW
15,Переписка имеет огромный плюс в виде самодокументируемости. Т.е. логи,29.07.2021 в 12:14,Xuxicheta
14,Или автор из руководящего звена или он просто соскучился по разговорам и перекурам или ему надо к психологу.,29.07.2021 в 10:12,shaman4d
