In [1]:
import requests
from bs4 import BeautifulSoup
import time 
import random 
import re
from fake_useragent import UserAgent
import datetime
from elasticsearch import Elasticsearch
from tqdm import tqdm

In [2]:
class KanobuArticle:
    def __init__(self):
        self.date=""
        self.time=""
        self.words=""
        self.rubr=""
        self.hashtag=""
        self.author=""
        self.head=""
        self.text=""
        
    # Конвертация в JSON.
    def toJSON(self):
        res='{"date":"'+self.date+'", "time":"'+self.time+'", "words":"'+self.words+'", "rubrics":"'+self.rubr+'", "hashtag":"'+self.hashtag+'", "title":"'
        +self.head+'", "author":"'+self.author+'","text":"'
        res+=self.text.replace('"', '\\"')+'"}'
        return res

    # Конвертация в словарь.
    def toDict(self):
        res={"date":self.date, "time":self.time, "rubrics":self.rubr, "hashtag":self.hashtag, \
             "title":self.head, "words":self.words, "author":self.author,"text":self.text.replace('"', '\\"')}
        return res

In [3]:
def GetPagesArticles(number_of_pages):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36'}
    url = 'https://kanobu.ru/news/?page='
    links = []
    for page in range(1, number_of_pages+1):
        r = requests.get(url + str(page), headers = headers)
        time.sleep(random.randint(1,6))
        content = r.content
        html = content.decode('UTF-8')
        soup = BeautifulSoup(html)
        
        for link in soup.find_all('a', attrs={'class':'c-item_foot d-b t-l'}):
            links.append(link.get('href'))
    
    return links    

In [4]:
def clean_text (text):
    text = text.replace('\xa0', ' ')
    text = text.replace ('\n', ' ')
    text = text.replace ('  ', ' ')
    return text

In [5]:
def GetArticles(links):
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36'}
    l = 'https://kanobu.ru'
    articles = []
    for link in links:
        art = KanobuArticle()
        page = requests.get(l+link, headers = headers)
        time.sleep(random.randint(1,3))
        content2 = page.content
        html2 = content2.decode('UTF-8')
        soup2 = BeautifulSoup(html2)
        
        date = soup2.find('div', attrs={'class':'c-title_footer'}).get_text()
        art.date = date.split(', ')[0]
        art.time = date.split(', ')[1]
        
        author = soup2.find('a', attrs={'class':'c-title_author'}).get_text()
        art.author = author
        
        text = soup2.find('div', attrs={'class':'c-detail_content'}).get_text()
        art.text = clean_text(text)
        
        words = len(clean_text(text).split())
        art.words = words
        
        title = soup2.find('h1', attrs={'class':'c-title_body'}).get_text()
        art.head = clean_text(title)
        
        rubric = soup2.find('div', attrs={'class':'c-title_head t-t-u'}).get_text()
        r = rubric.split(' | ')
        art.rubr = r[0]
        art.hashtag = r[1]
        #print(art)
        #print(text)
        #print(date)
        #print(author)
        print(title)
        print(words)
        #print(r[0])
        #print(r[1])
        #print(rubric)
        articles += [art]
    return articles

In [6]:
articles = GetArticles(GetPagesArticles(1))

В России заработал портал для тех, кто скучает на карантине. Это каталог бесплатных онлайн-услуг
183
В сеть слили детали Resident Evil 3 Remake
211
Премьеру нового спин-оффа «Ходячих мертвецов» отложили
180
Стример добавил Марио в Dreams. Его проект удалили из-за нарушения авторских прав
180
СМИ: Олимпиаду в Токио могут перенести
162
Google I/O 2020 окончательно отменили. Ее не проведут даже онлайн
157
Тайка Вайтити пошутил о последствиях коронавируса. В сети юмор не оценили 
236
Новый рекорд: более 22 млн человек были онлайн в Steam
141
СМИ: Роберт Родригес все же стал режиссером второго сезона «Мандалорца»
158
Масштабная битва и возвращение героя. Что еще покажут в новых эпизодах «Ходячих мертвецов»?
207
«Пухляш» из клипа Little Big станцевал на «Вечернем Урганте» под музыку из шоу Первого канала
280
Apple и Amazon понижают качество видеотрансляций для Европы
110
В Call of Duty: Warzone сыграло 30 миллионов игроков за 10 дней
152
В Steam появился интерактивный советник
120
Valve план

### База

In [7]:
es=Elasticsearch()

In [8]:
es

<Elasticsearch([{}])>

In [9]:
es.indices.delete(index="kanobu") 

{'acknowledged': True}

In [10]:
es.indices.create(index="kanobu")

{'acknowledged': True, 'shards_acknowledged': True, 'index': 'kanobu'}

In [11]:
mapit={"article":{"properties":{"author":{"type":"text"},
                                "date":{"type":"text"},
                                "time":{"type":"date", "format":" HH:mm"},
                                "words":{"type":"double"},
                                "hashtag":{"type":"text","analyzer" : "russian"},
                                "rubrics":{"type":"text","analyzer" : "russian"},
                                "text":{"type":"text","analyzer" : "russian"},
                                "title":{"type":"text","analyzer" : "russian"}}}}

In [12]:
es.indices.put_mapping(index="kanobu", doc_type='article', body=mapit, include_type_name=True)

{'acknowledged': True}

In [13]:
es.indices.get_alias("*")

{'kanobu': {'aliases': {}}}

In [14]:
%%time
i = 0
for article in tqdm(articles):
    es.index(index="kanobu", doc_type='article', id = i, body=article.toDict())
    i+=1

100%|██████████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 23.83it/s]


Wall time: 803 ms


In [16]:
res = es.search(index="kanobu", body={"query": {"match_all": {}}})
res["hits"]["hits"]

[{'_index': 'kanobu',
  '_type': 'article',
  '_id': '0',
  '_score': 1.0,
  '_source': {'date': '22 марта 2020',
   'time': '15:14',
   'rubrics': 'Игры',
   'hashtag': '#россия',
   'title': 'В России заработал портал для тех, кто скучает на карантине. Это каталог бесплатных онлайн-услуг',
   'words': 183,
   'author': 'Анастасия Яблоновская',
   'text': '21 марта начал работу портал «Доступвсем» с информацией о компаниях и сервисах, которые предоставили бесплатный доступ к своим ресурсам. Сайт создан для тех, кто находится в изоляции из-за пандемии. Портал представляет собой каталог, где собраны акции и предложения от банков, онлайн-кинотеатров, операторов связи, сервисов доставки и образовательных площадок. «Школьники и студенты смогут продолжить занятия в виртуальных классах. А при желании — познакомиться с лекциями других преподавателей, самых лучших в стране. Стали доступнее дистанционные консультации врачей — по любой специальности. В открытом доступе есть русская и зарубежная 

### Добавление в базу новой статьи по ссылке

In [20]:
def add_article(link):
    articles = []
    art = KanobuArticle()
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36'}
    page = requests.get(link, headers = headers)
    content = page.content
    html = content.decode('UTF-8')
    soup = BeautifulSoup(html)
    
    date = soup.find('div', attrs={'class':'c-title_footer'}).get_text()
    art.date = date.split(', ')[0]
    art.time = date.split(', ')[1]
        
    author = soup.find('a', attrs={'class':'c-title_author'}).get_text()
    art.author = author
        
    text = soup.find('div', attrs={'class':'c-detail_content'}).get_text()
    art.text = clean_text(text)
        
    words = len(clean_text(text).split())
    art.words = words
        
    title = soup.find('h1', attrs={'class':'c-title_body'}).get_text()
    art.head = clean_text(title)
        
    rubric = soup.find('div', attrs={'class':'c-title_head t-t-u'}).get_text()
    r = rubric.split(' | ')
    art.rubr = r[0]
    art.hashtag = r[1]
    
    #print(art)
    #print(text)
    #print(date)
    #print(author)
    #print(title)
    #print(words)
    #print(r[0])
    #print(r[1])
    
    articles += [art]
    
    res = es.search(index="kanobu", body={"query": {"match_all": {}}})
    maxid = res['hits']['total']['value']
    
    for article in articles:
        es.index(index="kanobu", doc_type='article', id = maxid, body=article.toDict())
        
    print('Done')

In [21]:
link = 'https://kanobu.ru/news/entoni-hopkins-syigral-nafortepiano-dlya-svoego-kota-i-pokoril-sotsseti--422323/'
add_article(link)

19
<__main__.KanobuArticle object at 0x0000029C05D0B7C8>
Done


### Мэтч по id новой статьи

In [22]:
es.get(index="kanobu", doc_type='article', id=18)

{'_index': 'kanobu',
 '_type': 'article',
 '_id': '18',
 '_version': 1,
 '_seq_no': 18,
 '_primary_term': 1,
 'found': True,
 '_source': {'date': '20 марта 2020',
  'time': '12:59',
  'rubrics': 'Кино и сериалы',
  'hashtag': '#энтони хопкинс',
  'title': 'Энтони Хопкинс сыграл на фортепиано для своего кота и покорил соцсети ',
  'words': 163,
  'author': 'Анастасия Яблоновская',
  'text': 'Умиротворяющим видео поделился с подписчиками Энтони Хопкинс. Он сыграл на фортепиано для своего кота. Судя по ролику, питомец музыкальным талантом актера доволен. «Niblo заботится о том, чтобы я оставался здоровым, а взамен требует себя развлекать», — отметил Хопкинс в подписи к видео. Баста дал концерт в онлайне. Все, чтобы спасти нас от скуки Ролик получил большую в сети. На Facebook у него уже более 6 млн. просмотров. В комментариях поклонники актера назвали видео замечательным и очень милым. А еще пожелали кумиру беречь здоровье. Вчера вдохновляющим роликом поделилась с фанатами актриса Галь Га

### Мэтч по заголовку

In [53]:
res = es.search(index="kanobu", body={"query": {"match": {"title": "россия"}}})
res["hits"]["hits"]

[{'_index': 'kanobu',
  '_type': 'article',
  '_id': '11',
  '_score': 2.8825247,
  '_source': {'date': '21 марта 2020',
   'time': '14:37',
   'rubrics': 'Кино и сериалы',
   'hashtag': '#Коронавирус',
   'title': 'Из-за коронавируса закрываются \u200bкинотеатры по всей России',
   'words': 155,
   'author': 'Алексей Панков',
   'text': 'В связи с распространением вируса COVID-19 многие сетевые кинотеатры, например, «Синема парк» и «Формула кино» прекращают свою работу. Сейчас закрыто 22 из 77 плащадок в Санкт-Петербурге, Воронеже, Калининграде и некоторых других городах. Обратная совместимость и 3D звук: Sony раскрыла подробности о PS В Москве пока ввели ограничения лишь на количество проданных билетов на сеанс. Одновременно в зале могут народиться не более 50 человек. Соответсвующее решение мэрия приняла 16 марта. Эти ограничения будут действовать до 10 апреля. Единая государственная система учета выяснила, что средняя посещаемость кинозалов снизилась в 2 раза по всей России. В Моск

### Мэтч по дате

In [23]:
res = es.search(index="kanobu", body={"query": {"match": {"date": "22 марта 2020"}}})
res["hits"]["hits"]

[{'_index': 'kanobu',
  '_type': 'article',
  '_id': '0',
  '_score': 0.6040209,
  '_source': {'date': '22 марта 2020',
   'time': '15:14',
   'rubrics': 'Игры',
   'hashtag': '#россия',
   'title': 'В России заработал портал для тех, кто скучает на карантине. Это каталог бесплатных онлайн-услуг',
   'words': 183,
   'author': 'Анастасия Яблоновская',
   'text': '21 марта начал работу портал «Доступвсем» с информацией о компаниях и сервисах, которые предоставили бесплатный доступ к своим ресурсам. Сайт создан для тех, кто находится в изоляции из-за пандемии. Портал представляет собой каталог, где собраны акции и предложения от банков, онлайн-кинотеатров, операторов связи, сервисов доставки и образовательных площадок. «Школьники и студенты смогут продолжить занятия в виртуальных классах. А при желании — познакомиться с лекциями других преподавателей, самых лучших в стране. Стали доступнее дистанционные консультации врачей — по любой специальности. В открытом доступе есть русская и заруб

### Виджеты

In [25]:
import ipywidgets as widgets
from IPython.display import display, Markdown, clear_output

"Требования к нереляционным БД
2 - нереляционная БД
2 - красивая структура БД
2 - интерфейс позволяет класть, доставать, удалять данные (проводить операции CRUD - Create, Read, Update, Delete)
2 - два действия помимо CRUD (сортировка, группировка, агрегация, ...)
2 - зависит от БД: Redis - использование ключей, хешей, ...; Neo4j - нахождение путей не только к соседним вершинам, операции с графами; MongoDB, ElasticSearch - работа с текстами или географией; остальные БД - будем договариваться."

In [26]:
button1 = widgets.Button(description='Match all articles') 
out = widgets.Output()

def on_button_clicked(_):
    with out:
        clear_output()
        res = es.search(index="kanobu", body={"query": {"match_all": {}}})
        for part in res["hits"]["hits"]:
            print(part)

- Добавить опции доставания статей по id, названию, дате и др.

In [27]:
button2 = widgets.Button(description='My Button 2')
out = widgets.Output()

def on_button_clicked2(_):
      # "linking function with output"
    with out:
          # what happens when we press the button
        clear_output()
        print('Something happens 2!')

In [28]:
# linking button and function together using a button's method
button1.on_click(on_button_clicked)
button2.on_click(on_button_clicked2)
# displaying button and its output together
widgets.VBox([button1, button2, out])

VBox(children=(Button(description='Match all articles', style=ButtonStyle()), Button(description='My Button 2'…