## Введение и приготовления

В данной работе мы посмотрим библиотеки для выжимки текстов с веб-страниц, а конкретно html2text и BeautifulSoup. Используйте этот notebook для экспериментов.

Нам понадобится также библиотека для закачки страницы

In [27]:
# pip install requests
import requests

In [28]:
url = "https://www.rbc.ru/" # вводим адрес страницы, html код которой хотим получить
page = requests.get(url) # скачиваем
print(page.status_code) # смотрим статус-код, если 200 то все ок

200


# html2text

Он более простой в настройках, не такой вариативный как beautifulSoup.
Посмотреть документацию html2text можно здесь https://github.com/Alir3z4/html2text/blob/master/README.md


## установка

In [29]:
# pip install html2text

## смотрим html2text

In [30]:
import html2text

In [31]:
text = html2text.html2text(page.text) # данной функцией чистим теги
# в квадратных скобках оставляет текст
# рядом, в круглых, ссылки
print(text) # выводим текст

![Top.Mail.Ru](https://top-fwz1.mail.ru/counter?id=3081030;js=na)

[ www.adv.rbc.ru ](http://www.adv.rbc.ru)

[](https://www.rbc.ru/)

[ Телеканал ](https://tv.rbc.ru/?utm_source=topline)

[ Газета ](https://www.rbc.ru/newspaper/?utm_source=topline)

[ Тренды ](https://trends.rbc.ru/trends/?utm_source=topline)

[ РБК+ ](https://plus.rbc.ru/?utm_source=topline)

[ Pro ](https://pro.rbc.ru/)

[ Инвестиции
![](https://s0.rbk.ru/v6_top_pics/media/img/6/75/755940508901756.svg)](https://quote.rbc.ru/?utm_source=topline)

[ Авто ](https://www.autonews.ru/?utm_source=topline)

[ Спорт ](https://sportrbc.ru/?utm_source=topline)

[ Недвижимость ](https://realty.rbc.ru/?utm_source=topline)

[ Стиль ](https://style.rbc.ru/?utm_source=topline)

[ Национальные проекты ](https://www.rbc.ru/national)

[ Крипто ](https://www.rbc.ru/crypto/?utm_source=topline)

[ Исследования ](https://marketing.rbc.ru/?utm_source=topline)

[ Кредитные рейтинги ](https://ratings.ru/?utm_source=topline)

[ Продажа бизнес

# ===== ===== ===== ===== ===== =====

# BeatifulSoup

Настроек уже гораздо больше. При отсеивании html-тегов он может оставлять иерархию, то есть вложенность одних тегов в другие (что нужно не упускать из виду, так как, к примеру, при поиске определенного класса новостей (увидим далее) мы можем просто не зацепить нужные нам новости, потому что у них есть класс поверх)

Документация здесь (здесь также есть еще больше примеров, как и что использовать) 
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

## установка

In [32]:
# pip install beautifulsoup4

## смотрим BeautifulSoup

In [35]:
# импортируем
from bs4 import BeautifulSoup

In [40]:
soup = BeautifulSoup(page.text, "html.parser") # выжимаем страничку, указывая парсер (увидим при вызове .get_text)
# можете посмотреть, что получается
# print(soup)
# дальше прикол со скриптами

In [43]:
text = soup.get_text() # берем только текст
# можно заметить, что текст скриптов остался, отдельно нужно чистить
# print(text)

просмотрите html

In [45]:
# print(soup)

можно увидеть классы новостей, по ним можем сделать фильтр

In [69]:
# создадим списки
new_news = [] # для желаемых новостей
news = [] # а с помощью этого массива мы попадем в класс новостей, из которого достанем уже подкласс для списка new_news

In [70]:
# берем все новости с тегом <span> и уточняем класс
news = soup.findAll('span', class_="news-feed__item__title") # ищем все новости news-feed__item__title
print(news)

[<span class="news-feed__item__title news-feed__item_bold">
        Курс доллара на 17 сентября<br/>
        USD ЦБ: 74,93
        <span class="news-feed__item__change item__change_fall">
                        (-0,26)
        </span>
</span>, <span class="news-feed__item__title news-feed__item_bold">
        Курс евро на 17 сентября<br/>
        EUR ЦБ: 88,86
        <span class="news-feed__item__change item__change_fall">
                        (-0,5)
        </span>
</span>, <span class="news-feed__item__title">
            Минфин раскрыл детали финансовой помощи Белоруссии
        </span>, <span class="news-feed__item__title">
            Фигурист сборной России заболел коронавирусом
        </span>, <span class="news-feed__item__title">
            Компания из Башкортостана получила финансовую поддержку Корпорации МСП
        </span>, <span class="news-feed__item__title news-feed__item_in-main">
            Шойгу в Минске, правительство поборется с воронами. Главные новости РБК


продолжаем выжимать нужные новости, уточняем класс

In [71]:
for i in range(len(news)):
    if news[i].find('span', class_='news-feed__item_in-main') is None: # ищем в каждом элементе новость с классом
        new_news.append(news[i].text) # добавляем в новых список

In [72]:
# печатаем все попавшие новости
for i in range(len(new_news)):
    print(new_news[i])


        Курс доллара на 17 сентября
        USD ЦБ: 74,93
        
                        (-0,26)
        


        Курс евро на 17 сентября
        EUR ЦБ: 88,86
        
                        (-0,5)
        


            Минфин раскрыл детали финансовой помощи Белоруссии
        

            Фигурист сборной России заболел коронавирусом
        

            Компания из Башкортостана получила финансовую поддержку Корпорации МСП
        

            Шойгу в Минске, правительство поборется с воронами. Главные новости РБК
        

            Мэр Нью-Йорка ради экономии решил отправить себя в отпуск
        

            BMW приготовила свой первый «горячий» хэтчбек с передним приводом
        

            Силуанов назвал стоимость сигарет после повышения акциза
        

            Что смотреть на выставке «Авангард. На телеге в ХХI век» в Ельцин-центре
        

            Компания «Стоун-XXI» объяснила просьбу отменить приговор Ефремову
        

            Украина и Бел

# ===== ===== ===== ===== ===== =====

Еще пример с другим сайтом, у которого очень удобный код для мобильной версии

### На заметку: мобильные версии сайтов могут упрощать структуру html кода

In [83]:
url_mob = 'http://mignews.com/mobile'
page_mob = requests.get(url_mob)
print(page_mob.status_code)
new_news_mob = []
news_mob = []
soup_mob = BeautifulSoup(page_mob.text, "html.parser")
news_mob = soup_mob.findAll('a', class_='lenta')

200


In [84]:
for i in range(len(news)):
    if news_mob[i].find('span', class_='time2') is not None:
        new_news_mob.append(news_mob[i].text)

In [85]:
for i in range(len(new_news_mob)):
    print(new_news_mob[i])

19:44 Оппозиции Беларуси нужна финпомощь от ЕС, а не от РФ
19:37 COVID-19 в Израиле: 5494 зараженных за сутки, 1163 жертв
19:35 Израиль: 435 случаев заражения в день на миллион жителей
19:27 Кац: "ускоренная амортизация" – во всех секторах экономики
19:10 Отсидеться в армии не удастся
19:10 Ганц сделал предупреждение ХАМАСу
18:56 Численность населения Израиля выросла за год на 1,6%
18:34 Экс-мисс Ирак приветствовала соглашения с Израилем
18:13 Обнадеживающие результаты лечения COVID-19 антителами
18:00 "Евреи наши собаки": детский стих из Бахрейна
17:52 Ситуацию с Навальным сравнили с отравлением Скрипалей
17:38 OECD: прогноз падения мировой экономики – не так плох
17:30 Опубликовано последнее фото покончившего с собой Тесака
17:26 Нетаниягу номинирован на Нобелевскую премию мира
17:21 Украина из-за хасидов закрыла границу с Беларусью
17:18 Российский националист Тесак найден мертвым в камере СИЗО
