# Скачивание и разметка собственного корпуса

Этот набор упражнений должен помочь вам научиться:

- выгружать интересующие вас тексты из Интернета
- сохранять их в формате, удобном для обработки
- выполнять их разметку

[Ссылка](https://colab.research.google.com/drive/1N6pky6LG1pkJ9_VVAFUB1fpxWRq5KfrY?usp=sharing) на тетрадку в Google Colab

In [None]:
#Скачиваем пакеты, которых нет в стандартной библиотеке Python
!pip install fake-useragent
!pip install tqdm
!pip install newscatcher

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Импортируем нужные для работы модули

In [None]:
#Собственно выкачивание файлов из Интернета
import requests

#Работа с таблицами — понадобится, чтобы хранить наш корпус
import pandas as pd

#Выполнение быстрых математических вычислений — пригодится, потому что иначе
#корпус с большим количеством текстов может долго обрабатываться
import numpy as np

# Модуль для работы с HTML-файлами
from bs4 import BeautifulSoup

# Модуль для скачивания новостей
import newscatcher

# Модуль для работы с регулярными выражениями
import re

#Функция, который измеряет время исполнения фрагмента программы — без неё
#в принципе тоже всё будет работать
from tqdm.auto import tqdm

#Поможет замаскироваться под обычного пользователя в Интернете
from fake_useragent import UserAgent 

#Переменные, нужные, чтобы маскироваться под обычного пользователя Интернета
ua = UserAgent(verify_ssl=False)
headers = {'User-Agent': ua.random}

## Сбор текстов в Интернете

Python позволяет достаточно простым образом скачивать страницы из интернета по ссылке. Например, ниже скачивается и записывается в переменную файл с предыдущего занятия.

In [None]:
akarenina_link = 'https://raw.githubusercontent.com/alekseyst/text_analysis_2023/main/Seminar_3/karenina.txt'
akarenina = requests.get(akarenina_link, headers=headers)
akarenina

<Response [200]>

In [None]:
#Как мы видим, результат запроса представляет собой какой-то объект.
#Чтобы извлечь его содержимое, нужно обратиться к атрибуту text.

akarenina.text[:400]

'\r\n Л.Н. Толстой. Анна Каренина \r\n\r\n Роман в восьми частях \r\n\r\n\t Мне отмщение, и Аз воздам  \r\n\t \r\n\r\n Часть первая \r\n\r\n I \r\n\r\n Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему. \r\n Все смешалось в доме Облонских. Жена узнала, что муж был в связи с бывшею в их доме француженкою-гувернанткой, и объявила мужу, что не может жить с ним в одном доме. Положение это '

##HTML

Если мы, однако, имеем дело не с txt-файлами, выложенными в Интернет, а с обычными страницами, приходится иметь дело с HTML.

In [None]:
#HTML-страница новости

news_cher_link = "https://cher-is.com/izvestnaya-nejroset-sostavila-obrazy-cherepovtsa-i-vologdy/"
html_cher_request_result = requests.get(news_cher_link, headers=headers)
html_cher = html_cher_request_result.text
html_cher

'<!DOCTYPE html>\n<html lang="ru-RU" itemscope itemtype="http://schema.org/WebSite" prefix="og: http://ogp.me/ns#">\n<head> <a href="https://metrika.yandex.ru/stat/?id=52125751&amp;from=informer" target="_blank" rel="nofollow"><img src="https://informer.yandex.ru/informer/52125751/3_1_FFFFFFFF_EFEFEFFF_0_pageviews" style="width:88px; height:31px; border:0;" alt="Яндекс.Метрика" title="Яндекс.Метрика: данные за сегодня (просмотры, визиты и уникальные посетители)" class="ym-advanced-informer" data-cid="52125751" data-lang="ru" /></a>   <script type="text/javascript"> (function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date();k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(52125751, "init", { id:52125751, clickmap:true, trackLinks:true, accurateTrackBounce:true, webvisor:true, trackHash:true }); </script> \n<meta

Конечно, страшно, но не очень.

Если хочется прямо разобраться с HTML, вот, например, [ссылка](https://www.w3schools.com/html/html_intro.asp). А так нам важно знать, что всякие элементы располагаются в нутри тегов, и выглядит это как-то так (это тэг \<p\>, который используется для разбивки страницы на абзацы — paragraph):

\<p\>This is a paragraph.\</p\>

Обычно достаточно уметь найти, в каком тэге находится нужная информация, и извлечь её. Для поиска нужно всего лишь нажать на то, что вы хотите извлечь со страницы правой клавишей — Inspect, и после этого вы попадёте в удивительный мир HTML. Но! Вас переведут ровно к тому элементу, который вы ткнули. После этого, поводив по экрану, на котором подсвечиваются блоки, соответствующие тэгам, можно наиболее точно найти то, что вас интересует.

Новость выкачанной нами страницы, включая заголовок и картинку, находится в тэге \<div class="blog-lg-box"\>Содержимое\</div\>. Обратите внимание, в файле очень много тэгов 

Для извлечения можно использовать библиотеку BeautifulSoup, которую мы уже импортировали. 

In [None]:
#Просим модуль проанализировать наш файл
html_cher_soup = BeautifulSoup(html_cher, 'html.parser')

#Ищем
body_cher_soup = html_cher_soup.find("div", class_="media-body")

#Тэг — первая переменная, класс — вторая
#Если хотите найти несколько тэгов с одинаковыми классами, используйте find_all
#Они будут выданы в виде списка объектов BeautifulSoup — из каждого придётся
#извлекать текст

body_cher_soup

<div class="media-body">
<div class="blog-lg-box">
<a class="img-responsive" href="https://cher-is.com/izvestnaya-nejroset-sostavila-obrazy-cherepovtsa-i-vologdy/" title="Известная нейросеть составила образы Череповца и Вологды">
<img alt="" class="img-responsive wp-post-image" height="408" loading="lazy" sizes="(max-width: 264px) 100vw, 264px" src="https://cher-is.com/wp-content/uploads/2023/02/cherepovets.png" srcset="https://cher-is.com/wp-content/uploads/2023/02/cherepovets.png 264w, https://cher-is.com/wp-content/uploads/2023/02/cherepovets-194x300.png 194w" width="264"/>
</a></div>
<div class="blog-post-lg">
<a href="https://cher-is.com/author/admin/"><img alt="" class="img-responsive img-circle avatar-40 photo" height="40" loading="lazy" src="https://secure.gravatar.com/avatar/12d14aad72f86a5c2271b4922c91b55f?s=40&amp;d=mm&amp;r=g" srcset="https://secure.gravatar.com/avatar/12d14aad72f86a5c2271b4922c91b55f?s=80&amp;d=mm&amp;r=g 2x" width="40"/></a>
Автор:<a href="https://cher-is

Уже похоже на новость! Если теперь удалить все оставшиеся тэги, которые нас явно не интересуют, можно получить собственно текст.

In [None]:
cher_news = re.sub('<[^<]+?>', '', body_cher_soup.text).strip()

#Как это работает? Регулярное выражение заменяет все (практически все) тэги на
#пустую строку. Метод .strip() удаляет лишние переносы строк и подобное по краям
#новости
#Осторожно! Если вы занимаетесь чем-то серьёзным и работаете с потенциально 
#опасными сайтами, удалять тэги следует другим способом.

cher_news

'Автор:ЧИ\nMidjourney, нейросеть, Череповец\n\nИзвестная нейросеть составила образы Череповца и Вологды\nНейросеть Midjourney изобразила города России в образах, и получились герои для мрачных сказок.\nНа этот раз автор телеграм-канала «Нейросеть видит» сформировал запрос в Midjourney так, чтобы нейросеть показала российские города в человеческих обличьях. Например, две столицы, Москва и Санкт-Петербург, выглядят как модная пара. Девушка — в стильном кокошнике, а парень с уложенными бородой и усами.\nЧереповец изображён в виде монаха, а Вологда — знатной женщины.'

Чтобы избавиться от автора, названия картинки и остального, можно их удалить в полученном выше тексте или извлекать из текста новости только то, что содержится в тэгах \<p\>\</p\>.

In [None]:
cher_news_no_author = ''

#Приходится использовать цикл, потому что метод find_all выдаёт как результат
#не строки, а объекты модуля Beautiful Soup

for p in body_cher_soup.find_all("p"): 
  cher_news_no_author += p.text.strip() 

cher_news_no_author

'Нейросеть Midjourney изобразила города России в образах, и получились герои для мрачных сказок.На этот раз автор телеграм-канала «Нейросеть видит» сформировал запрос в Midjourney так, чтобы нейросеть показала российские города в человеческих обличьях. Например, две столицы, Москва и Санкт-Петербург, выглядят как модная пара. Девушка — в стильном кокошнике, а парень с уложенными бородой и усами.Череповец изображён в виде монаха, а Вологда — знатной женщины.'

## Задание

Выкачайте одну любую новость с сайта ИА Панорама. Найдите, где в HTML-файле находится текст и сохраните его в переменную.

In [None]:
#Впишите сюда код



## Одна новость — хорошо, но мало

Чтобы сделать корпус, выкачивания одной интернет-страницы, конечно, недостаточно. Хотелось бы выкачивать сразу много текстов — или в целом из Интернета, или хотя бы с одного сайта.

В целом, выкачать всю нужную информацию с сайта можно, найдя закономерность в том, как называются её страницы. Иногда это просто (например, каждая из новостей может быть просто пронумерована), иногда требуется больше изощрённости.

In [None]:
from datetime import datetime, timedelta
    
d = datetime.today() - timedelta(days=1)

In [None]:
date_list = [datetime.today() - timedelta(days=x) for x in range(1000)]

In [None]:
date_list = [f"{day.day}-{day.month}-{day.year}" for day in date_list]

In [None]:
date_list[:10]

['26-2-2023',
 '25-2-2023',
 '24-2-2023',
 '23-2-2023',
 '22-2-2023',
 '21-2-2023',
 '20-2-2023',
 '19-2-2023',
 '18-2-2023',
 '17-2-2023']

In [None]:
td = datetime.today()
f"{td.day}-{td.month}-{td.year}"

'26-2-2023'

In [None]:
dates = []
n = 1000
date_list = [datetime.today() - timedelta(days=x) for x in range(n)]
date_list = [f"{date.day}-{date.month}-{date.year}" for date in date_list]

In [None]:
date_list[-1]

'22-2-2023'

In [None]:
all_titles = []
all_dates = []
all_links = []
all_texts = []
for date in tqdm(date_list):
  page = f"https://panorama.pub/news/{date}"
  result = requests.get(page)
  html = result.text
  soup = BeautifulSoup(html)
  titles = soup.find_all('div', {'class': "pt-2 text-xl lg:text-lg xl:text-base text-center font-semibold"})
  titles = [x.text.strip() for x in titles]
  all_titles.extend(titles)
  all_dates.extend([date]*len(titles))
  links = soup.find_all('a', {'class': "flex flex-col rounded-md hover:text-secondary hover:bg-accent/[.1] mb-2"}, href=True)
  links = [f"https://panorama.pub{link['href']}" for link in links]
  all_links.extend(links)
  for link in links:
    result = requests.get(link)
    html = result.text
    soup = BeautifulSoup(html)
    page_text = soup.find('div', {'itemprop': "articleBody"})
    lines = [line.text for line in page_text.find_all('p')]
    all_texts.extend([' '.join(lines).replace('\xa0', "")])



  0%|          | 0/5 [00:00<?, ?it/s]

In [None]:
all_texts[0]

'Министерство просвещения напомнило, что с 2021 года учащимся в государственных школах запрещено красить волосы, использовать пирсинг и любые другие украшения. Для борьбы с этими явлениями решено отправить наиболее злостных нарушителей в летние военизированные лагеря отдыха в качестве наказания. Решение касается учеников и учениц, учащихися в 5-11 классах. Школам поручено составлять списки таких детей, которые затем будут переданы в ответственные органы для подготовки самих лагерей и транспорта. «Согласно инструкции, в списки попададут попадут только злостные нарушители – например, школьники с излишне женственными фигурами или школьницы, которые красят волосы в яркие цвета. Летом их отправят на отдых в заведения с физически-патриотическим уклоном, где из них сделают настоящих мужчин», – рассказал источник.'

In [None]:
len(all_titles) == len(all_dates)

True

## Слишком сложно?..

К счастью, нередко не нужно руками с нуля писать подобные программы для выкачки сайтов.

Некоторые сайты, в том числе крупные соцсети, сами умеют представлять данные в формате, удобном не для пользователя-человека, а для компьютера. Это анзывается API — см., например, [VK API](https://dev.vk.com/api/overview).

Кроме этого, есть большое количество готовых модулей или инстументов на основе Python. Универсальная, но достаточно сложная в использовании программа, которая скачивает сайты, самостоятельно переходя по ссылкам, которые находит на их странице (это называется Crawler), — [Scrapy](https://scrapy.org/).

Кроме этого, есть модули, которые "из коробки" умеют обкачивать определённые типы сайтов — в том числе новостные. Проще всего пользоваться модулем newscatcher — он не поддерживает Панараму, но умеет работать с большим количеством других сайтов.

In [None]:
#Небольшая часть из множества русскоязычных сайтов, с которыми работает newscatcher

newscatcher.urls(language = 'ru')[:15]

['yandex.ru',
 'ria.ru',
 'rbc.ru',
 'kommersant.ru',
 'kremlin.ru',
 'kp.ru',
 'rg.ru',
 'lenta.ru',
 'vedomosti.ru',
 'aif.ru',
 'mk.ru',
 'government.ru',
 'regnum.ru',
 'meduza.io',
 'newsru.com']

In [None]:
#Выкачиваем статьи — получаем особый объект модуля
lenta = newscatcher.Newscatcher('lenta.ru')

#Извлекаем из него собственно статьи
lenta_articles = lenta.get_news()['articles']

len(lenta_articles)

200

In [None]:
lenta_articles[0]

{'id': 'https://lenta.ru/news/2023/02/22/ofz/',
 'guidislink': True,
 'link': 'https://lenta.ru/news/2023/02/22/ofz/',
 'authors': [{'name': 'Платон Щукин'}],
 'author': 'Платон Щукин',
 'author_detail': {'name': 'Платон Щукин'},
 'title': 'Российский госдолг не смогли продать',
 'title_detail': {'type': 'text/plain',
  'language': None,
  'base': 'https://lenta.ru/rss/',
  'value': 'Российский госдолг не смогли продать'},
 'links': [{'rel': 'alternate',
   'type': 'text/html',
   'href': 'https://lenta.ru/news/2023/02/22/ofz/'},
  {'type': 'image/jpeg',
   'length': '40463',
   'href': 'https://icdn.lenta.ru/images/2023/02/22/16/20230222161750974/pic_f1a6c4c82335291eb1755dbd3ab3a9f3.jpg',
   'rel': 'enclosure'}],
 'summary': 'Министерство финансов признало несостоявшимся аукцион по размещению облигаций федерального займа (ОФЗ) с постоянным купонным доходом серии 26240 с погашением в июле 2036 года. Продать госдолг не смогли из-за отсутствия заявок по приемлемым ценам. В последний раз 

In [None]:
print(lenta_articles[0]['title'])
print(lenta_articles[0]['link'])

Российский госдолг не смогли продать
https://lenta.ru/news/2023/02/22/ofz/


## Задание

Выкачайте с помощью newscatcher несколько новостей с любого сайта и извлеките из них текст в отдельную переменную.

In [None]:
# Впишите сюда код