# Сбор текстовых данных

Первый этап любой работы с данными - это их сбор. Тут возможны варианты в зависимости от ситуации и от глобальной задачи. Три общих подхода к сбору данных на Python:
1. скрейпинг, т.е. извлечение данных с веб-страниц
2. парсинг данных по API
3. использование уже написанных библиотек
4. сбор собственного корпуса вручную

Мы рассмотрим пункты 1, 2 и 3.

## Библиотеки Python для веб-скрейпинга

### urllib



> Библиотека `urllib` позволяет извлекать текст с html-страницы. Рассмотрим простой пример: выгрузим новость с сайта Гринписа вот по этой ссылочке - https://greenpeace.ru/news/2021/01/14/vlasti-francii-otvetjat-v-sude-za-klimaticheskoe-bezdejstvie/.



In [None]:
url1 = "https://greenpeace.ru/news/2021/01/14/vlasti-francii-otvetjat-v-sude-za-klimaticheskoe-bezdejstvie/"

In [None]:
from urllib.request import urlopen

In [None]:
with urlopen(url1) as response:
    for line in response:
        print(line)

b'<!DOCTYPE html>\n'
b'<html class="color-scheme-base_light" data-layout="row" lang="ru">\n'
b'    <head>\n'
b'\n'
b'        <meta charset="UTF-8">\n'
b'\t\t<meta name="theme-color" content="#66\xd1\x81\xd1\x8100"/>\n'
b'        <meta name="viewport" content="width=device-width, initial-scale=1.0">\n'
b'        <link rel="profile" href="http://gmpg.org/xfn/11">\n'
b'\t\t<meta name="googlebot" content="all">\n'
b'\t\t<meta name="googlebot-news" content="all">\n'
b'\t\t<meta name="google-site-verification" content="d_z0H5IUA8Tqd-n6Ml983KPwdvYqEVGlpnbStVrgaCY" />\n'
b'\t\t<link rel="alternate" href="https://greenpeace.ru" hreflang="ru-ru" />\n'
b'\t<meta property="og:image" content=""/>\n'
b'\t<meta property="og:title" content="\xd0\x92\xd0\xbb\xd0\xb0\xd1\x81\xd1\x82\xd0\xb8 \xd0\xa4\xd1\x80\xd0\xb0\xd0\xbd\xd1\x86\xd0\xb8\xd0\xb8 \xd0\xbe\xd1\x82\xd0\xb2\xd0\xb5\xd1\x82\xd1\x8f\xd1\x82 \xd0\xb2 \xd1\x81\xd1\x83\xd0\xb4\xd0\xb5 \xd0\xb7\xd0\xb0 \xd0\xba\xd0\xbb\xd0\xb8\xd0\xbc\xd0\xb0\xd

Мы извлекли исходный html-код страницы, но прочитать это совершенно невозможно. Нужно декодировать текст.

In [None]:
with urlopen(url1) as response:
    for line in response:
        line = line.decode("utf-8")
        print(line)

<!DOCTYPE html>

<html class="color-scheme-base_light" data-layout="row" lang="ru">

    <head>



        <meta charset="UTF-8">

		<meta name="theme-color" content="#66сс00"/>

        <meta name="viewport" content="width=device-width, initial-scale=1.0">

        <link rel="profile" href="http://gmpg.org/xfn/11">

		<meta name="googlebot" content="all">

		<meta name="googlebot-news" content="all">

		<meta name="google-site-verification" content="d_z0H5IUA8Tqd-n6Ml983KPwdvYqEVGlpnbStVrgaCY" />

		<link rel="alternate" href="https://greenpeace.ru" hreflang="ru-ru" />

	<meta property="og:image" content=""/>

	<meta property="og:title" content="Власти Франции ответят в суде за климатическое бездействие"/>

	<meta property="og:description"	content="Сегодня состоялось слушание дела. Требование поддержало более двух миллионов французов." />





        <title>Власти Франции ответят в суде за климатическое бездействие</title>

<link rel='dns-prefetch' href='//fonts.googleapis.com' />

<

Отфильтруем нужный текст.

In [None]:
with urlopen(url1) as response:
    for line in response:
        line = line.decode("utf-8")
        if "</h2>" in line and "Другие новости" not in line:
            line = line.replace('</h2>', '').strip()
            print(f"Title: {line}")
        if '<p><span style="font-weight: 400;">' in line:
            templates = ('<span style="font-weight: 400;">', "</span>", "<p>", "</p>")
            for template in templates:
                if template in line:
                    line = line.replace(template, '').strip()
            print(line)

Title: Власти Франции ответят в суде за климатическое бездействие
Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.&nbsp;
Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по клима

Обо всех возможностях библиотеки `urllib` и примерах можно почитать в [документации](https://docs.python.org/3/library/urllib.request.html#module-urllib.request).

### beautifulsoup4


> beautifulsoup4 тоже собирает данные по адресу странички, но позволяет сделать это чисто и красиво значительно проще. Посмотрим на том же примере с новостью Гринписа.



In [None]:
from bs4 import BeautifulSoup as bs
import requests

In [None]:
page = requests.get(url1)
soup = bs(page.text, "html.parser")
soup

<!DOCTYPE html>

<html class="color-scheme-base_light" data-layout="row" lang="ru">
<head>
<meta charset="utf-8"/>
<meta content="#66сс00" name="theme-color">
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<link href="http://gmpg.org/xfn/11" rel="profile"/>
<meta content="all" name="googlebot"/>
<meta content="all" name="googlebot-news"/>
<meta content="d_z0H5IUA8Tqd-n6Ml983KPwdvYqEVGlpnbStVrgaCY" name="google-site-verification">
<link href="https://greenpeace.ru" hreflang="ru-ru" rel="alternate">
<meta content="" property="og:image">
<meta content="Власти Франции ответят в суде за климатическое бездействие" property="og:title">
<meta content="Сегодня состоялось слушание дела. Требование поддержало более двух миллионов французов." property="og:description"/>
<title>Власти Франции ответят в суде за климатическое бездействие</title>
<link href="//fonts.googleapis.com" rel="dns-prefetch"/>
<link href="//s.w.org" rel="dns-prefetch"/>
<link href="https://greenpeace.

In [None]:
title = soup.find("h2", {"class": "padding-top-30 padding-bottom-10 site-typeface-title typo-size-xlarge post-title"})
print(f"Title: {title.text.strip()}")

Title: Власти Франции ответят в суде за климатическое бездействие


In [None]:
paragraphs_soup = soup.findAll("span", {"style": "font-weight: 400;"})
paragraphs_soup

[<span style="font-weight: 400;">Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель. </span>,
 <span style="font-weight: 400;">Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по кл

In [None]:
content = "".join([item.text.strip() for item in paragraphs_soup])
print(f"Content: {content}")

Content: Greenpeace Франции совместно с другими НКО (Notre Affaire à Tous, Фонд Николя Юло и Oxfam France) требуют от властей возместить ущерб, причинённый гражданам страны из-за политики в области экологии и начать активные действия в рамках предыдущих соглашений. Соответствующий иск подали ещё два года назад из-за бездействия государства в решении проблемы климатического кризиса. Сегодня состоялось слушание дела в суде Парижа, решение по которому будет вынесено в течение двух недель.Хотя климатический кризис остаётся одной из главных проблем для французов (в 2020 году были побиты новые температурные рекорды), государство продолжает откладывать принятие необходимых мер. Выбросы парниковых газов в течение последних пяти лет продолжали снижаться вдвое медленнее, чем показатели, предусмотренные законом. В декабре прошлого года Высший совет по климату (независимый орган, созданный в 2018 году и состоящий из экспертов по климату) проанализировал, что две трети плана стимулирования не работ

Для более сложных случаев `bs4` имеет массу полезных методов, о которых при необходимости можно прочитать в [документации с примерами](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

## Сбор данных по API

### VKApi

Для работы с данными из ВКонтакте необходимо получить токен доступа, зарегистрировав свое приложение, а именно:
1. заходим на страничку [VK Developers](https://vk.com/dev) и переходим во вкладку "Мои приложения"
2. создаем новое приложение, тип - "Standalone-приложение"
3. даем приложению название
4. в меню слева переходим в "Настройки" и сохраняем себе ID приложения
5. важно не забыть подключить приложение
6. самый простой способ получить токен - вставить в адресную строку браузера ссылку: https://oauth.vk.com/authorize?client_id=YourClientID&scope=ads&response_type=token, но вместо **YourClientID** нужно поставить тот ID приложения, который мы сохранили в пункте 4
7. сслыка перекинет на новую страницу, где ВК запросит доступ к данным, а затем еще на одну с предупреждением о том, что нельзя копировать полученный токен куда попало. На этой странице из адресной строки нужно скопировать то, что написано после `access_token=`. Это и есть токен доступа

Рассмотрим случаи, когда мы хотим собрать записи со стены сообщества и комментарии к записям.


> Сбор записей со стены сообщества.



In [None]:
vk_config = {"token": "358fa8b448019eb08b22d46fad543e6a48cd1cb69f1288f84b4efb5664c43330f36287bb7964030c40889",
             "client_id": "7714974",
             "version": "5.124",
             "domain": "https://api.vk.com/method/"}

In [None]:
req = requests.get(vk_config["domain"] + "wall.get", params={"access_token": vk_config["token"],
                                                             "v": vk_config["version"],
                                                             "account_id": vk_config["client_id"],
                                                             "domain": "greenpeace_ru",
                                                             "count": 10})

In [None]:
data = req.json()["response"]["items"]
for item in data:
    print(item["text"], "-------------", sep="\n")

KeyError: ignored



> Сбор комментариев к записям сообщества.



In [None]:
for item in data:
    print(item["text"])
    coms_req = requests.get(vk_config["domain"] + "wall.getComments",
                            params={"access_token": vk_config["token"],
                                    "v": vk_config["version"],
                                    "account_id": vk_config["client_id"],
                                    "owner_id": -66871,
                                    "post_id": item["id"],
                                    "sort": "asc",
                                    "count": 15})
    comms_data = coms_req.json()["response"]["items"]
    print("COMMENTS", "-------------", sep="\n")
    if comms_data:
        for comment in comms_data:
            print(comment["text"], "-------------", sep="\n")

Запишем собранные записи и комментарии в json-файл.

In [None]:
import json

In [None]:
posts_data = {}
for i in range(len(data)):
    print(data[i]["text"])
    comment_data = {}
    coms_req = requests.get(vk_config["domain"] + "wall.getComments",
                            params={"access_token": vk_config["token"],
                                    "v": vk_config["version"],
                                    "account_id": vk_config["client_id"],
                                    "owner_id": -66871,
                                    "post_id": data[i]["id"],
                                    "sort": "asc"})
    comms_data = coms_req.json()["response"]["items"]
    print("COMMENTS", "-------------", sep="\n")
    if comms_data:
        for c in range(len(comms_data)):
            print(comms_data[c]["text"], "-------------", sep="\n")
            comment_data[c] = {"comment_text": comms_data[c]["text"]}
    posts_data[i] = {"post_text": data[i]["text"],
                     "comment_num": len(comment_data),
                     "comments": comment_data}


with open("greenpeaceVK5.json", "w") as f:
    json.dump(posts_data, f, ensure_ascii=False)

VKApi обладает гораздо большим набором методов, при необходимости всегда можно воспользоваться подробной [документацией](https://vk.com/dev/api_requests) по любому из методов.

## Библиотеки для сбора данных с конкретных ресурсов

### wikipedia-API

> Разумеется, с Википедии можно собрать данные обычным скрейпингом, например, с помощью `bs4`, но можно сделать это куда проще, воспользовавшись уже придуманной для нашей цели библиотекой.

Посмотрим, что можно собрать из Википедии по Гринпису.


In [None]:
!pip install wikipedia-api

Collecting wikipedia-api
  Downloading https://files.pythonhosted.org/packages/ef/3d/289963bbf51f8d00cdf7483cdc2baee25ba877e8b4eb72157c47211e3b57/Wikipedia-API-0.5.4.tar.gz
Building wheels for collected packages: wikipedia-api
  Building wheel for wikipedia-api (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia-api: filename=Wikipedia_API-0.5.4-cp36-none-any.whl size=13462 sha256=99b896b7f92c8bd28312876760b9559a21de7e288683a19183592796f711aaa0
  Stored in directory: /root/.cache/pip/wheels/bf/40/42/ba1d497f3712281b659dd65b566fc868035c859239571a725a
Successfully built wikipedia-api
Installing collected packages: wikipedia-api
Successfully installed wikipedia-api-0.5.4


In [None]:
import wikipediaapi as wikiapi

In [None]:
wiki = wikiapi.Wikipedia("ru")
page = wiki.page("Гринпис")
if page.exists():
    print(page.title, page.text, sep="\n")

Гринпис
«Гринпи́с» (англ. Greenpeace — «зелёный мир») — международная независимая неправительственная экологическая организация, созданная в 1971 году в Канаде.
В поле зрения организации находятся такие проблемы, как глобальное изменение климата, сокращение площади лесов от тропиков до Арктики и Антарктики, чрезмерный вылов рыбы, коммерческий китобойный промысел, радиационная опасность, развитие возобновляемых источников энергии (ВИЭ) и ресурсосбережение, загрязнение окружающей среды опасными химическими веществами, устойчивое сельское хозяйство, сохранение Арктики.
В соответствии с годовым отчётом за 2015 год, у «Гринпис» более 42 000 000 онлайн-сторонников по всему миру, 36 000 активных волонтёров и 3 300 000 человек поддерживают работу организации личными пожертвованиями.

Организационная структура
Национальные и региональные организации (НРО) работают самостоятельно, руководствуясь общими принципами и миссией «Гринпис».
Для координации международной работы, в 80-х годах национальны

In [None]:
if page.exists():
    print(page.summary, sep="\n")

«Гринпи́с» (англ. Greenpeace — «зелёный мир») — международная независимая неправительственная экологическая организация, созданная в 1971 году в Канаде.
В поле зрения организации находятся такие проблемы, как глобальное изменение климата, сокращение площади лесов от тропиков до Арктики и Антарктики, чрезмерный вылов рыбы, коммерческий китобойный промысел, радиационная опасность, развитие возобновляемых источников энергии (ВИЭ) и ресурсосбережение, загрязнение окружающей среды опасными химическими веществами, устойчивое сельское хозяйство, сохранение Арктики.
В соответствии с годовым отчётом за 2015 год, у «Гринпис» более 42 000 000 онлайн-сторонников по всему миру, 36 000 активных волонтёров и 3 300 000 человек поддерживают работу организации личными пожертвованиями.


Но нам нужен только значащий текст, т.е. "См.также" и далее в конце хотелось бы исключить. Для этого можно просмотреть всю страничку по секциям.

In [None]:
def extra_index(sections, first_extra):
  for i in range(len(sections)):
    if first_extra in str(sections[i]):
      return i
  return None

In [None]:
extra = "См. также"
page_sections = page.sections
text = "".join([section.text for section in page_sections[:extra_index(page_sections, extra)]])
text

'Национальные и региональные организации (НРО) работают самостоятельно, руководствуясь общими принципами и миссией «Гринпис».\nДля координации международной работы, в 80-х годах национальные организации создали Гринпис Интернэшнл (Амстердам, Нидерланды), во главе которого стоит Общее собрание членов (General Assembly), включающее в себя представителей всех правлений национальных и региональных организаций Гринпис, которое собирается один раз в год и выбирает Правление «Гринпис Интернэшнл».\nВ 2016 году были выбраны два исполнительных директора Bunny McDiarmid и Jennifer Morgan. Председатель международного совета директоров организации —Ана Тони (с 2011 года).В конце 1960-х годов у США были планы на подземные ядерные испытания в тектонически неустойчивом районе близ острова Амчитка в Аляске. Из-за землетрясения 1964 на Аляске эти планы вызывали обеспокоенность повторения землетрясения или даже возможность вызвать цунами. Противники ядерных испытаний проводили протесты на границе США и К

Также можно вытащить все ссылки со странички, если хочется прямо из текста статьи перейти близкую по теме статью.

In [None]:
links = page.links
for title in sorted(links.keys()):
    print(links[title])

1989 год (id: ??, ns: 0)
1990 год (id: ??, ns: 0)
1995 год (id: ??, ns: 0)
2001 год (id: ??, ns: 0)
2004 год (id: ??, ns: 0)
Arctic Sunrise (id: ??, ns: 0)
Brent Spar (id: ??, ns: 0)
British Petroleum (id: ??, ns: 0)
Cairn Energy (id: ??, ns: 0)
Dorothy Stowe (id: ??, ns: 0)
Eurythmics (id: ??, ns: 0)
ExxonMobil (id: ??, ns: 0)
Facebook (id: ??, ns: 0)
Gemeinsame Normdatei (id: ??, ns: 0)
Greenpeace (значения) (id: ??, ns: 0)
Greenpeace Breakthrough (id: ??, ns: 0)
INXS (id: ??, ns: 0)
IPhone (id: ??, ns: 0)
Irving Stowe (id: ??, ns: 0)
Jim Bohlen (id: ??, ns: 0)
Microsoft Academic (id: ??, ns: 0)
OSPAR (id: ??, ns: 0)
R.E.M. (id: ??, ns: 0)
Rainbow Warrior (id: ??, ns: 0)
Restriction of Hazardous Substances Directive (id: ??, ns: 0)
Royal Dutch Shell (id: ??, ns: 0)
Sade (id: ??, ns: 0)
U2 (id: ??, ns: 0)
VIAF (id: ??, ns: 0)
WorldCat (id: ??, ns: 0)
YouTube (id: ??, ns: 0)
АК-74 (id: ??, ns: 0)
Австралия (id: ??, ns: 0)
Австрия (id: ??, ns: 0)
Актиноиды в природе (id: ??, ns: 0)
Альт

Помимо перечисленного, можно также собирать информацию о категориях или прямые ссылки на статьи. Документацию библиотеки с дополнительными примерами можно найти [тут](https://wikipedia-api.readthedocs.io/en/latest/wikipediaapi/api.html) и [тут](https://pypi.org/project/Wikipedia-API/). 