В этой тетрадке мы поговорим о способах собрать свой датасет для исследований: откуда брать данные, как их собирать и как хранить.

Достаточно часто, чтобы собрать данные, нужно что-то выкачать с сайта

Существует несколько библиотек(модулей) для работы с веб-страничками, сегодня мы будем использовать requests для доступа к веб-страничкам и Beautiful Soup для работы с содержимым html-документов

In [1]:
! pip3 install requests # импортируем модуль requests

ERROR: Invalid requirement: '#'


In [2]:
# импортируем модуль beautifulsoup, самая последняя версия - четвертая

! pip3 install beautifulsoup4 



In [3]:
# импортируем модули в тетрадку

import requests as rq

from bs4 import BeautifulSoup

## работаем с веб-страничками

Мы установили и импортировали модули, теперь можем приступать к работе

шаг 1. 

Создадим переменную ```url``` и сохраним в нее адрес какой-нибудь html-страницы

например, [сайта CNN](http://lite.cnn.io/en)

обратите внимание, что адрес прописываем в кавычках, как строку

In [36]:
url = 'https://www.theguardian.com/international'

В модуле requests есть метод request.get(), который сохраняет ответ сервера на наш реквест. Мы применим его к переменной url, куда сохранен путь к странице. 
Сохраним результат в переменную page

In [53]:
page = rq.get(url) #res/r/response

In [54]:
page # посмотрим на код ответа, если 200, все хорошо

<Response [200]>

In [55]:
? page

In [56]:
# статус-код можно вызвать, написав .status_code после page (без скобок, тк это атрибут, а не метод)

page.status_code

200

код 200 сообщает, что страница загружена успешно 
*(коды, начинающиеся с 2, обычно указывают на успешное выполнение операции, а коды, начинающиеся с 4 или 5, сообщают об ошибке)*

Узнать больше о кодах состояния HTTP  можно [по этой ссылке.](https://www.w3.org/Protocols/HTTP/1.1/draft-ietf-http-v11-spec-01#Status-Codes)

Следующим шагом нужно получить доступ к текстовому содержимому веб-файлов.

Здесь нам поможет page.text *(или page.content, чтобы получить значение в байтах)*

In [57]:
page.text

'\n<!DOCTYPE html>\n<html id="js-context" class="js-off is-not-modern id--signed-out" lang="en" data-page-path="/international">\n<head>\n<!--\n     __        __                      _     _      _\n     \\ \\      / /__    __ _ _ __ ___  | |__ (_)_ __(_)_ __   __ _\n      \\ \\ /\\ / / _ \\  / _` | \'__/ _ \\ | \'_ \\| | \'__| | \'_ \\ / _` |\n       \\ V  V /  __/ | (_| | | |  __/ | | | | | |  | | | | | (_| |\n        \\_/\\_/ \\___|  \\__,_|_|  \\___| |_| |_|_|_|  |_|_| |_|\\__, |\n                                                            |___/\n    Ever thought about joining us?\n    https://workforus.theguardian.com/careers/digital-development/\n     --->\n<title>News, sport and opinion from the Guardian\'s global edition | The Guardian</title>\n<meta charset="utf-8">\n<meta name="description" content="Latest international news, sport and comment from the Guardian"/>\n<meta http-equiv="X-UA-Compatible" content="IE=Edge"/>\n<meta name="format-detection" content="telephone=no"/>\n

Если мы знаем, что по ссылке находится не текст, а файл какого-то определенного формата (формат обычно видно в самой ссылке), можно сохранить его следующим образом

wb -- это режим записи в байтах

In [118]:
with open('tiger.jpg', 'wb') as fw: 
    fw.write(rq.get('https://upload.wikimedia.org/wikipedia/commons/1/17/Berlin_Tierpark_Friedrichsfelde_12-2015_img23_Siberian_tiger.jpg').content)

## работаем с текстом на страничке

Мы получили текст страницы (со всеми html-тегами), однако его неудобно прочитать в таком виде. 

Здесь нам понадобится Beautiful Soup, модуль для html-парсинга: он сделает текст веб-страницы, извлеченный с помощью Requests, более читаемым, потому что создает дерево синтаксического разбора из проанализированных HTML (или XML) документов.

In [87]:
soup = BeautifulSoup(page.text, 'html.parser') #сохраним результат в переменную soup

In [46]:
test_soup = BeautifulSoup('<greeting>hi!</greeting>', 'html.parser') 

In [47]:
test_soup

<greeting>hi!</greeting>

In [45]:
type(soup)

bs4.BeautifulSoup

In [59]:
print(soup.prettify()) # показывает нашу страницу в красивом виде

<!DOCTYPE html>
<html class="js-off is-not-modern id--signed-out" data-page-path="/international" id="js-context" lang="en">
 <head>
  <!--
     __        __                      _     _      _
     \ \      / /__    __ _ _ __ ___  | |__ (_)_ __(_)_ __   __ _
      \ \ /\ / / _ \  / _` | '__/ _ \ | '_ \| | '__| | '_ \ / _` |
       \ V  V /  __/ | (_| | | |  __/ | | | | | |  | | | | | (_| |
        \_/\_/ \___|  \__,_|_|  \___| |_| |_|_|_|  |_|_| |_|\__, |
                                                            |___/
    Ever thought about joining us?
    https://workforus.theguardian.com/careers/digital-development/
     --->
  <title>
   News, sport and opinion from the Guardian's global edition | The Guardian
  </title>
  <meta charset="utf-8"/>
  <meta content="Latest international news, sport and comment from the Guardian" name="description">
   <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
   <meta content="telephone=no" name="format-detection"/>
   <meta content="Tr

пробуем доставать всякие тэги 

In [64]:
for tag in soup.find_all('h2', tabindex='0'):
    print(tag.text)

Palette styles new do not delete
Headlines
trusted-news
Spotlight
Opinion
Contact the Guardian
Culture
Lifestyle
Explore
Take part


In [74]:
art_url = soup.find_all('a', {'data-link-name': 'article'})[0]['href']

In [78]:
res = rq.get(art_url)
res.encoding = 'utf-8'

In [83]:
res

<Response [200]>

In [80]:
soup = BeautifulSoup(res.text, 'html.parser')

In [86]:
print(soup.find('div', itemprop='articleBody').text)


Singapore reports no new local transmission of coronavirus today. 


Ministry of Health 
(@sporeMOH)
As of 19 Dec 2020, 12pm, we have preliminarily confirmed that there are no new cases of locally transmitted COVID-19 infection. https://t.co/bspeCcqCtX

December 19, 2020





In [91]:
for tag in soup.find_all('a', {'data-link-name': 'article'}):
    if tag.text.startswith('Wh'):
        print(tag.text)

What we know – and still don’t – about the worst-ever US government cyber attack
Why Haaland could be the reboot signing Guardiola needs
White House to 'stick with its pandemic plan of not having a plan'
Why are fish a sticking point in the Brexit talks?
What are your best tips for recovering from a hangover?


##работаем с тегами в тексте: 

предыдущие шаги позволили привести веб-страничку к виду, где содержание каждого тега написано с новой строки. 

Некоторые теги полезны для конкретной задачи (там текст), некоторые - не очень (например, мета-данные,картинки и тд)

Извлечь один тег со страницы можно с помощью метода find_all(). Он похож на метод регулярок, с которым мы работали: он вернет все экземпляры данного тега в документе. Нужно прописать в скобках метода нужный тег. 

Текст содержится в разделах с тегом \<p>

ссылки - в тегах \<a>

In [63]:
for tag in soup.find_all('h1'): 
    print(tag.text)
# попробуйте теги head, body, title, div 

News, sport and opinion from the Guardian's global edition
 Child's play and learning 


Результат метода .find_all() хранится в виде списка. 

Можно итерироваться элементам списка (например, первый элемент из всех с тегами \<h1>)

In [13]:
soup.find_all('h1')[1]

<h1 class="dumathoin__title"> <a class="adverts__logo u-text-hyphenate" data-component="Labs front container | INT | international | container-13 | Child's play and learning | The LEGO Foundation | card-0 | Child's play and learning" href="/childs-play-and-learning">Child's play and learning</a> </h1>

метод .get_text() позволит вытащить текст из элемента:

In [90]:
soup.find_all('h1')[1].get_text()

" Child's play and learning "

## полезные ссылки

[документация requests и быстрый гайд](https://requests.readthedocs.io/en/master/user/quickstart/)


[документация Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

[text-only](https://sjmulder.nl/en/textonly.html) веб-сайты, чтобы легко начать парсить



[здесь](https://www.york.ac.uk/teaching/cws/wws/webpage1.html) можно почитать про структуру html подробнее


а [здесь](https://www.w3schools.com/html/html_examples.asp) еще и потренироваться в режиме онлайн

## try-except

В блоке try мы выполняем инструкцию, которая может породить исключение, а в блоке except мы перехватываем их.



In [103]:
def divider():
    x = float(input('Введите число: '))
    try:
        1/x
        res = 1/x
        print('получается', res)
    except ZeroDivisionError:
        print("я не умею делить на 0 :( ")
        raise ZeroDivisionError('Ошибочка')

In [104]:
divider()

Введите число: 0
я не умею делить на 0 :( 


ZeroDivisionError: Ошибочка

In [105]:
import re

In [113]:
lst = ['(здрасте)', 'пока', 'привет)']
for reg in lst:
    try:
        print(re.compile(reg))
    except re.error:
        reg = '(' + reg
        print(re.compile(reg))

re.compile('(здрасте)')
re.compile('пока')
re.compile('(привет)')


In [114]:
lst = ['(здрасте)', 'пока', 'привет)']
for reg in lst:
    try:
        print(re.compile(reg))
    except re.error:
        continue

re.compile('(здрасте)')
re.compile('пока')


**типы эксепшонов:**

все можно почитать [тут](https://airbrake.io/blog/python-exception-handling/class-hierarchy):

BaseException - базовое исключение, от которого берут начало все остальные.

KeyboardInterrupt - порождается при прерывании программы пользователем (обычно сочетанием клавиш Ctrl+C).

StopIteration - порождается встроенной функцией next, если в итераторе больше нет элементов.

ArithmeticError - арифметическая ошибка.

* FloatingPointError - порождается при неудачном выполнении операции с плавающей запятой. На практике встречается нечасто.

* OverflowError - возникает, когда результат арифметической операции слишком велик для представления. Не появляется при обычной работе с целыми числами (так как python поддерживает длинные числа), но может возникать в некоторых других случаях.

* ZeroDivisionError - деление на ноль.

AttributeError - объект не имеет данного атрибута (значения или метода).

EOFError - функция наткнулась на конец файла и не смогла прочитать то, что хотела.

ImportError - не удалось импортирование модуля или его атрибута.

LookupError - некорректный индекс или ключ.

IndexError - индекс не входит в диапазон элементов.

KeyError - несуществующий ключ (в словаре, множестве или другом объекте).

MemoryError - недостаточно памяти.

NameError - не найдено переменной с таким именем.

UnboundLocalError - сделана ссылка на локальную переменную в функции, но переменная не определена ранее.

OSError - ошибка, связанная с системой.

FileExistsError - попытка создания файла или директории, которая уже существует.

FileNotFoundError - файл или директория не существует.

InterruptedError - системный вызов прерван входящим сигналом.

IsADirectoryError - ожидался файл, но это директория.

NotADirectoryError - ожидалась директория, но это файл.

PermissionError - не хватает прав доступа.

TimeoutError - закончилось время ожидания.

RuntimeError - возникает, когда исключение не попадает ни под одну из других категорий.

SyntaxError - синтаксическая ошибка.

IndentationError - неправильные отступы.

TabError - смешивание в отступах табуляции и пробелов.

SystemError - внутренняя ошибка.

TypeError - операция применена к объекту несоответствующего типа.

ValueError - функция получает аргумент правильного типа, но некорректного значения.

UnicodeError - ошибка, связанная с кодированием / раскодированием unicode в строках.

UnicodeEncodeError - исключение, связанное с кодированием unicode.

UnicodeDecodeError - исключение, связанное с декодированием unicode.

UnicodeTranslateError - исключение, связанное с переводом unicode.

Warning - предупреждение.

## пробуем парсить

### Задание

1. С помощью requests скачать исходный код страницы
2. С помощью bs4 извлечь заголовки статей
3. С помощью requests и bs4 извлечь тексты статей и не потерять их связь с заголовками
4. Создать словарь, где ключи — заголовки, а значения — тексты статей

In [148]:
headers_articles = {} # создаем пустой словарь, куда хотим сложить заголовки и статьи
url = 'http://lite.cnn.com/en' # сохраняем в переменную ссылку на страницу
r = rq.get(url) # с помощью requests получаем ответ сервера страницы и клдаем в переменную r
html = r.text # достаем из ответа сервера исходный код страниц и кладем в переменную html
soup = BeautifulSoup(html, 'html.parser') # скармливаем исходный код бьютифул супу
for tag in soup.find_all('a'): # итерируемся по всем тэгам a, потому что в них лежат заголовки и ссылки на тексты
    if 'article' in tag['href']: # проверяем, есть ли ссылках внутри этих тэгов строка article
        header = tag.text # сохраняем заголовок
        child_url = f'{url[:-3]}{tag["href"]}' # формируем url страницы с текстов из двух частей
        r = rq.get(child_url) # сохраняем ответ сервера на запрос к странице с текстом
        html = r.text # сохраняем исходный код страницы из ответа сервера
        child_soup = BeautifulSoup(html, 'html.parser') # делаем из него суп
        art_text = '\n'.join(tag.text for tag in soup_child.find_all('p')) # достаем все тэги p, 
                                                                           # из каждого достаем текст и все эти тексты
                                                                           # соединяем в один по переносу строки 
        headers_articles[header] = art_text # добавляем словарь текст статьи по заголовку в качестве ключа

In [149]:
len(headers_articles)

48

## способы парсить хитрее

1. Делать паузы случайной длительности между обращениями к серверу

In [34]:
import time
import random

In [None]:
time.sleep(random.randint(1, 4))

2. Притворяться перед сервером браузером

In [None]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'}

r = rq.get(url, headers=headers)

3. Притворяться перед сервером браузером еще более реалистично

In [120]:
import selenium

## подсказки по дз

In [0]:
# как получить список ссылок с главной страницы

links = [] # пустой список, будем сюда класть ссылки
souplist = soup.find_all('a', {'href' : True}) # находим элементы с этими параметрами, сохраняем в список
for elem in souplist: # для элемента списка
    links.append(elem['href']) # добавляем нужный атрибут(ссылку) в список для ссылок

In [0]:
# как проверить дату новости

import datetime as dt
import re

def get_today_date():
    today = dt.date.today()
    return today.strftime("%Y/%b/%d")


todayarticles = [] # складываем сюда ссылки на статьи за сегодня
for link in links: # для каждой статьи в links
    if re.search(get_today_date(), link) != None: # если указана дата
        todayarticles.append(link) # добавьте в список статей

In [None]:
# Скачаем статьи с https://www.theguardian.com/uk-news за сегодняшний день, за исключением Coronavirus live news (для соблюдения однородности формата):

In [224]:
import requests
from bs4 import BeautifulSoup as bs
import datetime as dt
import re
import os

In [225]:
url = "https://www.theguardian.com/uk-news"

In [226]:
def parse(url):
    req = requests.get(url)
    content = req.content
    soup = bs(content, 'html.parser')
    return soup

In [227]:
def get_link(soup):
    links = []
    souplist = soup.find_all('a', {'href' : True})
    for elem in souplist:
        links.append(elem['href'])
    return links

In [133]:
import datetime as dt
import re

def get_today_date():
    today = dt.date.today()
    return today.strftime("%Y/%b/%d")

def parse_link(links):
    todayarticles = []
    for link in links:
        if re.search(get_today_date(),link,re.I) != None:
            todayarticles.append(link)
    return set(todayarticles)

In [228]:
pagecontent = parse(url)
linkslist = get_link(pagecontent)
pagelist = parse_link(linkslist)

In [229]:
pagelist.remove('https://www.theguardian.com/world/live/2021/feb/14/coronavirus-live-victoria-calls-for-quarantine-rethink-venezuela-receives-sputnik-v-vaccine')

In [None]:
# Создадим функцию для очистки текста (уберем имена авторов, ненужные даты, сведения о последнем времени редактирования и т.д.)

In [408]:
def clean_text(text):
    text = text.replace('\xa0', '')
    text = re.sub(dt.date.today().strftime("%a %d %b %Y"), r'', text)
    text = re.sub(r'(\d\d.\d\d)(GMT\n\n)', r'', text)
    text = re.sub(r'(\n.+\n\n)', r'', text)
    text = re.sub(r'(• )(.+)', r'', text)
    text = text.replace('  ', ' ')
    text = re.sub(r'(Last modified on \d{2}.\d{2} GMT)', r'', text)
    text = re.sub(r'(\nLast modified on )', r'', text)
    text = re.sub(r'([A-Z][a-z]+ [A-Z][a-z]+\nLast modified on)', r'', text)
    text = re.sub(r'(First published on \d{2}.\d{2} GMT)', r'', text)
    text = re.sub(r'(\nFirst published on)', r'', text) 
    text = text.replace('[A-Z][a-z]+ [A-Z][a-z]+ \n\n', ' ')
    text = text.replace('\n\n', ' ')
    text = text.replace("   ", '')
    text = text.replace('consequences. ', 'consequences.').replace(" The health service", "The health service").replace(" My former colleague Lionel Fry,", "My former colleague Lionel Fry,").replace("wrong. ", "wrong.").replace(" My friend Byron Criddle,", "My friend Byron Criddle,").replace('mid- 30s', 'mid-30s').replace('“ Like me,', '“Like me,')
    text = re.sub('(?<=[a-z])(.)(?=[A-Z])', r'\1 ', text)
    text = text.replace("  ", " ")
    return text

In [400]:
# Запишем полученные данные в словарь, где ключами будут названия статей, а значениями - тексты.

In [409]:
def dicter_articles(pagelist):
    pagesoup = [parse(i) for i in pagelist]
    titles = [i.find("h1").get_text() for i in pagesoup]
    texts = [" ".join([elem.get_text() for elem in i.find_all("p")]) for i in pagesoup]
    titles = [i.replace('\n', '').replace('–\xa0video', '').replace("‘10-year view’ ", "‘10-year view’").replace("bring them up’ ", "bring them up’") for i in titles]
    texts = [clean_text(i) for i in texts]  
    headers_articles = dict(zip(titles, texts))
    return headers_articles

In [410]:
articles = dicter_articles(pagelist)

In [411]:
articles

 'Leave.EU donor Arron Banks loses data breach appeal': 'Tribunal ruling noted Brexit campaign and insurance company owned by its key backer had a ‘two-faced approach to regulation’ The Leave. EU campaign and the insurance company owned by the political group’s key financial backer, Arron Banks, have lost an appeal against £105,000 of fines for data protection violations in the wake of the EU referendum campaign. The companies were issued the fines two years ago, for including promotions for Banks’s GoSkippy insurance brand in emails to Leave. EU subscribers between August 2016 and February 2017. The Information Commissioner’s Office (ICO) had said then that the two organisations were closely linked, with “ineffective” systems for segregating the data of insurance customers from that of political subscribers. Leave. EU was also fined £15,000 for using Eldon Insurance customers’ details unlawfully to send out almost 300,000 political marketing messages, before the referendum. An initial

In [404]:
# Для удобства создадим датафрейм и сохраним его как excel файл: 

In [412]:
import pandas as pd

In [413]:
df = pd.DataFrame({'Title': articles.keys(),'Text': articles.values()})

In [414]:
df.to_excel('Articles.xlsx', encoding='utf-8', index=False)

In [None]:
# Также можно сохранить каждый текст в отдельный txt файл:

In [415]:
def write_to_txt(url, path):
    pagesoup = parse(url)
    title = pagesoup.find("h1").get_text()
    text = " ".join([i.get_text() for i in pagesoup.find_all("p")])
    title = title.replace('\n', '').replace('–\xa0video', '').replace('’ ', '’').replace("‘10-year view’ ", "‘10-year view’").replace("bring them up’ ", "bring them up’")
    text = clean_text(text)
    
    with open(path + os.sep + url.rsplit("/", 1)[1] + ".txt", "w+", encoding = "utf-8") as f:
        f.write(title + "\n" + text)        

In [416]:
path = "." + os.sep + dt.date.today().strftime("%Y%m%d")
try:
    os.mkdir(path)
except:
    pass
for link in pagelist:
    pagesoup = write_to_txt(link, path)