В этой тетрадке мы поговорим о способах собрать свой датасет для исследований: откуда брать данные, как их собирать и как хранить.

Достаточно часто, чтобы собрать данные, нужно что-то выкачать с сайта

Существует несколько библиотек(модулей) для работы с веб-страничками, сегодня мы будем использовать requests для доступа к веб-страничкам и Beautiful Soup для работы с содержимым html-документов

In [197]:
! pip3 install requests # импортируем модуль requests



In [199]:
# импортируем модуль beautifulsoup, самая последняя версия - четвертая

! pip3 install beautifulsoup4 



In [0]:
# импортируем модули в тетрадку

import requests as rq

from bs4 import BeautifulSoup

## работаем с веб-страничками

Мы установили и импортировали модули, теперь можем приступать к работе

шаг 1. 

Создадим переменную ```url``` и сохраним в нее адрес какой-нибудь html-страницы

например, [сайта CNN](http://lite.cnn.io/en)

обратите внимание, что адрес прописываем в кавычках, как строку

In [0]:
url = 'https://www.theguardian.com/international'

В модуле requests есть метод request.get(), который сохраняет ответ сервера на наш реквест. Мы применим его к переменной url, куда сохранен путь к странице. 
Сохраним результат в переменную page

In [0]:
page = rq.get(url)

In [146]:
page # посмотрим на код ответа, если 200, все хорошо

<Response [200]>

In [0]:
? page

In [88]:
# статус-код можно вызвать, написав .status_code после page (без скобок, тк это атрибут, а не метод)

page.status_code

200

код 200 сообщает, что страница загружена успешно 
*(коды, начинающиеся с 2, обычно указывают на успешное выполнение операции, а коды, начинающиеся с 4 или 5, сообщают об ошибке)*

Узнать больше о кодах состояния HTTP  можно [по этой ссылке.](https://www.w3.org/Protocols/HTTP/1.1/draft-ietf-http-v11-spec-01#Status-Codes)

Следующим шагом нужно получить доступ к текстовому содержимому веб-файлов.

Здесь нам поможет page.text *(или page.content, чтобы получить значение в байтах)*

In [0]:
# раскомментить эту ячейку
#page.text


## работаем с текстом на страничке

Мы получили текст страницы (со всеми html-тегами), однако его неудобно прочитать в таком виде. 

Здесь нам понадобится Beautiful Soup, модуль для html-парсинга: он сделает текст веб-страницы, извлеченный с помощью Requests, более читаемым, потому что создает дерево синтаксического разбора из проанализированных HTML (или XML) документов.

In [0]:
soup = BeautifulSoup(page.text, 'html.parser') #сохраним результат в переменную soup

In [0]:
#print(soup.prettify()) # показывает нашу страницу в красивом виде

##работаем с тегами в тексте: 

предыдущие шаги позволили привести веб-страничку к виду, где содержание каждого тега написано с новой строки. 

Некоторые теги полезны для конкретной задачи (там текст), некоторые - не очень (например, мета-данные,картинки и тд)

Извлечь один тег со страницы можно с помощью метода find_all(). Он похож на метод регулярок, с которым мы работали: он вернет все экземпляры данного тега в документе. Нужно прописать в скобках метода нужный тег. 

Текст содержится в разделах с тегом \<p>

ссылки - в тегах \<a>

In [192]:
soup.find_all('h1') 

# попробуйте теги head, body, title, div 

[<h1 class="u-h">News, sport and opinion from the Guardian's global edition</h1>,
 <h1 class="dumathoin__title"> <a class="adverts__logo u-text-hyphenate" data-component="Labs front container | US | international | container-12 | Improving lives through business innovation | Business Call To Action | card-0 | Improving lives through business innovation" href="/business-call-to-action-partnerzone">Improving lives through business innovation</a> </h1>]

Результат метода .find_all() хранится в виде списка. 

Можно итерироваться элементам списка (например, первый элемент из всех с тегами \<h1>)

In [193]:
soup.find_all('h1')[1]

<h1 class="dumathoin__title"> <a class="adverts__logo u-text-hyphenate" data-component="Labs front container | US | international | container-12 | Improving lives through business innovation | Business Call To Action | card-0 | Improving lives through business innovation" href="/business-call-to-action-partnerzone">Improving lives through business innovation</a> </h1>

метод .get_text() позволит вытащить текст из элемента:

In [191]:
soup.find_all('h1')[1].get_text()

' Improving lives through business innovation '

## полезные ссылки

[документация requests и быстрый гайд](https://requests.readthedocs.io/en/master/user/quickstart/)


[документация Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

[text-only](https://sjmulder.nl/en/textonly.html) веб-сайты, чтобы легко начать парсить



[здесь](https://www.york.ac.uk/teaching/cws/wws/webpage1.html) можно почитать про структуру html подробнее


а [здесь](https://www.w3schools.com/html/html_examples.asp) еще и потренироваться в режиме онлайн

## try-except

В блоке try мы выполняем инструкцию, которая может породить исключение, а в блоке except мы перехватываем их.



In [0]:
def divider():
    x = float(input('Введите число:'))
    try:
        1/x
    except Exception :
        print("я не умею делить на 0 :( ")
    res = 1/x
    print('получается', res)

In [0]:
divider()

**типы эксепшонов:**

все можно почитать [тут](https://airbrake.io/blog/python-exception-handling/class-hierarchy):

BaseException - базовое исключение, от которого берут начало все остальные.

KeyboardInterrupt - порождается при прерывании программы пользователем (обычно сочетанием клавиш Ctrl+C).

StopIteration - порождается встроенной функцией next, если в итераторе больше нет элементов.

ArithmeticError - арифметическая ошибка.

* FloatingPointError - порождается при неудачном выполнении операции с плавающей запятой. На практике встречается нечасто.

* OverflowError - возникает, когда результат арифметической операции слишком велик для представления. Не появляется при обычной работе с целыми числами (так как python поддерживает длинные числа), но может возникать в некоторых других случаях.

* ZeroDivisionError - деление на ноль.

AttributeError - объект не имеет данного атрибута (значения или метода).

EOFError - функция наткнулась на конец файла и не смогла прочитать то, что хотела.

ImportError - не удалось импортирование модуля или его атрибута.

LookupError - некорректный индекс или ключ.

IndexError - индекс не входит в диапазон элементов.

KeyError - несуществующий ключ (в словаре, множестве или другом объекте).

MemoryError - недостаточно памяти.

NameError - не найдено переменной с таким именем.

UnboundLocalError - сделана ссылка на локальную переменную в функции, но переменная не определена ранее.

OSError - ошибка, связанная с системой.

FileExistsError - попытка создания файла или директории, которая уже существует.

FileNotFoundError - файл или директория не существует.

InterruptedError - системный вызов прерван входящим сигналом.

IsADirectoryError - ожидался файл, но это директория.

NotADirectoryError - ожидалась директория, но это файл.

PermissionError - не хватает прав доступа.

TimeoutError - закончилось время ожидания.

RuntimeError - возникает, когда исключение не попадает ни под одну из других категорий.

SyntaxError - синтаксическая ошибка.

IndentationError - неправильные отступы.

TabError - смешивание в отступах табуляции и пробелов.

SystemError - внутренняя ошибка.

TypeError - операция применена к объекту несоответствующего типа.

ValueError - функция получает аргумент правильного типа, но некорректного значения.

UnicodeError - ошибка, связанная с кодированием / раскодированием unicode в строках.

UnicodeEncodeError - исключение, связанное с кодированием unicode.

UnicodeDecodeError - исключение, связанное с декодированием unicode.

UnicodeTranslateError - исключение, связанное с переводом unicode.

Warning - предупреждение.

## подсказки по дз

In [0]:
# как получить список ссылок с главной страницы

links = [] # пустой список, будем сюда класть ссылки
souplist = soup.find_all('a', {'href' : True}) # находим элементы с этими параметрами, сохраняем в список
for elem in souplist: # для элемента списка
    links.append(elem['href']) # добавляем нужный атрибут(ссылку) в список для ссылок

In [0]:
# как проверить дату новости

import datetime as dt
import re

def get_today_date():
    today = dt.date.today()
    return today.strftime("%Y/%b/%d")


todayarticles = [] # складываем сюда ссылки на статьи за сегодня
for link in links: # для каждой статьи в links
    if re.search(get_today_date(), link) != None: # если указана дата
        todayarticles.append(link) # добавьте в список статей
