# Python и интернет. Модуль requests

**План**:

1. Запросы
2. Requests
4. bs4
5. Задание на семинар

## Как выкачать интернет
Современный Интернет предоставляет лингвистам большое количество языковых данных: электронные газеты и журналы, блоги, форумы, социальные сети и т.д. Например, можно найти в сети много-много текстов и собрать корпус, или найти все газетные статьи и блог-посты про какую-нибудь корпорацию и проанализировать тональность сообщений. Сейчас мы научимся заниматься выкачиванием страниц из интернета с помощью Python.

Для скачивания HTML-страниц в питоне есть несколько библиотек **urllib** и **requests**

## Requests

Можно почитать еще [тут](https://realpython.com/python-requests/)


Допустим, мы хотим скачать главную страницу Хабрахабра.

На самом деле, когда мы хотим открыть какую-то страницу в интернете, наш браузер отправляет на сервер **запрос** ("Привет, сервер! я хочу код страницы по вот такому адресу!"), а сервер затем отправляет ответ ("Привет! Вот код страницы: ...").
Чтобы получить страницу через питон, нужно сформировать **запрос** на сервер так же, как это делает браузер:

In [None]:
import requests

In [None]:
response = requests.get("https://habr.com/ru/")

В response теперь лежит отет сервера. Это не прост html-код страницы, а еще дополнительная информация. Если мы просто выведем этот response, нам покажется только код (200 - все ок).

In [None]:
response

<Response [200]>

In [None]:
response.status_code

200

А вот в атрибуте text уже лежит html-код

In [None]:
print(response.text[:700])

<!DOCTYPE html>
<html lang="ru">

  <head>
    <title>Публикации &#x2F; Моя лента &#x2F; Хабр</title>
<link rel="image_src" href="/img/habr_ru.png" data-hid="2a79c45">
<link href="https://habr.com/ru/feed/" rel="canonical" data-hid="e3fa780">
<meta itemprop="image" content="/img/habr_ru.png">
<meta property="og:image" content="/img/habr_ru.png">
<meta property="og:image:width" content="1200">
<meta property="og:image:height" content="630">
<meta property="aiturec:image" content="/img/habr_ru.png">
<meta name="twitter:image" content="/img/habr_ru.png">
<meta property="vk:image" content="/img/habr_ru.png?format=vk">
<meta property="fb:app_id" content="444736788986613">
<meta property="fb:pages


Иногда сайт блокирует запросы, если их посылает не настоящий браузер с пользователем, а какой-то бот (например, так делает Гугл или Википедия). Иногда сайты присылают разные версии страниц, разным браузерам.  
По этим причинам полезно бывает писать скрипт, который умеет притворяться то одним, то другим браузером.
Когда мы пытаемся получить страницу в питоне, наш код по умолчанию честно сообщает серверу, что он является программой на питоне. Он говорит что-то вроде "Привет, я Python-urllib/3.5".
Но можно, например, представиться Мозиллой:

In [None]:
url = 'https://habr.com/ru/'  # адрес страницы, которую мы хотим скачать
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'  # хотим притворяться браузером

response = requests.get("https://habr.com/ru/", headers={'User-Agent':user_agent})

Или использовать специальную библиотеку

In [None]:
!pip install fake_useragent

Collecting fake_useragent
  Downloading fake_useragent-1.5.1-py3-none-any.whl.metadata (15 kB)
Downloading fake_useragent-1.5.1-py3-none-any.whl (17 kB)
Installing collected packages: fake_useragent
Successfully installed fake_useragent-1.5.1


In [None]:
from fake_useragent import UserAgent

In [None]:
user_agent = UserAgent().chrome
user_agent

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'

In [None]:
response = requests.get("https://habr.com/ru/", headers={'User-Agent':user_agent})

Можно посмотреть, что еще можно достать из response.

Функция ```dir``` выдает список методов и параметров объекта.

In [None]:
[i for i in dir(response) if not i.startswith("_")]

['apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

Кодировка

In [None]:
response.encoding

'utf-8'

Заголовки (техническая информация)

In [None]:
dict(response.headers)

{'Server': 'QRATOR',
 'Date': 'Fri, 01 Nov 2024 08:03:31 GMT',
 'Content-Type': 'text/html; charset=utf-8',
 'Transfer-Encoding': 'chunked',
 'Connection': 'keep-alive',
 'Keep-Alive': 'timeout=15',
 'Vary': 'Accept-Encoding, Accept-Encoding',
 'X-DNS-Prefetch-Control': 'off',
 'X-Frame-Options': 'SAMEORIGIN',
 'X-Download-Options': 'noopen',
 'X-Content-Type-Options': 'nosniff',
 'X-XSS-Protection': '1; mode=block',
 'ETag': 'W/"52253-Qcyh/R8vkago0B+RF/QZmhR/0og"',
 'Strict-Transport-Security': 'max-age=31536000; includeSubDomains',
 'X-Request-Id': '4162a44a6a794eaf4b5da4734257fb95',
 'X-Request-Geoip-Country-Code': 'US',
 'X-Request-Detected-Device': 'desktop',
 'Content-Encoding': 'gzip'}

Адрес запроса

In [None]:
response.url

'https://habr.com/ru/feed/'

In [None]:
print(response.text[:300])

<!DOCTYPE html>
<html lang="ru">

  <head>
    <title>Публикации &#x2F; Моя лента &#x2F; Хабр</title>
<link rel="image_src" href="/img/habr_ru.png" data-hid="2a79c45">
<link href="https://habr.com/ru/feed/" rel="canonical" data-hid="e3fa780">
<meta itemprop="image" content="/img/habr_ru.png">
<meta 


Ура, всё на месте!

Но что всё это значит? Что такое html и как вообще из него доставать какую-то информацию?

Ответ: по **тегам**! Например, в куске html сверху есть теги `<title> </title>` (теги всегда обрамляют с двух сторон то, что находится под этим тегом). В `<title>` в данном случае лежит заголовок этой интернет-страницы.

Существует несколько вариантов, как достать что-то из определенного тега, например, достать заголовок:

1. регулярные выражения ([плохой вариант](https://stackoverflow.com/questions/590747/using-regular-expressions-to-parse-html-why-not))
2. специальные библиотеки питона, например, BeautifulSoup (bs4) или lxml (хороший вариант)

## BeautifulSoup

Код страницы парсится как иерархия тегов (как они есть в html коде, один вложен в другой) и можно искать элементы с помощью разных методов, использовать атрибуты и т.д.

In [None]:
from bs4 import BeautifulSoup

Сначала инициализируем объект BeautifulSoup. Потом применим метод find и в скобочках укажем теги, по которым ищем. У некоторых тегов в html (как и в нашем случае) бывает еще и class и какие-нибудь еще атрибуты. Такие вещи мы задаем словариком.

Этот запрос вернёт нам только первый заголовок. То есть первое вхождение такого тега в нашем html файле.

In [None]:
soup = BeautifulSoup(response.text, 'html.parser')  # инициализируем (создаем) soup

post = soup.find('h2', {'class': 'tm-title tm-title_h2'})
print(post.get_text(), end="\n\n\n")
print(post.prettify())

Я сдал пилотный экзамен Yandex Cloud Security Speciality, чтобы вам не пришлось


<h2 class="tm-title tm-title_h2" data-test-id="articleTitle">
 <!--[-->
 <a class="tm-title__link" data-article-link="true" data-test-id="article-snippet-title-link" href="/ru/companies/swordfish_security/articles/854712/">
  <span>
   Я сдал пилотный экзамен Yandex Cloud Security Speciality, чтобы вам не пришлось
  </span>
 </a>
 <!--]-->
</h2>



Но мы хотим получить все заголовки постов! Метод find_all возвращает массив всех элементов с тегом указанным в скобках. По нему можно итерироваться.

In [None]:
for post in soup.find_all('h2', {'class': 'tm-title tm-title_h2'})[:3]:
    print(post.get_text())
    print(post.prettify())

    print('-- '*10)  # для красоты

Я сдал пилотный экзамен Yandex Cloud Security Speciality, чтобы вам не пришлось
<h2 class="tm-title tm-title_h2" data-test-id="articleTitle">
 <!--[-->
 <a class="tm-title__link" data-article-link="true" data-test-id="article-snippet-title-link" href="/ru/companies/swordfish_security/articles/854712/">
  <span>
   Я сдал пилотный экзамен Yandex Cloud Security Speciality, чтобы вам не пришлось
  </span>
 </a>
 <!--]-->
</h2>

-- -- -- -- -- -- -- -- -- -- 
Scala Digest. Выпуск 22
<h2 class="tm-title tm-title_h2" data-test-id="articleTitle">
 <!--[-->
 <a class="tm-title__link" data-article-link="true" data-test-id="article-snippet-title-link" href="/ru/companies/tbank/articles/855240/">
  <span>
   Scala Digest. Выпуск 22
  </span>
 </a>
 <!--]-->
</h2>

-- -- -- -- -- -- -- -- -- -- 
Microsoft отложила выпуск Windows Recall до декабря
<h2 class="tm-title tm-title_h2" data-test-id="articleTitle">
 <!--[-->
 <a class="tm-title__link" data-article-link="true" data-test-id="article-snippet

## Задание на семинар 1

А что если мы хотим зайти еще глубже по дереву тегов и, например, для каждого заголовка поста найти никнейм юзера, который написал этот пост, и время написания поста?

Для этого надо снова зайти в просмотор кода страницы и увидеть, что там просиходит что-то такое:

(Заодно обратите внимание, как пишутся комменты в html)

```
<article class="tm-articles-list__item" data-navigatable="" id="771476" tabindex="0">
 <div class="tm-article-snippet tm-article-snippet">
  <div class="tm-article-snippet__meta-container">
   <div class="tm-article-snippet__meta">
    <span class="tm-user-info tm-article-snippet__author">
     <a class="tm-user-info__userpic" href="/ru/users/darinka666/" title="darinka666">
      <div class="tm-entity-image">
       <img alt="" class="tm-entity-image__pic" height="24" src="https://assets.habr.com/habr-web/img/avatars/093.png" width="24"/>
      </div>
     </a>
     <span class="tm-user-info__user tm-user-info__user_appearance-default">
      <a class="tm-user-info__username" href="/ru/users/darinka666/">
       darinka666
       <!-- -->
      </a>
      <span class="tm-article-datetime-published">
       <time datetime="2023-11-02T09:22:25.000Z" title="2023-11-02, 12:22">
        11 минут назад
       </time>
      </span>
     </span>
    </span>
   </div>
   <!-- -->
  </div>
  <h2 class="tm-title tm-title_h2">
   <a class="tm-title__link" data-article-link="true" data-test-id="article-snippet-title-link" href="/ru/companies/mts_ai/articles/771476/">
    <span>
     Обзор Llemma: новая математическая open-source модель
    </span>
   </a>
  </h2>
  <div class="tm-article-snippet__stats">
   <div class="tm-article-complexity tm-article-complexity_complexity-medium">
    <span class="tm-svg-icon__wrapper tm-article-complexity__icon">
     <svg class="tm-svg-img tm-svg-icon" height="24" width="24">
      <title>
       Уровень сложности
      </title>
      <use xlink:href="/img/megazord-v28.2fb1b1c1..svg#complexity-medium">
      </use>
     </svg>
    </span>
    <span class="tm-article-complexity__label">
     Средний
    </span>
   </div>
```
(и так далее; часть вывода обрезана: обратите внимание, нет закрывающего тега `</article>`)

In [None]:
for post in soup.find_all("article")[:3]:
    print("TEXT:")
    print(post.get_text()[:1000])
    print('-- '*10)
    print("HTML:")
    print(post.prettify()[:2000])

    print('-- '*10)
    print('-- '*10)
    print('-- '*10)

TEXT:
Статья2010wdn 1 минуту назадЯ сдал пилотный экзамен Yandex Cloud Security Speciality, чтобы вам не пришлосьУровень сложностиПростойВремя на прочтение7 минКоличество просмотров10Блог компании Swordfish SecurityИнформационная безопасность*ОбзорПривет! На связи Влад Павловский, DevSecOps инженер компании Swordfish Security. В данной заметке хотел бы поделиться с вами опытом прохождения сертификации Yandex Cloud Security Speciality, который был запущен в октябре и так получилось, что у меня получилось пройти пилотный экзамен по приглашению команды сертификации Yandex Cloud и получить сертификат одним из первых, так что, надеюсь, мой отзыв будет полезен тем, кто рассматривает возможность записаться на прохождение сертификации или тем, кто уже записался и хотел бы узнать больше о том, что ожидает при сдаче. Поехали!Читать далееРейтинг0Добавить в закладки0Комментарии0
-- -- -- -- -- -- -- -- -- -- 
HTML:
<article class="tm-articles-list__item" data-navigatable="" data-test-id="articles-

## Задание на семинар 2

Скачать главную страницу Яндекс.Погоды и
    
- а) распечатать сегодняшнюю температуру и облачность
- б) распечатать время восхода и заката
- в) погоду на завтра

Простая версия: вместо Яндекс.Погоды возьмите [этот](https://simple-weather-website.netlify.app/) сайт и получите температуру, влажность и скорость ветра

## Хорошая статья про это все

[https://sysblok.ru/courses/obkachka-sajtov-svoimi-rukami-razbiraemsja-s-html/](https://sysblok.ru/courses/obkachka-sajtov-svoimi-rukami-razbiraemsja-s-html/)

# Бонус

Иногда можно не изгаляться с html, а воспользоваться специальным инструментом: **API**

API расшифровывается как Application Programming Interface. Это набор правил, которыми одна программа может общаться и взаимодействовать с другой, в том числе с сайтами. Например, "сделай запрос к такой-то странице в таком-то формате, чтобы получить JSON с данными о погоде и не парсить HTML руками"

Но сначала пример попроще. Это сайт, который просто возвращает случайные картинки с лисами (есть агрегатор разных API https://publicapi.dev/, там много такого можно найти):

In [None]:
fox = requests.get("https://randomfox.ca/floof/")

Обратите внимание, что `.text` вернет нам *строку*:

In [None]:
fox.text

'{"image":"https:\\/\\/randomfox.ca\\/images\\/47.jpg","link":"https:\\/\\/randomfox.ca\\/?i=47"}'

Но у респонза есть еще метод `.json()`. В данном случае он сразу приведет к списку или словарю. В данном случае словарь, так как API возвращает словарь с несколькими ключами.



In [None]:
fox.json()

{'image': 'https://randomfox.ca/images/47.jpg',
 'link': 'https://randomfox.ca/?i=47'}

Более сложный, но и более интересный пример: https://newsapi.org/

 На главной нужно получить ключ. Многие API доступны только по ключам: например, API гитхаба так определяет, к каким репозиториям у вас есть доступ, а к каким нет; некоторые API ограничивают число запросов на одного пользователя; и т.д.

 **Ключ — это личная информация**, как, например, пароль. Ключ нежелательно вставлять в код, потому что будет легко забыть его удалить перед тем, как вы где-то этот код опубликуете. Лучше положить в отдельный файл и его читать:

In [None]:
with open("news_api_key.txt", "r") as f:
  api_key = f.read()

А если вы работаете в колабе, то можно положить ключ в секреты колаба и сделать вот так:

In [None]:
from google.colab import userdata

api_key = userdata.get('NEWS_API_KEY')

Какие параметры можно указывать в запросе, смотрите здесь: https://newsapi.org/docs/endpoints/everything

In [None]:
news = requests.get(
    f"https://newsapi.org/v2/everything?q=Apple&from=2024-10-25&sortBy=popularity&apiKey={api_key}"
    ).json()

In [None]:
news

{'status': 'ok',
 'totalResults': 10036,
 'articles': [{'source': {'id': None, 'name': 'Yahoo Entertainment'},
   'author': 'Lawrence Bonk',
   'title': 'iOS 18.2 will include daily Sudoku puzzles for Apple News+ subscribers',
   'description': 'The long-anticipated iPhone iOS 18.1 officially launches next week\r\n, bringing with it Apple Intelligence\r\n, but we are already on to the next new thing. The company is busy preparing iOS 18.2\r\n, which has already entered its beta stage and should be widely r…',
   'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_7d792da3-893e-4d23-a5d9-4bce6937dc26',
   'urlToImage': None,
   'publishedAt': '2024-10-25T16:51:16Z',
   'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"},
  {'source': {'id': None, 'name': 'Yahoo Entertainment'},
   'author': 

In [None]:
news["totalResults"]

10036

In [None]:
articles = news["articles"][:5]

In [None]:
articles

[{'source': {'id': None, 'name': 'Yahoo Entertainment'},
  'author': 'Lawrence Bonk',
  'title': 'iOS 18.2 will include daily Sudoku puzzles for Apple News+ subscribers',
  'description': 'The long-anticipated iPhone iOS 18.1 officially launches next week\r\n, bringing with it Apple Intelligence\r\n, but we are already on to the next new thing. The company is busy preparing iOS 18.2\r\n, which has already entered its beta stage and should be widely r…',
  'url': 'https://consent.yahoo.com/v2/collectConsent?sessionId=1_cc-session_7d792da3-893e-4d23-a5d9-4bce6937dc26',
  'urlToImage': None,
  'publishedAt': '2024-10-25T16:51:16Z',
  'content': "If you click 'Accept all', we and our partners, including 237 who are part of the IAB Transparency &amp; Consent Framework, will also store and/or access information on a device (in other words, use … [+678 chars]"},
 {'source': {'id': None, 'name': 'Yahoo Entertainment'},
  'author': 'Will Shanklin',
  'title': 'Apple Intelligence is coming to EU

Другие API:

1. OpenWeatherMap (https://openweathermap.org/api) - предоставляет информацию о погоде, прогнозы и исторические данные по всему миру. Есть бесплатный лимит запросов, но все равно требуется ввести данные банковской карты.

2. GitHub (https://developer.github.com/v3/) - API для доступа к данным о репозиториях, пользователях, коммитах и т.д.

3. Open Trivia API (https://opentdb.com/api_config.php) - API для получения вопросов и ответов из базы данных триивиума (викторины).

In [None]:
requests.get("https://opentdb.com/api.php?amount=10").json()

{'response_code': 0,
 'results': [{'type': 'multiple',
   'difficulty': 'hard',
   'category': 'Entertainment: Board Games',
   'question': 'The board game &quot;Ra&quot; was designed by which designer? ',
   'correct_answer': 'Reiner Knizia',
   'incorrect_answers': ['Bruno Cathala', 'Uwe Rosenburg', 'Allison Kline']},
  {'type': 'multiple',
   'difficulty': 'easy',
   'category': 'Entertainment: Television',
   'question': 'In the show, Doctor Who, what does T.A.R.D.I.S stand for?',
   'correct_answer': 'Time And Relative Dimensions In Space',
   'incorrect_answers': ['Time And Resting Dimensions In Space',
    'Time And Relative Dimensions In Style',
    'Toilet Aid Rope Dog Is Soup']},
  {'type': 'multiple',
   'difficulty': 'medium',
   'category': 'Entertainment: Japanese Anime &amp; Manga',
   'question': 'Which of the following films was NOT directed by Hayao Miyazaki?',
   'correct_answer': 'Wolf Children',
   'incorrect_answers': ['Princess Mononoke',
    'Spirited Away',
   

А еще есть Drama Corpus, который делали в том числе при участии Школы Лингвистики: https://dracor.org/doc/api

In [None]:
requests.get("https://dracor.org/api/corpora/rus/play/gogol-revizor/cast").json()[:5]

[{'id': 'gorodnichij',
  'name': 'Городничий',
  'isGroup': False,
  'gender': 'MALE',
  'numOfScenes': 21,
  'numOfSpeechActs': 172,
  'numOfWords': 4991,
  'degree': 26,
  'weightedDegree': 84,
  'closeness': 0.8760416666666667,
  'betweenness': 0.1264602852635307,
  'eigenvector': 0.24182361124623364},
 {'id': 'ammos_fedorovich_ljapkin_tjapkin',
  'name': 'Аммос Федорович',
  'isGroup': False,
  'gender': 'MALE',
  'numOfScenes': 8,
  'numOfSpeechActs': 49,
  'numOfWords': 748,
  'degree': 21,
  'weightedDegree': 54,
  'closeness': 0.7377192982456141,
  'betweenness': 0.010129431082777935,
  'eigenvector': 0.23046261804194926},
 {'id': 'artemij_filippovich_zemljanika',
  'name': 'Артемий Филиппович Земляника',
  'isGroup': False,
  'gender': 'MALE',
  'numOfScenes': 10,
  'numOfSpeechActs': 51,
  'numOfWords': 737,
  'degree': 21,
  'weightedDegree': 63,
  'closeness': 0.7377192982456141,
  'betweenness': 0.010129431082777935,
  'eigenvector': 0.23046261804194926},
 {'id': 'luka_luk