#### В стандартной библиотеке Python для отправки веб-запросов существует функция urllib2, но большинство разработчиков используют стороннюю библиотеку requests
#### Познакомимся с библиотекой requests, решив простую задачу — получить значения курсов валют.
#### Разработаем код, так называемый скрипт (англ. script, рус. сценарий), — небольшую программу, которая содержит последовательность действий для автоматического выполнения задачи.


In [None]:
# Устанавливаем библиотеку requests
# !pip install requests 

In [11]:
# Как только библиотека установлена, импортируем её и отправим наш 
# первый запрос к ресурсу Курсы валют ЦБ РФ в XML и JSON. Используем 
# метод get() из библиотеки requests, передав ему соответствующий URL —  
# https://www.cbr-xml-daily.ru/daily_json.js:
import requests # Импортируем библиотеку requests
url = 'https://www.cbr-xml-daily.ru/daily_json.js' # Определяем значение URL страницы для запроса
response = requests.get(url) # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

In [7]:
# Проверим ответ сервера — содержимое переменной response:
print(response) # Выводим значение response на экран как объект
# [200] — то есть запрос был корректным и сервер отдал нам нужную информацию

<Response [200]>


In [6]:
# Код ответа в виде числовой переменной можно получить с помощью метода
# status_code:
print(response.status_code) # Выводим числовое значение response на экран

200


In [9]:
# Задание 3.1
# Вы уже импортировали модуль requests в ваш код. 
# Напишите строку кода, при выполнении которой будет сделан GET-запрос
# к ресурсу https://www.cbr-xml-daily.ru/daily.xml, 
# а результат ответа будет сохранён в переменной response:
# response = requests.get('https://www.cbr-xml-daily.ru/daily.xml') 
print(response)

<Response [200]>


### РАБОТАЕМ С ОТВЕТОМ

In [None]:
# Как получить доступ ко всей информации, которую содержит ответ?
# Текст ответа хранится в атрибуте text. Выведем значение атрибута 
# на экран и посмотрим на его содержимое:
print(response.text) # Выводим содержимое атрибута text переменной response на экран

##### Проверить тип данных полученного ответа можно, воспользовавшись функцией type().

In [13]:
type(response)

requests.models.Response

In [None]:
# нам необходимо преобразовать строку в словарь. 
# В объект ответа Response  из библиотеки requests уже встроен метод json()
from pprint import pprint # Импортируем функцию pprint()
currencies = response.json() # Применяем метод json()
pprint(currencies) # Выводим результат на экран)
# Теперь данные находятся в словаре и можно легко получать необходимые значения.

In [17]:
#по ключу Valute мы можем обратиться к вложенному словарю,
# который содержит информацию о мировых валютах. 
# Выведем на экран, например, информацию о евро (EUR):
pprint(currencies['Valute']['EUR']) # Выводим на экран информацию о валюте евро

{'CharCode': 'EUR',
 'ID': 'R01239',
 'Name': 'Евро',
 'Nominal': 1,
 'NumCode': '978',
 'Previous': 85.9752,
 'Value': 86.7939}


In [18]:
# Задание 3.2
# Повторите запросы, описанные в этом юните, на своём компьютере.
# Что будет выведено на экран в результате выполнения следующего кода?
print(currencies['Valute']['CZK']['Name'])

Чешских крон


## Парсинг сайтов

ДОПОЛНИТЕЛЬНО

Вы можете ознакомиться с информацией о HTML в справочнике, перейдя по ссылке http://htmlbook.ru/html


### ПОЛУЧАЕМ СОДЕРЖИМОЕ ВЕБ-СТРАНИЦЫ

In [None]:
# Получим HTML-код интересующей нас страницы
import requests # Импортируем библиотеку requests
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url)  # Выполняем GET-запрос
print(response.text)  # Выводим содержимое атрибута text
# Ответ содержит HTML-код страницы, к которой мы обратились

В отличие от предыдущего примера, где ответ возвращался в JSON-формате, мы не можем так просто преобразовать HTML-код в словарь и извлечь необходимую нам информацию.

Для решения таких задач в Python существует специальная библиотека *BeautifulSoup*, о работе с которой мы поговорим в следующем юните.

### Библиотека BeautifulSoup

In [21]:
# Устанавливаем библиотеку BeautifulSoup
# !pip install beautifulsoup4 
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup


Ранее мы уже получили содержимое страницы с помощью GET-запроса и сохранили информацию в переменной response , теперь создадим объект BeautifulSoup с именем page, указывая в качестве параметра html.parser.

In [22]:
# получим информацию o title (с англ. заголовок) — это строка, 
# которая отображается на вкладке браузера:
import requests # Импортируем библиотеку requests
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup
url = 'https://nplus1.ru/news/2021/10/11/econobel2021' # Определяем адрес страницы
response = requests.get(url) # Выполняем GET-запрос, содержимое ответа присваивается переменной response
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title) # Получаем тег title, отображающийся на вкладке браузера
print(page.title.text) # Выводим текст из полученного тега, который содержится в атрибуте text

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


ИЗВЛЕКАЕМ ЗАГОЛОВОК И ВРЕМЯ НАПИСАНИЯ СТАТЬИ

Выполним поставленную ранее задачу: получить информацию о странице и извлечь заголовок статьи, опубликованной на этой странице, дату публикации, а также текст статьи.

In [23]:
# мы можем получить его текст с помощью метода find() 
# (с англ. найти) объекта BeautifulSoup, передав ему 
# название интересующего нас тега:
print(page.find('h1').text) # Применяем метод find() к объекту и выводим результат на экран

Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


Но как же узнать, в каких именно тегах заключена необходимая информация?

In [24]:
# Итак, нам нужен тег <time> … </time>.
# Теперь получим данные из него с помощью уже известного метода find(), 
# передав название нужного тега:
print(page.find('time').text) # Выводим на экран содержимое атрибута text тега time


13:04
11 Окт. 2021



### НЕУНИКАЛЬНЫЕ ТЕГИ: ИЗВЛЕКАЕМ ТЕКСТ СТАТЬИ

In [None]:
# Передадим название класса в метод find() с помощью аргумента class_ и получим текст статьи:

print(page.find('div', class_='body').text) # Выводим содержимое атрибута text тега div класса body js-mediator-article

### СБОР НЕСКОЛЬКИХ ЭЛЕМЕНТОВ: СОБИРАЕМ ВСЕ ССЫЛКИ НА СТРАНИЦЕ

Рассмотрим ещё один сценарий: вы хотите собрать сразу несколько элементов со страницы. Например, представьте, что вы хотите получить названия всех языков программирования, упомянутых на странице в Wikipedia в статье про языки программирования.

Можно заметить, что все названия языков программирования на этой странице связаны ссылками c соответствующими статьями о них. Таким образом, нам необходимо собрать все ссылки на странице.

In [26]:
# Для ссылок в HTML предусмотрен тег <a> … </a>. Попробуем использовать find():

url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url) # Делаем GET-запрос к ресурсу
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup
print(page.find('a')) # Ищем ссылку по тегу <a> и выводим её на экран
# Мы получили только одну ссылку, хотя на странице их явно больше.

<a id="top"></a>


In [27]:
# Это происходит, потому что метод find() возвращает только первый
# подходящий элемент. Если требуется получить больше элементов, 
# необходимо воспользоваться методом find_all() (с англ. найти все):
links = page.find_all('a') # Ищем все ссылки на странице и сохраняем в переменной links в виде списка
print(len(links)) # Выводим количество найденных ссылок

937


In [29]:
# Итак, на момент создания этих учебных материалов на странице
# содержалось 937 ссылок. Посмотрим на некоторые из них:
print([link.text for link in links[510:520]]) # Выводим ссылки с 510 по 520 включительно

['Orwell', 'Oxygene', 'Oz', 'edit', 'P', 'P4', 'P′′', 'ParaSail', 'PARI/GP', 'Pascal']


In [30]:
# Не все ссылки соответствуют названиям языков программирования — 
# страница содержит также «служебные» ссылки, такие, например,
# как Jump to navigation (с англ. Перейти к навигации) или 
# Alphabetical (с англ. По алфавиту):
print([link.text for link in links[0:10]]) # Выводим ссылки с 1 по 9 включительно

['', 'Jump to navigation', 'Jump to search', 'Programming languagelists', 'Alphabetical', 'Categorical', 'Chronological', 'Generational', 'v', 't']


### ЗАПРОС К API ИЗ КОДА

In [39]:
# Продолжаем пользоваться всё той же библиотекой requests.

import requests # Импортируем модуль requests
token = '0d1fad340d1fad340d1fad342f0d638be900d1f0d1fad346f49438f594667099516d65a' # Указываем свой сервисный токен
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'} # Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"id":1,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false,"sex":2,"bdate":"10.10.1984"}]}


In [40]:
# Словари нагляднее выводить с помощью функции pprint(), 
# которую мы уже использовали ранее:
from pprint import pprint # Импортируем функцию pprint()
pprint(response.json()) # Выводим содержимое словаря, содержащего ответ, на экран

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [47]:
# список содержит только один элемент. Извлечём его:

user = response.json()['response'][0] # Извлекаем из словаря по ключу response информацию о первом пользователе
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


In [48]:
# чтобы получить информацию о пользователях с id=1, id=2, id=3, 
# необходимо передать значение параметра user_ids='1,2,3'
ids = ",".join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json()) # Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


### Задание 6.2
1 point possible (graded)
Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. Иногда будут попадаться пользователи, у которых пол не указан (sex=0), — таких пользователей не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после точки-разделителя, например, 0.55.

Пример: если у нас будет 300 пользователей с sex=1, 100 пользователей с sex=2 и 100 пользователей с sex=0, то в ответе должно быть 0.75.

In [49]:
import requests
token = '0d1fad340d1fad340d1fad342f0d638be900d1f0d1fad346f49438f594667099516d65a'
url = 'https://api.vk.com/method/users.get'
ids = ",".join(map(str, range(1, 501)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}
response = requests.get(url, params=params).json()['response']
men=women=0
for elem in response:
    if elem['sex'] == 2:
        men+=1
    elif elem['sex'] == 1:
        women+=1
    else:
        continue
print(round(women/(men+women),2))

0.49
