* рассмотрим, в каком виде информация обычно находится в интернете;
* напишем программы, которые собирают данные с веб-сайтов, используя библиотеки requests и BeautifulSoup;
* разберёмся, что такое программный интерфейс веб-сервисов (API) и как его использовать (для примера мы будем собирать данные в социальной сети ВКонтакте).

# <center>2. WEB запросы

## <center>Методы запросов в протоколе HTTP

`GET` - получение ресурса  
`POST` - создание ресурса

# <center>3. Библиотека requests

In [1]:
import requests

In [8]:
# Определяем значение URL страницы для запроса
url = 'https://www.cbr-xml-daily.ru/daily_json.js'
# Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response
response = requests.get(url) # Делаем GET-запрос к ресурсу и результат ответа сохраняем в переменной response

In [9]:
print(response) # Выводим значение response на экран как объект

<Response [200]>


In [10]:
print(response.status_code) # Выводим числовое значение response на экран

200


## <center> Работаем с ответом

In [13]:
print(response.text)

{
    "Date": "2022-09-28T11:30:00+03:00",
    "PreviousDate": "2022-09-27T11:30:00+03:00",
    "PreviousURL": "\/\/www.cbr-xml-daily.ru\/archive\/2022\/09\/27\/daily_json.js",
    "Timestamp": "2022-09-27T18:00:00+03:00",
    "Valute": {
        "AUD": {
            "ID": "R01010",
            "NumCode": "036",
            "CharCode": "AUD",
            "Nominal": 1,
            "Name": "Австралийский доллар",
            "Value": 37.82,
            "Previous": 37.682
        },
        "AZN": {
            "ID": "R01020A",
            "NumCode": "944",
            "CharCode": "AZN",
            "Nominal": 1,
            "Name": "Азербайджанский манат",
            "Value": 34.2209,
            "Previous": 34.1171
        },
        "GBP": {
            "ID": "R01035",
            "NumCode": "826",
            "CharCode": "GBP",
            "Nominal": 1,
            "Name": "Фунт стерлингов Соединенного королевства",
            "Value": 62.754,
            "Previous": 63.2015
       

In [14]:
from pprint import pprint # Импортируем функцию pprint()
currencies = response.json() # Применяем метод json()
pprint(currencies)


{'Date': '2022-09-28T11:30:00+03:00',
 'PreviousDate': '2022-09-27T11:30:00+03:00',
 'PreviousURL': '//www.cbr-xml-daily.ru/archive/2022/09/27/daily_json.js',
 'Timestamp': '2022-09-27T18:00:00+03:00',
 'Valute': {'AMD': {'CharCode': 'AMD',
                    'ID': 'R01060',
                    'Name': 'Армянских драмов',
                    'Nominal': 100,
                    'NumCode': '051',
                    'Previous': 14.0413,
                    'Value': 14.1954},
            'AUD': {'CharCode': 'AUD',
                    'ID': 'R01010',
                    'Name': 'Австралийский доллар',
                    'Nominal': 1,
                    'NumCode': '036',
                    'Previous': 37.682,
                    'Value': 37.82},
            'AZN': {'CharCode': 'AZN',
                    'ID': 'R01020A',
                    'Name': 'Азербайджанский манат',
                    'Nominal': 1,
                    'NumCode': '944',
                    'Previous': 34.1171,
   

In [21]:
pprint(currencies['Valute']['CZK']['Name'])

'Чешских крон'


# <center> 4. Парсинг сайтов

## <center> Основы HTML

## <center> Получаем содержимое веб-страницы

In [22]:
url = 'https://nplus1.ru/news/2021/10/11/econobel2021'
response = requests.get(url)
print(response.text)

<!doctype html>
<html class="old-town-road no-js bg-fixed _no-bg" style="background-image:url(https://nplus1.ru/images/2021/10/11/9c6bcb5f7c01c6d88d49410e16ebc003.jpg)" lang="">
<head>
    
    <meta charset="utf-8">
    <meta http-equiv="x-ua-compatible" content="ie=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="apple-mobile-web-app-capable" content="yes">
    <meta name="apple-mobile-web-app-status-bar-style" content="black">
                <meta name='wmail-verification' content='7991d7eb02d759f05b9050e111a7e3eb' />

    <link rel="canonical" href="https://nplus1.ru/news/2021/10/11/econobel2021" />

    <link rel="icon" href="/i/favicon-bw.png" />


        <title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>

    	    <meta itemprop="datePublished" content="2021-10-11"/>
	
	    <meta name="mediator_author" content="Илья Ферапонтов"/> 
	
        <!-- amp page -->
    <

# <center> 5. Библиотека BeautifulSoup

Для поиска необходимых нам данных мы будем использовать библиотеку BeautifulSoup, которая позволяет по названию тегов и их атрибутов получать содержащийся в них текст.

In [23]:
from bs4 import BeautifulSoup # Импортируем библиотеку BeautifulSoup

In [26]:
page = BeautifulSoup(response.text, 'html.parser') # Создаём объект BeautifulSoup, указывая html-парсер
print(page.title)
print(page.title.text)

<title>Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей</title>
Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


## <center> Извлекаем заголовок и время написания страницы

In [27]:
print(page.find('h1').text) # Применяем метод find() к объекту и выводим результат на экран

Премию Нобеля по экономике присудили за исследования экономики труда и причинно-следственных связей


In [28]:
print(page.find('time').text)


13:04
11 Окт. 2021



Напишите функцию wiki_header, которая по адресу страницы возвращает заголовок для статей на Wikipedia.

In [29]:
def wiki_header(url):
    response = requests.get(url)
    page = BeautifulSoup(response.text, 'html.parser')
    h1 = page.find('h1').text
    return h1

## <center> Неуникальные теги. Извлекаем текст из статьи

In [35]:
# print(page.find('div', class_='body').text) # Выводим содержимое атрибута text тега div класса body js-mediator-article

## <center> Сбор нескольких элементов: собираем все ссылки на странице

In [37]:
url = 'https://en.wikipedia.org/wiki/List_of_programming_languages' # Задаём адрес ресурса
response = requests.get(url)
page = BeautifulSoup(response.text, 'html.parser')
print(page.find('a'))

<a id="top"></a>


In [38]:
# если необходимо найти все ссылки, воспользуемся методом:
links = page.find_all('a')
print(len(links))

942


In [39]:
print([link.text for link in links[500:510]])

['Opal', 'Open Programming Language', 'OpenCL', 'OpenEdge Advanced Business Language', 'OpenVera', 'OpenQASM', 'OPS5', 'OptimJ', 'Orc', 'ORCA/Modula-2']


In [40]:
print([link.text for link in links[0:10]])

['', 'Jump to navigation', 'Jump to search', 'Programming languagelists', 'Alphabetical', 'Categorical', 'Chronological', 'Generational', 'v', 't']


# <center>6. Работа с API

## <center> Ключ авторизации

## <center> Первые запросы API

## <center> Запрос к API из кода

In [83]:
token = '88200ec288200ec288200ec20a8b30d3ad8882088200ec2eb1476c9db959da2039707b4'
url = 'https://api.vk.com/method/users.get' # Указываем адрес страницы к которой делаем запрос
params = {'user_id': 1, 'v': 5.95, 'fields': 'sex,bdate', 'access_token': token, 'lang': 'ru'}
# Перечисляем параметры нашего запроса в словаре params
response = requests.get(url, params=params) # Отправляем запрос
print(response.text) # Выводим текст ответа на экран

{"response":[{"id":1,"bdate":"10.10.1984","sex":2,"first_name":"Павел","last_name":"Дуров","can_access_closed":true,"is_closed":false}]}


In [85]:
pprint(response.json())

{'response': [{'bdate': '10.10.1984',
               'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров',
               'sex': 2}]}


In [87]:
user = response.json()['response'][0]
print(user['bdate']) # Выводим дату рождения первого пользователя на экран

10.10.1984


Метод users.get() позволяет запрашивать информацию о множестве (до 1 000) пользователей одновременно. Для этого нужно использовать параметр user_ids и передавать id через запятую в строковом формате. Например, чтобы получить информацию о пользователях с id=1, id=2, id=3, необходимо передать значение параметра user_ids='1,2,3'.

In [89]:
ids = ','.join(map(str, range(1, 4))) # Формируем строку, содержащую информацию о поле id первых трёх пользователей
params = {'user_ids': ids, 'v': 5.95, 'fields': 'bday', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
pprint(requests.get(url, params=params).json())# Посылаем запрос, полученный ответ в формате JSON-строки преобразуем в словарь и выводим на экран его содержимое, используя функцию pprint()

{'response': [{'can_access_closed': True,
               'first_name': 'Павел',
               'id': 1,
               'is_closed': False,
               'last_name': 'Дуров'},
              {'can_access_closed': False,
               'first_name': 'Александра',
               'id': 2,
               'is_closed': True,
               'last_name': 'Владимирова'},
              {'deactivated': 'deleted',
               'first_name': 'DELETED',
               'id': 3,
               'last_name': ''}]}


Используя API, определите долю женщин (sex=1) среди пользователей с id от 1 до 500. Иногда будут попадаться пользователи, у которых пол не указан (sex=0), — таких пользователей не нужно учитывать в общем числе.

В ответе укажите число, округлив до двух знаков после точки-разделителя, например, 0.55.

In [None]:
import pandas as pd

In [109]:
from locale import normalize


ids = ','.join(map(str, range(1, 501)))
params = {'user_ids': ids, 'v': 5.95, 'fields': 'sex', 'access_token': token, 'lang': 'ru'} # Формируем строку параметров
data_json = requests.get(url, params=params).json()['response']
df = pd.DataFrame(data_json)
df = df[df['sex'] != 0]
df['sex'].value_counts(normalize=True)


2    0.515366
1    0.484634
Name: sex, dtype: float64