# Библиотека requests

In [2]:
import requests

In [None]:
# метод get
res = requests.get('https://yandex.ru')
res
# res.status_code

In [None]:
# браузер отрисовал бы страницу на основе данного текста
res.text

In [None]:
# посмотрим куки
res.cookies

In [None]:
# получаем плохой статус
bad_request = requests.get('https://yandex.ru/secret')
bad_request

In [None]:
bad_request.text

In [None]:
# попроуем сделать post запрос
post_req = requests.post('https://yandex.ru')
post_req

In [None]:
# cформируем поисковый запрос, обратите внимание на его формат
URL = 'https://yandex.ru/search/?text=python&lr=54'

In [None]:
req = requests.get(URL)
req

In [None]:
req.text

In [None]:
# в request можно передать параметры запроса и заголовки (headers) в виде словарей. 
# сегодня не будем рассматривать примеры с необхожимостью передачи заголовка, 
# но в практике вам это точно понадобится
URL = 'https://yandex.ru/search/'
params = {
    'text': 'python',
    'lr': 54
}
headers = {}
req = requests.get(URL, params)
req = requests.post(URL, params, headers)
req.text

In [3]:
# очень часто сайты могут ограничивать частые запросы к себе, 
# поэтому нужно задерживать исполнение
import time
time.sleep(0.2)

# Beautiful Soup

In [4]:
# как разбирать всю эту разметку? Поможет BeautifulSoup.
from bs4 import BeautifulSoup

## Практика 1. Напишем скрипт, который будет отбирать посты из нужных хабов на habr.com

In [None]:
# определяем список хабов, которые нам интересны
DESIRED_HUBS = ['python', 'bigdata']

In [None]:
# получаем страницу с самыми свежими постами
req = requests.get('https://habr.com/ru/all/')
soup = BeautifulSoup(req.text, 'html.parser')

In [None]:
# извлекаем посты
posts = soup.find_all('article', class_='post')
posts

In [None]:
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    print('post', post_id)
    hubs = post.find_all('a', class_='hub-link')

In [None]:
# добавляем извлечение хабов из постов, чтобы отбирать только нужные
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    hubs = post.find_all('a', class_='hub-link')
    for hub in hubs:
            hub_lower = hub.text.lower()
           # ищем вхождение хотя бы одного желаемого хаба
            if any([hub_lower in desired for desired in DESIRED_HUBS]):
               # пост нам интересен - делаем с ним все что захотим:
               # можно отправит в телеграм уведомление, можно на почту и т.п.
                title_element = post.find('a', class_='post__title_link')
                print(title_element.text, title_element.attrs.get('href'))
               # так как пост уже нам подошел - дальше нет смысла проверять хабы
                break

## Практика 2. Напишем скрипт, который будет собирать новости с сайта Коммерсанта

In [2]:
URL = 'https://www.kommersant.ru/search/results'
params = {
    'search_query': 'python'
}

In [3]:
res = requests.get(URL, params)

In [4]:
res.text

'\r\n<!DOCTYPE html>\r\n<html class="no-js" lang="ru"  >\r\n<head>\r\n<title>Коммерсантъ: последние новости России и мира</title>\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1" />\r\n<meta charset="utf-8"/>\r\n\r\n    <meta name="viewport" content="width=device-width, initial-scale=1.0">\r\n    <script> if (document.cookie.indexOf(\'IsNonMobileViewport\') >= 0){document.write(\'<meta name="viewport" content="width=1200">\')}</script>\r\n\r\n<meta name="format-detection" content="telephone=no" />\r\n<meta name="title" content="Коммерсантъ: последние новости России и мира" />\r\n\r\n<meta name="description" content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" />\r\n\r\n<meta name="keywords" content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Week

In [8]:
soup = BeautifulSoup(res.text, 'html.parser')
soup


<!DOCTYPE html>

<html class="no-js" lang="ru">
<head>
<title>Коммерсантъ: последние новости России и мира</title>
<meta content="IE=edge, chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<script> if (document.cookie.indexOf('IsNonMobileViewport') >= 0){document.write('<meta name="viewport" content="width=1200">')}</script>
<meta content="telephone=no" name="format-detection">
<meta content="Коммерсантъ: последние новости России и мира" name="title"/>
<meta content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" name="description"/>
<meta content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрологический прогноз,Погода мира,Курсы валют ЦБ РФ" name="keywords"/>
<link hre

In [9]:
# добираемся до блоков с новостями
news_blocks = soup.find_all('div', class_='search_results_item')
news_blocks

[<div class="search_results_item search_results_item--media">
 <div class="search_results_media">
 <div class="photo">
 <a href="/doc/4829154?query=python" target="_blank">
 <picture class="js-lazyimage">
 <source class="js-lazyimage-source" data-lazyimage-srcset="https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t241_061816.webp 1200w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t240_061816.webp 1035w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t239_061816.webp 990w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t250_061816.webp 870w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t238_061816.webp 690w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t237_061816.webp 660w, https://im.kommersant.ru/Issues.photo/REGIONS/NNOV_Tema/2021/090/KMO_160477_00152_1_t236_06

In [10]:
# добираемся до текста со ссылкой
articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
articles_intro

[<div class="article_intro">
 <a href="/doc/4829154?query=python" target="_blank">
 									 ...  информтехнологии: программирование на <mark>Python</mark>, Java, основы алгоритмики ...  школьники изучают основы <mark>Python</mark> — языка программирования, востребованного ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4815863?query=python" target="_blank">
 									 ...  — знать языки программирования: <mark>Python</mark>, Golang, Ruby, C ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4683488?query=python" target="_blank">
 									 ...  программирования. «Я выучил <mark>Python</mark>, чтобы понимать, как ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4683490?query=python" target="_blank">
 									 ... , на языке программирования <mark>Python</mark>. — Вы используете утекшие ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4691315?query=python" target="_blank">
 									 ...  обучен

In [11]:
# добираемся до ссылок
a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
a_list

['/doc/4829154?query=python',
 '/doc/4815863?query=python',
 '/doc/4683488?query=python',
 '/doc/4683490?query=python',
 '/doc/4691315?query=python',
 '/doc/4683264?query=python',
 '/doc/4615331?query=python',
 '/doc/4615354?query=python',
 '/doc/4616964?query=python',
 '/doc/4614960?query=python']

In [None]:
# формируем полноценные ссылки
all_refs = list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))
all_refs

In [12]:
# объединим все в одну функцию
def get_all_links(url, query):
    all_refs = []
    params = {
        'search_query': query,
    }
    res = requests.get(URL, params)
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'html.parser')
    news_blocks = soup.find_all('div', class_='search_results_item')
    articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
    a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
    all_refs = list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))

    return all_refs

all_links = get_all_links(URL, 'python')
all_links

['https://www.kommersant.ru//doc/4829154?query=python',
 'https://www.kommersant.ru//doc/4815863?query=python',
 'https://www.kommersant.ru//doc/4683488?query=python',
 'https://www.kommersant.ru//doc/4683490?query=python',
 'https://www.kommersant.ru//doc/4691315?query=python',
 'https://www.kommersant.ru//doc/4683264?query=python',
 'https://www.kommersant.ru//doc/4615331?query=python',
 'https://www.kommersant.ru//doc/4615354?query=python',
 'https://www.kommersant.ru//doc/4616964?query=python',
 'https://www.kommersant.ru//doc/4614960?query=python']

In [None]:
# но мы же собрали только одну страницу? Хотим ВСЕ новости
def get_all_links(url, query, pages):
    all_refs = []
    params = {
        'search_query': query
    }
    for i in range(pages):
        params['page'] = i + 1
        res = requests.get(URL, params)
        time.sleep(0.3)
        soup = BeautifulSoup(res.text, 'html.parser')
        news_blocks = soup.find_all('div', class_='search_results_item')
        articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
        a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
        all_refs += list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))
    return all_refs

all_links = get_all_links(URL, 'python', 3)
all_links

In [None]:
import pandas as pd

In [None]:
# собираем даты, заголовки и тексты новостей
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    title = soup.find('h1', class_='article_name').text
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

In [None]:
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

In [None]:
# запишем данные в датафрейм
kom_news = pd.DataFrame()
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    text = soup.find('div', class_='article_text_wrapper').text
    row = {'date': date, 'title': title, 'text': text}
    kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
kom_news

In [None]:
# обернем в функцию 
def get_kom_news(links):
    kom_news = pd.DataFrame()
    for link in all_links:
        soup = BeautifulSoup(requests.get(link).text, 'html.parser')
        if soup.find('div', class_='b-article__publish_date'):
            date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
        elif soup.find('time', class_='title__cake'):
            date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
        if soup.find('h2', class_='article_name'): 
            title = soup.find('h2', class_='article_name').text
        else: 
            title = soup.find('h1', class_='article_name').text    
        text = soup.find('div', class_='article_text_wrapper').text
        row = {'date': date, 'title': title, 'text': text}
        kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
    return kom_news

In [None]:
kom_news = get_kom_news(all_links)
kom_news

# API

## Практика 3. Получим данные о песнях исполнителя при помощи  [API ITunes](https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/index.html)

In [1]:
# https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/UnderstandingSearchResults.html#//apple_ref/doc/uid/TP40017632-CH8-SW1
URL = 'https://itunes.apple.com/search?term=jack+johnson'

In [5]:
res = requests.get(URL)

In [10]:
import pandas as pd

In [6]:
res.text

'\n\n\n{\n "resultCount":50,\n "results": [\n{"wrapperType":"track", "kind":"song", "artistId":909253, "collectionId":1469577723, "trackId":1469577741, "artistName":"Jack Johnson", "collectionName":"Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George", "trackName":"Upside Down", "collectionCensoredName":"Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George", "trackCensoredName":"Upside Down", "artistViewUrl":"https://music.apple.com/us/artist/jack-johnson/909253?uo=4", "collectionViewUrl":"https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4", "trackViewUrl":"https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4", \n"previewUrl":"https://audio-ssl.itunes.apple.com/itunes-assets/AudioPreview125/v4/5e/5b/3d/5e5b3df4-deb5-da78-5d64-fe51d8404d5c/mzaf_13341178261601361485.plus.aac.p.m4a", "artworkUrl30":"https://is1-ssl.mzstatic.com/image/thumb/Music115/v4/ae/4c/d4/ae4cd42a-80a9-d950-16f5-36f01

In [7]:
res.json()

{'resultCount': 50,
 'results': [{'wrapperType': 'track',
   'kind': 'song',
   'artistId': 909253,
   'collectionId': 1469577723,
   'trackId': 1469577741,
   'artistName': 'Jack Johnson',
   'collectionName': 'Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George',
   'trackName': 'Upside Down',
   'collectionCensoredName': 'Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George',
   'trackCensoredName': 'Upside Down',
   'artistViewUrl': 'https://music.apple.com/us/artist/jack-johnson/909253?uo=4',
   'collectionViewUrl': 'https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4',
   'trackViewUrl': 'https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4',
   'previewUrl': 'https://audio-ssl.itunes.apple.com/itunes-assets/AudioPreview125/v4/5e/5b/3d/5e5b3df4-deb5-da78-5d64-fe51d8404d5c/mzaf_13341178261601361485.plus.aac.p.m4a',
   'artworkUrl30': 'https://is1-ssl.mzstatic.com/image/thumb/Music11

In [8]:
params = {
    'term': 'шнуров',
    'limit': 200,
#     'offset': 2
}

In [11]:
# pd.set_option('display.max_columns', 100)
res = requests.get(URL, params)
# res.json()

pd.DataFrame(res.json()['results'])

Unnamed: 0,wrapperType,kind,artistId,collectionId,trackId,artistName,collectionName,trackName,collectionCensoredName,trackCensoredName,...,trackNumber,trackTimeMillis,country,currency,primaryGenreName,contentAdvisoryRating,isStreamable,collectionArtistName,collectionArtistId,collectionArtistViewUrl
0,track,music-video,47815497,1.439311e+09,1439311522,Leonid Agutin & Sergey Shnurov,50,Какая-то фигня,50,Какая-то фигня,...,12.0,216488,USA,USD,Pop,,,,,
1,track,music-video,1495918957,,1501976980,группа Бали,,Эксгиби (feat. Сергей Шнуров),,Эксгиби (feat. Сергей Шнуров),...,,238270,USA,USD,Pop,Explicit,,,,
2,track,song,569204286,9.704364e+08,970436630,Vasya Oblomov,Стабильность,Правда (feat. Сергей Шнуров & Noize MC),Стабильность,Правда (feat. Сергей Шнуров & Noize MC),...,4.0,205077,USA,USD,Alternative Rap,,True,,,
3,track,song,1156448492,1.401167e+09,1401166966,Slava KPSS,Матильда (Сергей Шнуров Diss) - Single,Матильда (Сергей Шнуров Diss),Матильда (Сергей Шнуров Diss) - Single,Матильда (Сергей Шнуров Diss),...,1.0,131031,USA,USD,Dance,Explicit,True,,,
4,track,song,339741329,1.506033e+09,1506032539,Sergey Shnurov,"Лучшее из к/ф ""Бумер"" и ""Бумер. Фильм второй""","Мобильник (Из к/ф ""Бумер"")","Лучшее из к/ф ""Бумер"" и ""Бумер. Фильм второй""","Мобильник (Из к/ф ""Бумер"")",...,9.0,168647,USA,USD,Soundtrack,,True,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
69,track,song,378458372,7.340519e+08,734052036,Animal Jazz,Как люди,Неоновый ковбой (feat. Sergey Shnurov),Как люди,Неоновый ковбой (feat. Sergey Shnurov),...,14.0,226333,USA,USD,Indie Rock,,True,,,
70,track,song,339741329,1.506180e+09,1506180388,Sergey Shnurov,Бумер. Фильм второй,"Новый привет Морриконе (Из к/ф ""Бумер. Фильм в...",Бумер. Фильм второй,"Новый привет Морриконе (Из к/ф ""Бумер. Фильм в...",...,1.0,161776,USA,USD,Soundtrack,,True,,,
71,track,song,339741329,1.506034e+09,1506033626,Sergey Shnurov,Второй Магаданский...,"Главное ребята, сердцем не стареть",Второй Магаданский...,"Главное ребята, сердцем не стареть",...,1.0,145160,USA,USD,Rock,,True,,,
72,track,song,339741329,1.506034e+09,1506033635,Sergey Shnurov,Второй Магаданский...,Яблочко,Второй Магаданский...,Яблочко,...,10.0,159107,USA,USD,Rock,,True,,,


In [None]:
params = {
    'term': 'лазарев',
    'limit': 60,
    'attribute': 'allArtistTerm',
    'country': 'ru'
}

In [None]:
res = requests.get(URL, params)
res.json()

pd.DataFrame(res.json()['results'])

## Практика 4. Соберем сообщения из новостной ленты ВК по нужному запросу

In [None]:
# https://vk.com/dev/manuals
# https://vk.com/dev/newsfeed.search
NEWSFEED_REQUEST = 'https://api.vk.com/method/newsfeed.search?'
TOKEN = '9df7991c9df7991c9df7991c329d86910d99df79df7991cc363a27748dcf7ad91284ef6'
VERSION = '5.103'
SLEEP = 0.33

In [None]:
# обращаем внимание, что максимальное количество постов, 
# которые можно вытащить за раз, ограничено
params = {
    'access_token': TOKEN,
    'v': VERSION,
    'q': 'короновирус',
    'count': 200
}

In [None]:
res = requests.get(NEWSFEED_REQUEST, params)
res

In [None]:
res.text

In [None]:
res.json()

In [None]:
res.json()['response']['items']

In [None]:
pd.DataFrame(res.json()['response']['items'])

In [None]:
# соберем все доступные сообщения по запросу
newsfeed_df = pd.DataFrame()
while True:
    result = requests.get(NEWSFEED_REQUEST, params)
    time.sleep(0.33)
    newsfeed_df = pd.concat([newsfeed_df, pd.DataFrame(result.json()['response']['items'])])
    if 'next_from' in result.json()['response'].keys():
        params['start_from'] = result.json()['response']['next_from']
    else:
        break
newsfeed_df