# Библиотека requests

In [16]:
import requests

In [3]:
# метод get
res = requests.get('https://yandex.ru')
res
# res.status_code

<Response [200]>

In [4]:
# браузер отрисовал бы страницу на основе данного текста
res.text



In [None]:
# посмотрим куки
res.cookies

In [5]:
# получаем плохой статус
bad_request = requests.get('https://yandex.ru/secret')
bad_request

<Response [404]>

In [6]:
bad_request.text

'<!DOCTYPE html><html class="i-ua_js_no i-ua_css_standart i-ua_browser_unknown i-ua_browser-engine_unknown i-ua_browser_desktop i-ua_platform_other" lang="ru"><head xmlns:og="http://ogp.me/ns#"><meta http-equiv=Content-Type content="text/html;charset=UTF-8"><meta http-equiv="X-UA-Compatible" content="IE=edge"><title>404</title><link rel="shortcut icon" href="//yastatic.net/s3/home-static/_/a6/a6a296b741b51880ae8a9b04a67cfe3f.png" sizes="16x16"><link rel="shortcut icon" href="//yastatic.net/s3/home-static/_/f4/f47b1b3d8194c36ce660324ab55a04fe.png" sizes="32x32"><link rel="shortcut icon" href="//yastatic.net/s3/home-static/_/f0/f0597b6727cc67dceebc4e3a87caf571.png" sizes="192x192"><link rel="search" href="//yandex.ru/opensearch.xml" title="Яндекс" type="application/opensearchdescription+xml"><meta name="viewport" content="width=device-width,minimum-scale=1,maximum-scale=1,initial-scale=1,user-scalable=no"><meta property="og:title" content="Яндекс"><meta property="og:image" content="//yas

In [7]:
# попроуем сделать post запрос
post_req = requests.post('https://yandex.ru')
post_req

<Response [403]>

In [8]:
# cформируем поисковый запрос, обратите внимание на его формат
URL = 'https://yandex.ru/search/?text=python&lr=54'

In [9]:
req = requests.get(URL)
req

<Response [200]>

In [None]:
req.text

In [10]:
# в request можно передать параметры запроса и заголовки (headers) в виде словарей. 
# сегодня не будем рассматривать примеры с необхожимостью передачи заголовка, 
# но в практике вам это точно понадобится
URL = 'https://yandex.ru/search/'
params = {
    'text': 'python',
    'lr': 54
}
headers = {}
req = requests.get(URL, params)
req = requests.post(URL, params, headers)
req.text



In [86]:
# очень часто сайты могут ограничивать частые запросы к себе, 
# поэтому нужно задерживать исполнение
import time
time.sleep(0.2)

# Beautiful Soup

In [15]:
# как разбирать всю эту разметку? Поможет BeautifulSoup.
from bs4 import BeautifulSoup

## Практика 1. Напишем скрипт, который будет отбирать посты из нужных хабов на habr.com

In [36]:
# определяем список хабов, которые нам интересны
DESIRED_HUBS = ['python', 'bigdata', 'Wi-Fi', 'Cellebrite']

In [17]:
# получаем страницу с самыми свежими постами
req = requests.get('https://habr.com/ru/all/')
soup = BeautifulSoup(req.text, 'html.parser')

In [18]:
# извлекаем посты
posts = soup.find_all('article', class_='post')
posts

[<article class="post post_preview" lang="ru">
 <header class="post__meta">
 <a class="post__user-info user-info" href="https://habr.com/ru/users/Kaspersky_Lab/" title="Автор публикации">
 <img class="user-info__image-pic user-info__image-pic_small" height="24" src="//habrastorage.org/getpro/habr/avatars/fe4/0e2/2a9/fe40e22a957a2624684a47d3da2d924f.png" width="24"/>
 <span class="user-info__nickname user-info__nickname_small">Kaspersky_Lab</span>
 </a>
 <span class="post__time">сегодня в 20:37</span>
 </header>
 <h2 class="post__title">
 <a class="post__title_link" href="https://habr.com/ru/company/kaspersky/blog/554542/">Security Week 17: уязвимости в оборудовании для взлома телефонов</a>
 </h2>
 <ul class="post__hubs inline-list">
 <li class="inline-list__item inline-list__item_hub">
 <a class="inline-list__item-link hub-link" href="https://habr.com/ru/company/kaspersky/" onclick="if (typeof ga === 'function') { ga('send', 'event', 'hub', 'feed page', 'Блог компании «Лаборатория Касп

In [53]:
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    print('post', post_id)
    hubs = post.find_all('a', class_='hub-link')

post 554542
post 554466
post 554540
post 554042
post 554538
post 554430
post 554256
post 554362
post 554518
post 554516
post 552396
post 554492
post 554494
post 554484
post 554482
post 554410
post 554138
post 554474
post 554476
post 554468


In [68]:
# добавляем извлечение хабов из постов, чтобы отбирать только нужные
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    #hubs = post.find_all('a', class_='hub-link')
    hubs = post.find_all('div', class_='post__text')
    #print(len(hubs))
    for hub in hubs:
        hub_lower = hub.text.lower()
        # ищем вхождение хотя бы одного желаемого хаба
        if any([desired.lower() in hub_lower for desired in DESIRED_HUBS]):
               # пост нам интересен - делаем с ним все что захотим:
               # можно отправит в телеграм уведомление, можно на почту и т.п.
            title_element = post.find('a', class_='post__title_link')
            print(title_element.text, title_element.attrs.get('href'))
               # так как пост уже нам подошел - дальше нет смысла проверять хабы
            break

Security Week 17: уязвимости в оборудовании для взлома телефонов https://habr.com/ru/company/kaspersky/blog/554542/
Умные лампы Hiper https://habr.com/ru/company/lamptest/blog/554466/


## Практика 2. Напишем скрипт, который будет собирать новости с сайта Коммерсанта

In [76]:
URL = 'https://www.kommersant.ru/search/results'
params = {
    'search_query': 'python'
}

In [77]:
res = requests.get(URL, params)

In [78]:
res.text

'\r\n<!DOCTYPE html>\r\n<html class="no-js" lang="ru"  >\r\n<head>\r\n<title>Коммерсантъ: последние новости России и мира</title>\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1" />\r\n<meta charset="utf-8"/>\r\n\r\n    <meta name="viewport" content="width=device-width, initial-scale=1.0">\r\n    <script> if (document.cookie.indexOf(\'IsNonMobileViewport\') >= 0){document.write(\'<meta name="viewport" content="width=1200">\')}</script>\r\n\r\n<meta name="format-detection" content="telephone=no" />\r\n<meta name="title" content="Коммерсантъ: последние новости России и мира" />\r\n\r\n<meta name="description" content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" />\r\n\r\n<meta name="keywords" content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Week

In [79]:
soup = BeautifulSoup(res.text, 'html.parser')
soup


<!DOCTYPE html>

<html class="no-js" lang="ru">
<head>
<title>Коммерсантъ: последние новости России и мира</title>
<meta content="IE=edge, chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<script> if (document.cookie.indexOf('IsNonMobileViewport') >= 0){document.write('<meta name="viewport" content="width=1200">')}</script>
<meta content="telephone=no" name="format-detection">
<meta content="Коммерсантъ: последние новости России и мира" name="title"/>
<meta content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" name="description"/>
<meta content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрологический прогноз,Погода мира,Курсы валют ЦБ РФ" name="keywords"/>
<link hre

In [80]:
# добираемся до блоков с новостями
news_blocks = soup.find_all('div', class_='search_results_item')
news_blocks

[<div class="search_results_item search_results_item--media">
 <div class="search_results_media">
 <div class="photo">
 <a href="/doc/4683488?query=python" target="_blank">
 <picture class="js-lazyimage">
 <source class="js-lazyimage-source" data-lazyimage-srcset="https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t241_184005.webp 1200w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t240_184005.webp 1035w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t239_184005.webp 990w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t250_184005.webp 870w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t238_184005.webp 690w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t237_184005.webp 660w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_00124_1_t236_184005.webp 600w, https://im.kommersant.ru/Issues.photo/DAILY/2021/030/KMO_178204_0012

In [81]:
# добираемся до текста со ссылкой
articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
articles_intro

[<div class="article_intro">
 <a href="/doc/4683488?query=python" target="_blank">
 									 ...  программирования. «Я выучил <mark>Python</mark>, чтобы понимать, как ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4683490?query=python" target="_blank">
 									 ... , на языке программирования <mark>Python</mark>. — Вы используете утекшие ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4691315?query=python" target="_blank">
 									 ...  обучения на языке <mark>Python</mark> и многих других ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4683264?query=python" target="_blank">
 									 ...  обучения на языке <mark>Python</mark> и многих других ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4615331?query=python" target="_blank">
 									 ... ) Дизайн и верстка: <mark>Python</mark> Creative Group .auditorium ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/46153

In [82]:
# добираемся до ссылок
a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
a_list

['/doc/4683488?query=python',
 '/doc/4683490?query=python',
 '/doc/4691315?query=python',
 '/doc/4683264?query=python',
 '/doc/4615331?query=python',
 '/doc/4615354?query=python',
 '/doc/4616964?query=python',
 '/doc/4614960?query=python',
 '/doc/4613237?query=python',
 '/doc/4602882?query=python']

In [84]:
# формируем полноценные ссылки
all_refs = list(map(lambda x: 'https://www.kommersant.ru' + x, a_list))
all_refs

['https://www.kommersant.ru/doc/4683488?query=python',
 'https://www.kommersant.ru/doc/4683490?query=python',
 'https://www.kommersant.ru/doc/4691315?query=python',
 'https://www.kommersant.ru/doc/4683264?query=python',
 'https://www.kommersant.ru/doc/4615331?query=python',
 'https://www.kommersant.ru/doc/4615354?query=python',
 'https://www.kommersant.ru/doc/4616964?query=python',
 'https://www.kommersant.ru/doc/4614960?query=python',
 'https://www.kommersant.ru/doc/4613237?query=python',
 'https://www.kommersant.ru/doc/4602882?query=python']

In [88]:
# объединим все в одну функцию
def get_all_links(url, query):
    all_refs = []
    params = {
        'search_query': query,
    }
    res = requests.get(URL, params)
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'html.parser')
    news_blocks = soup.find_all('div', class_='search_results_item')
    articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
    a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
    all_refs = list(map(lambda x: 'https://www.kommersant.ru' + x, a_list))

    return all_refs

all_links = get_all_links(URL, 'python')
all_links

['https://www.kommersant.ru/doc/4683488?query=python',
 'https://www.kommersant.ru/doc/4683490?query=python',
 'https://www.kommersant.ru/doc/4691315?query=python',
 'https://www.kommersant.ru/doc/4683264?query=python',
 'https://www.kommersant.ru/doc/4615331?query=python',
 'https://www.kommersant.ru/doc/4615354?query=python',
 'https://www.kommersant.ru/doc/4616964?query=python',
 'https://www.kommersant.ru/doc/4614960?query=python',
 'https://www.kommersant.ru/doc/4613237?query=python',
 'https://www.kommersant.ru/doc/4602882?query=python']

In [90]:
# но мы же собрали только одну страницу? Хотим ВСЕ новости
def get_all_links(url, query, pages):
    all_refs = []
    params = {
        'search_query': query
    }
    for i in range(pages):
        params['page'] = i + 1
        res = requests.get(URL, params)
        time.sleep(0.3)
        soup = BeautifulSoup(res.text, 'html.parser')
        news_blocks = soup.find_all('div', class_='search_results_item')
        articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
        a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
        all_refs += list(map(lambda x: 'https://www.kommersant.ru' + x, a_list))
    return all_refs

all_links = get_all_links(URL, 'python', 3)
all_links

['https://www.kommersant.ru/doc/4683488?query=python',
 'https://www.kommersant.ru/doc/4683490?query=python',
 'https://www.kommersant.ru/doc/4691315?query=python',
 'https://www.kommersant.ru/doc/4683264?query=python',
 'https://www.kommersant.ru/doc/4615331?query=python',
 'https://www.kommersant.ru/doc/4615354?query=python',
 'https://www.kommersant.ru/doc/4616964?query=python',
 'https://www.kommersant.ru/doc/4614960?query=python',
 'https://www.kommersant.ru/doc/4613237?query=python',
 'https://www.kommersant.ru/doc/4602882?query=python',
 'https://www.kommersant.ru/doc/4603550?query=python',
 'https://www.kommersant.ru/doc/4594535?query=python',
 'https://www.kommersant.ru/doc/4529711?query=python',
 'https://www.kommersant.ru/doc/4492730?query=python',
 'https://www.kommersant.ru/doc/4450879?query=python',
 'https://www.kommersant.ru/doc/4450177?query=python',
 'https://www.kommersant.ru/doc/4434580?query=python',
 'https://www.kommersant.ru/doc/4407208?query=python',
 'https://

In [91]:
import pandas as pd

In [92]:
# собираем даты, заголовки и тексты новостей
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    title = soup.find('h1', class_='article_name').text
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

AttributeError: 'NoneType' object has no attribute 'get'

In [93]:
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

2021-02-19
Анонимов найдут, где не ждали

В истории о том, что Telegram стал находкой для людей, которые хотят узнать все о неверных супругах или автомобилистах, подрезавших их на дороге (см. материал), есть одна весьма любопытная и неочевидная деталь. Дело в том, что боты для «пробива» людей в Telegram сегодня не брезгуют использовать и правоохранители. О том, что представители разных силовых структур регулярно просят администраторов ботов предоставить им бесплатный доступ к ресурсам для поиска людей, рассказали “Ъ” в нескольких ботах.
Выходит, если раньше силовики воспринимали Telegram как опасную с точки зрения распространения терроризма и наркотиков площадку, сейчас наиболее технически подкованные сотрудники МВД и ФСБ видят в нем полезный в работе инструмент. Чтобы понимать, как он действует, некоторые даже осваивают языки программирования. «Я выучил Python, чтобы понимать, как это работает изнутри»,— скромно признался мне собеседник в одной из силовых структур.
Дело в том, что бла

2021-02-10
Синергия цифровизации: Сбер и ВГУ обновляют дорожную карту сотрудничества






Фото: Сбербанк

Почти год назад в Воронежском государственном университете открылась лаборатория искусственного интеллекта Сбербанка. Этот большой проект стал очередным этапом многолетнего сотрудничества одного из крупнейших вузов и одной из крупнейших финансовых компаний страны. А также он стал отправной точкой к реализации еще более амбициозных совместных инициатив.
Лаборатория искусственного интеллекта Сбербанка органично дополнила уже существующую в университете IT-инфраструктуру. Она оснащена мощным компьютерным оборудованием и позволяет решать полный спектр задач в области информационных систем искусственного интеллекта, информационной безопасности, создания новых технологий обработки информации и машинного обучения.
В стенах лаборатории студентам предлагают освоить самые перспективные направления развития искусственного интеллекта: от анализа больших данных (Big data) и современных нейросе

2020-12-23
Руки, которые стоят миллион







Знаменитый русский композитор, пианист и дирижер Сергей Рахманинов не любил, когда его фотографируют репортеры, в особенности — папарацци. Однажды он был на гастролях в небольшом американском городе, и местный фотокорреспондент просто-таки преследовал его. Когда Рахманинов обедал, журналист достал камеру и попытался сделать снимок, но музыкант закрыл лицо руками. Снимок вышел на первой полосе газеты с гениальной подписью: «Руки, которые стоят миллион».В нашем проекте — те, чьи руки стоят миллион.
История третья: огранщик






«Мы смотрим на камень руками»Дмитрий Саморуков, мастер художественной огранки
— Давайте начнем с предмета у вас в руках, который вы так нежно держите. Что это за изобретение?
— В 2000 году я открыл производство по огранке цветных камней и уже тогда начал разрабатывать оборудование, которое будет удобно мне. Мне помогло мое техническое образование — я окончил МГТУ Станкин.
Через семь лет мое предприятие закрылось и у м

2020-12-18
Руки, которые стоят миллион







Знаменитый русский композитор, пианист и дирижер Сергей Рахманинов не любил, когда его фотографируют репортеры, в особенности — папарацци. Однажды он был на гастролях в небольшом американском городе, и местный фотокорреспондент просто-таки преследовал его. Когда Рахманинов обедал, журналист достал камеру и попытался сделать снимок, но музыкант закрыл лицо руками. Снимок вышел на первой полосе газеты с гениальной подписью: «Руки, которые стоят миллион».В нашем проекте — те, чьи руки стоят миллион.
История вторая: шеф-повар





На фото: А. Медяник, на запястье Артема: часы CODE 11.59 by Audemars Piguet

«Кухня — это царство времени»Артем Медяник, шеф-повар ресторана Narval
— Насколько вообще руки важны в работе шеф-повара. Со стороны кажется, что очень важны. А на деле?
— И на деле очень важны. Неважно, что ты умеешь в теории, важно — что ты можешь на практике. И тут главное — руки. А еще очень большую роль играет время. И это не только исто

2020-12-08
Робототехника нуждается в людях

Российский рынок робототехники растет на 10% в год, что рождает повышенный спрос на квалифицированные кадры. Их пока не хватает, хотя профессионалы могут зарабатывать до 300 тыс. рублей в месяц.
Рынок труда в сфере робототехники эксперты называют дефицитным. С одной стороны, отрасль стремительно развивается, что предполагает высокий спрос на специалистов. Так, по данным Минцифры, среднегодовой темп роста рынка робототехники и сенсорики в последние несколько лет в России составляет 10%. «С каждым годом специалисты в этой сфере становятся все более востребованными, потому что все больше предприятий автоматизируют процессы»,— отмечает Юлия Елисеева, консультант по подбору персонала кадровой компании Unity. «Так как роботизация идет быстрыми темпами во всех возможных направлениях жизни человека — в быту, медицине, транспорте, промышленности, то растет и востребованность кадров»,— соглашается с коллегой Ольга Копылова, руководитель отделений по по

2020-12-01
ИИ позволит отслеживать выбросы CO2, связанные с работой компьютеров

Сегодня, 1 декабря, канадский исследовательский институт Mila, американская консалтинговая компания BCG, Хаверфордский колледж (штат Пенсильвания) и нью-йоркский разработчик ПО Comet.ml объявили о создании программного пакета с открытым исходным кодом для оценки выбросов CO2, связанных с вычислительной работой. Пакет под названием CodeCarbon позволяет при помощи ИИ оценивать выбросы от работы компьютеров в зависимости от местоположения компании или организации.
CodeCarbon интегрируется с программным кодом, написанным на языке Python. Программа также предлагает разработчикам ПО рекомендации по снижению выбросов за счет использования облачной инфраструктуры, расположенной в тех регионах, где применяются низкоуглеродные источники энергии.
Программа работает следующим образом: она фиксирует количество электроэнергии, используемое при работе инфраструктурного оборудования, установленного как у крупнейших постав

2020-09-17
SuSMoST — мощный молекулярный инструмент

Российские ученые разработали программу, которая позволяет моделировать процессы на поверхностях твердых тел, такие как поглощение одним веществом другого и самосборка молекулярных слоев. Этот программный комплекс позволит ускорить разработку новых материалов для разных сфер деятельности, например электроники, медицины и защиты окружающей среды. Исследование поддержано Президентской программой Российского научного фонда (РНФ).
Одним из перспективных современных направлений в науке о материалах стала самосборка молекулярных монослоев. Этот процесс представляет собой формирование упорядоченной структуры за счет взаимодействия между частицами на поверхности. В результате образуется структура толщиной всего в одну молекулу. Этот процесс перспективен для промышленного производства наноразмерных устройств и новых материалов с атомарной точностью.
Молекулы могут формировать на поверхности бесконечное число упорядоченных структур. Поэтому по

2020-07-29
В Тутаеве появится центр цифрового образования детей «IT-куб»

В городе Тутаеве Ярославской области осенью 2020 года будет открыт второй в регионе центр цифрового образования детей «IT-куб», сообщила пресс-служба регионального правительства.  Работа по созданию центра ведется в рамках регионального проекта «Цифровая образовательная среда» национального проекта «Образование». На приобретение оборудования для центра из федерального и областного бюджетов выделено более 13 млн руб. Еще 14 млн руб. на ремонт помещений выделено из областного бюджета. 
Центр создается при Тутаевском политехническом техникуме. Занятия в новом центре будут проводиться для детей в возрасте от 5 до 18 лет. Они будут изучать такие направления, как «Программирование на Python», «Мобильная разработка», «Разработка VR/AR-приложений», «Системное администрирование», «Кибергигиена и работа с большими данными» и «Программирование роботов». 
По словам директора Тутаевского политехнического техникума Алексея Обо

2020-06-30
Инвестиции в себя

Карантинные меры в связи с пандемией COVID-19 привели к взрывному росту популярности различных онлайн-курсов: только с конца марта по конец апреля спрос на такие продукты вырос почти на 100%. Наиболее востребованными оказались женские тренинги, обучение новым профессиям, онлайн-курсы по фитнесу и здоровью, рисованию и иностранным языкам. «Деньги» подсчитали, во сколько обойдется изучение Python, курсы по маркетингу, тренировки и знания о правильном питании, а также стоит ли записываться на занятия этим летом.
Онлайн-образование оказалось одной из немногих отраслей, которая из-за кризиса в связи с пандемией COVID-19 не только не пострадала, но и даже выросла, отмечают аналитики платежного сервиса CloudPayments. По их оценкам, основанным на данных 1,3 тыс. компаний, спрос на такие продукты в период действия ограничительных мер (с конца марта по конец апреля) вырос на 99% относительно периода конца февраля — конца марта. Как отмечают в CloudPayments, многие р

2020-05-20
«МТС»  сообщает об увеличении набора специалистов для развития цифровых продуктов компании

На Кубани большинство вакансий открыто в сфере ИТ, но также высока потребность в сотрудниках, способных продавать инновационные решения компании






Всего в Группе МТС открыто более 600 вакансий по ИТ-направлениям. Востребованы разработчики разного стека технологий (Java, .net, JS, Python и других), DevOps-инженеры, аналитики, специалисты по машинному обучению, QA-инженеры.
В 2019 году МТС приняла в ИТ-команду 1204 специалиста, в 2020 — более 400. МТС перевела рекрутинг в онлайн и готова продолжать найм ИТ-экспертов, несмотря на дистанционный формат работы большинства сотрудников компании. Интервью проводятся в видеоформате, запущена система удаленной адаптации, предоставления доступов и оформления. Новые сотрудники, чей функционал допускает работу вне офиса, могут сразу приступить к рабочим обязанностям из дома.



In [94]:
# запишем данные в датафрейм
kom_news = pd.DataFrame()
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    text = soup.find('div', class_='article_text_wrapper').text
    row = {'date': date, 'title': title, 'text': text}
    kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
kom_news

Unnamed: 0,date,title,text
0,2021-02-19,"Анонимов найдут, где не ждали","\nВ истории о том, что Telegram стал находкой ..."
0,2021-02-19,«Все прошлые утечки покажутся нам ничтожными»,\nО перспективах рынка Telegram-ботов для поис...
0,2021-02-12,Ко Дню студента Сбер и ВГУ обновили дорожную к...,\n\n\n\n\n\nФото: Сбербанк\n\nПочти год назад ...
0,2021-02-10,Синергия цифровизации: Сбер и ВГУ обновляют до...,\n\n\n\n\n\nФото: Сбербанк\n\nПочти год назад ...
0,2020-12-25,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-23,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-21,Новые грани тамбовского образования,\n2020 год стал особенным для системы образова...
0,2020-12-18,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-15,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-08,Робототехника нуждается в людях,\nРоссийский рынок робототехники растет на 10%...


In [95]:
# обернем в функцию 
def get_kom_news(links):
    kom_news = pd.DataFrame()
    for link in all_links:
        soup = BeautifulSoup(requests.get(link).text, 'html.parser')
        if soup.find('div', class_='b-article__publish_date'):
            date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
        elif soup.find('time', class_='title__cake'):
            date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
        if soup.find('h2', class_='article_name'): 
            title = soup.find('h2', class_='article_name').text
        else: 
            title = soup.find('h1', class_='article_name').text    
        text = soup.find('div', class_='article_text_wrapper').text
        row = {'date': date, 'title': title, 'text': text}
        kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
    return kom_news

In [96]:
kom_news = get_kom_news(all_links)
kom_news

Unnamed: 0,date,title,text
0,2021-02-19,"Анонимов найдут, где не ждали","\nВ истории о том, что Telegram стал находкой ..."
0,2021-02-19,«Все прошлые утечки покажутся нам ничтожными»,\nО перспективах рынка Telegram-ботов для поис...
0,2021-02-12,Ко Дню студента Сбер и ВГУ обновили дорожную к...,\n\n\n\n\n\nФото: Сбербанк\n\nПочти год назад ...
0,2021-02-10,Синергия цифровизации: Сбер и ВГУ обновляют до...,\n\n\n\n\n\nФото: Сбербанк\n\nПочти год назад ...
0,2020-12-25,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-23,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-21,Новые грани тамбовского образования,\n2020 год стал особенным для системы образова...
0,2020-12-18,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-15,"Руки, которые стоят миллион","\n\n\n\n\n\n\nЗнаменитый русский композитор, п..."
0,2020-12-08,Робототехника нуждается в людях,\nРоссийский рынок робототехники растет на 10%...


# API

## Практика 3. Получим данные о песнях исполнителя при помощи  [API ITunes](https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/index.html)

In [None]:
# https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/UnderstandingSearchResults.html#//apple_ref/doc/uid/TP40017632-CH8-SW1
URL = 'https://itunes.apple.com/search?term=jack+johnson'

In [None]:
res = requests.get(URL)

In [None]:
res.text

In [None]:
res.json()

In [None]:
params = {
    'term': 'шнуров',
    'limit': 200,
#     'offset': 2
}

In [None]:
# pd.set_option('display.max_columns', 100)
res = requests.get(URL, params)
# res.json()

pd.DataFrame(res.json()['results'])

In [None]:
params = {
    'term': 'лазарев',
    'limit': 60,
    'attribute': 'allArtistTerm',
    'country': 'ru'
}

In [None]:
res = requests.get(URL, params)
res.json()

pd.DataFrame(res.json()['results'])

## Практика 4. Соберем сообщения из новостной ленты ВК по нужному запросу

In [None]:
# https://vk.com/dev/manuals
# https://vk.com/dev/newsfeed.search
NEWSFEED_REQUEST = 'https://api.vk.com/method/newsfeed.search?'
TOKEN = '9df7991c9df7991c9df7991c329d86910d99df79df7991cc363a27748dcf7ad91284ef6'
VERSION = '5.103'
SLEEP = 0.33

In [None]:
# обращаем внимание, что максимальное количество постов, 
# которые можно вытащить за раз, ограничено
params = {
    'access_token': TOKEN,
    'v': VERSION,
    'q': 'короновирус',
    'count': 200
}

In [None]:
res = requests.get(NEWSFEED_REQUEST, params)
res

In [None]:
res.text

In [None]:
res.json()

In [None]:
res.json()['response']['items']

In [None]:
pd.DataFrame(res.json()['response']['items'])

In [None]:
# соберем все доступные сообщения по запросу
newsfeed_df = pd.DataFrame()
while True:
    result = requests.get(NEWSFEED_REQUEST, params)
    time.sleep(0.33)
    newsfeed_df = pd.concat([newsfeed_df, pd.DataFrame(result.json()['response']['items'])])
    if 'next_from' in result.json()['response'].keys():
        params['start_from'] = result.json()['response']['next_from']
    else:
        break
newsfeed_df