# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм со столбцами: <дата> - <заголовок> - <ссылка>.

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.

Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст статьи>

In [167]:
import requests
from bs4 import BeautifulSoup
from IPython.display import display, HTML
import re
from datetime import datetime as dt
from datetime import timedelta as td
import pytz
import time
import pandas as pd


def convert_to_utc(date_str, now, tz):
    '''
    Форматы:
        13 августа 2020 в 12:07
        сегодня в 11:19
        вчера в 23:29    
    '''
    t = None
    for day in ["сегодня", "вчера"]:
        if day in date_str:
            res = re.findall(r"(\d\d):(\d\d)",  date_str)
            if res is not None and len(res) == 1 and len(res[0]) == 2:
                if day == "вчера":
                    t = now.replace(hour=int(res[0][0]), minute=int(res[0][1]), second=0) + td(days=-1)
                else:
                    t = now.replace(hour=int(res[0][0]), minute=int(res[0][1]), second=0)
            break
        
    if t is None:
        res = re.findall(r"(\d{1,2})\s(\w+)\s(\d{4}) в (\d\d):(\d\d)", date_str)
        if res is not None and len(res) == 1 and len(res[0]) == 5:
            months = ['января', 'февраля', 'марта', 'апреля', 'мая', 'июня',
              'июля', 'августа', 'сентября', 'октября', 'ноября', 'декабря']
            if res[0][1] in months:
                month = months.index(res[0][1]) + 1
                t = dt(int(res[0][2]), months.index(res[0][1]) + 1, int(res[0][0]),
                    int(res[0][3]), int(res[0][4]), tzinfo=tz)
        
    if t is not None:
        return t.astimezone(pytz.timezone("UTC")).strftime("%Y-%m-%d %H:%M:%S")
    
def get_table1(keywords):
    # инициализация
    info = []
    tz = pytz.timezone("Europe/Moscow")
    now = dt.now(tz)
    rex = '(' + '|'.join(keywords) + ')'

    # получаем страницу с самыми свежими постами
    req = requests.get('https://habr.com/ru/all/')
    soup = BeautifulSoup(req.text, 'html.parser')

    # извлекаем посты и ищем
    posts = soup.find_all('article', class_='post')
    for post in posts:
        post_id = post.parent.attrs.get('id')
        if not post_id:
            continue

        # определяем дату/время, заголовок и ссылку
        time_element = post.find('span', class_='post__time')
        time = convert_to_utc(time_element.text, now, tz)
        title_element = post.find('a', class_='post__title_link')
        header = title_element.text
        link = title_element.attrs.get('href')

        # ищем в хабах
        found = None
        hubs = post.find_all('a', class_='hub-link')
        for hub in hubs:        
            if len(re.findall(rex, hub.text, flags=re.IGNORECASE)):
                found = 'хабы'
                break

        # ищем в заголовке
        if found is None:
            if len(re.findall(rex, header, flags=re.IGNORECASE)):
                found = 'заголовок'

        # ищем в тексте
        if found is None:
            post_text = post.find('div', class_='post__text').text
            if len(re.findall(rex, post_text, flags=re.IGNORECASE)):
                found = 'текст'
        
        info.append([time, header, link, found])
            
    return info

def get_table2(pubs, keywords):
    rex = '(' + '|'.join(keywords) + ')'
    info = []
    
    for pub in pubs:
        # получаем страницу с самыми свежими постами
        req = requests.get(pub[2])
        soup = BeautifulSoup(req.text, 'html.parser')
        
        post_text = soup.find('div', class_='post__text').text

        # ищем в тегах
        found = pub[3]
        if found is None:
            post_tags = soup.find('dl', class_='post__tags')
            tags = post_tags.find_all('a', class_='post__tag')
            for tag in tags:        
                if len(re.findall(rex, tag.text, flags=re.IGNORECASE)):
                    found = 'тэги'
                    break
        
        # ищем в тексте
        if found is None:
            if len(re.findall(rex, post_text, flags=re.IGNORECASE)):
                found = 'весь текст'
        
        # добавляем только нужные строки
        if found is not None:
            info.append(pub[:3] + [found, post_text])
            
        time.sleep(0.5)
            
    return info 


KEYWORDS = ['python', 'парсинг']

table1 = get_table1(KEYWORDS)
table2 = get_table2(table1, KEYWORDS)

pdt1 = pd.DataFrame(table1, columns=["Дата", "Заголовок", "Ссылка", "Найден"]).dropna()
display(HTML(pdt1.iloc[:, [0,1,2]].to_html()))

pdt2 = pd.DataFrame(table2, columns=["Дата", "Заголовок", "Ссылка", "Найден", "Текст статьи"])
display(HTML(pdt2.iloc[:, [0,1,2,4]].to_html()))

Unnamed: 0,Дата,Заголовок,Ссылка
7,2020-08-16 14:50:00,Конфуций и Маргарита,https://habr.com/ru/post/515346/
12,2020-08-16 13:03:00,VKWave — фреймворк для разработки ботов ВКонтакте,https://habr.com/ru/post/515334/
17,2020-08-16 11:55:00,Первые шаги в визуализации данных с использованием Geopandas и OSM,https://habr.com/ru/post/515328/


Unnamed: 0,Дата,Заголовок,Ссылка,Текст статьи
0,2020-08-16 14:50:00,Конфуций и Маргарита,https://habr.com/ru/post/515346/,"\n\nВступление\r\nСоревнований по машинному обучению как и платформ, на которых они проводятся, существует немало и на любой вкус. Но не так часто темой контеста является человеческий язык и его обработка, еще реже такое соревнование связано с русским языком. Недавно я принимал участие в соревновании по машинному переводу с китайского на русский, прошедшего на платформе ML Boot Camp от Mail.ru. Не обладая большим опытом в соревновательном программировании, и проведя, благодаря карантину, все майские праздники дома, удалось занять первое место. Про это, а также про языки и подмену одной задачи другой я постараюсь рассказать в статье.\n\nГлава 1. Никогда не разговаривайте на китайском\r\nАвторами данного соревнования предлагалось создать систему машинного перевода общего назначения, так как перевод даже от крупных компаний в паре китайский-русский значительно отстает от более популярных пар. Но так как валидация проходила на новостях и художественной литературе, то стало понятно, что обучаться надо именно на новостных корпусах и книгах. Метрика для оценки переводов была стандартная — BLEU. Эта метрика сравнивает человеческий перевод с машинным и, грубо говоря, за счет количества найденных совпадений оценивает близость текстов по 100-балльной шкале. Русский язык богат своей морфологией, поэтому данная метрика всегда заметно ниже при переводе на него чем на языки с меньшим количеством способов словообразования (например, романские языки — французский, итальянский и т.д.).\n\r\nКаждый, кто занимается машинным обучением, знает, что это в первую очередь данные и их очистка. Займемся же поиском корпусов и параллельно будем разбираться в дебрях машинного перевода. Итак, в белом плаще…\n\nГлава 2. Пон Тий Пи Лат\r\nВ белом плаще с кровавым подбоем, шаркающей кавалерийской походкой мы лезем в поисковик за параллельным русско-китайским корпусом. Как мы позже поймем, того, что мы нашли недостаточно, но пока взглянем на наши первые находки (найденные и почищенные мной датасеты я собрал вместе и выложил в открытый доступ [1]):\n\n\nOpenSubtitles corpora (4M+ строк)\nWikiMatrix\nTED transcriptions corpora (540K строк)\n\nOPUS довольно большой и в языковом плане разнообразный корпус, посмотрим на примеры из него:\n«То, что мы с ней пережили, еще необычнее того, что пережили вы...»\r\n我与她的经历比你的经历离奇多了\n\r\n«Я расскажу вам об этом.»\r\n我给你讲讲这段经历…\n\r\n«Маленький городок, где я родился...»\r\n我出生那座小镇...\r\nКак видно из названия, это в основном субтитры к фильмам и сериалам. К такому же типу принадлежат и субтитры TED'a, которые после парсинга и очистки тоже превращаются во вполне себе параллельный корпус:\n\nВот чем обернулся наш исторический эксперимент в наказании:\r\n这就是关于我们印象中的惩戒措施的 不为人知的一面\n\r\nмолодые люди боятся, что в любой момент их могут остановить, обыскать, задержать.\r\n年轻人总是担心随时会被截停、搜身和逮捕\n\r\nИ не только на улице, но и в их собственных домах,\r\n无论是在街上还是在家WikiMatrix — это выровненные LASER'ом тексты из интернет страничек (так называемый common crawling) на различных языках, но для нашей задачи их мало, да и выглядят они странновато:\nЗбраньки (укр.\r\n但被其否认。\n\r\nНо вам лучше поститься, если бы вы только знали!\r\n斋戒对于你们更好，如果你们知道。\n\r\nОн отверг такое утверждение.\r\n后来这个推论被否认。После первого этапа поиска данных, возникает вопрос с нашей моделью. Какие есть инструменты и как вообще подойти к задаче?\n\r\nЕсть очень понравившийся мне NLP курс от МФТИ на Степике [2], особенно полезный при прохождении онлайн, там на семинарах разбираются в том числе и системы машинного перевода, причем пишешь их ты сам. Помню восторг от того, что написанная с нуля сеть после обучения в Colab, выдала адекватный русский перевод в ответ на немецкий текст. Модели мы строили на архитектуре трансформеров с механизмом внимания, который в свое время стал прорывной идеей [3].\n\r\nЕстественно, первой мыслью было «просто дать модели другие данные на вход» и выиграть уже. Но, как знает любой китайский школьник, в китайской письменности пробелы отсутствуют, а наша модель на вход принимает наборы токенов, которыми в ней являлись слова. Разбить китайский текст на слова с какой-то точностью позволяют библиотеки типа jieba. Встроив токенизацию по словам в модель и прогнав ее на найденных корпусах, я получил BLEU около 0,5 (а шкала-то 100-балльная).\n\nГлава 3. Машинный перевод и его разоблачение\r\nК соревнованию был предложен официальный baseline (простое, но работающее решение-пример), который основывался на OpenMNT. Это открытый инструмент для обучения переводу с множеством гиперпараметров для подкрутки. На этом шаге давайте обучать и делать вывод модели через него. Обучать будем на платформе kaggle, так как она дает 40 часов обучения на GPU бесплатно [4].\n\r\nНадо отметить, что к этому моменту участников конкурса было настолько немного, что войдя в него, можно было бы попасть сразу в пятерку, и на то были причины. Форматом решения был docker-контейнер, к которому в процессе инференса монтировались папки и модель должна была читать из одной, а ответ класть в другую. Так как официальный бейзлайн не заводился (я лично сходу его не собрал) и был без весов, то я решил собрать свой и выложил в открытый доступ [5]. После этого начали обращаться участники с просьбой правильно собрать решение и вообще помочь с докером. Мораль, контейнеры — это стандарт в сегодняшней разработке, используйте их, оркестрируйте и упрощайте себе жизнь (с последним утверждением согласны не все).\n\r\nДавайте теперь добавим к найденным на предыдущем шаге корпусам еще парочку:\n\n\nUnited Nations Parallel Corpus (3M+ строк)\nUM-Corpus: A Large English-Chinese Parallel Corpus (News subcorpora) (450K строк)\n\r\nПервый — это огромный корпус юридических документов с заседаний ООН. Доступен он, кстати, на всех официальных языках этой организации и выровнен по предложениям. Второй еще более интересен, так как непосредственно является новостным корпусом с одной особенностью, — он китайско-английский. Нас этот факт не смущает, потому что современный машинный перевод с английского на русский очень качественный, и в ход идут Amazon Translate, Google Translate, Bing и Яндекс. Для полноты картины покажем примеры из того, что получилось.\n\nДокументы ООН\nЭтот микроспутник представляет собой недорогостоящую платформу которая имеет умеренно продолжительный срок службы и в будущем может быть модифицирована.\r\n它是一个低成本平台运转寿命较长且能在今后进一步发展。\n\r\nВ частности в нем представлена подробная информация о разработанных самими участниками планах осуществления ряда проектов регионального уровня представляющих определенный интерес.\r\n报告特别详细描述了由参加者自己拟订的若干与该地区有关并涉及整个地区的项目计划。\nUM-Corpus\n\nFacebook закрыл сделку на покупку Little Eye Labs в начале января.\r\n1月初脸书完成了对Little Eye Labs的收购，\n\r\nЧетыре инженера в Бангалоре запустили Little Eye Labs около полутора лет назад.\r\n一年半以前四位工程师在班加罗尔创办了Little Eye Labs。\n\r\nКомпания строит программные инструменты для мобильных приложений, сделка будет стоить от 10 до 15 миллионов долларов.\r\n该公司开发移动应用软件工具，这次交易价值1000到1500万美元，\r\nИтак, наши новые ингредиенты: OpenNMT + качественные корпуса + BPE (про BPE токенизацию можно почитать здесь). Обучаем, собираем в контейнер, и после отладки/очистки и стандартных трюков получаем BLEU 6,0 (шкала по-прежнему 100-балльная).\n\nГлава 4. Параллельные рукописи не горят\r\nДо этого момента мы шаг за шагом мы улучшали нашу модель и самый большой прирост дало использование новостного корпуса, одного из проверочных доменов. Кроме новостей неплохо было бы обзавестись и корпусом литературы. Потратив изрядное количество времени стало понятно что машинный перевод книг с китайского ни одна популярная система предоставить не может — Настасья Филипповна становится чем то вроде Ностоси Филипауны, а Рогожин — Рого Реном. Имена персонажей обычно составляют довольно большой процент от всего произведения и часто это имена редкие, поэтому, если модель их никогда не видела, то и перевести корректно скорее всего не сможет. Надо обучаться на книгах.\n\r\nТут мы подменяем задачу перевода на задачу выравнивания текстов. Сразу скажу, что эта часть мне понравилась больше всего, потому что сам я увлекаюсь изучением языков и параллельные тексты книг и рассказов, по-моему мнению, это один из наиболее продуктивных способов обучения. Идей для выравнивания было несколько, самой продуктивной оказалось переводить предложения в векторное пространство и считать косинусное расстояние между кандидатами на соответствие. Перевод чего-нибудь в вектора называется embedding, в данном случае это sentence embedding. Для этих целей есть несколько хороших библиотек [6]. При визуализации результата видно, что китайский текст немного сползает за счет того, что сложные предложения на русском часто переводят как два или три на китайском.\n\n\n\r\nНайдя все что можно на просторах интернета, и самостоятельно выравнивая книжки добавляем их к нашему корпусу.\n\nОн был в дорогом сером костюме, в заграничных, в цвет костюма, туфлях.\r\n他穿一身昂贵的灰色西装，脚上的外国皮鞋也与西装颜色十分协调。\n\r\nСерый берет он лихо заломил на ухо, под мышкой нес трость с черным набалдашником в виде головы пуделя.\r\n头上一顶灰色无檐软帽歪向一旁，压到耳梢，显得整个人那么俏皮矫健他腋下还夹着一根手杖，手杖顶端镶着个乌黑的狮子狗头。\n\r\nПо виду — лет сорока с лишним.\r\n看模样年纪在四十开外。\r\nПосле обучения на новом корпусе, BLEU вырос до 20 на публичном датасете и до 19,7 на приватном. Тут сыграло и то, что в обучение очевидно попали произведения из валидации. В реальности так никогда делать нельзя, это называется утечкой, а метрика перестает быть показательной.\n\nЗаключение\r\nМашинный перевод прошел немалый путь от эвристик и статистических методов до нейросетей и трансформеров. Я рад, что удалось найти время и познакомиться с этой темой, она определенно заслуживает пристального внимания со стороны сообщества. Хочу поблагодарить авторов соревнования и других участников за интересное общение и новые идеи!\n\r\n[1] Параллельные русско-китайские корпуса\r\n[2] Курс по Natural Language Processing от МФТИ\r\n[3] Прорывная статья Attention is all you need\r\n[4] Ноутбук с примером обучения на kaggle\r\n[5] Публичный docker бейзлайн\r\n[6] Библиотека для multilingual sentence embeddings"
1,2020-08-16 13:03:00,VKWave — фреймворк для разработки ботов ВКонтакте,https://habr.com/ru/post/515334/,"\nПривет, Хабр!\nСегодня я хочу рассказать о замечательной библиотеке для разработке ботов ВКонтакте с помощью языка программирования Python.\nVKWave\nVKWave — это фреймворк для разработки ботов ВКонтакте, написанный с помощью asyncio. Основные цели проекта — дать возможность разработчику конфигурировать фреймворк максимально под себя, в тоже время обеспечивая достойную скорость разработки.\nМинимальная требуемая версия Python — 3.7\nВ этой статье я хочу показать вам несколько примеров простых ботов на VKWave, а после вы всегда можете попробовать сами. Фреймворк находится в активной разработке, поэтому документация написанна ещё не до конца, но уже имеется большое количество примеров.\nТакже у нас есть чат в Telegram\nУстановка\nУстановка очень проста и содержит в себе всего одну команду:\npip install vkwave\nА теперь предлагаю перейти к примерам!\nEcho-бот\nСамая простая задача. Бот который отвечает нам тем же самым текстом, который мы ему написали.\n# Импортируем нужные классы.\n# SimpleLongPollBot: обёртка для более удобной работы с фреймворком\n# SimpleBotEvent: тип события, который предоставляет SimpleLongPollBot\nfrom vkwave.bots import SimpleLongPollBot, SimpleBotEvent\n\n# инициализируем бота (можно ввести список токенов, тогда vkwave сможет обходить лимиты ВКонтакте)\nbot = SimpleLongPollBot(tokens=TOKEN, group_id=GROUP_ID)\n\n# декоратор для создания обработчиков.\n# можно передавать свои фильтры, но в данном случае мы хотим принимать все сообщения\n@bot.message_handler()\ndef echo(event: SimpleBotEvent) -> str:\n # мы можем сразу возвращать текст, т.к vkwave понимает, что если вы возвращаете строку, то вы хотите ответить на сообщение этим текстом. пользователь может задать свои типы данных, которые он сможет возвращать из хендлеров (а также написать нужную логику для их преобразования в нужные действия)\n return event.object.object.message.text\n\n# запускаем бота с игнорированием ошибок (не останавливаться даже при них)\nbot.run_forever()\nКод содержит буквально пару строк и выглядит очень легко.\nПредлагаю написать что-нибудь поинтереснее. Давайте напишем такого же бота, но он будет печатать в ответ только тот текст, который идёт как аргументы команды /echo. Например — /echo мой текст.\nВторая версия Echo-бота\n# мы используем фильтр для команд. он фильтрует все сообщения которые не выглядит как `/<наша команда>`. можно задать свои префиксы, а также передать список команд\n@bot.message_handler(bot.command_filter(""echo""))\ndef echo(event: SimpleBotEvent) -> str:\n # получаем все аргуметы команды\n args = event.object.object.message.text.split()\n # проверяем, что есть хотя бы один аргумент\n # в противном случае - пишем, что пользователь должен ввести какой-нибудь текст\n if len(args) < 2:\n return ""Напиши какой-нибудь текст!""\n # возвращаем итоговый текст (соединяем все аргументы через пробел)\n return "" "".join(args[1:])\nУже интереснее. Как мы видим, VKWave предоставляет нам фильтр для команд. Скажу сразу: стандартных фильтров в VKWave много, а также вы можете написать свои.\nИтоговая версия Echo-бота\nА сейчас мы попробуем написать свои фильтры для того, чтобы весь наш обработчик выглядел максимально просто.\n# Импортируем нужные классы для разработки своих фильтров\nfrom vkwave.bots.core.dispatching.filters.base import BaseFilter, BaseEvent, FilterResult\n\n# объявляем свой фильтр, который наследуется от базового\nclass EchoFilter(BaseFilter):\n # мы можем определить `__init__` для дополнительной настройки фильтра\n\n # объявляем асинхронный метод `check`, который принимает событие и возвращает результат фильтра\n async def check(self, event: BaseEvent) -> FilterResult:\n # делаем алиас для текста сообщения\n text = event.object.object.message.text\n # разбиваем сообщение по пробелам\n all_args = text.split()\n # если частей меньше двух - фильтр не прошёл\n if len(all_args) < 2:\n # возвращаем False.\n # так же можем, например, что-то написать пользователю\n # у нас есть `event.api_ctx`, который предоставляет лёгкий доступ ко всем методам\n return FilterResult(False)\n # если нулевой аргумент (сама команда) не ""/echo"" возвращаем False\n if all_args[0] != ""/echo"":\n return FilterResult(False)\n # передаём обработчику уже готовый ответ на сообщение\n event[""echo_answer""] = "" "".join(all_args[1:])\n return FilterResult(True)\n\n# используем фильтр\n@bot.message_handler(EchoFilter())\ndef echo(event: SimpleBotEvent) -> str:\n # возвращаем текст, который мы уже ""собрали"" в фильтре\n return event[""echo_answer""]\nЗаключение\nКонечно, я показал вам не все, вообще не все, возможности VKWave. Они очень широки, начиная от возможности своих фильтров и middlewares, типов обработчиков, способов получения событий, заканчивая мультиботом, собственным HTTP клиентом и многое другое!\nЭтой статьёй я хочу мотивировать вас попробовать создать своего бота ВКонтакте, не используя не удобные vk_api и vk.\nРепозиторий на GitHub \nНаш чат в Telegram"
2,2020-08-16 11:55:00,Первые шаги в визуализации данных с использованием Geopandas и OSM,https://habr.com/ru/post/515328/,"\r\nУ многих хоть раз возникала необходимость быстро нарисовать карту города или страны, нанеся на нее свои данные (точки, маршруты, тепловые карты и т.д.).\r\nКак быстро решить такую задачу, откуда взять карту города или страны для отрисовки — в подробной инструкции под катом.\nВведение\nНедавно в работе возникла необходимость в отрисовке карты России на различных уровнях детальности (субъекты, города, городские районы) и подтягивании к ней ряда данных.\nГрубо говоря, нужно было подготовить тепловую карту наподобие такой:\n\nПлотность населения Москвы по районам\n\nИсточник\n\nЗадача осложнялась тем фактом, что у нас не было подходящего файла с картой для визуализации, а данные, которые мы планировали отобразить, хранятся в привязке к почтовому коду (то есть, у нас нет привязки к субъекту федерации / городу / району).\nВ этой статье я поделюсь своим опытом касательно поиска подходящего источника данных, использования формата .shp и библиотеки geopandas.\nФормирование подхода\nФормально, решение задачи сводится к трем шагам:\n\nПоиск данных — карты России на разных уровнях детализации\nМэтчинг данных с картой из шага ""1""\nПроверка результатов, празднование\n\nНиже я опишу процесс выполнения каждого из этих шагов, поделюсь релевантным кодом, а также приведу ссылки на полезные ресурсы, которые встретились на моем пути.\nПоиск\nФормат файлов\nОптимальным для нашей задачи оказался формат Shapefile.\r\nНе вдаваясь в подробности, Shapefile — это векторный формат, с помощью которого можно отобразить геометрические фигуры (например, районы города), а также привязать к ним ряд параметров для отображения (например, население в каждом районе).\r\nОсновные релевантные термины, которыми мы будем оперировать:\n\nТочка — Сочетание широты и долготы\nЛиния — Последовательность из нескольких точек, соединенных между собой в фиксированном порядке\nПолигон — Замкнутая линия, у которой совпадают первая и последняя точка\\n\nПодробнее про различные элементы можно почитать в замечательной статье.\nИсточник данных\nИсточником данных был выбран OpenStreetMap (он же OSM). Это картографический сервис, наполняемый по принципу Википедии — желающие могут редактировать данные, добавлять недостающую информацию и так далее.\nБыстрая проверка качества карт показала вполне адекватное отображение как крупных городов, так и мелких деревень и сел. Подробнее про качество данных и способы их наполнения можно почитать на официальной странице OSM.\nЧтобы выгрузить данные с OSM, мы воспользовались помощью специализированного агентства (как делать выгрузки самостоятельно, можно почитать тут).\r\nМы выбрали NextGis, однако есть и другие агентства, чьей помощью можно воспользоваться для выгрузки и обработки данных.\nНа NextGis можно за символическую плату подготовить карту Москвы (заняла ~30 минут) и за чуть менее символическую — всей России (заняла ~4 дня). Также можно подготовить выгрузку по произвольной области.\nМэтчинг\nКарта есть — теперь нужно понять, как выстроить связь между почтовыми кодами (к которым привязаны наши данные) и нужными нам уровнями детализации (город / район и тд).\nИсходно была надежда на эталонный справочник Почты России, однако оказалось, что наполнение его далеко от идеала (например, для почтового кода может быть указано, в каком городе он находится, но не в каком районе). К тому же в России, в отличие, например, от США, здания с одним и тем же почтовым кодом могут находиться в разных районах города, или даже в разных городах.\nВ результате было решено опереться на все тот же OpenStreetMap. На одном из слоев карты представлены отдельные здания, у части из которых заполнено поле с почтовым кодом.\r\nЕсли найти все дома с определенным почтовым кодом, а потом определить, в каком районе города находится большинство из них, можно определить, какой район является для данного индекса ""основным"".\nПонятно, что такой подход имеет ряд ограничений. Например, могут найтись районы, в которых нет ни одного здания с заполненным индексом, могут быть ошибки при его написании и многие другие потенциальные косяки.\r\nВ то же время, в итоге выполнения этого упражнения мы увидели вполне удовлетворительные результаты (подробнее о них будет написано в разделе ""Проверка"").\nВ общем, проще показать, чем объяснить, так что переходим к делу!\nУстановка и импорт библиотек\nДля всей нашей работы понадобится библиотека Geopandas, а также всем известные Pandas, Matplotlib и Numpy.\r\nПри установке Geopandas через pip на Windows выскакивает ошибка, так что рекомендую воспользоваться conda install geopandas .\nimport pandas as pd\nimport numpy as np\nimport geopandas as gpd\nfrom matplotlib import pyplot as plt\nОткрываем Shapefile\nКарты наши поставляются в виде zip архива.\r\nПри его открытии в папке data можно найти множество файлов с разными расширениями. Это различные слои, для каждого из которых есть основной файл (расширение .shp) и вспомогательные (расширения .cpg, .dbf, .prj, .shx).\nНесколько моментов, на которые следует обратить внимание при начале работы с geopandas:\n\nАрхив крайне эффективно ужимает карту. Например, архив с картой всей России весит 1.2GB, а при распаковке он занимает уже 22.8GB. Таким образом, не стоит распаковывать архив — лучше выгрузить из него нужные нам слои (благо geopandas позволяет это делать без использования дополнительных библиотек)\nРазные поля могут быть в разных кодировках. Например, в нашем примере административные границы были в кодировке 'cp1251', а остальные поля — в 'utf-8'\nПри работе с несколькими слоями, взятыми из разных источников, могут возникнуть проблемы с их отображением из-за разных проекций карт. Подробнее об этой проблеме и способах ее решения можно почитать тут.\n\n# Путь к папке data в нашем архиве\n# Обратите внимание на формат обращения к zip-архиву и к папке в нем\nZIP_PATH = 'zip://C:/Users/.../Moscow.zip!data/'\n\n# Названия для переменных слоев и названия соответствующих shp Файлов\nLAYERS_DICT = {\n 'boundary_L2': 'boundary-polygon-lvl2.shp', # Административные границы различных уровней\n 'boundary_L4': 'boundary-polygon-lvl4.shp',\n 'boundary_L5': 'boundary-polygon-lvl5.shp',\n 'boundary_L8': 'boundary-polygon-lvl8.shp',\n 'building_point': 'building-point.shp', # Здания, отмеченные в виде полигонов\n 'building_poly': 'building-polygon.shp' # Здания, отмеченные в виде точек\n }\n\n# Подгружаем слои в соответствующие переменные в рамках цикла\ni = 0\nfor layer in LAYERS_DICT.keys():\n path_to_layer = ZIP_PATH + LAYERS_DICT[layer] \n if path_to_layer=='areas':\n encoding = 'cp1251'\n else:\n encoding = 'utf-8'\n globals()[layer] = gpd.read_file(path_to_layer, encoding=encoding)\n i+=1\n print(f'[{i}/{len(LAYERS_DICT)}] LOADED {layer} WITH ENCODING {encoding}')\nРезультат:\n[1/6] LOADED boundary_L2 WITH ENCODING utf-8\n[2/6] LOADED boundary_L4 WITH ENCODING utf-8\n[3/6] LOADED boundary_L5 WITH ENCODING utf-8\n[4/6] LOADED boundary_L8 WITH ENCODING utf-8\n[5/6] LOADED building_point WITH ENCODING utf-8\n[6/6] LOADED building_poly WITH ENCODING utf-8\nВ результате мы имеем шесть переменных GeoDataFrame, в каждой из которых находятся разные варианты отображения карты Москвы. Отрисовать их можно очень просто:\n\nРисуем административные границы разных уровней\nfig, (ax1, ax2, ax3, ax4) = plt.subplots(1, 4, figsize=(15,15))\nboundary_L2.plot(ax=ax1, color='white', edgecolor='black')\nboundary_L4.plot(ax=ax2, color='white', edgecolor='black')\nboundary_L5.plot(ax=ax3, color='white', edgecolor='black')\nboundary_L8.plot(ax=ax4, color='white', edgecolor='black')\nРезультат:\n\n\nЧтобы разобраться, что именно мы видим на каждом уровне отрисовки, советую взглянуть на соответствующую страницу на сайте OSM. Это будет особенно важно при отрисовке карты всей России — слои в Москве и Питере могут хранить отличные от остальной России уровни детализации. \nАналогичным образом можем отрисовать слой со зданиями. Из-за большого количества объектов отрисовка займет чуть больше времени, зато и картинка получится красивая.\n\nРисуем здания Москвы\nbuilding_poly.plot(figsize=(10,10))\n\n\nТакже можно наложить несколько слоев карты один на другой:\n\nОтображаем одновременно два слоя административных границ Москвы\nbase = boundary_L2.plot(color='white', alpha=.8, edgecolor='black', figsize=(50,50))\nboundary_L8.plot(ax=base, color='white', edgecolor='red', zorder=-1)\n\n\nТут можно почитать про разные варианты отрисовки слоев в gpd.\nПриятно удивило, что в Geopandas работают привычные команды из Pandas. Можно посмотреть все атрибуты слоя в виде таблицы, где каждая строка будет описывать отдельный объект (точку, линию или полигон), изменение и создание атрибутов также можно выполнять, как при работе с обычным Датафреймом.\n\nПример\nboundary_L8.head()\n\n\nСреди всех атрибутов нам наиболее важны 2:\n\nOSM_ID — уникальный идентификатор объекта OpenStreetMap\ngeometry — координаты для отрисовки полигона или точки\n\nОбработка данных\nДля нашей задачи нам необходимо соотнести между собой почтовые индексы зданий и районы города.\r\nЧтобы не обрабатывать лишних зданий, оставим только те из них, у которых заполнено поле с индексом:\nprint('POLYGONS')\nprint('# buildings total', building_poly.shape[0])\nbuilding_poly = building_poly.loc[building_poly['A_PSTCD'].notna()]\nprint('# buildings with postcodes', building_poly.shape[0])\nprint('\nPOINTS')\nprint('# buildings total', building_point.shape[0])\nbuilding_point = building_point.loc[building_point['A_PSTCD'].notna()]\nprint('# buildings with postcodes', building_point.shape[0])\nРезультат:\nPOLYGONS\n# buildings total 241511\n# buildings with postcodes 13198\n\nPOINTS\n# buildings total 1253\n# buildings with postcodes 4\nКак видим, на слое с точками почти не осталось зданий, поэтому дальше будем использовать только слой с полигонами зданий (несмотря на то, что в нем это поле оказалось заполнено только у 5%, 13 тысяч нам должно хватить).\nВ целевой таблице мы хотим увидеть следующие колонки:\n\nПочтовый индекс\nOSM-ID района города, в котором чаще всего встречаются здания с этим индексом\nДоля зданий с этим индексом, которые находятся в его ""основном"" районе. Эта метрика нужна, чтобы проверить, не слишком ли разбросаны по городу здания с этим почтовым кодом.\n\nКод для создания такой таблицы\n%%time\nbuilding_areas = gpd.GeoDataFrame(building_poly[['A_PSTCD', 'geometry']])\nbuilding_areas['area'] = 'NF'\n\n# Создаем цикл из районов города, для каждого из которых определяем находящиеся в нем здания\n\n# Для проверки нахождения здания в районе, мы будем преобразовывать полигон здания в точку с помощью .centroid.\n# Это позволит избежать сложностей со зданиями, которые находятся на границе двух районов\n\nfor area in boundary_L8['OSM_ID']: \n area_geo = boundary_L8.loc[boundary_L8['OSM_ID']==area, 'geometry'].iloc[0]\n nf_buildings = building_areas['area']=='NF' # В каждом цикле проверяем только те здания, для которых еще не нашли района\n building_areas.loc[nf_buildings, 'area'] = np.where(building_areas.loc[nf_buildings, 'geometry'].centroid.within(area_geo), area, 'NF')\n\n# Создаем таблицу, где по строкам находятся индексы, а по колонкам - районы города.\n# Число на пересечении строки и колонки показывает, сколько нашлось зданий с таким индесом.\ncodes_pivot = pd.pivot_table(building_areas,\n index='A_PSTCD',\n columns='area',\n values='geometry',\n aggfunc=np.count_nonzero)\n\n# Добавляем колонку, в которой будет указан наиболее часто встречающийся район с нужным индексом\ncodes_pivot['main_area'] = codes_pivot.idxmax(axis=1)\n\n# Добавляем колонку с долей зданий в ""основном"" для индекса районе\nfor pst_code in codes_pivot.index:\n main_area = codes_pivot.loc[codes_pivot.index==pst_code, 'main_area']\n share = codes_pivot.loc[codes_pivot.index==pst_code, main_area].iloc[0,0] / codes_pivot.loc[codes_pivot.index==pst_code].sum(axis=1)*100\n codes_pivot.loc[codes_pivot.index==pst_code, 'share_in_main_area'] = int(share)\n\n# Оставляем только нужные нам колонки\ncodes_pivot = codes_pivot.loc[:, ['main_area', 'share_in_main_area']].fillna(0)\nИтоговая таблица выглядит следующим образом:\n\nРисуем тепловую карту\nПоделиться данными, которые мне необходимо отобразить, я, к сожалению, не могу (не могу даже рассказать, что это за данные).\r\nЧтобы все же нарисовать красивую тепловую карту я вместо этого постараюсь ответить на необычайно важный вопрос: в индексах каких районов можно встретить больше цифр ""1"".\n# Создаем колонку с нашей супер-важной метрикой\ncodes_pivot['count_1'] = codes_pivot.index.str.count('1')\n# Считаем средние значения для районов города\nareas_pivot = pd.pivot_table(codes_pivot, index='main_area', values='count_1', aggfunc=np.mean)\nareas_pivot.index = areas_pivot.index.astype('int64')\n# Подтягиваем наши значения к слою с районами города\nboundary_L8_w_count = boundary_L8.merge(areas_pivot, how='left', left_on='OSM_ID', right_index=True)\n# Рисуем тепловую карту\nboundary_L8_w_count.plot(column='count_1', legend=True, figsize=(10,10))\nРезультат:\n\nВидно, что часть районов не отобразилась — к сожалению, в них не было ни одного здания с заполненным почтовым индексом\nПроверка\nС точки зрения проверки качество результатов, основной риск заключался в том, что будет много почтовых индексов, разбросанных по разным районам города.\nНиже — распределение метрики share_in_main_area\n\nСчитаем долю индексов, у которых меньше половины зданий находятся в ""основном"" для них районе:\ncodes_pivot[codes_pivot['share_in_main_area']>50].shape[0]/codes_pivot.shape[0]\nРезультат:\n0.9568345323741008\nТакие результаты нас вполне устраивают.\nЗаключение\nGeopandas — крайне удобный инструмент. При наличие даже небольшого опыта работа с Matplotlib и Pandas разобраться в нем не составит труда.\nOSM — кладезь информации для визуализации различных геоданных, которые можно использовать без необходимости серьезных преобразований.\nНу а я с вами прощаюсь и надеюсь, что статья оказалась полезной!\nЕсли возникнут вопросы или конструктивная критика — буду ждать вас в комментариях."


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>.

### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)```
GROUP = 'netology'
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ
```

В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>.

In [221]:
def get_email_info(email):
    headers = {
        "Accept": "application/json, text/plain, */*",
        "Accept-Encoding": "gzip, deflate, br",
        "Accept-Language": "ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7",
        "Cache-Control": "no-cache",
        "Connection": "keep-alive",
        "Content-Length": "32",
        "Content-Type": "application/json;charset=UTF-8",
        "Host": "digibody.avast.com",
        "Origin": "https://www.avast.com",
        "Pragma": "no-cache",
        "Referer": "https://www.avast.com/hackcheck",
        "Sec-Fetch-Dest": "empty",
        "Sec-Fetch-Mode": "cors",
        "Sec-Fetch-Site": "same-site",
        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"
    }
    
    time.sleep(0.5)
    req = requests.post("https://digibody.avast.com/v1/web/leaks", data=f'{{"email": "{email}"}}', headers=headers)
    return req.json()

def fix_date(val):
    date = dt.fromtimestamp(int(val) // 1000)
    return date.strftime("%Y-%m-%d")

def check_emails(emails):
    table = []
    for email in emails:
        resp = get_email_info(email)
        for leak in resp['value']:
            table.append([email, fix_date(leak['leak_info']['date']), leak['leak_info']['title'], leak['leak_info']['description']])
    return table

EMAIL = ["afilis2005@yandex.ru"]

table = check_emails(EMAIL)
pdt = pd.DataFrame(table, columns=["Почта", "Дата утечки", "Источник утечки", "Описание утечки"])
display(HTML(pdt.to_html()))

Unnamed: 0,Почта,Дата утечки,Источник утечки,Описание утечки
0,afilis2005@yandex.ru,2019-05-23,LiveJournal,"In 2017, social network LiveJournal's database was allegedly breached. The stolen data contains passwords, email addresses and additional personal information. This breach is being privately shared in the dark web."
1,afilis2005@yandex.ru,2019-02-06,Collection #5 Combo List,"On January 7, 2019, an online user named Sanixer advertised 5 massive collections of leaked email and password combinations for sale on a popular hacking forum. These collections include a total of 993GB of personal information and seem to be mostly rehashes of previous breaches. The sheer size of so much breach data available in one place captured a lot of attention in the mainstream media. \r\n\r\nThe collections were hosted for a short time on the popular hosting service MEGA, and have since been shared via download torrents and private links hundreds of times. Lifetime access to the data was being sold for $45.\r\n\r\nCollection #5 consists of more than 540 million unique records across 16,022 individual files."
2,afilis2005@yandex.ru,2019-02-06,2019 Antipublic Combo List,"On January 7, 2019, an online user named Sanixer advertised 5 massive collections of leaked email and password combinations for sale on a popular hacking forum. These collections include a total of 993GB of personal information and seem to be mostly rehashes of previous breaches. The sheer size of so much breach data available in one place captured a lot of attention in the mainstream media. \r\n\r\nThe collections were hosted for a short time on the popular hosting service MEGA, and have since been shared via download torrents and private links hundreds of times. Lifetime access to the data was being sold for $45.\r\n\r\nThe ""Antipublic #1"" collection consists of more than 1.7 billion unique records across 303 individual files."
3,afilis2005@yandex.ru,2019-01-29,Collection #2 Combo List,"On January 7, 2019, an online user named Sanixer advertised 5 massive collections of leaked email and password combinations for sale on a popular hacking forum. These collections include a total of 993GB of personal information and seem to be mostly rehashes of previous breaches. The sheer size of so much breach data available in one place captured a lot of attention in the mainstream media. \r\n\r\nThe collections were hosted for a short time on the popular hosting service MEGA, and have since been shared via download torrents and private links hundreds of times. Lifetime access to the data was being sold for $45.\r\n\r\nCollection #2 consists of more than 3 billion unique records across 24,921 individual files."
4,afilis2005@yandex.ru,2020-03-05,Sensitive Source,This source has been marked as sensitive due to one of the following reasons: Revealing the source may compromise an on-going investigation. The affected site is of a controversial nature but does not validate email addresses and could therefore be used to tarnish an employee's reputation.
5,afilis2005@yandex.ru,2019-12-13,Sensitive Source,This source has been marked as sensitive due to one of the following reasons: Revealing the source may compromise an on-going investigation. The affected site is of a controversial nature but does not validate email addresses and could therefore be used to tarnish an employee's reputation.
6,afilis2005@yandex.ru,2017-06-14,NNM-Club,"In September 2013, Russian torrent tracker NNM-Club's user database was allegedly breached. The stolen data contains around 7 million records including email addresses, usernames, and passwords. On January 2014, the data was shared on publicly available cybercrime and forums."


In [21]:
NEWSFEED_REQUEST = 'https://api.vk.com/method/wall.get?'
TOKEN = ''
VERSION = '5.103'
SLEEP = 0.33

params = {
    'access_token': TOKEN,
    'v': VERSION,
    'owner_id': -30159897,
    'count': 50,
}

def change_date(val):
    date = dt.fromtimestamp(val)
    return date.strftime("%Y-%m-%d %H:%M")


res = requests.get(NEWSFEED_REQUEST, params)
resps = res.json()
posts = []
for item in resps['response']['items']:
    posts.append([change_date(item['date']), item['text']])

fr = pd.DataFrame(posts, columns=["Дата поста", "Текст поста"]).sort_values("Дата поста", ascending=False)
display(HTML(fr.to_html()))

Unnamed: 0,Дата поста,Текст поста
1,2020-08-17 19:38,"Зарядку сделали, перед зеркалом порепетировали и даже всех слушателей голыми представили🙃 А страх публичных выступлений всё равно остался.\n\nРазбираемся, как самостоятельно это исправить → http://netolo.gy/fLf"
2,2020-08-17 13:00,"Как приятно видеть, что работа приносит результат: конверсия на запись с вашей рекламной кампании составила больше 40%, это очень высокий показатель👍🏻. А вас уже ждёт новая должность — вы теперь продюсер! Курс пользуется популярностью, студентов всё больше, а руководство строит смелые планы по развитию направления. \n \nЧтобы продвигать курс дальше, нужны средства. Поэтому сегодня в вашем личном кабинете появилась новая задача — найти инвестора. Вам назначили встречу в крупном бизнес-центре. Готовы рассказать о своём курсе потенциальным спонсорам? \n\n‼ Чтобы задание засчиталось, вам необходимо выделить пять основных преимуществ вашего курса и перечислить их отдельной строкой. Например: \n \n📌— интерактивность; \n— простой язык; \n— свежая информация; \n— практическая польза; \n— востребованность📌\n \nТакже необходимо оставить любой комментарий под 3 комментариями других игроков.\n \n‼ Чтобы задание было засчитано, ваш ответ должен состоять минимум из 50 символов."
3,2020-08-17 11:42,"Запустили бесплатный курс по основам контекстной рекламы ⭐️\n\nВнутри — базовые знания, которые помогут шаг за шагом настроить рекламу в Яндекс.Директ:\n▪Курс создан специально для новичков: вы не потеряетесь в непонятных терминах\n▪Научитесь собирать семантику и настроите два типа рекламных кампаний \n▪А ещё поймёте, интересна ли вам работа специалиста по контекстной рекламе\n\nУчитесь в удобном темпе — материалы станут доступны сразу после регистрации → http://netolo.gy/fLb"
4,2020-08-16 16:28,"Подборка книг, которые помогут развить математическое мышление. \n\nДаже если школьная программа оставила лишь воспоминания о том, как сложно и скучно было на уроках математики 🙄 \n\n▪«Как не ошибаться. Сила математического мышления», Джордан Элленберг\nАвтор считает, что математика — это надстройка к здравому смыслу, которая значительно преумножает его возможности и силу. Он рассказывает о самых разных явлениях и идеях — от рейганомики, лотерейных схем и искусственных языков до развития неевклидовой геометрии, живописи итальянского Ренессанса и того, что Фейсбук может (и что не может) узнать о вас.\n\n▪«Думай как математик. Как решать любые проблемы быстрее и эффективнее», Барбара Оакли \nЭта книга не о сложных числах и уравнениях, а о тонкостях работы нашего мозга. И о том, как уравновесить знания в голове, решать задачи и превратить обучение в привычку. Оакли делится советами и задачами, о которых ей рассказали преподаватели и профессора со всего света. \n\n▪«Модельное мышление. Как анализировать сложные явления с помощью математических моделей», Скотт Пейдж\nКнига рассказывает, как решать проблемы и осмыслять сложные вопросы с помощью математических моделей. Автор в увлекательной форме описывает двадцать пять широких классов моделей (таких как модели роста, случайные блуждания, энтропия, цепи Маркова и многое другое), объясняя, как и когда их применять.\n\n▪«Математика жизни. Простые алгоритмы принятия верных решений», Брайан Кристиан и Том Гриффитс\nАвторы книги считают, что программисты и математики уже давно разработали алгоритмы, которые позволяют компьютерам найти оптимальное решение в заданное время и с минимальными затратами сил и средств. Книга популярно объясняет, как именно применять сложные математические алгоритмы для решения повседневных задач.\n\n▪«Вычислительное мышление. Метод решения сложных задач», Пол Керзон и Питер МакОуэн\nВ книге рассказывается об основных составляющих вычислительного мышления: алгоритмическом мышлении, декомпозиции, абстракции, логики. Авторы собрали игры и головоломки, которые помогут развить вычислительное мышление и научиться использовать его для решения повседневных проблем."
5,2020-08-16 12:30,"Продвижение курса — дело непростое. Но у вас к этому определённо талант👍🏻. Слоган вашего курса уже красуется на всех брендированных блокнотах, а вы получаете повышение до руководителя рекламного отдела! \n \nРуководство хочет протестировать новые каналы коммуникации, для этого вам нужно выбрать одну из предложенных площадок и продумать формат рекламного размещения. \n \nВыбирайте любую площадку: \n \n— билборды с наружной рекламой по городу, \n— нативные интеграции у блогеров в соцсетях, \n— канал на YouTube, \n— еmail-рассылка. \n \nПример выполненной задачи: \n \n📌 Канал на YouTube, рекламный ролик, в котором девушка проходит курсы в Нетологии, начинает заниматься программированием, у неё повышается зарплата, меняется интерьер в квартире, она подходит к окошку, камера наводится на ноутбук, где на экране сертификат пройденного курса Нетологии «Как стать программистом».📌\n\nОставляйте комментарий с вашей рекламной кампанией. \n \n‼ Чтобы задание было засчитано, ваш ответ должен состоять минимум из 200 символов. \n \nМы продолжаем карьерный квест Нетологии. Если вы ещё не с нами, пишите «старт» и присоединяйтесь, это весело 👉🏻 http://vk.me/netology"
6,2020-08-15 15:42,"Личный бренд работает по принципу зачётки: сначала вы на него, а потом он на вас😏\n\nКак работать с репутацией, зачем создавать личный бренд и что делать с критикой — в этой подборке статей:\n\n▪Как реагировать на критику в соцсетях, когда строишь личный бренд → http://netolo.gy/fK3\n▪Зачем и как digital-специалисту строить личный бренд → http://netolo.gy/fK5\n▪Зачем рекрутеру личный бренд → http://netolo.gy/fK7\n▪Как работает репутация → http://netolo.gy/fK9"
7,2020-08-15 12:30,"Как успехи у ваших студентов? Поздравляем, вы отлично справились с первым заданием — новый лендинг попал точно в цель, к вам на курс записались выпускники вузов, а вас назначили менеджером по маркетингу 👍🏻 \n \nНовые задачи не заставили себя долго ждать. Вы готовы к рабочему дню? \n \n«Вот что я люблю!», «Just do it!», «Найдётся всё» — спорим, вы сразу понимаете, о какой компании идёт речь, потому что слоган говорит о ней не хуже, чем название. Новое задание — придумать яркий, ёмкий, но запоминающийся слоган для вашего курса. \n \nПример выполненной задачи: \n \n📌 Фрилансер — новый герой нашего времени!📌 \n \nДавайте заявим о себе и привлечём новых студентов. Пишите свои варианты в комментарии! \n \n‼ Чтобы задание было засчитано, ваш ответ должен состоять минимум из 5 символов. \n \nЭто второе задание карьерного квеста Нетологии. Ещё не поздно присоединиться и побороться за призы, переходите по ссылке, пишите «старт» — и подключайтесь к игре👉🏻 http://vk.me/netology"
8,2020-08-15 11:42,"*партнерский пост*\n\nМеждународный конкурс по решению глобальных социальных задач с помощью AI & Data «World AI & Data Challenge» для IT- и data-специалистов.\n\nДо 31 августа решайте социальные задачи World AI&Data Challenge. Лучшие практики будут внедряться по России и представлены для тиражирования в другие страны. Призовой фонд:: от 1,5 млн руб, гранты на вычислительные мощности и обучающие программы → https://datamasters.ru/aianddata"
0,2020-08-14 15:00,"Всем привет! Сегодня первый день карьерного квеста, первое задание уже ждёт участников. Если вы ещё не с нами — пишите слово «СТАРТ» в личные сообщения без пробелов и знаков препинания 👉 http://vk.me/netology\n \nИтоги игры подведём 21 августа и подарим 75 подарков участникам квеста: сертификаты на обучение в Нетологии, миникурсы, подписки на MEGOGO, доступ к лекциям Level One, уроки английского в Wordika и электронные книги МИФа."
9,2020-08-14 15:00,"А вот и первое задание карьерного квеста. Менеджерам проекта не терпится проявить себя на новом месте, и возможность для этого уже есть. В личном кабинете вам поставили новую задачу, проверяйте! \n \nНужно обновить раздел «О курсе» на лендинге вашего курса так, чтобы привлечь выпускников вузов. \n \nПример выполненной задачи: \n \n📌 SMM — одна из самых востребованных специальностей на сегодня. Зарплата в этой сфере в регионах составляет от 40 000 рублей. Это отличная возможность начать карьерный рост и зарабатывать серьёзные деньги 📌\n \n‼ Чтобы задача была зачтена, текст должен состоять минимум из 200 символов без пробелов.\n\nПишите ваш вариант в комментариях — и следите, как новые ученики прибывают на курс 😉\n\nЕсли вы ещё не с нами — пишите слово «СТАРТ» и присоединяйтесь 👉 http://vk.me/netology"


#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
