# Библиотека requests

In [7]:
import requests

In [None]:
# метод get
res = requests.get('https://yandex.ru')
res
# res.status_code

In [None]:
# браузер отрисовал бы страницу на основе данного текста
res.text

In [None]:
# посмотрим куки
res.cookies

In [None]:
# получаем плохой статус
bad_request = requests.get('https://yandex.ru/secret')
bad_request

In [None]:
bad_request.text

In [16]:
# попроуем сделать post запрос
post_req = requests.post('https://yandex.ru')
post_req

<Response [403]>

In [None]:
# cформируем поисковый запрос, обратите внимание на его формат
URL = 'https://yandex.ru/search/?text=python&lr=54'

In [None]:
req = requests.get(URL)
req

In [None]:
req.text

In [None]:
# в request можно передать параметры запроса и заголовки (headers) в виде словарей. 
# сегодня не будем рассматривать примеры с необхожимостью передачи заголовка, 
# но в практике вам это точно понадобится
URL = 'https://yandex.ru/search/'
params = {
    'text': 'python',
    'lr': 54
}
headers = {}
req = requests.get(URL, params)
req = requests.post(URL, params, headers)
req.text

In [None]:
# очень часто сайты могут ограничивать частые запросы к себе, 
# поэтому нужно задерживать исполнение
import time
time.sleep(0.2)

# Beautiful Soup

In [3]:
# как разбирать всю эту разметку? Поможет BeautifulSoup.
from bs4 import BeautifulSoup

## Практика 1. Напишем скрипт, который будет отбирать посты из нужных хабов на habr.com

In [5]:
# определяем список хабов, которые нам интересны
DESIRED_HUBS = ['python', 'bigdata']

In [8]:
# получаем страницу с самыми свежими постами
req = requests.get('https://habr.com/ru/all/')
soup = BeautifulSoup(req.text, 'html.parser')

In [10]:
# извлекаем посты
posts = soup.find_all('article', class_='post')
posts

[<article class="post post_preview" lang="ru">
 <header class="post__meta">
 <a class="post__user-info user-info" href="https://habr.com/ru/users/ru_vds/" title="Автор публикации">
 <img class="user-info__image-pic user-info__image-pic_small" height="24" src="//habrastorage.org/getpro/habr/avatars/e36/812/d3d/e36812d3de38eb3d479d7a13228717ef.png" width="24"/>
 <span class="user-info__nickname user-info__nickname_small">ru_vds</span>
 </a>
 <span class="post__time">сегодня в 19:10</span>
 </header>
 <h2 class="post__title">
 <a class="post__title_link" href="https://habr.com/ru/company/ruvds/blog/530940/">Интеграция чат-бота Dialogflow с Angular-приложением</a>
 </h2>
 <ul class="post__hubs inline-list">
 <li class="inline-list__item inline-list__item_hub">
 <a class="inline-list__item-link hub-link" href="https://habr.com/ru/company/ruvds/" onclick="if (typeof ga === 'function') { ga('send', 'event', 'hub', 'feed page', 'Блог компании RUVDS.com'); }" rel="nofollow" title="Вы не подписа

In [14]:
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    print('post', post_id)
    hubs = post.find_all('a', class_='hub-link')

post 530940
post 531920
post 531992
post 531986
post 531990
post 531984
post 531970
post 531976
post 531516
post 531968
post 531966
post 531962
post 531964
post 531958
post 531954
post 531952
post 531896
post 531884
post 531474
post 531944


In [15]:
# добавляем извлечение хабов из постов, чтобы отбирать только нужные
for post in posts:
    post_id = post.parent.attrs.get('id')
   # если идентификатор не найден, это что-то странное, пропускаем
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    hubs = post.find_all('a', class_='hub-link')
    for hub in hubs:
            hub_lower = hub.text.lower()
           # ищем вхождение хотя бы одного желаемого хаба
            if any([hub_lower in desired for desired in DESIRED_HUBS]):
               # пост нам интересен - делаем с ним все что захотим:
               # можно отправит в телеграм уведомление, можно на почту и т.п.
                title_element = post.find('a', class_='post__title_link')
                print(title_element.text, title_element.attrs.get('href'))
               # так как пост уже нам подошел - дальше нет смысла проверять хабы
                break

## Практика 2. Напишем скрипт, который будет собирать новости с сайта Коммерсанта

In [6]:
URL = 'https://www.kommersant.ru/search/results'
params = {
    'search_query': 'python'
}

In [7]:
res = requests.get(URL, params)

In [8]:
res.text

'\r\n<!DOCTYPE html>\r\n<html class="no-js" lang="ru"  >\r\n<head>\r\n<title>Коммерсантъ: последние новости России и мира</title>\r\n<meta http-equiv="X-UA-Compatible" content="IE=edge, chrome=1" />\r\n<meta charset="utf-8"/>\r\n\r\n<script>document.write(document.cookie.indexOf(\'IsNonMobileViewport\') >= 0 ? \'<meta name="viewport" content="width=1200">\' : \'<meta name="viewport" content="width=device-width, initial-scale=1.0">\')</script>\r\n\r\n<meta name="format-detection" content="telephone=no" />\r\n<meta name="title" content="Коммерсантъ: последние новости России и мира" />\r\n\r\n<meta name="description" content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" />\r\n\r\n<meta name="keywords" content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрол

In [9]:
soup = BeautifulSoup(res.text, 'html.parser')
soup


<!DOCTYPE html>

<html class="no-js" lang="ru">
<head>
<title>Коммерсантъ: последние новости России и мира</title>
<meta content="IE=edge, chrome=1" http-equiv="X-UA-Compatible"/>
<meta charset="utf-8"/>
<script>document.write(document.cookie.indexOf('IsNonMobileViewport') >= 0 ? '<meta name="viewport" content="width=1200">' : '<meta name="viewport" content="width=device-width, initial-scale=1.0">')</script>
<meta content="telephone=no" name="format-detection"/>
<meta content="Коммерсантъ: последние новости России и мира" name="title"/>
<meta content="Актуальные новости, объективный анализ и эксклюзивные комментарии о важнейших событиях и трендах" name="description"/>
<meta content="Новости,Политика,Экономика,Бизнес,Финансы,Дело,Биржа,Рынок,Акции,Прогнозы,Критика,Интервью,Рейтинги,Документы,Деньги,Власть,Автопилот,Тематические страницы,Первые лица,Деловые новости,Мировая практика,Культура,Спорт,Weekend,Астрологический прогноз,Погода мира,Курсы валют ЦБ РФ" name="keywords"/>
<link href

In [10]:
# добираемся до блоков с новостями
news_blocks = soup.find_all('div', class_='search_results_item')
news_blocks

[<div class="search_results_item">
 <div class="text">
 <div class="search_results_stat">
 <span class="vicon vicon--article vicon--small">
 <svg class="vicon__body">
 <use xlink:href="#vicon-article" xmlns:xlink="http://www.w3.org/1999/xlink"></use>
 </svg>
 </span>
 <a href="/archive/news" target="_blank">
 <span class="search_results_number">001</span>
 <span class="search_results_source">Лента новостей (Москва) от 01.12.2020</span>
 </a>
 </div>
 <h2 class="article_name">
 <a href="/doc/4594535?query=python" target="_blank">ИИ позволит отслеживать выбросы CO2, связанные с работой компьютеров</a>
 </h2>
 <div class="article_intro">
 <a href="/doc/4594535?query=python" target="_blank">
 									 ... , написанным на языке <mark>Python</mark>. Программа также предлагает ... 
 								</a>
 </div>
 </div>
 </div>,
 <div class="search_results_item search_results_item--media">
 <div class="search_results_media">
 <div class="photo">
 <a href="/doc/4529711?query=python" target="_blank">
 

In [11]:
# добираемся до текста со ссылкой
articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
articles_intro

[<div class="article_intro">
 <a href="/doc/4594535?query=python" target="_blank">
 									 ... , написанным на языке <mark>Python</mark>. Программа также предлагает ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4529711?query=python" target="_blank">
 									 ...  знания языка программирования <mark>Python</mark>, некоторые разделы высшей ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4492730?query=python" target="_blank">
 									 ...  и простого кода <mark>Python</mark>. Мы надеемся, что ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4450879?query=python" target="_blank">
 									 ...  рубежом,— С++, С #, <mark>Python</mark>… В России большие ... 
 								</a>
 </div>,
 <div class="article_intro">
 <a href="/doc/4450177?query=python" target="_blank">
 									 ...  и методологии, применяя <mark>Python</mark>-разработку, технологии машинного ... 
 								</a>
 </div>,
 <div class="article_intro">
 <

In [12]:
# добираемся до ссылок
a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
a_list

['/doc/4594535?query=python',
 '/doc/4529711?query=python',
 '/doc/4492730?query=python',
 '/doc/4450879?query=python',
 '/doc/4450177?query=python',
 '/doc/4434580?query=python',
 '/doc/4407208?query=python',
 '/doc/4399817?query=python',
 '/doc/4377181?query=python',
 '/doc/4349643?query=python']

In [13]:
# формируем полноценные ссылки
all_refs = list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))
all_refs

['https://www.kommersant.ru//doc/4594535?query=python',
 'https://www.kommersant.ru//doc/4529711?query=python',
 'https://www.kommersant.ru//doc/4492730?query=python',
 'https://www.kommersant.ru//doc/4450879?query=python',
 'https://www.kommersant.ru//doc/4450177?query=python',
 'https://www.kommersant.ru//doc/4434580?query=python',
 'https://www.kommersant.ru//doc/4407208?query=python',
 'https://www.kommersant.ru//doc/4399817?query=python',
 'https://www.kommersant.ru//doc/4377181?query=python',
 'https://www.kommersant.ru//doc/4349643?query=python']

In [14]:
# объединим все в одну функцию
def get_all_links(url, query):
    all_refs = []
    params = {
        'search_query': query,
    }
    res = requests.get(URL, params)
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'html.parser')
    news_blocks = soup.find_all('div', class_='search_results_item')
    articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
    a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
    all_refs = list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))

    return all_refs

all_links = get_all_links(URL, 'python')
all_links

NameError: name 'time' is not defined

In [15]:
# но мы же собрали только одну страницу? Хотим ВСЕ новости
def get_all_links(url, query, pages):
    all_refs = []
    params = {
        'search_query': query
    }
    for i in range(pages):
        params['page'] = i + 1
        res = requests.get(URL, params)
        time.sleep(0.3)
        soup = BeautifulSoup(res.text, 'html.parser')
        news_blocks = soup.find_all('div', class_='search_results_item')
        articles_intro = list(map(lambda x: x.find('div', class_='article_intro'), news_blocks))
        a_list = list(map(lambda x: x.find('a').get('href'), articles_intro))
        all_refs += list(map(lambda x: 'https://www.kommersant.ru/' + x, a_list))
    return all_refs

all_links = get_all_links(URL, 'python', 3)
all_links

NameError: name 'time' is not defined

In [23]:
import pandas as pd

In [None]:
# собираем даты, заголовки и тексты новостей
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    title = soup.find('h1', class_='article_name').text
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

In [None]:
# получаем ошибочку. Значит не у всех получаемых страниц одинаковая разметка
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    print(date)
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    print(title)
    text = soup.find('div', class_='article_text_wrapper').text
    print(text)

In [None]:
# запишем данные в датафрейм
kom_news = pd.DataFrame()
for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    if soup.find('div', class_='b-article__publish_date'):
        date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
    elif soup.find('time', class_='title__cake'):
        date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
    if soup.find('h2', class_='article_name'): 
        title = soup.find('h2', class_='article_name').text
    else: 
        title = soup.find('h1', class_='article_name').text    
    text = soup.find('div', class_='article_text_wrapper').text
    row = {'date': date, 'title': title, 'text': text}
    kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
kom_news

In [None]:
# обернем в функцию 
def get_kom_news(links):
    kom_news = pd.DataFrame()
    for link in all_links:
        soup = BeautifulSoup(requests.get(link).text, 'html.parser')
        if soup.find('div', class_='b-article__publish_date'):
            date = pd.to_datetime(soup.find('div', class_='b-article__publish_date').find('time').get('datetime'), dayfirst=True).date()
        elif soup.find('time', class_='title__cake'):
            date = pd.to_datetime(soup.find('time', class_='title__cake').get('datetime'), dayfirst=True).date()
        if soup.find('h2', class_='article_name'): 
            title = soup.find('h2', class_='article_name').text
        else: 
            title = soup.find('h1', class_='article_name').text    
        text = soup.find('div', class_='article_text_wrapper').text
        row = {'date': date, 'title': title, 'text': text}
        kom_news = pd.concat([kom_news, pd.DataFrame([row])])  
    return kom_news

In [None]:
kom_news = get_kom_news(all_links)
kom_news

# API

## Практика 3. Получим данные о песнях исполнителя при помощи  [API ITunes](https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/index.html)

In [16]:
# https://developer.apple.com/library/archive/documentation/AudioVideo/Conceptual/iTuneSearchAPI/UnderstandingSearchResults.html#//apple_ref/doc/uid/TP40017632-CH8-SW1
URL = 'https://itunes.apple.com/search?term=jack+johnson'

In [17]:
res = requests.get(URL)

In [18]:
res.text

'\n\n\n{\n "resultCount":50,\n "results": [\n{"wrapperType":"track", "kind":"song", "artistId":909253, "collectionId":1469577723, "trackId":1469577741, "artistName":"Jack Johnson", "collectionName":"Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George", "trackName":"Upside Down", "collectionCensoredName":"Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George", "trackCensoredName":"Upside Down", "artistViewUrl":"https://music.apple.com/us/artist/jack-johnson/909253?uo=4", "collectionViewUrl":"https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4", "trackViewUrl":"https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4", \n"previewUrl":"https://audio-ssl.itunes.apple.com/itunes-assets/AudioPreview123/v4/75/5a/fc/755afca1-d911-be2b-c0fb-f99d6d52ce1a/mzaf_4156076990936187406.plus.aac.p.m4a", "artworkUrl30":"https://is4-ssl.mzstatic.com/image/thumb/Music123/v4/be/38/d0/be38d058-31ed-c0ea-91e6-120528

In [19]:
res.json()

{'resultCount': 50,
 'results': [{'wrapperType': 'track',
   'kind': 'song',
   'artistId': 909253,
   'collectionId': 1469577723,
   'trackId': 1469577741,
   'artistName': 'Jack Johnson',
   'collectionName': 'Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George',
   'trackName': 'Upside Down',
   'collectionCensoredName': 'Jack Johnson and Friends: Sing-A-Longs and Lullabies for the Film Curious George',
   'trackCensoredName': 'Upside Down',
   'artistViewUrl': 'https://music.apple.com/us/artist/jack-johnson/909253?uo=4',
   'collectionViewUrl': 'https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4',
   'trackViewUrl': 'https://music.apple.com/us/album/upside-down/1469577723?i=1469577741&uo=4',
   'previewUrl': 'https://audio-ssl.itunes.apple.com/itunes-assets/AudioPreview123/v4/75/5a/fc/755afca1-d911-be2b-c0fb-f99d6d52ce1a/mzaf_4156076990936187406.plus.aac.p.m4a',
   'artworkUrl30': 'https://is4-ssl.mzstatic.com/image/thumb/Music123

In [20]:
params = {
    'term': 'шнуров',
    'limit': 200,
#     'offset': 2
}

In [25]:
# pd.set_option('display.max_columns', 100)
res = requests.get(URL, params)
# res.json()

pd.DataFrame(res.json()['results'])

Unnamed: 0,wrapperType,kind,artistId,collectionId,trackId,artistName,collectionName,trackName,collectionCensoredName,trackCensoredName,...,isStreamable,collectionArtistId,collectionArtistName,trackRentalPrice,collectionHdPrice,trackHdPrice,trackHdRentalPrice,contentAdvisoryRating,longDescription,shortDescription
0,track,song,255133049.0,1089863000.0,1089863288,Сергей Лазарев,You Are the Only One - Single,You Are the Only One,You Are the Only One - Single,You Are the Only One,...,True,,,,,,,,,
1,track,song,255133049.0,1246353000.0,1246353561,Сергей Лазарев & Дима Билан,Прости меня - Single,Прости меня,Прости меня - Single,Прости меня,...,True,,,,,,,,,
2,track,song,255133049.0,1266230000.0,1266229819,Сергей Лазарев,Так красиво - Single,Так красиво,Так красиво - Single,Так красиво,...,True,,,,,,,,,
3,track,song,255133049.0,1017290000.0,1017290110,Сергей Лазарев,Это всё она - Single,Это всё она,Это всё она - Single,Это всё она,...,True,,,,,,,,,
4,track,song,255133049.0,1470935000.0,1470935172,Сергей Лазарев,Лови - Single,Лови,Лови - Single,Лови,...,True,,,,,,,,,
5,track,song,255133049.0,1276318000.0,1276317737,Сергей Лазарев,Сдавайся - Single,Сдавайся,Сдавайся - Single,Сдавайся,...,True,,,,,,,,,
6,track,song,255133049.0,1292270000.0,1292269887,Сергей Лазарев,Шёпотом - Single,Шёпотом,Шёпотом - Single,Шёпотом,...,True,,,,,,,,,
7,track,song,255133049.0,1477109000.0,1477109432,Сергей Лазарев,Я не боюсь,Я не боюсь,Я не боюсь,Я не боюсь,...,True,,,,,,,,,
8,track,song,255133049.0,978132100.0,978132385,Сергей Лазарев,The Best (Russian Edition),В самое сердце,The Best (Russian Edition),В самое сердце,...,True,,,,,,,,,
9,track,song,255133049.0,920245400.0,920245455,Сергей Лазарев,7 Цифр - Single,7 Цифр,7 Цифр - Single,7 Цифр,...,True,,,,,,,,,


In [26]:
params = {
    'term': 'лазарев',
    'limit': 60,
    'attribute': 'allArtistTerm',
    'country': 'ru'
}

In [27]:
res = requests.get(URL, params)
res.json()

pd.DataFrame(res.json()['results'])

Unnamed: 0,wrapperType,kind,artistId,collectionId,trackId,artistName,collectionName,trackName,collectionCensoredName,trackCensoredName,...,isStreamable,collectionArtistId,collectionArtistName,trackRentalPrice,collectionHdPrice,trackHdPrice,trackHdRentalPrice,contentAdvisoryRating,longDescription,shortDescription
0,track,song,255133049.0,1089863000.0,1089863288,Сергей Лазарев,You Are the Only One - Single,You Are the Only One,You Are the Only One - Single,You Are the Only One,...,True,,,,,,,,,
1,track,song,255133049.0,1246353000.0,1246353561,Сергей Лазарев & Дима Билан,Прости меня - Single,Прости меня,Прости меня - Single,Прости меня,...,True,,,,,,,,,
2,track,song,255133049.0,1266230000.0,1266229819,Сергей Лазарев,Так красиво - Single,Так красиво,Так красиво - Single,Так красиво,...,True,,,,,,,,,
3,track,song,255133049.0,1017290000.0,1017290110,Сергей Лазарев,Это всё она - Single,Это всё она,Это всё она - Single,Это всё она,...,True,,,,,,,,,
4,track,song,255133049.0,1470935000.0,1470935172,Сергей Лазарев,Лови - Single,Лови,Лови - Single,Лови,...,True,,,,,,,,,
5,track,song,255133049.0,1276318000.0,1276317737,Сергей Лазарев,Сдавайся - Single,Сдавайся,Сдавайся - Single,Сдавайся,...,True,,,,,,,,,
6,track,song,255133049.0,1292270000.0,1292269887,Сергей Лазарев,Шёпотом - Single,Шёпотом,Шёпотом - Single,Шёпотом,...,True,,,,,,,,,
7,track,song,255133049.0,1477109000.0,1477109432,Сергей Лазарев,Я не боюсь,Я не боюсь,Я не боюсь,Я не боюсь,...,True,,,,,,,,,
8,track,song,255133049.0,978132100.0,978132385,Сергей Лазарев,The Best (Russian Edition),В самое сердце,The Best (Russian Edition),В самое сердце,...,True,,,,,,,,,
9,track,song,255133049.0,920245400.0,920245455,Сергей Лазарев,7 Цифр - Single,7 Цифр,7 Цифр - Single,7 Цифр,...,True,,,,,,,,,


## Практика 4. Соберем сообщения из новостной ленты ВК по нужному запросу

In [None]:
# https://vk.com/dev/manuals
# https://vk.com/dev/newsfeed.search
NEWSFEED_REQUEST = 'https://api.vk.com/method/newsfeed.search?'
TOKEN = '9df7991c9df7991c9df7991c329d86910d99df79df7991cc363a27748dcf7ad91284ef6'
VERSION = '5.103'
SLEEP = 0.33

In [None]:
# обращаем внимание, что максимальное количество постов, 
# которые можно вытащить за раз, ограничено
params = {
    'access_token': TOKEN,
    'v': VERSION,
    'q': 'короновирус',
    'count': 200
}

In [None]:
res = requests.get(NEWSFEED_REQUEST, params)
res

In [None]:
res.text

In [None]:
res.json()

In [None]:
res.json()['response']['items']

In [None]:
pd.DataFrame(res.json()['response']['items'])

In [None]:
# соберем все доступные сообщения по запросу
newsfeed_df = pd.DataFrame()
while True:
    result = requests.get(NEWSFEED_REQUEST, params)
    time.sleep(0.33)
    newsfeed_df = pd.concat([newsfeed_df, pd.DataFrame(result.json()['response']['items'])])
    if 'next_from' in result.json()['response'].keys():
        params['start_from'] = result.json()['response']['next_from']
    else:
        break
newsfeed_df