In [28]:
import logging
import requests
import sys
import urllib

from bs4 import BeautifulSoup
from collections import OrderedDict
from urllib.parse import urlencode

def get_list(comp, page):
    """Function to get  web list pages for a given company and page number.

    Args:
        comp: Company name.
        page: The page number.

    Returns:
        newsData: A dictionary with news title as its key and other details as values.

    """
    newsData = OrderedDict()
    href = 'http://search.sina.com.cn/?q=%s&c=news&from=index&col=&range=all&source=&country=&size=10&stime=&etime=&time=&dpc=0&a=&ps=0&pf=0&page=%s' % (comp, page) # comp -> first %s; page -> 2nd %s; col=1_7 -> financial news in sina
    html = requests.get(href)
    # Parsing html
    soup = BeautifulSoup(html.content, 'html.parser')
    divs = soup.findAll('div', {"class": "r-info r-info2"})
    for div in divs:
        head = div.findAll('h2')[0]
        # News title
        titleinfo = head.find('a')
        title = titleinfo.get_text()
        # News url
        url = titleinfo['href']
        # Other info
        otherinfo = head.find('span', {"class": "fgray_time"}).get_text()
        source, date, time = otherinfo.split()
        # News abstract
        abstract = div.find('p', {"class": "content"}).get_text()
        newsData[title] = [date, source, abstract, url]
    return newsData

if __name__ == "__main__":
    compRawStr = '百度'
    # Dealing with character encoding
    comp = compRawStr.encode('gbk')
    d = {'q': comp}
    pname = urlencode(d)
    # Scraping and printing the first two pages
    for page in range(3)[1:]:
        newsData = get_list(pname, page)
        for ky in newsData:
            print('\001'.join([ky] + newsData[ky])) # "\001" as separator

# for i in range(1,10,1):
#     print(get_list('2019-nCoV',1))

            
            


多家投行维持百度增持评级2020-04-09北国网原标题：多家投行维持百度增持评级    来源：北国网  4月9日消息 近期多家华尔街分析机构看好百度并给出了150美元的目标价 伯恩斯坦(Bernstein)更是在报告中强调 百度是该机构在特殊时期 为数不多增持评级企业之一 https://finance.sina.com.cn/stock/relnews/us/2020-04-09/doc-iirczymi5328159.shtml


In [29]:
for i in range(1,10,1):
    print(get_list('2019-nCoV',1))




OrderedDict([('小米“无人发表会”，阿里“救人即是自救”，疫情逼出营销新手段', ['2020-04-09', 'BOSS说财经', ' 谁也没能预测到 2020年以大疫开局 这场爆发于武汉 被命名为2019-nCoV的新型冠状病毒引发的疫情迅速席卷整个中国 武汉封城、春节假期一延再延、全国各地严禁所有聚集性活动、严禁出行 这注定是一场载入史册的抗疫战争', 'https://k.sina.com.cn/article_6372312247_17bd1c4b700100moa7.html?from=tech']), ('投资者提问：请问公司具备新冠核酸检测资质吗？是否有相关业务进行', ['2020-04-09', '问董秘', '采用政府认证的新型冠状病毒 2019-nCoV核酸检测试剂盒荧光PCR法检测 参与检测的专业医学检测机构均通过生物安全实验室认证 感谢您的关注 谢谢！    查看更多董秘问答>>   ', 'https://finance.sina.com.cn/stock/relnews/dongmiqa/2020-04-09/doc-iirczymi5322362.shtml'])])
OrderedDict([('小米“无人发表会”，阿里“救人即是自救”，疫情逼出营销新手段', ['2020-04-09', 'BOSS说财经', ' 谁也没能预测到 2020年以大疫开局 这场爆发于武汉 被命名为2019-nCoV的新型冠状病毒引发的疫情迅速席卷整个中国 武汉封城、春节假期一延再延、全国各地严禁所有聚集性活动、严禁出行 这注定是一场载入史册的抗疫战争', 'https://k.sina.com.cn/article_6372312247_17bd1c4b700100moa7.html?from=tech']), ('投资者提问：请问公司具备新冠核酸检测资质吗？是否有相关业务进行', ['2020-04-09', '问董秘', '采用政府认证的新型冠状病毒 2019-nCoV核酸检测试剂盒荧光PCR法检测 参与检测的专业医学检测机构均通过生物安全实验室认证 感谢您的关注 谢谢！    查看更多董秘问答>>   ', 'https://finance.sina.com.cn/stock/relnews/dongmiqa/2020-04-09

http://finance.sina.com.cn/roll/2017-07-06/doc-ifyhvyie0279853.shtml


<_io.TextIOWrapper name='data/baidu_list' mode='r' encoding='UTF-8'>



