In [1]:
import logging
import requests
import sys
import urllib

from bs4 import BeautifulSoup
from collections import OrderedDict
from urllib.parse import urlencode

def get_list(comp, page):
    """Function to get  web list pages for a given company and page number.

    Args:
        comp: Company name.
        page: The page number.

    Returns:
        newsData: A dictionary with news title as its key and other details as values.

    """
    newsData = OrderedDict()
    href = 'http://search.sina.com.cn/?{comp1}&range=all&c=news&sort=time&page={page1}'.format(comp1 = comp, page1 = page) # comp -> first %s; page -> 2nd %s; col=1_7 -> financial news in sina
#     http://search.sina.com.cn/?q=%C1%F5%C7%BF%B6%AB&c=news&from=index&col=&range=&source=&country=&size=&time=&a=&page=7&pf=0&ps=0&dpc=1
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"
    }
    print(href)
    html = requests.get(href, headers = headers)
    
    # Parsing html
    soup = BeautifulSoup(html.content, 'html.parser',from_encoding='gbk')
    divs = soup.findAll('div', {"class": "box-result clearfix"})

    for div in divs:
        head = div.findAll('h2')[0]
        # News title
        titleinfo = head.find('a')
        title = titleinfo.get_text()
        # News url
        url = titleinfo['href']
        # Other info
        otherinfo = head.find('span', {"class": "fgray_time"}).get_text()
        source, date, time = otherinfo.split()
        # News abstract
        abstract = div.find('p', {"class": "content"}).get_text()
        newsData[title] = [date, source, abstract, url]
    return newsData



if __name__ == "__main__":
    compRawStr = '阿里巴巴'
    # Dealing with character encoding
    comp = compRawStr.encode('gbk')
    d = {'q': comp}
    pname = urlencode(d)
    # Scraping and printing the first two pages
    for page in range(1, 4):
        newsData = get_list(pname, page)
        for ky in newsData:
            print('\001'.join([ky] + newsData[ky])) # "\001" as separator

http://search.sina.com.cn/?q=%B0%A2%C0%EF%B0%CD%B0%CD&range=all&c=news&sort=time&page=1
英媒：阿里将允许外国零售商在阿里平台上销售商品2019-05-08新浪科技 　　新浪科技讯 5月8日午间消息 据英国金融时报报道 阿里巴巴将允许外国零售商在自己平台进行销售商品  https://tech.sina.com.cn/i/2019-05-08/doc-ihvhiqax7362931.shtml
今日黑马创始人高珉帮扶名创优品逆势崛起年营100亿2019-05-08新浪游戏　　2017年 以阿里巴巴和京东的战略转向为代表 众多互联网巨头都在尝试从电商高地往线下俯冲；而同一时间内http://vr.sina.com.cn/news/hz/2019-05-08/doc-ihvhiqax7362717.shtml
大麦网联手88VIP打造会员专享服务 每月8日推各类稀缺演出门票2019-05-08商讯不仅如此 今年大麦网也将连续第三年作为演出商主办阿里巴巴“88会员年度群星盛典” 全面协助集团为88会员打造一场极尽宠爱的超级盛宴 让现场娱乐与电商生态在不断的碰撞中http://zj.sina.com.cn/comprehensive/2019-05-08/detail-ihvhiews0550812.shtml
大白兔奶糖冰淇淋成洛杉矶网红 中国零食企业为何逆流出海？2019-05-08经济观察网  导读：中国经济的外向型增长、文化对外影响力提升、中国留学生的增长、海外华人对于中国品牌产品的认同与选择 共同塑造了超过华人圈范畴的更多的海外市场 这为中国零食企业走出去塑造了同样有吸引力的市场   https://cj.sina.com.cn/articles/view/6137405232/16dd15f3001900hin0?from=finance
IDC中国公有云最新报告出炉：百度成最大“黑马” 阿里依旧位居首位2019-05-08经济观察网未来要经过1-2年的努力 实现100%的业务跑在公共云之上 成为“云上的阿里巴巴” 同时未来将达摩院的能力与云全面结合 达摩院于2017年成立时称 三年投入1000亿进行核心基础技术研究   腾讯已经将腾讯云调