## Test summary

Advantages:

* Reasonably parse category list, article list and article content
* Good to use for quick prototyping

Disadvantages:

* Only `title` can be parsed in a stable way.
* `publish_date` can be parsed most of the time.
* `text` (content; main body) can be parsed most of the time. Can fail if language is not specified.
* `authors`, `keywords` and `summary` never succeed.

## Sinlge article

In [1]:
from newspaper import Article

In [2]:
url = 'http://www.bbc.co.uk/zhongwen/simp/chinese_news/2012/12/121210_hongkong_politics.shtml'
a = Article(url, language='zh')

In [3]:
a.download()

In [4]:
a.parse()

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/94/lf84ld9d4td2_td6nrr955nw0000gn/T/jieba.cache
Loading model cost 0.903 seconds.
Prefix dict has been built succesfully.


In [5]:
a.authors

[]

In [6]:
a.title

'港特首梁振英就住宅违建事件道歉'

In [8]:
a.publish_date

datetime.datetime(2012, 12, 12, 0, 0)

In [9]:
a.additional_data

{}

In [10]:
a.keywords

[]

In [11]:
a.summary

''

In [12]:
a.text

'香港行政长官梁振英在各方压力下就其大宅的违章建筑（僭建）问题到立法会接受质询，并向香港民众道歉。\n\n梁振英此前承认早在去年参选行政长官之前就已知悉其住宅的违建问题，引发诚信危机。\n\n梁振英在星期二（12月10日）的答问大会开始之际在其演说中道歉，但强调他在违章建筑问题上没有隐瞒的意图和动机。\n\n不过泛民主派议员们普遍指责梁振英\x93撒谎\x94，要求他马上辞职下台。\n\n一些亲北京阵营议员欢迎梁振英道歉，且认为应能获得香港民众接受，但这些议员也质问梁振英有否向执法部门施压。\n\n梁振英强调承诺将在两周内解决其住宅的违建问题。\n\n\x93郑重道歉\x94\n\n香港媒体于6月份曝光梁振英大宅的首批违建部分后，于3月的选举中被击败的民主党参选人何俊仁向法院提出选举呈请，至11月中旬被终审法院驳回。\n\n梁振英说，其位于太平山山顶的住宅内的违建部分大都不是由他所建，此前没有马上公开交待和处理，是因为律师意见认为司法程序仍在进行，他不应评论。\n\n梁振英在接受质询前的发言中说：\x93回顾事件，我虽然从无任何存心隐瞒的意图，但必须承认自己有处理疏忽及交代不清之处，为此我再次向市民郑重道歉。\x94\n\n梁振英在选举中还击败了曾是自由党党员的前政务司司长唐英年。\n\n在回答自由党议员的提问时，梁振英称，他从未说过其房产不存在违建问题。\n\n现为间选议员的何俊仁说，梁振英至今仍不坦诚以对，让他\x93震惊\x94；亲北京政团工联会直选议员黄国健也批评梁振英抱着\x93不服输\x94的态度接受质询。\n\n历时1.5小时的答问大会在进入中段之际，泛民主派人民力量的直选议员黄毓民、陈伟业和社会民主连线的梁国雄先后因播放录音、叫嚣，和向梁振英扔掷文件而被议长驱逐。\n\n民主党此前计划在星期三（11日）对梁振英提出不信任动议。'

## Category URLs

In [13]:
import newspaper
sina_paper = newspaper.build('http://www.sina.com.cn/', language='zh')

In [16]:
for category in sina_paper.category_urls():
    print(category)

http://www.sina.com.cn/
http://tousu.sina.cn
http://cq.auto.sina.com.cn
http://shengxue.edu.sina.com.cn
http://data.auto.sina.com.cn
http://kf.games.sina.com.cn
http://sc.sina.com.cn
http://jiaoyi.sina.com.cn
http://cul.news.sina.com.cn
http://hainan.sina.com.cn
http://slide.ent.sina.com.cn
http://digi.sina.com.cn
http://collection.sina.com.cn
http://kan.sina.com.cn
http://corp.sina.com.cn
http://tj.auto.sina.com.cn
http://career.sina.com.cn
http://slide.collection.sina.com.cn
http://ka.sina.com.cn
http://auto.sina.com.cn
http://slide.fashion.sina.com.cn
http://lottery.sina.com.cn
http://yn.sina.com.cn
http://jingdian.travel.sina.com.cn
http://shiqu.sina.com.cn
http://vip.stock.finance.sina.com.cn
http://zx.jiaju.sina.com.cn
http://sifa.sina.com.cn
http://blog.sina.com.cn
http://sh.auto.sina.com.cn
http://emarketing.sina.com.cn
http://licaishi.sina.com.cn
http://91.jiaju.sina.com.cn
http://ah.sina.com.cn
http://sports.video.sina.com.cn
http://gongyi.sina.com.cn
http://fo.sina.com.cn
ht

In [15]:
len(sina_paper.articles)

2904

## Article list

In [17]:
sina_history = newspaper.build('http://blog.sina.com.cn/lm/history/', language='zh') 

In [18]:
len(sina_history.articles)

299

In [24]:
a = sina_history.articles[2]

In [25]:
a.url

'http://blog.sina.com.cn/s/blog_aeb058020102xuwb.html'

In [26]:
a.download()

In [27]:
a.parse()

In [28]:
a.text

'你是否知道，\n\n30年、40年、甚至50年前，\n\n咱大郑州是什么样子？\n\n下面这组老照片，\n\n将带你穿越回古老的郑州，\n\n让我们一起走进这条时空隧道，\n\n听听那过去的故事。\n\n第一幕：郑州，一座火车拉来的城市\n\n“\n\n那些过往的一幕幕，\n\n虽然早已逝去，\n\n但是却永远的停留在了历史的长河里，\n\n这便是郑州历史里永不可磨灭的印记。\n\n”\n\n1911年的郑州火车站铁质天桥\n\n▼\n\n1923年的郑州火车站。（京汉站）这是留存最早的照片。隐约可见的天桥，连接着陇海车站\n\n▼\n\n1954年的郑州火车站，高大威严，广场开阔，已显出不凡的气势。当时为全国十大火车站之一\n\n▼\n\n1956年的郑州火车站\n\n▼\n\n1959年的郑州火车站。可见当时火车站广场的零乱、破旧。火车站对面是公共汽车站，中间的一排小屋是公共汽车调度室。图中近景处看似民房，实则餐馆、百货店\n\n▼\n\n最初的郑县火车站\n\n▼\n\n20年代郑州站的月台上，旅客们在上郑州---汉口的火车\n\n▼\n\n郑州火车站\n\n▼\n\n40年代的郑州火车站\n\n▼\n\n60年代的郑州火车站\n\n▼\n\n70年代的郑州火车站\n\n▼\n\n80年代的郑州火车站\n\n▼\n\n老火车站候车厅\n\n▼\n\n70年代的郑州火车站春运\n\n▼\n\n郑州火车站东广场北出站口（1981年摄）\n\n▼\n\n1983年的郑州火车站\n\n▼\n\n1991年郑州火车站正面照\n\n▼\n\n1991年从西南角看郑州车站，高架候车室正在建设中\n\n▼\n\n1991年从南面远看郑州火车站，右下角是现在的银基\n\n▼\n\n郑州火车站广场上的长途电话亭（1984年摄）\n\n▼\n\n当年的火车头\n\n▼\n\n早期的火车票\n\n▼\n\n早期的火车票\n\n▼\n\n90年代的火车站台票\n\n▼\n\n90年代的火车站台票（另一版本）\n\n▼\n\n新版火车票\n\n▼\n\n90年代的火车站东广场\n\n▼\n\n现在的火车站东广场\n\n▼\n\n现在的火车站西广场\n\n▼\n\n第二幕：郑州记忆\n\n“\n\n“没到‘二七塔’，就等于没到过郑州。”\n\n这句话在郑州市几乎家喻户晓，\n\n它同时也

In [29]:
a.publish_date

In [30]:
a.authors

[]

## Article list

In [37]:
reuters_rt = newspaper.build('https://cn.reuters.com/theWire') 

In [38]:
len(reuters_rt.articles)

0

In [39]:
reuters_rt.article_urls()

[]

In [40]:
reuters_rt.category_urls()

['https://cn.reuters.com/theWire',
 'http://es.reuters.com',
 'https://cn.reuters.com/investing',
 'http://it.reuters.com',
 'http://ca.reuters.com',
 'http://cn.reuters.com',
 'http://in.reuters.com',
 'http://www.reuters.com',
 'http://af.reuters.com',
 'https://cn.reuters.com/news',
 'http://lta.reuters.com',
 'http://jp.reuters.com',
 'http://ara.reuters.com',
 'http://br.reuters.com',
 'https://cn.reuters.com/markets',
 'http://agency.reuters.com',
 'http://mx.reuters.com',
 'http://ar.reuters.com',
 'https://cn.reuters.com/home',
 'http://fr.reuters.com',
 'http://de.reuters.com',
 'https://cn.reuters.com/video',
 'http://uk.reuters.com',
 'https://cn.reuters.com/rss',
 'https://cn.reuters.com/pictures',
 'https://cn.reuters.com/life',
 'http://reuters.zendesk.com',
 'http://ru.reuters.com']

In [42]:
reuters_rt.parse_articles()

In [43]:
reuters_rt.articles

[]

## Article List

In [47]:
people = newspaper.build('http://politics.people.com.cn/') 

In [48]:
people.category_urls()

['http://politics.people.com.cn/',
 'http://health.people.com.cn',
 'http://sports.people.com.cn',
 'http://industry.people.com.cn',
 'http://finance.people.com.cn',
 'http://society.people.com.cn',
 'http://travel.people.com.cn',
 'http://opinion.people.com.cn',
 'http://gonggao.people.com.cn',
 'http://politics.people.com.cn/GB/index.html',
 'http://theory.people.com.cn',
 'http://sso.people.com.cn',
 'http://world.people.com.cn',
 'http://politics.people.com.cn',
 'http://kf.people.com.cn',
 'http://renshi.people.com.cn',
 'http://tw.people.com.cn',
 'http://art.people.com.cn',
 'http://leaders.people.com.cn',
 'http://house.people.com.cn',
 'http://tv.people.com.cn',
 'http://www.people.com.cn',
 'http://edu.people.com.cn',
 'http://culture.people.com.cn',
 'http://auto.people.com.cn',
 'http://kpzg.people.com.cn',
 'http://military.people.com.cn']

In [49]:
people.article_urls()

['http://politics.people.com.cn/GB/8198/419601/index.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30076664.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30076662.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074392.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074391.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074390.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074389.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074348.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074338.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074317.html',
 'http://politics.people.com.cn/n1/2018/0622/c1001-30074283.html',
 'http://politics.people.com.cn/n1/2018/0622/c1024-30074265.html',
 'http://politics.people.com.cn/n1/2018/0614/c1001-30057673.html',
 'http://politics.people.com.cn/n1/2018/0613/c1024-30055946.html',
 'http://politics.people.com.cn/n1/2018/0622/c1024-30074264.html',
 '

In [51]:
len(people.articles)

2590

In [52]:
a = people.articles[0]

In [53]:
a.url

'http://politics.people.com.cn/GB/8198/419601/index.html'

In [56]:
a.download()

In [57]:
a.parse()

In [58]:
a.title

'全国政协“健全系统性金融风险防范体系”专题协商会--时政--人民网'

In [59]:
a.authors

[]

In [60]:
a.publish_date

In [61]:
a.source_url

'http://politics.people.com.cn/'

## Article parse

Note that it is important to specify language. Or it may fail to parse some Chinese under default settings.

The fields we look for:

page fields:
* title
* content
* source
* publish_time (类型为date)
* keywords
* author
   * (optional) reporter
* editor

system fields:
* url
* crawl_time
* tags
* section （e.g. 「日经中文网-中国」）
* start_url


In [91]:
a = Article('http://health.people.com.cn/n1/2018/0620/c14739-30068605.html', language='zh')

In [92]:
a.download()

In [93]:
a.parse()

In [94]:
a.title

'6月应当心手足口病高发 家长及幼师要做好防范--人民健康网--人民网'

In [95]:
a.authors

[]

In [96]:
a.publish_date

datetime.datetime(2018, 6, 20, 0, 0)

In [97]:
a.article_html

''

In [98]:
a.text

'“全省监测数据表明，近期湖南手足口病发病人数猛增。”昨日，湖南省疾控中心传染病防治科副科长邓志红主任医师介绍，6月份是手足口病高发季，家长及幼师应帮助孩子有效预防手足口病。\n\n邓志红表示，手足口病多发生于5岁以下学龄前儿童，我国的手足口病病原以肠道病毒71型和柯萨奇病毒A16型为主。有效预防手足口病，首先要监督幼儿搞好个人卫生，保证饮食安全。宝宝饭前便后要洗手，家长应及时换洗床单被褥。\n\n其次，幼儿园要落实晨午检制度，每天早上查看宝宝的手上、嘴巴里有没有长米粒似的疱疹，有没有发热，一旦发现疑似病例，要立即将该宝宝隔离，并迅速与家长联系送其上医院。对于确诊的手足口病患儿，在症状消失后一周凭医疗机构出具的健康证明，方可复课。幼儿园还应做好因病缺勤及病因追踪登记报告工作，发现发热、出疹患儿增多时，要及时报告卫生和教育部门，并配合疾控机构调查和防控。\n\n此外，家长和幼师每天应对孩子使用的玩具、餐饮具等物品进行清洗消毒；对地面、门把手、楼梯扶手、桌面等物体表面进行擦拭消毒；对厕所进行清洁消毒。（记者 杨蔚然 通讯员 赵善露）'

In [99]:
a.source_url

'http://health.people.com.cn'

In [101]:
a.keywords

[]

## Single article

In [102]:
a = newspaper.Article('http://focus.news.163.com/15/0420/18/ANLQJ18I00011SM9.html')

In [107]:
a.download()

In [108]:
a.parse()

You must `download()` an article first!


ArticleException: 

In [114]:
#a.doc

In [120]:
import requests
url = 'http://focus.news.163.com/15/0427/11/AO73QLUM00011SM9.html'
r = requests.get(url)

In [121]:
#r.text

In [122]:
#help(newspaper.Article)

In [136]:
a = newspaper.Article(url, language='zh')

In [137]:
a.download()

In [138]:
a.parse()

In [141]:
a.nlp()

In [142]:
a.title

'南方电网成又一个腐败重灾区？'

In [143]:
a.authors

[]

In [144]:
a.publish_date

In [147]:
#a.keywords

In [146]:
a.text

'反腐风暴正在刮向电力系统。这一次，处于漩涡中心的是中国南方电网有限责任公司。\n\n反腐风暴正在刮向电力系统。这一次，处于漩涡中心的是中国南方电网有限责任公司（下称“南方电网”）。\n\n4月2日，最高人民检察院官网发布消息，经最高人民检察院指定管辖，广东省人民检察院对南方电网副总经理肖鹏涉嫌受贿犯罪立案侦查。\n\n这是继南方电网副总经理祁达才涉嫌严重违纪接受组织调查之后，4天之内南方电网第二位落马的副总经理。\n\n此时，距中央第八巡视组3月6日正式进驻南方电网不到一个月，南方电网系统包括肖鹏、祁达才在内已经有4名高管落马。\n\n《中国经济周刊》获悉，在中央巡视组进驻之前，针对他们的调查已经开始，纪检部门的办案人员已经去了南方电网数次，基本掌握了情况。\n\n中央巡视组的进驻加速了查处的进程。\n\n祁达才资料图\n\n肖鹏资料图\n\n四天内两位副总被查处\n\n公开资料显示，肖鹏1956年出生，中国人民大学毕业，博士研究生学历。自2002年12月起任南方电网董事、副总经理、党组成员，在副总经理职位上的任职时间超过12年，先后分管过计划发展部、市场营销部、战略策划部、信息部等部门。出事前，肖鹏在南方电网副总经理中排名第一，地位仅次于该公司董事长和总经理。\n\n据电力系统业内人士向《中国经济周刊》记者透露，肖鹏或与此前落马的东莞市供电局局长雷烈波有关系。3月28日，广东省纪委监察厅网站通报了雷烈波涉嫌严重违纪被查的消息。\n\n“现在查到谁都不会感到意外了。”南方电网内部一位不愿具名人士在接受《中国经济周刊》记者采访时说。早在2011年左右，南方电网内部一度有传闻说，肖鹏有望进一步升职。“但其实他的年龄已经不占优势，而且从规律来看，从公司内部提拔的可能性也比较小。于是，这最终也只是一个传闻。”\n\n因为较长时间在电力系统工作，加上分管过不同领域，在南方电网内部，肖鹏的专业口碑不错。2008年南方的冰雪灾害对电网设施造成重创，肖鹏曾经发表署名文章《重建核心价值：关于我国电网规划建设的几点思考》，对电网建设进行了反思。他认为，电力企业必须从以人为本的高度重新审视自己的核心价值体系，将核心价值真正落实在终端客户利益上。当时，这篇长文在业内得到了较高的评价。\n\n在上述南方电网内部人士看来，肖鹏不仅精于业务，而且颇具“人文情怀”。在南方电网党校2012年春季中

In [150]:
#a.summary