python html

pyQuery

pyQuery是jQuery在python中的实现，能够以jQuery的语法来操作解析HTML文档，十分方便。使用前需要安装，easy_install pyquery即可，或者Ubuntu下

sudo apt-get install python-pyquery 以下例子：

from pyquery import PyQuery as pyq
doc=pyq(url=r'http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
 
for i in cts:
	print '====',pyq(i).find('h4').text() ,'===='
	for j in pyq(i).find('.sub'):
		print pyq(j).text() ,
	print '/n'

BeautifulSoup

有个头痛的问题是，大部分的网页都没有完全遵照标准来写，各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题，我们可以选择著名的BeautifulSoup来解析html文档，它具有很好的容错能力

import urllib
import urllib2
url ="http://www.XXXX.com/"
header ={'User-Agent':'mozilla/5.0 (windows; U; windows NT 5.1; zh-cn)'}
req=urllib2.Request(url,None,header)
response = urllib2.urlopen(req)
page = responese.read()
soup = BeautifulSop('',join(page))
buycount = soup.findAll(attrs={'class':re.compile("totla$")})
for i in buycount;

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

python html

pyQuery

BeautifulSoup

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Clone this wiki locally