GitHub - Shepherd-Jie/spider: 保存一些简易的爬虫代码

movie.py 简单的爬虫脚本，没有使用框架。主要练习几个库的使用。 1.对解析库的使用： BeautifuSoup确实用着没有Pyquery，速度快，而且语法也不方便。 bs：主要使用find_all(),里面可以是要查找的字符串或者正则表达式。re.compile()。获取文本时使用get_text() 'name' : list.find_all('a')[1].get_text().strip()

pyquery: doc.find('.co_content8 ul table').items() href = origin_url + list.find('a').eq(1).attr('href')[1:] score = list.find('font').eq(1).text()[5:] name = list.find('a').eq(1).attr('title')

2.try..except../的使用

3.保存到数据库

4.保存到文本

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
movie.py		movie.py
pyquery1.py		pyquery1.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages