Jsoup学习笔记。添加了部分学习代码和注释。
Switch branches/tags
Nothing to show
Clone or download
code4craft Merge pull request #3 from bitdeli-chef/master
Add a Bitdeli Badge to README
Latest commit 2c0580f Jan 23, 2014
Permalink
Failed to load latest commit information.
blogs reformat Sep 1, 2013
src blog7 Aug 31, 2013
.gitignore Site Aug 31, 2013
CHANGES Site Aug 31, 2013
LICENSE Site Aug 31, 2013
README.md Add a Bitdeli badge to README Jan 23, 2014
pom.xml Site Aug 31, 2013

README.md

Jsoup学习笔记

Jsoup是Java世界的一款HTML解析工具,它支持用CSS Selector方式选择DOM元素,也可过滤HTML文本,防止XSS攻击。

学习Jsoup是为了更好的开发我的另一个爬虫框架webmagic,为了学的比较详细,就强制自己用很规范的方式写出这部分文章。

代码部分来自https://github.com/jhy/jsoup,添加了一些中文注释以及示例代码。


提纲

  1. 概述

  2. DOM相关对象

  3. Document的输出

  4. HTML语法分析parser

    1. 语法分析与状态机基础
    2. 词法分析Tokenizer
    3. 语法检查及DOM树构建
  5. CSS Selector

  6. 防御XSS攻击

  7. 为Jsoup增加XPath选择功能

    Jsoup默认没有XPath功能,我写了一个项目Xsoup,可以使用XPath来选择HTML文本。Java里较常用的XPath抽取器是HtmlCleaner,Xsoup的性能比它快了一倍。


协议:

相关代码遵循MIT协议。

文档遵循CC-BYNC协议。

Bitdeli Badge