Android-jsoup 使用jsoup爬取网站数据 jsoup 简介 首先我们应该了接下什么是jsoup,jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据(以上内容纯属百度百科copy的)。下面我们开始爬取网页的数据,第一次写,写的不好还请大家见谅。
下载jsoup Jar包
首先去官网下载最新的jar,我使用的是1.11的版本,下载好后倒入IDE中。下载地址https://jsoup.org/download
爬取数据
这次爬取的是某网的数据(本次爬取仅为测试,不得用于商业用途,用于商业用途与本人无关)
在浏览器中查看页面的源码,找到我们要爬的数据代码
整个条目的网页代码如下
1.根据条目的class来定位我们要抓取的数据
[html] view plain copy
Elements elementsByClass = doc.getElementsByClass("pictxt02 clearfix");
当前的Elements是包涵全部的条目的,所以需要去遍历每个条目
2.在遍历的循环中,在选取我们要提取的数据
Elements h3 = list.getElementsByTag("h3");//通过h3标签获取到Element对象 String url= h3.select("a").first().attr("href");//再通过h3对象获取到a标签中的页面链接
String img = list.getElementsByTag("a").select("img").first().attr("src");//获取图片链接 Elements p = list.getElementsByTag("p");//获取简介 String text = p.text();
Elements ly = list.getElementsByClass("ly");//获取来源 String ly = ly.get(0).text();
通过以上代码就能抓取当前也的数据了