Skip to content

Peter6666/Worm

Repository files navigation

Worm

Android-jsoup 使用jsoup爬取网站数据 jsoup 简介 首先我们应该了接下什么是jsoup,jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据(以上内容纯属百度百科copy的)。下面我们开始爬取网页的数据,第一次写,写的不好还请大家见谅。

下载jsoup Jar包

首先去官网下载最新的jar,我使用的是1.11的版本,下载好后倒入IDE中。下载地址https://jsoup.org/download

爬取数据

这次爬取的是某网的数据(本次爬取仅为测试,不得用于商业用途,用于商业用途与本人无关)

在浏览器中查看页面的源码,找到我们要爬的数据代码

整个条目的网页代码如下

关直播、关评论! 抖音短视频全面整改

原标题:关直播!关评论! 抖音短视频全面整改4月11号午间消息,抖音方面表示,即日起,为更好地向用户提供服务,抖音将对系统进行全面升级,期间直播功能与评论功能暂

来源:前瞻网
0

1.根据条目的class来定位我们要抓取的数据

[html] view plain copy Elements elementsByClass = doc.getElementsByClass("pictxt02 clearfix");
当前的Elements是包涵全部的条目的,所以需要去遍历每个条目

2.在遍历的循环中,在选取我们要提取的数据

Elements h3 = list.getElementsByTag("h3");//通过h3标签获取到Element对象 String url= h3.select("a").first().attr("href");//再通过h3对象获取到a标签中的页面链接

String img = list.getElementsByTag("a").select("img").first().attr("src");//获取图片链接 Elements p = list.getElementsByTag("p");//获取简介 String text = p.text();

Elements ly = list.getElementsByClass("ly");//获取来源 String ly = ly.get(0).text();

通过以上代码就能抓取当前也的数据了

About

Android-jsoup 使用jsoup爬取网站数据

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages