Worm

Android-jsoup 使用jsoup爬取网站数据 jsoup 简介首先我们应该了接下什么是jsoup，jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据（以上内容纯属百度百科copy的）。下面我们开始爬取网页的数据，第一次写，写的不好还请大家见谅。

下载jsoup Jar包

首先去官网下载最新的jar，我使用的是1.11的版本，下载好后倒入IDE中。下载地址https://jsoup.org/download

爬取数据

这次爬取的是某网的数据（本次爬取仅为测试，不得用于商业用途，用于商业用途与本人无关）

在浏览器中查看页面的源码，找到我们要爬的数据代码

整个条目的网页代码如下

关直播、关评论！抖音短视频全面整改

原标题：关直播！关评论！抖音短视频全面整改4月11号午间消息，抖音方面表示，即日起，为更好地向用户提供服务，抖音将对系统进行全面升级，期间直播功能与评论功能暂

来源：前瞻网

0

1.根据条目的class来定位我们要抓取的数据

[html] view plain copy Elements elementsByClass = doc.getElementsByClass("pictxt02 clearfix");
当前的Elements是包涵全部的条目的，所以需要去遍历每个条目

2.在遍历的循环中，在选取我们要提取的数据

Elements h3 = list.getElementsByTag("h3");//通过h3标签获取到Element对象 String url= h3.select("a").first().attr("href");//再通过h3对象获取到a标签中的页面链接

String img = list.getElementsByTag("a").select("img").first().attr("src");//获取图片链接 Elements p = list.getElementsByTag("p");//获取简介 String text = p.text();

Elements ly = list.getElementsByClass("ly");//获取来源 String ly = ly.get(0).text();

通过以上代码就能抓取当前也的数据了

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.idea		.idea
app		app
gradle/wrapper		gradle/wrapper
.gitignore		.gitignore
README.md		README.md
build.gradle		build.gradle
gradle.properties		gradle.properties
gradlew		gradlew
gradlew.bat		gradlew.bat
settings.gradle		settings.gradle

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

app

app

gradle/wrapper

gradle/wrapper

.gitignore

.gitignore

README.md

README.md

build.gradle

build.gradle

gradle.properties

gradle.properties

gradlew

gradlew

gradlew.bat

gradlew.bat

settings.gradle

settings.gradle

Repository files navigation

Worm

关直播、关评论！抖音短视频全面整改

About

Releases

Packages

Contributors 2

Languages

Peter6666/Worm

Folders and files

Latest commit

History

Repository files navigation

Worm

About

Topics

Resources

Stars

Watchers

Forks

Languages