hey,大家好,我就是传说中的spider。经常在各个网络之间爬行,爬行了这么久,也算见过世面的了,现在我就给大家介绍一下我们spider一族的生活。
相信你经常听到爬虫爬虫,那么爬虫到底是什么呢?名字叫做spider 会不会感觉很神奇了,当然,你也可以叫我 spider man!
在回答这个问题之前,我们先探讨一下,爬虫能做什么。
- 获取网页上所看到数据。
- 模拟用户行为。
- 进行网络攻击。
- ...
从这些能做的事情中间,我们能看出,爬虫最关键的东西是 网络。
那么可知,网络知识是非常重要的。
因为网络知识比较大,也比较杂,为了即学即用,我们直接从最简单的爬虫代码开始吧。
hey,今天我又要去干活了,而且好像今天的活比较轻松。今天您就跟我一起参观一下我每天的工作吧!
今天的任务如下:
import requests
url = "http://www.baidu.com"
response = requests.get(url)
print(response.text)
这么简单吗!?
其实,这只是看着简单,那我们从正式的代码开始分析吧。
url
这个url到底是什么呢?
这个,可能还不能直接回答,我们还需要一点前置知识,网络(www)是怎么组成的。
电脑在最初的时候,都是一台一台,每台之间没有联系。但是,你写了一篇文章,我想看怎么办?
于是,软盘,U盘等存储介质就出现了。于是,你将你写的文章拷贝给了我,我在我的电脑上看了你的文章。
但是,我需要不停的对你的文章进行批注,你需要自己修改,需要不停的拷贝,黏贴,但是感觉太麻烦了。
于是想了一个办法,既然存储介质能和我的电脑互相连接,那么能不能让我的电脑和你的电脑连接起来呢?嗯,没错,网卡就出现啦!
这样我的电脑和你的电脑连接在了一起,可以通过网卡的通信,直接交换数据,方便太多了!