# 规划和定义对象

In [1]:
#当决定抓取哪些数据时，最好的做法是忽视所有的网站
#当你启动一个可扩展的大型项目时，不是首先查看单个网站并且问“存在什么？”，而是要自问“我需要什么？”，然后想方设法从中寻找所需信息

In [2]:
#可能你真正需要做的就是比较多个商店的产品价格，并且追踪这些价格的变化
#这种情况下，你需要足够的信息来唯一地识别各个产品，就是这么简单
#产品名称、制造商、产品 ID 号（如果可以获得或者相关的话）

In [3]:
#以上这些信息并不特定于某一商店。例如，产品评论、评分、价格，甚至描述都是针对特定商店的特定产品的
#这些信息可以单独保存。其他信息（产品的颜色、材质）是特定于产品的，但是可能很稀疏，因为并不是所有产品都有这个信息
#所以我们需要后退一步，对你考虑的每一项都做一个清单检查，然后问自己以下几个问题
#1、这个信息可以帮助项目实现目标吗？如果我不包括该信息，是否会造成阻碍？还是说该信息有了固然好，但是并不会影响任何结果？
#2、如果该信息将来可能有帮助，但是我并不确定，那么晚些时候再抓取会有多大的困难？
#3、这个数据对于我已经抓取的信息来说是否冗余？
#4、将数据存储在这个对象中是否符合逻辑？（正如前面提到的，如果同一产品在不同网站上的描述不一致的话，那么存储该产品的描述信息就没有意义。）

In [4]:
#如果你确定需要抓取该数据，那么就要问自己以下问题，然后确定如何在代码中存储并处理这些数据
#1、该数据是稀疏的还是密集的？它与每个清单都相关并且会出现在其中，还是只与部分清单相关？
#2、该数据有多大？
#3、在数据较大的情况下，我每次运行分析时都需要检索该数据，还是只是偶尔需要使用该数据？
#4、 这种类型的数据有多大的变化性？我需要经常加入新的属性、修改类型（例如面料样式可能是经常修改的属性）吗？还是说该数据一直保持不变（鞋的码数）？

# 处理不同的网站布局

In [40]:
import requests
from bs4 import BeautifulSoup

In [19]:
proxy = '10.204.32.132:7890'
proxies = {"http": "http://%(proxy)s/" % {'proxy': proxy}, "https": "http://%(proxy)s/" % {'proxy': proxy}}

In [20]:
#一个 Content 类的示例（代表网站上的一块内容，如新闻文章）
#其中两个抓取器函数以 BeautifulSoup 对象作为输入，返回一个 Content 实例

class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body

def getPage(url, proxies = proxies):
    req = requests.get(url, proxies = proxies, verify=False)
    return BeautifulSoup(req.text, 'html.parser')

def scrapeNYTimes(url):
    bs = getPage(url)
    title = bs.find("h1").text
    lines = bs.find_all("p", {"class":"story-content"})
    body = '\n'.join([line.text for line in lines])
    return Content(url, title, body)

def scrapeBrookings(url):
    bs = getPage(url)
    title = bs.find("h1").text
    body = bs.find("div",{"class","post-body"}).text
    return Content(url, title, body)

In [21]:
url = 'https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/'
content = scrapeBrookings(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)



Title: Delivering inclusive urban access: 3 uncomfortable truths
URL: https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/


The past few decades have been filled with a deep optimism about the role of cities and suburbs across the world. These engines of economic growth host a majority of world population, are major drivers of economic innovation, and have created pathways to opportunities for untold amounts of people.







Jeffrey Gutman

					Former Nonresident Fellow, Global Economy and Development										







Adie Tomer

					Senior Fellow - Brookings Metro 

 Twitter
AdieTomer





But all is not well within our so-called Urban Century. Rapid urbanization, rising gentrification, concentrated poverty, and shortages of basic infrastructure have combined to create spatial inequity in cities and suburbs across the globe. The challenges of housing, moving, and employing so many people have led to longer travel ti

In [22]:
#当你为额外的新闻网站添加抓取器函数时，可能会发现存在一种模式。每个网站的解析函数基本上在做同样的事情：
#1、选择标题元素并从标题中抽取文本
#2、选择文章的主要内容
#3、按需选择其他内容项
#4、返回此前由字符串实例化的 Content 对象

In [33]:
class Content:
    """
    所有文章/网页的共同基类
    """
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body

    def print(self):
        """
        用灵活的打印函数控制结果
        """
        print("URL: {}".format(self.url))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))
        
# Website 类并不存储任何从页面本身抓取的信息，而是存储关于如何抓取数据的指令
#它也不存储“My Page Title”这样的标题。它只会存储字符串标签 h1，表明了在哪里可以找到标题
class Website:
    """
    描述网站结构的信息
    """
    def __init__(self, name, url, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.titleTag = titleTag
        self.bodyTag = bodyTag

In [35]:
#一个爬虫，可以抓取任何网站的任何网页的标题和内容
class Crawler:

    def getPage(self, url, proxies = proxies):
        try:
            req = requests.get(url, proxies = proxies, verify=False)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')

    def safeGet(self, pageObj, selector):
        """
        用于从一个BeautifulSoup对象和一个选择器获取内容的辅助函数。
        如果选择器没有找到对象，就返回空字符串
        """
        selectedElems = pageObj.select(selector)
        if selectedElems is not None and len(selectedElems) > 0:
            return '\n'.join([elem.get_text() for elem in selectedElems])
        return ''
    
    def parse(self, site, url):
        """
        从指定URL提取内容
        """
        bs = self.getPage(url)
        if bs is not None:
            title = self.safeGet(bs, site.titleTag)
            body = self.safeGet(bs, site.bodyTag)
        if title != '' and body != '':
            content = Content(url, title, body)
            content.print()

In [37]:
#以下代码定义了网站对象并开启了流程
crawler = Crawler()

siteData = [['O\'Reilly Media', 'http://oreilly.com', 'h1', 'section#product-description'],
            ['Reuters', 'http://reuters.com', 'h1', 'div.StandardArticleBody_body_1gnLA'],
            ['Brookings', 'http://www.brookings.edu', 'h1', 'div.post-body'],
            ['New York Times', 'http://nytimes.com', 'h1', 'p.story-content']]

websites = []

for row in siteData:
    websites.append(Website(row[0], row[1], row[2], row[3]))

crawler.parse(websites[0], 'https://shop.oreilly.com/product/')
crawler.parse(websites[1], 'http://www.reuters.com/article/us-usa-epa-pruitt-idUSKBN19W2D0')
crawler.parse(websites[2], 'https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/')
crawler.parse(websites[3], 'https://www.nytimes.com/2018/01/28/business/energy-environment/oil-boom.html')



URL: https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/
TITLE: Idea to Retire: Old methods of policy education
Idea to Retire: Old methods of policy education
BODY:

Public policy and public affairs schools aim to train competent creators and implementers of government policy. While drawing on the principles that gird our economic and political systems to provide a well-rounded education, like law schools and business schools, policy schools provide professional training. They are quite distinct from graduate programs in political science or economics which aim to train the next generation of academics. As professional training programs, they add value by imparting both the skills which are relevant to current employers, and skills which we know will be relevant as organizations and societies evolve. 
The relevance of the skills that policy programs impart to address problems of today and tomorrow bears further discussion. We are living t



# 结构化爬虫

In [38]:
#通过搜索抓取网站

In [39]:
#搜索存在几个特点
#1、大多数网站通过将主题作为参数在 URL 中传递，来获得特定主题的搜索结果列表。例如，http://example.com?search=myTopic。这个 URL 的第一部分可以存为 Website 对象的一个属性，简单地在其后添加主题
#2、在搜索后，大多数网站以非常好识别的链接列表的形式呈现结果页面，通常会使用一个如 <span class="result"> 的标签，而其准确的形式也可以存为 Website 对象的一个属性
#3、每个结果链接要么是一个相对 URL（例如 /articles/page.html），要么是一个绝对 URL（例如 http://example.com/articles/page.html）。不管是相对 URL 还是绝对 URL，你都可以将其存为 Website 对象的一个属性
#4、当定位到并规范化搜索页面的 URL 后，你就成功地将问题简化为上一节示例中的问题了——抽取给定格式网站的数据

In [41]:
class Content:
    """
    所有文章/网页的共同基类
    """
    def __init__(self, topic, url, title, body):
        self.topic = topic
        self.title = title
        self.body = body
        self.url = url

    def print(self):
        """
        用灵活的打印函数控制结果
        """
        print("New article found for topic: {}".format(self.topic))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))
        print("URL: {}".format(self.url))
        
#程序中的 Website 类加入了一些新的属性
#如果你附加了要搜索的主题，那么 searchUrl定义了可以在哪里获得搜索结果
# resultListing 定义了存放每个结果信息的“盒子”（box）
# resultUrl 定义了这个盒子中的标签，这些标签即为结果的准确 URL
# absoluteUrl 属性是一个布尔值，它表示搜索结果是绝对 URL 还是相对 URL
class Website:
    """描述网站结构的信息"""
    def __init__(self, name, url, searchUrl, resultListing, resultUrl, absoluteUrl, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.searchUrl = searchUrl
        self.resultListing = resultListing
        self.resultUrl = resultUrl
        self.absoluteUrl=absoluteUrl
        self.titleTag = titleTag
        self.bodyTag = bodyTag

In [42]:
# Crawler 被进一步扩展，它包含 Website 数据、待搜索的主题列表和两个对所有这些网站和主题进行迭代的循环
#它还包括一个 search 函数，该函数对特定网站和主题的搜索页面进行导航，并抽取页面中所有的结果 URL
class Crawler:

    def getPage(self, url, proxies = proxies):
        try:
            req = requests.get(url, proxies = proxies, verify=False)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')
    
    def safeGet(self, pageObj, selector):
        childObj = pageObj.select(selector)
        if childObj is not None and len(childObj) > 0:
            return childObj[0].get_text()
        return ""

    def search(self, topic, site):
        """
        根据主题搜索网站并记录所有找到的页面
        """
        bs = self.getPage(site.searchUrl + topic)
        searchResults = bs.select(site.resultListing)
        for result in searchResults:
            url = result.select(site.resultUrl)[0].attrs["href"] #检查一下是相对URL还是绝对URL
            if(site.absoluteUrl):
                bs = self.getPage(url)
            else:
                bs = self.getPage(site.url + url)
            if bs is None:
                print("Something was wrong with that page or URL. Skipping!")
                return
            title = self.safeGet(bs, site.titleTag)
            body = self.safeGet(bs, site.bodyTag)
            if title != '' and body != '':
                content = Content(topic, title, body, url)
                content.print()

In [46]:
crawler = Crawler()

siteData = [['O\'Reilly Media', 'https://oreilly.com',
             'https://ssearch.oreilly.com/?q=','article.product-result',
             'p.title a', True, 'h1', 'section#product-description'],
            ['Reuters', 'https://reuters.com',
             'https://www.reuters.com/search/news?blob=',
             'div.search-result-content','h3.search-result-title a',
             False, 
             'h1', 
             'div.StandardArticleBody_body_1gnLA'],
            ['Brookings', 'https://www.brookings.edu',
             'https://www.brookings.edu/search/?s=',
             'div.list-content article', 'h4.title a',
             True,
             'h1',
             'div.post-body']]

In [47]:
sites = []
for row in siteData:
    sites.append(Website(row[0], row[1], row[2], row[3], row[4], row[5], row[6], row[7]))

topics = ['python', 'data science']
for topic in topics:
    print("GETTING INFO ABOUT: " + topic)
    for targetSite in sites:
        crawler.search(topic, targetSite)

GETTING INFO ABOUT: python




KeyboardInterrupt: 

# 通过链接抓取网站

In [48]:
#该爬虫可以跟踪任意遵循特定 URL 模式的链接
#这种爬虫非常适用于从一个网站抓取所有数据的项目，而不适用于从特定搜索结果或页面列表抓取数据的项目
#它还非常适用于网站页面组织得很糟糕或者非常分散的情况。

In [49]:
#这些类型的爬虫并不需要像上一节通过搜索页面进行抓取中采用的定位链接的结构化方法，因此在 Website 对象中不需要包含描述搜索页面的属性
#由于爬虫并不知道待寻找的链接的位置，所以你需要一些规则来告诉它选择哪种页面
#可以用 targetPattern（目标 URL 的正则表达式）和布尔变量 absoluteUrl 来达成这一目标

In [50]:
import re

In [54]:
class Website:
    def __init__(self, name, url, targetPattern, absoluteUrl, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.targetPattern = targetPattern
        self.absoluteUrl = absoluteUrl
        self.titleTag = titleTag
        self.bodyTag = bodyTag

class Content:
    """
    所有文章/网页的共同基类
    """
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body

    def print(self):
        """
        用灵活的打印函数控制结果
        """
        print("URL: {}".format(self.url))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))

In [55]:
# Crawler 类从每个网站的主页开始，定位内链，并解析在每个内链页面发现的内容
class Crawler:
    def __init__(self, site):
        self.site = site
        self.visited = []

    def getPage(self, url, proxies = proxies):
        try:
            req = requests.get(url, proxies = proxies, verify=False)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')
    
    def safeGet(self, pageObj, selector):
        selectedElems = pageObj.select(selector)
        if selectedElems is not None and len(selectedElems) > 0:
            return '\n'.join([elem.get_text() for elem in selectedElems])
        return ''

    def parse(self, url):
        bs = self.getPage(url)
        if bs is not None:
            title = self.safeGet(bs, self.site.titleTag)
            body = self.safeGet(bs, self.site.bodyTag)
            if title != '' and body != '':
                content = Content(url, title, body)
                content.print()
                
    def crawl(self):
        """
        获取网站主页的页面链接
        """
        bs = self.getPage(self.site.url)
        targetPages = bs.findAll('a',
        href=re.compile(self.site.targetPattern))
        for targetPage in targetPages:
            targetPage = targetPage.attrs['href']
            if targetPage not in self.visited:
                self.visited.append(targetPage)
                if not self.site.absoluteUrl:
                    targetPage = '{}{}'.format(self.site.url, targetPage)
                self.parse(targetPage)

In [57]:
#忽略requests证书警告
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

In [62]:
reuters = Website('Reuters', 'https://www.reuters.com', '^(/article/)', False, 'h1', 'div.StandardArticleBody_body_1gnLA')
crawler = Crawler(reuters)
crawler.crawl()

# 抓取多种类型的页面

In [63]:
#与抓取预定义好的页面集合不同，抓取一个网站的所有内链会带来一个挑战，即你不知道会获得什么。好在有几种基本的方法可以识别页面类型

In [64]:
#通过URL
#一个网站中所有的博客文章可能都会包含一个 URL（例如 http://example.com/blog/titleof-post）

In [65]:
#通过网站中存在或者缺失的特定字段
#如果一个页面包含日期，但是不包含作者名字，那你可以将其归类为新闻稿
#如果它有标题、主图片、价格，但是没有主要内容，那么它可能是一个产品页面

In [66]:
#通过页面中出现的特定标签识别页面
#即使不抓取某个标签内的数据，你仍然可以利用这个标签
#你的爬虫可以寻找类似于 <div id="related-products"> 这样的元素来识别产品页面，即便是爬虫对相关产品的内容并不感兴趣

In [67]:
#如果页面都是相似的（它们基本上都是相同类型的内容），你可能需要在现有的网页对象中加入一个 pageType 属性
class Website:
    """所有文章/网页的共同基类"""
    
    def __init__(self, type, name, url, searchUrl, resultListing, resultUrl, absoluteUrl, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.titleTag = titleTag
        self.bodyTag = bodyTag
        self.pageType = pageType

In [68]:
#如果你抓取的页面或内容各不相同（它们包含不同类型的字段），就需要为每个页面类型创建一个新的对象
class Website:
    """所有文章/网页的共同基类"""

    def __init__(self, name, url, titleTag):
        self.name = name
        self.url = url
        self.titleTag = titleTag

#这不是一个由你的爬虫直接使用的对象，而是将被你的页面类型引用的对象
class Product(Website):
    """产品页面要抓取的信息"""
    def __init__(self, name, url, titleTag, productNumber, price):
        Website.__init__(self, name, url, TitleTag)
        self.productNumberTag = productNumberTag
        self.priceTag = priceTag
        
class Article(Website):
    """文章页面要抓取的信息"""
    def __init__(self, name, url, titleTag, bodyTag, dateTag):
        Website.__init__(self, name, url, titleTag)
        self.bodyTag = bodyTag
        self.dateTag = dateTag