In [1]:
# Web Crawling Models
import requests
from bs4 import BeautifulSoup


class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body


def getPage(url):
    req = requests.get(url)
    return BeautifulSoup(req.text, 'html.parser')


def scrapeNYTimes(url):
    bs = getPage(url)
    title = bs.find("h1").text
    lines = bs.find_all("p", {"class":"story-content"})
    body = '\n'.join([line.text for line in lines])
    return Content(url, title, body)


def scrapeBrookings(url):
    bs = getPage(url)
    title = bs.find("h1").text
    body = bs.find("div",{"class":"post-body"}).text
    return Content(url, title, body)


url = 'https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/'

content = scrapeBrookings(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

url = 'https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html'
content = scrapeNYTimes(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

Title: Delivering inclusive urban access: 3 uncomfortable truths
URL: https://www.brookings.edu/blog/future-development/2018/01/26/delivering-inclusive-urban-access-3-uncomfortable-truths/


The past few decades have been filled with a deep optimism about the role of cities and suburbs across the world. These engines of economic growth host a majority of world population, are major drivers of economic innovation, and have created pathways to opportunities for untold amounts of people.	
Authors






Jeffrey Gutman
Nonresident Senior Fellow - Global Economy and Development







Adie Tomer
Fellow - Metropolitan Policy Program

 Twitter
AdieTomer






But all is not well within our so-called Urban Century. Rapid urbanization, rising gentrification, concentrated poverty, and shortages of basic infrastructure have combined to create spatial inequity in cities and suburbs across the globe. The challenges of housing, moving, and employing so many people have led to longer travel times, ris

Title: The Men Who Want to Live Forever
URL: https://www.nytimes.com/2018/01/25/opinion/sunday/silicon-valley-immortality.html




In [2]:
import requests
from bs4 import BeautifulSoup


class Content:
    """
    Common base class for all articles/pages
    """
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body
        
    def print_it(self):
        """
        Flexible printing function controls output
        """
        print("URL: {}".format(self.url))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))


class WebsiteTags:
    """
    Contains information about website structure
    """
    def __init__(self, name, url, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.titleTag = titleTag
        self.bodyTag = bodyTag
        
        

class Crawler:
    def getPage(self, url):
        try:
            req = requests.get(url)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')

    def safeGet(self, pageObj, selector):
        """
        Utility function used to get a content string from a
        Beautiful Soup object and a selector. Returns an empty
        string if no object is found for the given selector
        """
        selectedElems = pageObj.select(selector)
        if selectedElems is not None and len(selectedElems) > 0:
            return '\n'.join([elem.get_text() for elem in selectedElems])
        return ''

    def parse(self, site, url):
        """
        Extract content from a given page URL
        """
        bs = self.getPage(url)
        if bs is not None:
            title = self.safeGet(bs, site.titleTag)
            body = self.safeGet(bs, site.bodyTag)
            if title != '' and body != '':
                content = Content(url, title, body)
                content.print_it()
                


crawler = Crawler()

siteData = [
    ['O\'Reilly Media', 'http://oreilly.com', 'h1', 'section#product-description'],
    ['Reuters', 'http://reuters.com', 'h1', 'div.StandardArticleBody_body_1gnLA'],
    ['Brookings', 'http://www.brookings.edu', 'h1', 'div.post-body'],
    ['New York Times', 'http://nytimes.com', 'h1', 'p.story-content']
    ]

websites = []
for row in siteData:
    websites.append(WebsiteTags(row[0], row[1], row[2], row[3]))


crawler.parse(websites[0], 'http://shop.oreilly.com/product/0636920028154.do')
crawler.parse(websites[1], 'http://www.reuters.com/article/us-usa-epa-pruitt-idUSKBN19W2D0')
crawler.parse(websites[2], 'https://www.brookings.edu/blog/techtank/2016/03/01/idea-to-retire-old-methods-of-policy-education/')
crawler.parse(websites[3], 'https://www.nytimes.com/2018/01/28/business/energy-environment/oil-boom.html')


URL: http://shop.oreilly.com/product/0636920028154.do
TITLE: Learning Python, 5th Edition 
BODY:

Get a comprehensive, in-depth introduction to the core Python language with this hands-on book. Based on author Mark Lutz’s popular training course, this updated fifth edition will help you quickly write efficient, high-quality code with Python. It’s an ideal way to begin, whether you’re new to programming or a professional developer versed in other languages. 

Complete with quizzes, exercises, and helpful illustrations,  this easy-to-follow, self-paced tutorial gets you started with both Python 2.7 and 3.3— the latest releases in the 3.X  and 2.X lines—plus all other releases in common use today. You’ll also learn some advanced language features that recently have become more common in Python code.

Explore Python’s major built-in object types such as numbers, lists, and dictionaries 
Create and process objects with Python statements, and learn Python’s general syntax model
Use functions

In [3]:
for web in websites:
    print(f'{web.name}    {web.url}    {web.titleTag}    {web.bodyTag}')


O'Reilly Media    http://oreilly.com    h1    section#product-description
Reuters    http://reuters.com    h1    div.StandardArticleBody_body_1gnLA
Brookings    http://www.brookings.edu    h1    div.post-body
New York Times    http://nytimes.com    h1    p.story-content


In [4]:
import requests
from bs4 import BeautifulSoup


class Content:
    """
    Common base class for all articles/pages
    """
    def __init__(self, topic, url, title, body):
        self.topic = topic
        self.url = url
        self.title = title
        self.body = body
        
    def print_it(self):
        """
        Flexible printing function controls output
        """
        print("New article found for topic: {}".format(self.topic))
        print("URL: {}".format(self.url))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))
        

class Website:
    """Contains information about website structure"""
    
    def __init__(self, name, url, searchUrl, resultListing, resultUrl, absoluteUrl, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.searchUrl = searchUrl  # defines where you should go to get search results if you append the topic you are looking for.
        self.resultListing = resultListing  # defines the “box” that holds information about each result.
        self.resultUrl = resultUrl  # defines the tag inside this box that will give you the exact URL for the result.
        self.absoluteUrl=absoluteUrl  # This property is a boolean that tells you whether these search results are absolute or relative URLs.
        self.titleTag = titleTag
        self.bodyTag = bodyTag
        
    

class Crawler:
    
    def getPage(self, url):
        try:
            req = requests.get(url)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')
    
    def safeGet(self, pageObj, selector):
        childObj = pageObj.select(selector)
        if childObj is not None and len(childObj) > 0:
            return childObj[0].get_text()
        return ""
    
    def search(self, topic, site):
        """
        Searches a given website for a given topic and records all pages found
        """
        bs = self.getPage(site.searchUrl + topic)
        searchResults = bs.select(site.resultListing)
        for result in searchResults:
            url = result.select(site.resultUrl)[0].attrs["href"]
            # Check to see whether it's a relative or an absolute URL
            if(site.absoluteUrl):
                bs = self.getPage(url)
            else:
                bs = self.getPage(site.url + url)
            if bs is None:
                print("Something was wrong with that page or URL. Skipping!")
                return
        title = self.safeGet(bs, site.titleTag)
        body = self.safeGet(bs, site.bodyTag)
        if title != '' and body != '':
            content = Content(topic, title, body, url)
            content.print_it()



crawler = Crawler()
siteData = [
    ['O\'Reilly Media', 'http://oreilly.com', 'https://ssearch.oreilly.com/?q=','article.product-result', 'p.title a', True, 'h1', 'section#product-description'],
    ['Reuters', 'http://reuters.com', 'http://www.reuters.com/search/news?blob=', 'div.search-result-content','h3.search-result-title a', False, 'h1', 'div.StandardArticleBody_body_1gnLA'],
    ['Brookings', 'http://www.brookings.edu', 'https://www.brookings.edu/search/?s=', 'div.list-content article', 'h4.title a', True, 'h1', 'div.post-body']
]


sites = []

for row in siteData:
    sites.append(Website(row[0], row[1], row[2], row[3], row[4], row[5], row[6], row[7]))

topics = ['python', 'data science']

for topic in topics:
    print("GETTING INFO ABOUT: " + topic)
    for targetSite in sites:
        crawler.search(topic, targetSite)



GETTING INFO ABOUT: python
New article found for topic: python
URL: Appointments Apocalypse
TITLE: 

BODY:
https://www.brookings.edu/opinions/appointments-apocalypse/
GETTING INFO ABOUT: data science
New article found for topic: data science
URL: Data Science For Dummies
TITLE: 
Learn to:  Deduce, discover, and communicate valuable insights from structured, semi-structured, and unstructured data sources Use meaningful visualizations to display and interpret data Take advantage of data processing tools like Hadoop® and MapReduce Turn your organization's data into a competitive advantage  Gain in-depth insight into your business with data science—this book makes it easy! Big data is a big deal. This book helps you harness its power and give your business that all-important competitive edge. You'll learn to manage large amounts of data within hardware and software limitations, merge data sources, ensure consistent reporting, and interpret the data to tell your business story in a way that

==========================================
# Crawling Sites Through Links
==========================================

In [8]:
import requests
from bs4 import BeautifulSoup
import re


class Content:
    """
    Common base class for all articles/pages
    """
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body
        
    def print_it(self):
        """
        Flexible printing function controls output
        """
        print("URL: {}".format(self.url))
        print("TITLE: {}".format(self.title))
        print("BODY:\n{}".format(self.body))
        

class Website:
    """Contains information about website structure"""
    
    def __init__(self, name, url, targetPattern, absoluteUrl, titleTag, bodyTag):
        self.name = name
        self.url = url
        self.targetPattern = targetPattern
        self.absoluteUrl=absoluteUrl  # This property is a boolean that tells you whether these search results are absolute or relative URLs.
        self.titleTag = titleTag
        self.bodyTag = bodyTag
        
    

class Crawler:
    
    def __init__(self, site):
        self.site = site
        self.visited = []
    
    def getPage(self, url):
        try:
            req = requests.get(url)
        except requests.exceptions.RequestException:
            return None
        return BeautifulSoup(req.text, 'html.parser')
    
    def safeGet(self, pageObj, selector):
        """
        Utility function used to get a content string from a
        Beautiful Soup object and a selector. Returns an empty
        string if no object is found for the given selector
        """
        selectedElems = pageObj.select(selector)
        if selectedElems is not None and len(selectedElems) > 0:
            return '\n'.join([elem.get_text() for elem in selectedElems])
        return ''
    
    def parse(self, url):
        bs = self.getPage(url)
        if bs is not None:
            title = self.safeGet(bs, self.site.titleTag)
            body = self.safeGet(bs, self.site.bodyTag)
            if title != '' and body != '':
                content = Content(url, title, body)
                content.print_it()
    
    def crawl(self):
        """
        Get pages from website home page
        """
        bs = self.getPage(self.site.url)
        targetPages = bs.findAll('a', href = re.compile(self.site.targetPattern))
        for targetPage in targetPages:
            targetPage = targetPage.attrs['href']
            if targetPage not in self.visited:
                self.visited.append(targetPage)
                if not self.site.absoluteUrl:
                    targetPage = '{}{}'.format(self.site.url, targetPage)
                self.parse(targetPage)


reuters = Website('Reuters', 'https://www.reuters.com', '^(/article/)', False, 'h1', 'div.StandardArticleBody_body')
crawler = Crawler(reuters)
crawler.crawl()


URL: https://www.reuters.com/article/hongkong-flughafen-idDEKCN1V30FJ
TITLE: Neue Proteste in Hongkong - Regierungschefin warnt vor Chaos
BODY:
Passengers react as they look at the flight information board as the airport reopened a day after flights were halted due to a protest, at Hong Kong International Airport, China August 13, 2019. REUTERS/Issei Kato     TPX IMAGES OF THE DAYHongkong (Reuters) - Die jüngste Gewalt in Hongkong stürzt das Finanzzentrum nach Einschätzung der umstrittenen Regierungschefin Carrie Lam ins Chaos. “Hongkong als offene, freie, sehr tolerante, wirtschaftlich stabile Stadt wird schwere Wunden davontragen”, sagte Lam am Dienstag. “Die Erholung könnte lange dauern.” Der Hang-Seng-Aktienindex der Hongkonger Börse fiel um knapp zwei Prozent auf den niedrigsten Stand seit sieben Monaten. Unterdessen gab es neue Proteste gegen Lam und einen zu starken Einfluss der chinesischen Regierung. Am Flughafen der Metropole - einem der größten Airports der Welt - kam es wie

URL: https://www.reuters.com/article/russland-opposition-wahl-idDEKCN1V31NR
TITLE: Moskau gestattet Oppositionskandidat nach Protesten Wahlkandidatur
BODY:
Law enforcement officers detain a man after a rally to demand authorities allow opposition candidates to run in the upcoming local election in Moscow, Russia August 10, 2019. Picture taken August 10, 2019. REUTERS/Maxim ShemetovMoskau (Reuters) - Der russische Oppositionelle Sergej Mitrochin darf nach einem Gerichtsentscheid doch an der Kommunalwahl in Moskau teilnehmen.  Das Gericht der Stadt hob am Dienstag nach einer Meldung der Nachrichtenagentur Tass eine frühere Entscheidung der Wahlkommission auf, die Mitrochin von der Kandidatur für die Abstimmung im September ausgeschlossen hatte. Am Samstag hatten in Moskau Zehntausende Menschen für freie Wahlen demonstriert. Es war die größte Protestkundgebung seit Jahren. Die Demonstranten forderten, dass auch Kandidaten der Opposition zur Kommunalwahl in Moskau im September zugelassen w

URL: https://www.reuters.com/article/usa-china-handel-idDEKCN1V31EE
TITLE: USA geben im Handelsstreit mit China ein Stück nach
BODY:
Containers are seen at the Yangshan Deep Water Port in Shanghai, China August 6, 2019. REUTERS/Aly SongWashington/Hongkong (Reuters) - In den Handelsstreit der USA mit China kommt wieder Bewegung.  Die Regierung von US-Präsident Donald Trump gab am Dienstag ein Stück nach. Die Einführung von Sonderzöllen in Höhe von zehn Prozent auf chinesische Güter wie Laptops oder Mobiltelefone soll verschoben werden, wie das Büro des US-Handelsbeauftragten mitteilte. Die Zölle sollten eigentlich ab nächstem Monat greifen. Bei weiteren Produktgruppen wie Computern, Spielekonsolen, Monitoren sowie einigen Bekleidungsstücken werde es eine Verschiebung bis Mitte Dezember geben.  An der Börse gab die Nachricht den Kursen deutlich Auftrieb. In New York verteuerten sich Apple-Aktien beispielsweise um mehr als fünf Prozent. Auch Chipwerte waren stark gefragt. In Frankfurt dre

URL: https://www.reuters.com/article/usa-preise-idDEKCN1V316O
TITLE: US-Inflationsrate steigt mit 1,8 Prozent etwas stärker als erwartet
BODY:
A man displays US dollar notes after withdrawing cash from a bank in Harare, Zimbabwe,  July 9, 2019. REUTERS/Philimon BulawayoWashington (Reuters) - Die Inflation in den USA ist im Juli gestiegen. Die Verbraucherpreise legten um 1,8 Prozent zum Vorjahresmonat zu, wie das Arbeitsministerium am Dienstag mitteilte. Von Reuters befragte Ökonomen hatten nur mit 1,7 Prozent gerechnet, nachdem die Teuerungsrate im Juli noch bei 1,6 Prozent gelegen hatte. Dienstleistungen, Tabak und Wohnkosten erhöhten sich zu Beginn der zweiten Jahreshälfte überdurchschnittlich. Die Notenbank Fed soll Vollbeschäftigung fördern und für stabile Preise sorgen. Ersteres hat sie praktisch erreicht, doch die Inflation bleibt hartnäckig niedrig. Die Währungshüter achten hier besonders auf Preisveränderungen bei persönlichen Verbraucherausgaben, wobei Energie- und Nahrungsmit

URL: https://www.reuters.com/article/m-rkte-idDEKCN1UL1QV
TITLE: Krisen-Cocktail setzt Börsen zu - Italien trübt Anlegerstimmung
BODY:
An image shows the German share price index DAX at the German stock exchange in Frankfurt April 16, 2009. REUTERS/Johannes Eisele (GERMANY BUSINESS)Frankfurt (Reuters) - Eine geballte Ladung verschiedener Krisen setzt den Börsen zu: der drohende Zerfall der italienischen Regierung, ein möglicher Chaos-Brexit sowie der ungelöste Zollstreit zwischen den USA und China. Vor allem letzteres hinterlasse Spuren in der Realwirtschaft, sagte Stefan Bielmeier, Chef-Volkswirt der DZ Bank. “Das Welthandelswachstum stagniert, und die Wachstumsperspektiven verdüstern sich – die exportorientierten Volkswirtschaften sind dabei überproportional betroffen.” Die deutschen Ausfuhren gingen im Juni so stark zurück wie zuletzt vor fast drei Jahren. Dax und EuroStoxx50 verloren am Freitag jeweils 1,1 Prozent auf 11.711 beziehungsweise 3337 Punkte. Der Leitindex der Mailänder 

URL: https://www.reuters.com/article/mrkte-zollstreit-idDEL8N2594OW
TITLE: MÄRKTE-Entspannung im Zollstreit beflügelt Börsen
BODY:
Frankfurt, 13. Aug (Reuters) - Die Bewegung im Zollstreit zwischen den USA und China macht Anlegern Mut. Dax und EuroStoxx50 überwanden ihre anfängliche schwäche und legten bis zum Dienstagnachmittag bis zu 0,8 Prozent zu. Der US-Standardwerteindex Dow Jones gewann sogar 1,5 Prozent. Auch mit der chinesischen Währung deckten sich Anleger wieder ein. Im Gegenzug fiel der Dollar binnen Minuten auf 7,0472 von 7,0681 Yuan. Die nachlassende Furcht vor einer weltweiten Rezession verhalf der Rohöl-Sorte Brent aus der Nordsee zu einem Kursplus von 2,8 Prozent auf 60,19 Dollar je Barrel. Aus der “Antikrisen-Währung” Gold zogen sich Investoren dagegen zurück. Das Edelmetall verbilligte sich auf 1497,22 Dollar je Feinunze, nachdem es zuvor auf ein Sechseinhalb-Jahres-Hoch von 1534,31 Dollar gestiegen war. Dem Büro des US-Handelsbeauftragten Robert Lightizer zufolge we

============================================
# Crawling Multiple Page Types
============================================