# Web Crawler

In [1]:
import requests
from bs4 import BeautifulSoup as soup  # HTML data structure

# extract article hyperlinks from an index page
def extractArtLinks(url):
    r = requests.get(url, cookies={'over18':'1'})
    page_soup = soup(r.text, "html.parser")
    containers = page_soup.findAll("div", {"class": "r-ent"})
    art_links = []
    for container in containers:
        # Finds all link tags "a" from within the first div.
        art_link = container.find('a')
        if art_link:
            #print(art_link['href'])
            #print(container.find('div',{'class':'title'}).get_text())
            art_meta = container.find('div',{'class':'meta'})
            #print(art_meta.find('div',{'class':'author'}).get_text())
            #print(art_meta.find('div',{'class':'date'}).get_text())

            art_links.append({
                'push': container.find('div',{'class':'nrec'}).get_text(),
                'title': container.find('div',{'class':'title'}).get_text().strip(),
                'date': art_meta.find('div',{'class':'date'}).get_text(),
                'author': art_meta.find('div',{'class':'author'}).get_text(),
                'link': art_link['href'],
                'text': extractArtText('https://www.ptt.cc' + art_link['href'])
            })

    return(art_links)

# find the previous index page link
def findPrevIndex(url):
    r = requests.get(url, cookies={'over18':'1'})
    page_soup = soup(r.text,"html.parser")
    btn = page_soup.select('div.btn-group > a')
    up_page_href = btn[3]['href']
    next_page_url = 'https://www.ptt.cc' + up_page_href
    return(next_page_url)

# extract article contents from  the article hyperlink
def extractArtText(url):
    r = requests.get(url, cookies={'over18':'1'})
    page_soup = soup(r.text, "lxml")
    #print(page_soup.find("div",{"id":"main-content"}).get_text())
    art_text=page_soup.select('div#main-content', limit=1)[0].text
    return(art_text)

In [2]:
# main()
num_of_index_page = 2
board_name = 'Food'
url = 'https://www.ptt.cc/bbs/{}/index.html'.format(board_name)
all_links =[]
for page in range(1,num_of_index_page):
    all_links = all_links + extractArtLinks(url)
    url = findPrevIndex(url)
len(all_links)

9

In [3]:
type(all_links[2])
print(all_links[2])

{'push': '', 'title': '[食記] 台中 老派廚房 值得一吃的高鐵附近美食', 'date': '10/10', 'author': 'tonlin', 'link': '/bbs/Food/M.1602260252.A.ADF.html', 'text': '作者tonlin (帽子與大象)看板Food標題[食記] 台中 老派廚房時間Sat Oct 10 00:17:25 2020\n   餐廳名稱：老派廚房\n   消費時間：2020年/10月\n   地址：台中市烏日區三榮路一段366號\n   電話：04-2338-4066\n   營業時間：週三、四、日 09:00~16:00\n             週五、六 09:00–14:30、17:00–20:00（週一、二公休）\n\n   圖文網誌版：https://tonlinphoto.pixnet.net/blog/post/47515127\n\n\n距離高鐵高鐵車程只要5分鐘的老派廚房，座落在台中市與彰化縣的交界。\n\n這一區應該是新開發的區域，附近有好多大樓正在興建當中，感覺一派欣欣向榮。\n\n一下車，就看到老派廚房小小的門面，\n\n外頭有張復古的圓桌和一臺Vespa，很有一種義式風情。\n\n\n\n走進餐廳，有許多歐式風情的復古感畫作，餐廳內的桌椅也都是深色的木桌與木椅，\n\n燈光和氛圍，就和我在義大利吃過的小餐館一樣。\n\n可能因為是平日，氣氛輕鬆而舒適，讓人覺得很放鬆。\n\n\n\n老派廚房原本是以私廚和外燴餐點為主，9月起正式轉型為餐酒館，也販售早午餐。\n\n不過我們到的時候已經超過早午餐供應時間了。\n\n我們點了德國豬腳佐香腸花椰、主廚煙燻美式肋排佐薯瓣、綜合莓果冰沙、美式咖啡。\n\n\n\n可能是因為有點忙，或者是因為剛開業還沒上手（？），原本桌上是沒有水的。\n\n我們詢問了之後，服務人員送上了這瓶加了葡萄柚和香草的水瓶。\n\n整瓶水本身是冰過的，我覺得在炎熱的天氣中還蠻貼心的。\n\n在我們喝完了之後，也有來關心我們是否需要補水，很細心。\n\n\n\n沒有很久，主菜就上桌了。\n\n這道德國豬腳佐香腸花椰，表皮烤得金黃香脆，內裡軟嫩多汁，\n\n我覺得是蠻成功的一道德國豬腳。\n\n旁邊的沾醬酸甜開胃，不過我覺得豬腳單吃就很不錯。\n

In [4]:
print('Push: {push:s} \n'
      'title: {title:s} \n'
      'date: {date:s} \n'
      'author: {author:s} \n'
      'link: {link:s} \n'
      'text: {text:.5} \n'.format(**all_links[2]))

Push:  
title: [食記] 台中 老派廚房 值得一吃的高鐵附近美食 
date: 10/10 
author: tonlin 
link: /bbs/Food/M.1602260252.A.ADF.html 
text: 作者ton 



:::{admonition} Exercise
How to seperate post texts from push texts?
:::
