#### Observe that we can get news of a day with the link format:
https://news.ltn.com.tw/list/newspaper/politics/20190228
#### We need a list of date string in the date range we want.

In [1]:
from datetime import datetime, timedelta

start_date = "2019-01-01"
stop_date = "2019-02-28"

start = datetime.strptime(start_date, "%Y-%m-%d")
stop = datetime.strptime(stop_date, "%Y-%m-%d")

dates = list()
while start <= stop:
    dates.append(start.strftime('%Y%m%d'))
    start = start + timedelta(days=1)


#### Now write a function to parse the HTML response, return the data we want(title, content, ...etc).

In [2]:
import requests
from bs4 import BeautifulSoup as bs

In [3]:
def process_document(document, date):
    
    nodes = document.select('ul.list > li')
    data = list()

    for li in nodes:

        # check if is empty element
        if li.select_one('a') == None:
            continue

        # get link
        li_link = 'http://news.ltn.com.tw/' + li.select_one('a')['href']

        # request for document
        li_res = requests.get(li_link)
        li_doc = bs(li_res.text, 'lxml')

        # get date
        li_date = datetime.strptime(date, "%Y%m%d").strftime('%Y-%m-%d')

        #get title
        li_title = li.select_one('p').get_text()

        #get content
        li_content = ""
        for ele in li_doc.select('div.text > p'):
            if not 'appE1121' in ele.get('class', []):
                li_content += ele.get_text()

        #get key words
        li_keyword = li_doc.find(attrs={"name":"keywords"})['content']
                
        # append new row
        data.append({
            'date' : li_date,
            'title': li_title,
            'link' : li_link,
            'content' : li_content,
            'keywords' : li_keyword,
            'tags' : []
        })
    return data

#### Crawl over the news on the site, store the data in variable "all_data" .

In [4]:
cnt = 0
all_data = list()
for date in dates:
    print('start crawling :', date)
    res = requests.get('https://news.ltn.com.tw/list/newspaper/politics/' + date)
    doc = bs(res.text, 'lxml')
    data = process_document(doc, date)
    all_data += data

start crawling : 20190101
start crawling : 20190102
start crawling : 20190103
start crawling : 20190104
start crawling : 20190105
start crawling : 20190106
start crawling : 20190107
start crawling : 20190108
start crawling : 20190109
start crawling : 20190110
start crawling : 20190111
start crawling : 20190112
start crawling : 20190113
start crawling : 20190114
start crawling : 20190115
start crawling : 20190116
start crawling : 20190117
start crawling : 20190118
start crawling : 20190119
start crawling : 20190120
start crawling : 20190121
start crawling : 20190122
start crawling : 20190123
start crawling : 20190124
start crawling : 20190125
start crawling : 20190126
start crawling : 20190127
start crawling : 20190128
start crawling : 20190129
start crawling : 20190130
start crawling : 20190131
start crawling : 20190201
start crawling : 20190202
start crawling : 20190203
start crawling : 20190204
start crawling : 20190205
start crawling : 20190206
start crawling : 20190207
start crawli

#### Check the result

In [5]:
all_data[0:5]

[{'date': '2019-01-01',
  'title': '台灣關係法邁入40週年 卜睿哲︰台美共同利益趨向一致',
  'link': 'http://news.ltn.com.tw/news/politics/paper/1258169',
  'content': '〔記者呂伊萱／台北報導〕「台灣關係法」今年邁入第四十週年。美國在台協會前理事主席、布魯金斯學會東北亞中心主任卜睿哲說，過去四十年，美台關係不只維繫、且擴大往好的方向發展，關鍵原因在於「華盛頓和台北的共同目標及利益趨向一致」，且雙方溝通一步步改善。一九七八年十二月廿五日，美國前總統卡特突然宣布，將於一九七九年元月起正式承認中共為中國唯一合法政府，並終止與中華民國的外交關係，美國國務院隔兩天便迅速派遣龐大代表團到台北，會商雙方未來關係的新運作模式。美國行政部門在一九七九年元月底，向國會提出台灣「綜合法案」，該案在國會飽受批評，因許多議員認為卡特政府急於正常化，屈從中共建交條件。總統為了保密，甚至未與國會諮商，便逕行達成協議，有傷國會自尊心；且「綜合法案」內容漏洞百出，當時的參議院外委會主席邱池曾直批，綜合法案的最大敗筆就是「未能提供美國官方對台灣安全的政策聲明」。美國國會因此迅即著手立法，以「維持西太平洋和平、安全與穩定」為主旨，最後授權成立美國在台協會，以繼續維持美國人民與台灣人民間的商業、文化及其他關係。歷經多次聽證會，議員來回磋商與協調，充實法案架構，增訂保證對台灣安全關切的「政策宣言及安全條款」等內容後，支持雙方關係的「台灣關係法」於焉誕生，卡特並於同年四月簽署完成立法，生效日期回溯至一月一日，成為台美關係基石。回顧歷來台美關係發展，卜睿哲於一九九七年到二○○二年間擔任AIT主席，他以個人的第一線經歷舉例說，一九九○年代中期開始，美台關係不只維繫、而且擴大，「台灣人民可能沒有意識到，美國是如何透過行動支持台灣。」卜睿哲說，例如，如果沒有柯林頓政府的倡議，台灣今天就不會是世界貿易組織（WTO）的一員。查諸歷史，二○○○年時中國將WTO入會案與「一中原則」和台灣問題掛鉤，美國總統柯林頓當時明言表示反對，並強調台灣和中國應在同一會期加入WTO，如果中國主張台灣是中華人民共和國的單獨關稅領域，美國不會接受。卜睿哲說，美台關係在過去四十年間不但改變許多，且是變得更好。而隨著時間遞嬗，美台關係

#### Save as pkl file

In [6]:
import pickle

with open('data/liberty_times.pkl', 'wb') as f:
    pickle.dump(all_data, f)

#### Turn it into pandas dataframe

In [7]:
import pandas as pd
pd.DataFrame(all_data)[['date', 'title', 'link', 'content','keywords', 'tags']].head()

Unnamed: 0,date,title,link,content,keywords,tags
0,2019-01-01,台灣關係法邁入40週年 卜睿哲︰台美共同利益趨向一致,http://news.ltn.com.tw/news/politics/paper/125...,〔記者呂伊萱／台北報導〕「台灣關係法」今年邁入第四十週年。美國在台協會前理事主席、布魯金斯學...,"台美關係,臺灣關係法,自由時報, 自由電子報, 自由時報電子報, Liberty Times...",[]
1,2019-01-01,自由充電站》台灣關係法 斷交後台美互動基石,http://news.ltn.com.tw/news/politics/paper/125...,"《台灣關係法（Taiwan Relations Act, TRA）》是一部現行的美國國內法。...","台灣關係法,自由時報, 自由電子報, 自由時報電子報, Liberty Times Net,...",[]
2,2019-01-01,第一代AIT官員》促進台美相互理解 艾文智畢生志業,http://news.ltn.com.tw/news/politics/paper/125...,〔記者呂伊萱／台北報導〕艾文智（Brian Evans）是第一代美國在台協會（AIT）官員，...,"AIT,台美關係,自由時報, 自由電子報, 自由時報電子報, Liberty Times N...",[]
3,2019-01-01,練半個月 賴揆長子婚禮飆舞,http://news.ltn.com.tw/news/politics/paper/125...,行政院長賴清德長子賴廷與前天迎娶學妹陳筱依，小兩口兒在婚宴上二度進場時，隨著韓國男團SUPE...,"賴廷,賴清德,陳筱依,自由時報, 自由電子報, 自由時報電子報, Liberty Times...",[]
4,2019-01-01,福建省政府 吹熄燈號,http://news.ltn.com.tw/news/politics/paper/125...,〔記者吳正庭、佟振國／綜合報導〕福建省政府因應「去任務化」，昨天結束業務，正式吹熄燈號；原有...,"福建省政府,自由時報, 自由電子報, 自由時報電子報, Liberty Times Net,...",[]
