In [1]:
from bs4 import BeautifulSoup
import requests

In [7]:
class UrlGetter:
    def __init__(self):
        pass
    
    def get_asyura_url(self, page):
        return "http://rank.asyura3.com/sogo/999/{}/".format(page)
    
    def get_litera_url(self, year, month, page):
        if isinstance(page, int) and isinstance(month, int) and isinstance(year, int):
            if page==1:
                filename = "index.html"
            elif page > 1:
                filename = "index_{}.html".format(page)
            else:
                filename = "index.html"
            return "http://lite-ra.com/{}/{:02d}/{}".format(year, month, filename)
        else:
            return False
        
    def get_mainichi_url(self, page):
        return "https://mainichi.jp/flash/{}".format(page)
        
    def get_url(self, site_type, *params):
        return getattr(self, "get_{}_url".format(site_type))(*params)
        

In [26]:
class ArticleGetter:
    def __init__(self, base_url):
        self.base_url = base_url
        r = requests.get(base_url)
        self.soup = BeautifulSoup(r.content, "html.parser")
    
    def get_asyura_articles(self):
        results = [result['href'] for result in set([tmp_result.find("a") for tmp_result in self.soup.find_all("td", attrs={"class":"cell"})]) if result is not None]
        return results
    
    def get_litera_articles(self):
        results = [result['href'] for result in set([tmp_result.find("a") for tmp_result in self.soup.find_all("h2", attrs={"class":"entryTitle"})])]
        return results
    
    def get_mainichi_articles(self):
        section = self.soup.find("section", {"class":"newslist"})
        results = ["http:"+result['href'] for result in set(section.find_all("a")) if 'class' not in result]
        return results
    
    def get_articles(self, site_type):
        return getattr(self, "get_{}_articles".format(site_type))()


In [23]:
class ArticleExtractor:
    def __init__(self, target_url):
        self.target_url = target_url
        r = requests.get(target_url)
        self.soup = BeautifulSoup(r.content, "html.parser")
        [s.extract() for s in self.soup('script')]
        [s.extract() for s in self.soup('link')]
        
    def extract_asyura_article(self):
        pass
    
    def extract_litera_article(self):
        title = self.soup.find("h1", attrs={"id":"entryTitle"}).get_text()
        body = self.soup.find("div", attrs={"id":"entryBody"}).get_text()
        return title, body
    
    def extract_mainichi_article(self):
        title = self.soup.find("h1").get_text()
        body = ' '.join([result.get_text() for result in self.soup.find_all("p", {"class":"txt"})])
        return title, body
    
    def extract_article(self, site_type):
        title, body = getattr(self, "extract_{}_article".format(site_type))()
        title = title.replace("\n", " ").replace("\u3000", " ").replace("\r","")
        body = body.replace("\n", " ").replace("\u3000", " ").replace("\r", "")
        return title, body

In [28]:
site_type = "mainichi"
params = [2]
urlgetter = UrlGetter()
base_url = urlgetter.get_url(site_type, *params)
target_url = ArticleGetter(base_url).get_articles(site_type)[0]
ArticleExtractor(target_url).extract_article(site_type)

(' 海岸の美、競演 鳥取・琴浦町',
 '      波に洗われて角がとれた楕円（だえん）の石が多数存在する海岸「鳴り石の浜」（鳥取県琴浦町）で、石を絶妙に積み上げる「ストーン（ロック）バランシング」が人気だ。これらの作品と夕日などを絡めた幻想的な風景が写真共有アプリ「インスタグラム」に投稿されている。造形の美しさを競うコンテストも催されており、海岸の魅力アップに一役買っている。【阿部絢美】        コンテストを企画したのは２０１１年発足の、地元有志でつくる団体「鳴り石の浜プロジェクト」。これまで、海岸近くで大輪のヒマワリを咲かせたり、石を絵馬に見立てて願い事を書いて海に投げるといった「石絵馬祈願」を始めたりと興味を引く仕掛けを作ってきた。今回メンバーの一人が海外で人気なストーンバランシングを知ったのがきっかけ。サブリーダーの上田啓悟さん（４６）は「面白いものをたくさん取り入れ、魅力をどんどん発信していきたい」を意気込む。        鳴り石の浜は１０年前まで韓国や中国などのゴミが大量に漂流し、観光スポットとはほど遠い存在。５０年ほど海岸の保全活動を続けている岩田弘さん（８２）は「石がこすり合って鳴る『カラン』『ゴロン』という音に地元住民は育てられた。最近はなかなか知られていなくて悲しい」とこぼす。試みについて「同じ形のない石を積み上げて、はやりのＳＮＳに投稿するなんて面白い。多くの人に足を運んでもらえる場所になればうれしい」とほほえむ。        コンテストは鳴り石の浜で石を積み上げて撮影した写真を、メール（info@nariishi.com）で送るか、フェイスブックの同プロジェクトのページに投稿する。１１月３０日まで。審査員の評価が高かったり、同意を示す「いいね！」の数が多かったりした作品は「鳴り石の浜」の看板に採用し、現地に展示される。   「この子は愛から生まれたわけじゃない。私は育てられない」。…  「風邪」や中耳炎、胃腸炎を訴える患者に出されることが多い抗…  ＜くらしナビ ライフスタイル Ｓｅｃｏｎｄ Ｓｔａｇｅ＞ … [PR]')

In [30]:
from tqdm import tqdm_notebook
results = []
names = ["mainichi", "litera", "litera"]
params = [
    [],
    [2017, 12],
    [2017, 11],
]

pages = [
    20,
    10,
    10,
]

labels = [False, True, True]

for name, param, page_len, label in zip(names, params, pages, labels):
    for i in tqdm_notebook(range(page_len)):
        base_url = urlgetter.get_url(name, *param, i+1)
        for article_url in ArticleGetter(base_url).get_articles(name):
            title, body = ArticleExtractor(article_url).extract_article(name)
            results.append({"title":title, "body":body, "url": article_url, "label":label})

HBox(children=(IntProgress(value=0, max=20), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

In [39]:
names = ["litera" for i in range(10)]
params = [
    [2017, 10],
    [2017, 9],
    [2017, 8],
    [2017, 7],
    [2017, 6],
    [2017, 5],
    [2017, 4],
    [2017, 3],
    [2017, 2],
    [2017, 1]
]

pages = [10 for i in range(10)]

labels = [True for i in range(10)]

for name, param, page_len, label in zip(names, params, pages, labels):
    for i in tqdm_notebook(range(page_len)):
        base_url = urlgetter.get_url(name, *param, i+1)
        for article_url in ArticleGetter(base_url).get_articles(name):
            title, body = ArticleExtractor(article_url).extract_article(name)
            results.append({"title":title, "body":body, "url": article_url, "label":label})

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

HBox(children=(IntProgress(value=0, max=10), HTML(value='')))

In [41]:
import pandas as pd
df = pd.DataFrame(results)
df.to_csv("test_data.csv", index=False)