# Scraping HTML with requests & BeautifulSoup4 

In [2]:
import requests

r=requests.get('https://codezine.jp/')
print(type(r))
print(r.status_code)

<class 'requests.models.Response'>
200


In [3]:
text = r.text
for line in text.split('\n'):
    if '<title>' in line or '<h1>' in line:
        print(line.strip())

<title>CodeZine（コードジン）</title>
<h1><a href="/"><img src="/lib/img/cmn/cmn-header-logo.png" alt="CodeZine（コードジン）" ></a></h1>


In [4]:
from bs4 import BeautifulSoup

# analyze html
soup = BeautifulSoup(text,'html.parser')
# get each elements
print(soup.title)
print(soup.h1)
print(soup.h1.a.img['alt'])

<title>CodeZine（コードジン）</title>
<h1><a href="/"><img alt="CodeZine（コードジン）" src="/lib/img/cmn/cmn-header-logo.png"/></a></h1>
CodeZine（コードジン）


In [5]:
atags = soup.find_all('a')
print('aTags number:',len(atags))
for atag in atags[:5]:
    print('title:',atag.text)
    print('link:',atag['href'])

aTags number: 167
title: このページの本文へ移動
link: #contents
title: 企業IT
link: https://enterprisezine.jp/
title: 開発
link: https://codezine.jp/
title: データベース
link: https://enterprisezine.jp/dbonline/
title: セキュリティ
link: https://enterprisezine.jp/securityonline/


In [6]:
# gather data from index related to Python
from datetime import datetime
import requests
from bs4 import BeautifulSoup

r= requests.get('https://codezine.jp/article/tag/223')
soup = BeautifulSoup(r.text,'html.parser')

articles = [] #inventory

lis = soup.select('ul.catList > li')
for li in lis:
    #get day and convert into datetime
    day = li.find('div', class_='day').text.strip()
    published = datetime.strptime(day,'%Y/%m/%d')
    
    h2_tag = li.find('h2')
    title = h2_tag.text
    url = h2_tag.a['href']
    
    tag_list = li.select('ul.tag > li')
    tags = [tag.text.strip() for tag in tag_list]
    
    article = {
        'published':published,
        'title':title,
        'url':url,
        'tags':tags
    }
    articles.append(article)

In [7]:
articles[:3]

[{'published': datetime.datetime(2018, 9, 28, 0, 0),
  'title': 'データ分析エンジニアの役割とは？ Pythonと機械学習はどう役立つ？',
  'url': '/article/detail/11067',
  'tags': ['Python', 'データ分析']},
 {'published': datetime.datetime(2018, 9, 26, 0, 0),
  'title': 'PyTorchで深層学習を始めたい人のための基礎を紹介 データ構造のTensorと自動微分の使い方について',
  'url': '/article/detail/11052',
  'tags': ['Python']},
 {'published': datetime.datetime(2018, 9, 20, 0, 0),
  'title': 'データ分析エンジニアの基礎をひととおり 『あたらしいPythonによるデータ分析の教科書』発売',
  'url': '/article/detail/11059',
  'tags': ['Python', 'データ分析', '機械学習']}]

In [8]:
import pandas as pd
df = pd.DataFrame(articles)

In [9]:
df

Unnamed: 0,published,tags,title,url
0,2018-09-28,"[Python, データ分析]",データ分析エンジニアの役割とは？ Pythonと機械学習はどう役立つ？,/article/detail/11067
1,2018-09-26,[Python],PyTorchで深層学習を始めたい人のための基礎を紹介 データ構造のTensorと自動微分の...,/article/detail/11052
2,2018-09-20,"[Python, データ分析, 機械学習]",データ分析エンジニアの基礎をひととおり 『あたらしいPythonによるデータ分析の教科書』発売,/article/detail/11059
3,2018-09-19,[Python],OSSのPyTorchで深層学習モデルを作ってみたいなら 『現場で使える！PyTorch開発...,/article/detail/11046
4,2018-09-06,[Python],Pythonでデータと向き合いながら価値を見出す「探索的データ解析」に挑戦しよう,/article/detail/11043
5,2018-09-01,"[Python, イベントレポート]",「PyCon JP 2018 ひろがるPython」登壇者座談会 ～わたしのPythonのひ...,/article/detail/11031
6,2018-07-05,"[Python, レポート]",クイズ王たちを凌駕する早押しクイズAIはこう作る～PyData.Tokyo Meetup #...,/article/detail/10865
7,2018-07-02,"[Python, データ分析]",本格的なPythonデータ解析環境を手軽に！ 「Jupyter Notebook」の導入から...,/article/detail/10917
8,2018-05-17,"[Python, インタビュー, TensorFlow, Keras]",目指したのは気軽に深層学習を試せる本 『TensorFlow開発入門』著者陣が語る,/article/detail/10805
9,2018-04-20,"[Python, インタビュー, 統計学]",データを扱う開発者なら統計学の知識は大きな強みに～Pythonを使って基礎から学ぶ,/article/detail/10765
