## Sample: スクレイピング(Scraping)

スクレイピングとはWebページ上の情報を取得することです。  
こういったデータが欲しいとなった時にAPIが提供されていればAPIを使えば済むのですが、  
実際にはWeb上の膨大なデータのうちAPIが提供されているものはごくわずかです。  

こういう情報が欲しいけどAPIがない、という場合にはWebページにアクセスして  
自分で情報をとってくることができ、これを*スクレイピング(Scraping)*と言います。  

### PythonにおけるScraping
Pythonではスクレイピングのためのライブラリとして`BeautifulSoup`というものがあります。<BR>
これは取得してきたWebページのデータから必要なデータ(例えば、書籍の情報など)を<BR>
取り出すための便利な機能を提供してくれます。

### 具体例1: 名画座のHPから映画の上映情報を取り出す

自分は映画が好きなので、よく行く映画館の情報を自動で取り出せたら便利だと思い、<BR>
簡単なサンプルプログラムを作ってみました。<BR>
    
これだけだと情報をとっただけですが、例えば自分の好みの映画の情報などがあれば、<BR>
自分の好きな映画監督の映画が上映された時に自動的に通知を送るなど、色々な活用ができるかもしれません。<BR>
なんにせよ、APIが提供されていないこういった情報をデータとして取得できるのがスクレイピングのメリットです。<BR>

実際のコードについては、`BeautifulSoup`というライブラリの使い方は覚えなければいけないですが、<BR>
それ以外のデータの処理は勉強会で習ったような基本的なPythonの文法しか使っていません。

早稲田松竹HP
http://wasedashochiku.co.jp/


In [5]:
import requests
from bs4 import BeautifulSoup

URL = 'http://wasedashochiku.co.jp/'

# HTMLの取得
response = requests.get(URL)

# BeautifulSoupオブジェクトの取得
soup = BeautifulSoup(response.text, 'html.parser')

# 特集の情報を文字列で抜き出してリストに格納
event_info_row = soup.find_all('h3', class_='schedule-title1')
print('event_info numbers', len(event_info_row))

event_info = []
for event_row in event_info_row:
    event_info.append(event_row.text)

# 特集について、タイトルごとの上映時間を取得
schedules = soup.find_all('table', class_='top-schedule-area')
print('schedules numbers', len(schedules))

movie_info_list = []

for schedule in schedules:
    # 上映期間を取得
    duration = schedule.tr.text

    for movie_info in schedule:
        # 対象特集の全映画情報を映画ごとにリストに格納
        movie_info_html = movie_info.find_all('tr', class_='schedule-item')
        
        # 映画ごとにタイトルと時間を取得
        for info in movie_info_html:
            title = info.th.text

            time_html = info.find_all('td')
            time_list = []
            for time in time_html:
                time_string = time.text
                if time_string:
                    time_list.append(time_string)

            movie_dict = {
                "duration":duration,
                "title":title,
                "time":time_list
            }
            movie_info_list.append(movie_dict)

result_dict = {}
result_dict['site'] = "早稲田松竹"
result_dict['event_info'] = event_info
result_dict['movie_info'] = movie_info_list

event_info numbers 8
schedules numbers 15


In [6]:
result_dict['event_info']

['7/27.sat - 8/2.friイ・チャンドン監督特集',
 '8/3.sat - 8/9.fri早稲田松竹クラシックスvol.152／アメリカ、時代が変わるとき ～1978年生まれの映画たち～',
 '8/10.sat - 8/16.friアピチャッポン・ウィーラセタクン監督特集',
 '8/17.sat - 8/23.fri早稲田松竹クラシックスvol.153／ロバート・フラハティ監督特集 ＋特別レイトショー『リュミエール！』',
 '8/24.sat - 8/30.friPower of Women\u3000～魔女たちの狂宴～',
 '8/31.sat - 9/6.friスポットライトの光と影\u3000～スクリーンの中の歌姫～',
 '8/31.sat【オールナイト】ミッドナイト・イン・早稲田松竹vol.14／コーマンを止めるな！～ロジャー・コーマン帝国の逆襲～',
 '9/7.sat - 9/13.fri『芳華-Youth-』+『さらば、わが愛／覇王別姫』／『初恋のきた道』']

In [7]:
result_dict['movie_info']

[{'duration': '7/27(土)・30(火)・8/2(金)上映',
  'title': 'オアシス',
  'time': ['12:40', '17:45']},
 {'duration': '7/27(土)・30(火)・8/2(金)上映',
  'title': 'バーニング\u3000劇場版',
  'time': ['10:00', '15:05', '20:10～22:40']},
 {'duration': '7/28(日)・31(水)上映',
  'title': 'バーニング\u3000劇場版',
  'time': ['12:35', '17:50']},
 {'duration': '7/28(日)・31(水)上映',
  'title': 'シークレット・サンシャイン',
  'time': ['10:00', '15:15', '20:30～22:55']},
 {'duration': '7/29(月)・8/1(木)上映',
  'title': 'シークレット・サンシャイン',
  'time': ['12:25', '17:25']},
 {'duration': '7/29(月)・8/1(木)上映',
  'title': 'オアシス',
  'time': ['10:00', '15:00', '20:00～22:15']},
 {'duration': '8/3(土)・8/4(日)上映',
  'title': 'ディア・ハンター',
  'time': ['12:10', '17:35']},
 {'duration': '8/3(土)・8/4(日)上映',
  'title': 'ラスト・ワルツ',
  'time': ['10:00', '15:25', '20:50～22:50']},
 {'duration': '8/5(月)～8/9(金)上映',
  'title': 'ディア・ハンター',
  'time': ['10:40', '16:15']},
 {'duration': '8/5(月)～8/9(金)上映',
  'title': 'ラスト・ワルツ',
  'time': ['14:00', '19:35～21:35']},
 {'duration': '8/10(土)～8/16(金)上映',
 