# 7. Webからのデータの収集

In [None]:
# 本章で用いるデータ（サンプルサイトのChapter7/in/ および Chapter7/out/）を取得します．
from urllib.request import urlretrieve
import zipfile


urlretrieve("https://github.com/asakura-data-science/web-text/raw/main/Chapter7/chapter7.zip", "chapter7.zip")

with zipfile.ZipFile("./chapter7.zip") as f:
    f.extractall()

In [None]:
# 必要なモジュールの読み込み
import pandas as pd
from bs4 import BeautifulSoup
import requests
import json
from pprint import pprint
from IPython.display import HTML

In [None]:
# Beautiful Soupを用いたHTMLファイルの読み込み
with open("in/ex1.html", encoding = "utf-8") as f:
    # HTMLファイル中のテキストを取得
    html = f.read()
soup = BeautifulSoup(html, "html.parser")

In [None]:
# li要素をすべて取得し，テキストを表示する
# li要素を全て取得
li_list = soup.find_all("li")
for li in li_list:
    # .text とすることで要素のテキストだけ抽出できる
    print(li.text)

In [None]:
# クラス名に language と書かれた divタグを全て取得する
div_list = soup.find_all("div", class_="language")
print(div_list)

In [None]:
# div要素内のli要素のテキストを出力する

# div_list[0]内のli要素をすべて取得
li_list = div_list[0].find_all("li")
for li in li_list:
    print(li.text)

In [None]:
# 演習問題回答
with open("in/ex1.html", encoding = "utf-8") as f:
    html = f.read()
soup = BeautifulSoup(html, "html.parser")
for li in soup.find_all("div", class_="sushi")[0].find_all("h2"):
    print(li.text)

In [None]:
# 演習問題回答
with open("in/ex1.html", encoding = "utf-8") as f:
    html = f.read()
soup = BeautifulSoup(html, "html.parser")
p_list = soup.find_all("div", class_="sushi")
li_list = p_list[0].find_all("li")
for li in li_list:
    print(li.text)

In [None]:
# Webページをダウンロードする
import requests
# 取得したいウェブページのURL
url = "https://rerank-lab.org/lectures/programming3-2020/ex2.html"
response = requests.get(url)
response.encoding = response.apparent_encoding # HTMLの文字コードを取得
# 取得したHTMLの中身を表示
print(response.text)
# 取得したHTMLをex2.htmlという名前で保存
with open("out/ex2.html", "wt", encoding=response.encoding) as f:
    f.write(response.text)

In [None]:
# 講義名一覧を取得する
with open("out/ex2.html", "r", encoding="utf-8") as f:
    html = f.read()
soup = BeautifulSoup(html, "html.parser")
# class属性の属性値がlectureとなっているspan要素を取得
for span in soup.find_all("span", class_="lecture"):
    print(span.text)

In [None]:
# JSONを読み込む
with open("in/ex2.json", "r", encoding="utf-8") as f:
    data = json.load(f)

In [None]:
# JSONデータ内の情報を表示する
print(data["名前"])
for lecture in data["担当科目"]:
    print(lecture["科目名"])

In [None]:
# 演習問題回答
with open("in/ex2.json", "r", encoding="utf-8") as f:
    data = json.load(f)
for lecture in data["担当科目"]:
    if lecture["時限"] == 2:
        print(lecture["科目名"])

In [None]:
# Bing Web Search APIを利用してWeb検索結果をJSON形式で取得する
def search_web(search_term):
    SUBSCRIPTION_KEY = "********************************" # 取得したキーをここに入力する
    search_url = f"https://api.bing.microsoft.com/v7.0/search"
    params = {"q": search_term, "count": 50, "textDecorations": True, "textFormat": "HTML"}
    headers = {"Ocp-Apim-Subscription-Key" : SUBSCRIPTION_KEY} # HTTPリクエストのヘッダにAPIキーを含める
    response = requests.get(search_url, headers=headers, params=params) # 実際にリクエストを送る
    return response.json()

In [None]:
# 神戸に関するWeb検索結果を取得する
from pprint import pprint
query = "神戸"
search_results = search_web(query)
# 取得したJSON形式のデータを表示
pprint(search_results)

In [None]:
# 1件目と2件目のWeb検索結果のタイトルを表示する

print(search_results["webPages"]["value"][0]["name"])
print(search_results["webPages"]["value"][1]["name"])

In [None]:
# 検索結果をHTMLで表示する

rows = "\n".join(["""<tr>
                       <td><a href=\"{0}\">{1}</a></td>
                       <td>{2}</td>
                     </tr>""".format(v["url"], v["name"], v["snippet"])
                  for v in search_results["webPages"]["value"]])
HTML("<table>{0}</table>".format(rows))