# スクレイピングとは
WEB上のデータを収集（クローリングと言います）し、特定の情報を抽出することです。
正確に言うとWEBスクレイピング、となります。

<br>

## 情報の特定方法
1. HTMLのタグ名で特定
1. CSSセレクタで特定
1. XPATHで特定

<br>

## HTMLのタグとは

ホームページ（WEBページ)は、HTMLを使って作られています。
HTMLとは、Hyper Text Markup Language(ハイパーテキスト・マークアップランゲージ）の略で、
タグを使って、HTML文書の構造（ここは見出しでここからは段落など）を指定します。

<br>

## CSSのセレクタとは

CSSとは、Cascading Style Sheets（カスケード・スタイルシート）とは、HTML文書の装飾や
レイアウトをつくるための言語です。セレクタでどの要素にデザインをするか指定します。

<br>

## XPATHとは
XPATH(Xml Path Language)とは、XML形式の文書から、特定の部分を指定して抽出するための言語です。
<br>
※HTML形式の文書にも対応しています。
<br>
<br>

## findとfind_all
findメソッドを利用することで、任意のidやclass属性を
指定し要素を見つけることが出来ます。
findでは初めにヒットした1件しか取得されません。

find_allを使うと、複数の要素（タグ）を一気に取得する
ことが出来ます。
<br>

**例**
<br>
- soup.find("body")
- soup.find_all("a")
- soup.find_all('タグ名’, class_="クラス名")
<br>
注意点：classは予約語のため、class=“クラス名”ではなく、
class_=“クラス名”とするところに注意しましょう。


## select_oneとselect
CSSセレクタを使って取得をする場合は、select_oneとselectを用います。
findやfind_allと同じく、select_oneがヒットした件数の先頭1件のみ
取得し、selectは全て取得します。

**例**
<br>
- soup.select_one('セレクタ名')
- soup.select('セレクタ名') 
<br>
<br>

## スクレイピング・クローリングを行うにあたって

スクレイピングを行う前に、確認するべき点や、作業中に気を付ける必要がある点がいくつかありますので説明します。
<br>
<br>
１）APIが存在するかどうか
<br>
APIを提供しているサービスがあればそちらを使い、データを取得しましょう。
それでも、十分なデータが得られない等の問題があるのであればスクレイピングを検討します。
<br>
<br>
２）取得後のデータの用途に関して
取得後のデータを使う場合には、注意が必要です。
取得先のデータは自分以外の著作物にあたり、著作権法に抵触しないように考慮する必要があるためです。
<br>
特に問題になりやすい権利として以下の3つが挙げられます。
<br>
<br>
- 複製権:
複製権は、著作権に含まれる権利のひとつで、著作権法第21条で規定されています。（第21条「著作者は、その著作物を複製する権利を専有する。」）
複製とは、作品を複写したり、録画・録音したり、印刷や写真にしたり、模写（書き写し）したりすること、そしてスキャナーなどにより電子的に読み取ること、また保管することなどを言います。
<br>
<br>
- 翻案権:
翻訳権・翻案権は、著作権法第二十七条に規定されている著作財産権です。
第二十七条では｢著作者は、その著作物を翻訳し、編曲し、若しくは変形し、又は脚色し、映画化し、その他翻案する権利を専有する｣（『社団法人著作権情報センター』より）と明記されています。
反対に見ると、これらを著作者の許諾なしに行うと、著作権の侵害になるということです。
<br>
<br>
- 公衆送信権:
公衆送信権は、著作権法第二十三条において規定される著作財産権です。「著作者は、公衆送信されるその著作物を受信装置を用いて公に伝達する権利を占有する。」と明記されています。
<br>
<br>
また上記を注意しながら、実際にスクレイピングを行う際に、書いたコードによってサーバに負荷がかからないようにしましょう。
過度なアクセスはサーバに負担をかけてしまい攻撃だとみなされてしまい、最悪の場合一定期間サービスを利用できなくなってしまう可能性があります。
さらには、システムにアクセス障害が発生し、利用者の一人が逮捕された事件もありますので、常識の範囲内での使用してください。
<br>
<br>

[岡崎市立中央図書館事件](https://ja.wikipedia.org/wiki/%E5%B2%A1%E5%B4%8E%E5%B8%82%E7%AB%8B%E4%B8%AD%E5%A4%AE%E5%9B%B3%E6%9B%B8%E9%A4%A8%E4%BA%8B%E4%BB%B6)


<br>
<br>

## Google Chromeの「開発者ツール」を使って、WEBページからCSSセレクタかXPathを取得してみる。

（実演）

# ハンズオンパート
## 一緒に手を動かしてみましょう！
### CSSセレクタでAI Academyのコースをスクレイピングしてみましょう。

In [12]:
# 必要になるライブラリをここでまとめてインストールしておきます。
!pip install lxml bs4 requests selenium

[33mYou are using pip version 18.1, however version 19.0.2 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [56]:
from bs4 import BeautifulSoup as bs
import requests
import lxml

url = 'https://aiacademy.jp/texts/'    # 取得するWEBページを記載する
r = requests.get(url)    # requestsを使って、WEBページからデータを取得する
soup = bs(r.text, 'lxml')    # lxmlを使って取得したデータを分析する

# CSSセレクタで特定する場合、以下を含む場合は、変更が必要になるので注意
# 例　li:nth-child(1) -> li:nth-of-type(1)

scraped = soup.select("body > section > div > div > div.col-md-4 > div.subjects > ul > li:nth-of-type(1) > a")    # 分析結果から、CSSセレクタで特定する
for s in scraped:
    print(s.text)    # テキストを表示する


目的別コース


## 一緒に手を動かしてみましょう！
### 次に、XPATHでも同じ箇所をスクレイピングしてみましょう。

In [57]:
import requests
import lxml.html

url = "https://aiacademy.jp/texts/"
r = requests.get(url)
html = lxml.html.fromstring(r.text)
scraped = html.xpath("/html/body/section/div/div/div[1]/div[1]/ul/li[1]/a")    # 分析結果から、XPATHで特定する
for s in scraped:
    print(s.text)

目的別コース


## 一緒に手を動かしてみましょう！
### 最後にHTMLタグでコース一覧をスクレイピングしてみましょう。

In [60]:
from bs4 import BeautifulSoup as bs
import requests
import lxml

url = 'https://aiacademy.jp/texts/'    # 取得するWEBページを記載する
r = requests.get(url)    # requestsを使って、WEBページからデータを取得する
soup = bs(r.text, 'lxml')    # lxmlを使って取得したデータを分析する

scraped = soup.find(class_="nav nav-tabs tabs-left").find_all("li")    # 分析結果から、HTMLタグで特定する
for s in scraped[5:60]:
     print(s.text)    # テキストを表示する


機械学習プログラミング体験編

深層学習プログラミング体験編

Python プログラミング入門編

Python プログラミング中級編

Pythonデータ分析入門編

Python開発環境編

人工知能概論編

Deep learning入門編

機械学習プログラミング入門編

機械学習プログラミング中級編

機械学習アルゴリズム編

データ解析 実践編

データ前処理編

ディープラーニング・ライブラリ入門編

Deep learning (実装編)

機械学習に必要な数学編

統計学編

機械学習アルゴリズム(理論編)

自然言語処理編

画像認識編

クラウド入門編

コマンドライン基礎編

SQL入門編

SQL中級編

WEBスクレイピング編

Webアプリケーション開発編

R言語文法速習



# Seleniumとは

SeleniumはWebブラウザで行うクリック操作やキーボード入力などをプログラム上から自動で操作できるようにしたライブラリで
<br>
Chrome DriverはChromeブラウザをプログラムで動かす為のドライバーです。
<br>
この2つを使うことで、SeleniumでChromeブラウザを操作してログインすることが可能です。
<br>
またこの2つを組み合わせて使うことで、次のことが可能になります。
<br>
<br>
- スクレイピング
- ブラウザの自動操作(次へボタンや購入ボタンなどを自動で押すなど）
- システムの自動テスト
- 非同期サイトのスクレイピング
<br>
<br>

Chrome Driverのインストールは下記リンクから飛べます。
<br>
<br>
[Chrome Driver インストールリンク](http://chromedriver.chromium.org/downloads)
<br>
その後、『Latest Release: ChromeDriver 2.42』と書かれた部分をクリックし、zipファイルをインストール&解凍してください。
<br>
※テキストに書かれたバージョンと異なる場合がございます。
常に、Chrome Driverは常に最新のものをご利用ください。
<br>
バージョンが以前のものを使うと動作しない可能性があります。

# ハンズオンパート
## 一緒に手を動かしてみましょう！
### Twitterを任意のキーワードで検索し、キーワードを含むツイートを取得してみましょう。

In [61]:
from time import sleep
import os
from bs4 import BeautifulSoup as bs
from selenium import webdriver
import lxml

current_path = os.getcwd()    # カレントディレクトリを取得
driver_path = current_path + "/chromedriver"    # chromedriverのパスを作成
driver = webdriver.Chrome(executable_path=driver_path)    # パスを指定して、selenium起動（ウインドウが開かれます）
search_url = "https://twitter.com/search?f=tweets&vertical=default&q=%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92&src=typd"
driver.get(search_url)    #  指定したURLを開く
for i in range(10):     # 引数の数だけ画面をスクロールする
    driver.execute_script(
        "window.scrollTo(0, document.body.scrollHeight);")
    sleep(1)
    
html_source = driver.page_source    # WEBページのソースを取得
soup = bs(html_source, "lxml")
souped = soup.find_all("p", class_="tweet-text")
print(len(souped))

for s in souped:
    print("======================================")
    print(s.text)
    print("======================================")
    print("")


220
神奈川県民だけど人生初くらいの勢いで二宮町pic.twitter.com/PAiE4AH7Gx

2チーム目「研究内容の改竄防止に関する提案」
偽装データや異常値をなくすために機械学習を用いる
調査依頼者は調査の貢献度によってETHを受け取る
インセンティブ設計にはEMアルゴリズムというものを使う

AWS SageMakerとAPI-Gateway、lambdaを使ったサーバレスな機械学習アプリケーションを作ってみた。
https://qiita.com/kurakura0916/items/5d6e9254e5c654e098a7 …

Kinect等を使用してフロアの客の動きや体温を検出、それらのデータからGoogleで流すべき映像と曲をyoutubeから選別、曲間はMixではなく機械学習によるモーフィング。
こんな事をやってみたいです。

1000RT：【すげー】実在しない人物の顔をワンタッチで生成できるウェブサイトが誕生
http://news.livedoor.com/article/detail/16033633/ …

一見すると本物の顔写真と見分けがつきませんが、これらの画像は全て機械学習アルゴリズムが生成した架… pic.twitter.com/ikSTQBlNL8

AIとか機械学習の一端に触れてみるテスト(数学苦手すぎて頭悪い私)

次は GCPUG OSAKA オーガナイザーの大原さんによる「30分でわかるGCPを使った機械学習システムの構築」です！
#gcpja #gcpug #tokushima #gdgshikokupic.twitter.com/XGGPAQcuB7

機械学習システムのアーキテクチャアラカルト #api # https://www.slideshare.net/BrainPad/ss-131876455 … @SlideShareさんから

人工知能に興味がある方は是非ご覧ください。 #はてなブログ
Python～機械学習入門～ - 日常・趣味を語る
https://salieri.hatenablog.com/entry/2019/02/17/Python%EF%BD%9E%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E5%85%A5%E9%96%80%EF%BD%9E …



# データベースを使ってみよう

データベースとはコンピューターを利用して膨大なデータをまとめ、
管理されたデータの集まりのことです。
データベースには複数のテーブルがあります。テーブルとはいくつかの列(カラム)から構成されています。
<br>
![データベースの構造](https://aiacademy.jp/assets/img/db.png)
<br>
テーブルには異なる様々なデータが入っており、テーブルには行(レコード)と列(カラム)があります。
また、データベースは、管理するという視点でExcelよりも容易に管理できます。
例えば、データベースはTwitterのようなSNSでは顧客の個人情報や、つぶやきのデータ等もデータベースで管理されています。
ここでは、数あるデータベースのうち、手軽で使いやすいSQLiteを使ってみます。

# ハンズオンパートその2
## 一緒に手を動かしてみましょう！
### まずは、テストでSQLiteをPythonから動かしてみましょう。

In [64]:
import sqlite3

con = sqlite3.connect("data.db")    # データベースを作成する

# ここで、data.dbが作成されているか、確認してください

cur = con.cursor()    # SQLを実行するために、カーソル（パソコンで言う矢印マーク）作成
cur.execute('create table test (name varchar(10), company varchar(10))')    # テーブルを作成するSQL文を実行
con.commit    # 実行結果をデータベースに反映させる
cur.execute('select * from sqlite_master WHERE type="table"')    # テーブル一覧を表示するSQL文を実行
for item in cur.fetchall():
    print(item)
    
# ここで、testテーブルの情報が出力されましたか？
    
cur.execute("insert into test values ('ishikawa', 'cyberbrain')")    # レコードを入力するSQL文を実行
con.commit()
cur.execute("select * from test") #レコード一覧を表示するSQL文を実行
val = cur.fetchall()
print(val)

# ここで、レコードが出力されましたか？


('table', 'test', 'test', 2, 'CREATE TABLE test (name varchar(10), company varchar(10))')
[('ishikawa', 'cyberbrain')]


# ハンズオンパート
## 一緒に手を動かしてみましょう！
### Yahoo! Japanのニュースをスクレイピングして、データベースにデータを作成し、表示してみましょう。

In [46]:
from bs4 import BeautifulSoup as bs
import requests
import lxml
import sqlite3

url = 'https://www.yahoo.co.jp/'    # 取得するWEBページを記載する
r = requests.get(url)    # requestsを使って、WEBページからデータを取得する
soup = bs(r.text, 'lxml')    # lxmlを使って取得したデータを分析する
scraped = soup.find_all("a")    # 分析結果から、タグ名（aタグ）で特定する
for s in scraped[4:12] :    # 特定部分のニュースを抽出
    print(s.text)    # 抽出したニュースのテキストを表示
    print(s.get("href"))    # 抽出したニュースのリンクを表示

con = sqlite3.connect("data.db")    # データベースを作成する

cur = con.cursor()    # SQLを実行するために、カーソル（パソコンで言う矢印マーク）作成
cur.execute('create table news (title varchar(100), link varchar(100))')    # テーブルを作成するSQL文を実行
con.commit()    # 実行結果をデータベースに反映させる
tables = cur.execute("SELECT * FROM sqlite_master WHERE TYPE='table' AND NAME='news'")    # テーブル情報を表示するSQL文を実行
for t in tables:    # テーブル情報を表示
    print(t)

## ここで、newsテーブルの情報が出力されましたか？

for s in scraped[4:12] :    # スクレイピングしたデータはリスト上なので、for文で表示
    s0 = s.text    
    s1 = s.get("href")
    p = "INSERT INTO news(title, link) VALUES(?, ?)" # newsテーブルにデータを作成するSQL文
    cur.execute(p, (s0, s1)) 
    con.commit()

rows = cur.execute("SELECT * FROM news")
for r in rows :
    print(r[0], r[1])
    
# # ここで、レコードが出力されましたか？

恐怖今も 普天間停止18日期限
https://news.yahoo.co.jp/pickup/6314156
ナウアート氏 米国連大使辞退
https://news.yahoo.co.jp/pickup/6314159
落城400年 石の「名城」の今
https://news.yahoo.co.jp/pickup/6314152
隠れた物体 デジカメで可視化
https://news.yahoo.co.jp/pickup/6314151
アニメの彩色 AIで自動化開発
https://news.yahoo.co.jp/pickup/6314160
ブラシ折れ転倒 藤沢五月苦笑
https://news.yahoo.co.jp/pickup/6314157
乾効果? J選手にスペイン人増
https://news.yahoo.co.jp/pickup/6314161
田原俊彦40年 死ぬ気で走った
https://news.yahoo.co.jp/pickup/6314153
('table', 'news', 'news', 2, 'CREATE TABLE news (title varchar(100), link varchar(100))')
恐怖今も 普天間停止18日期限 https://news.yahoo.co.jp/pickup/6314156
ナウアート氏 米国連大使辞退 https://news.yahoo.co.jp/pickup/6314159
落城400年 石の「名城」の今 https://news.yahoo.co.jp/pickup/6314152
隠れた物体 デジカメで可視化 https://news.yahoo.co.jp/pickup/6314151
アニメの彩色 AIで自動化開発 https://news.yahoo.co.jp/pickup/6314160
ブラシ折れ転倒 藤沢五月苦笑 https://news.yahoo.co.jp/pickup/6314157
乾効果? J選手にスペイン人増 https://news.yahoo.co.jp/pickup/6314161
田原俊彦40年 死ぬ気で走った https://news.yahoo.co.jp/pickup/6314153
