# スクレイピングに挑戦
## HTMLテキストを出力（エンコード調整）

In [5]:
import requests

url="https://www.ymori.com/books/python2nen/test1.html"
response=requests.get(url)  # requestsライブラリのgetメソッドを使って、指定URLのwebページを取得する
response.encoding=response.apparent_encoding  # 出力文字コードを自動的に選択指定
print(response.text)  # 取得したwebページをテキスト化し、文字列データの取得

<!DOCTYPE html>
<html>
	<head>
		<meta charset="UTF-8">
		<title>Python2年生</title>
	</head>
	<body>
		<h2>第1章 Pythonでデータをダウンロード</h2>
		<ol>
			<li>スクレイピングってなに？</li>
			<li>Pythonをインストールしてみよう</li>
			<li>requestsでアクセスしてみよう</li>
		</ol>
	</body>
</html>


## ファイル書込みの処理

#### ◆open()関数のモード<br>
r   読み込み専用（デフォルト）<br>
w   書き込み専用<br>
a   上書き
<br>-----------------<br>
t   テキストモード<br>
b   バイナリモード


In [9]:
import requests

url="https://www.ymori.com/books/python2nen/test1.html"
response=requests.get(url)  # requestsライブラリのgetメソッドを使って、指定URLのwebページを取得する
response.encoding=response.apparent_encoding  # 出力文字コードを自動的に選択指定

# f=open(filename,mode="w")  新規ファイルを書き込みモードで開く
# f.write(書き込む値)  データを書き込む
# f.close()  ファイルを閉じる

filename="download.txt"
f=open(filename,mode="w")

# 閉じ忘れ防止↑
# with-as文(f=ではなく、as fと書く)
# with open(filename,mode="w") as f:
#      f.write(書込み値)
# try文のように「開いたら書く、指定処理が終わったら閉じる」を一括規定できる

f.write(response.text)
f.close()

## BeautifulSoupを使ってHTMLを解析する

In [15]:
import requests
from bs4 import BeautifulSoup as bs  # bs4パッケージからインストールするのでfrom文を使う

# webページを取得して解析する
load_url="https://www.ymori.com/books/python2nen/test1.html"
# requestsライブラリのget()メソッドによって指定urlが指すHTMLデータを取得する
html=requests.get(load_url)
#　HTML内部（contentフィールド）をBeautifulSoupのhtml.parserで解析する
soup=bs(html.content,"html.parser")
# HTML全体を表示する（html.textをそのまま出力した物とは異なる）
print(soup)

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Python2年生</title>
</head>
<body>
<h2>第1章 Pythonでデータをダウンロード</h2>
<ol>
<li>スクレイピングってなに？</li>
<li>Pythonをインストールしてみよう</li>
<li>requestsでアクセスしてみよう</li>
</ol>
</body>
</html>


## HTML内のコードタグを抽出する

In [23]:
import requests
from bs4 import BeautifulSoup as bs

# webページ　取得解析
load_url="https://www.ymori.com/books/python2nen/test1.html"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")

# 指定HTMLタグ囲い文を検索／抽出　対象→<title><h2><li>
print(soup.find("title"))
print(soup.find("h2"))
print(soup.find("li"))

print()
# 抽出したタグ囲い文内　タグ内の有効テキストのみ抽出 findタグのテキスト抽出
print(soup.find("title").text)
print(soup.find("h2").text)
print(soup.find("li").text)

<title>Python2年生</title>
<h2>第1章 Pythonでデータをダウンロード</h2>
<li>スクレイピングってなに？</li>

Python2年生
第1章 Pythonでデータをダウンロード
スクレイピングってなに？


## find_all()して複数抽出

In [24]:
import requests
from bs4 import BeautifulSoup as bs

load_url="https://www.ymori.com/books/python2nen/test2.html"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")

# find()メソッドは同一タグが複数存在しても初出のみ抽出
# find_all()メソッドによって、すべての同一タグを抽出する
for element in soup.find_all("li"):
    print(element.text)  # 指定タグをfind_allしてtextフィールドのみ抽出

スクレイピングってなに？
Pythonをインストールしてみよう
requestsでアクセスしてみよう
HTMLを解析してみよう
ニュースの最新記事一覧を取得してみよう
リンク一覧をファイルに書き出そう
画像を一括ダウンロードしよう


idやclassなど、属性指定で抽出する

In [32]:
import requests
from bs4 import BeautifulSoup as bs

# webページ取得・解析
load_url="https://www.ymori.com/books/python2nen/test2.html"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")

# タグIDを指定して抽出
chap2=soup.find(id="chap2")
print(chap2)
print(chap2.text)

# chap2に絞ったHTMLコードから<li>部分を抽出する
for element in chap2.find_all("li"):
    print(element.text)

<div id="chap2">
<h2>第2章 HTMLを解析しよう</h2>
<ol>
<li>HTMLを解析してみよう</li>
<li>ニュースの最新記事一覧を取得してみよう</li>
<li>リンク一覧をファイルに書き出そう</li>
<li>画像を一括ダウンロードしよう</li>
</ol>
</div>

第2章 HTMLを解析しよう

HTMLを解析してみよう
ニュースの最新記事一覧を取得してみよう
リンク一覧をファイルに書き出そう
画像を一括ダウンロードしよう


HTMLを解析してみよう
ニュースの最新記事一覧を取得してみよう
リンク一覧をファイルに書き出そう
画像を一括ダウンロードしよう


## 大規模サイトで抽出に挑戦
デベロッパーツールを使って絞り込む

In [40]:
# yahooニュースサイト内HTMLクラス　class="topicList_main"の部分を抽出する
import requests
from bs4 import BeautifulSoup as bs

# webページ　取得・解析
load_url="https://news.yahoo.co.jp/categories/it"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")

# class="topicList_main"を検索
topic=soup.find(class_="topicsList_main")
for element in topic.find_all("a"):
    print(element.text)  # タグ内テキストを抽出
    print(element.get("href"))  # タグ内ソースを抽出

スマホ圏外の遭難者特定?実験
https://news.yahoo.co.jp/pickup/6351606
巨大IT規制、来春にも強化
https://news.yahoo.co.jp/pickup/6351581
Apple失速 日本にも飛び火か
https://news.yahoo.co.jp/pickup/6351579
サイバー攻撃 脆弱性悪用急増
https://news.yahoo.co.jp/pickup/6351559
肺炎 中国はネットで授業再開
https://news.yahoo.co.jp/pickup/6351497
国内大手初 auの残価設定型
https://news.yahoo.co.jp/pickup/6351492
シャープ 日本初5Gスマホ発表
https://news.yahoo.co.jp/pickup/6351459
米携帯3位と4位の合併 実現へ
https://news.yahoo.co.jp/pickup/6351442


In [43]:
import requests
from bs4 import BeautifulSoup as bs

# webページを取得・解析
load_url="https://www.ymori.com/books/python2nen/test2.html"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")

# すべての<a>タグを検索　href=ソースのみ抽出
for element in soup.find_all("a"):
    print(element.text)
    url=element.get("href")
    print(url)
    

リンク1
https://www.ymori.com/books/python2nen/test1.html
リンク2
./test3.html


相対パスも絶対パスで取得したい<br>
urlibライブラリーをインポートしてお手伝いしてもらう

In [4]:
import requests
from bs4 import BeautifulSoup as bs
import urllib

# webページ 取得・解析
load_url="https://www.ymori.com/books/python2nen/test2.html"
html=requests.get(load_url)
soup=bs(html.content,"html.parser")  # BeautifulSoupオブジェクトを作る
print(type(soup))

# すべてのaタグを検索し、リンクを「絶対パス」で抽出する
for element in soup.find_all("a"):  # <a>タグの総ざらい
    print(element.text)
    url=element.get("href")
    link_url=urllib.parse.urljoin(load_url,url)  # 各<a>タグのhref属性リスト各要素にページurlをjoinする
    print(link_url)

<class 'bs4.BeautifulSoup'>
リンク1
https://www.ymori.com/books/python2nen/test1.html
リンク2
https://www.ymori.com/books/python2nen/test3.html


In [1]:
import requests
from bs4 import BeautifulSoup as bs
import urllib

load_url="https://www.ymori.com/books/python2nen/test2.html"
html=requests.get(load_url)  # requestsオブジェクト作成　contentフィールドにhtmlコードを記録する
soup=bs(html.content,"html.parser")

# ファイルを書き込みモードで作成＆オープン
filename="linklist.txt"
with open(filename,"w") as f:  # with文内で代入処理をする f=open(filename,"w") ファイルオブジェクトを作成
    
    # すべての<a>タグを抽出（リスト化）
    # <a>タグのリストからhref属性記述を抽出（リスト化）
    # href属性リストをすべて絶対パスに（各パスごとURLを精査し、相対パスは絶対パスに書き換える。）
    # urllib.parse.urljoin
    # 一つの<a>タグにつき、①文字列ブロック　②絶対パス　③空白行　の出力を行う
    
    for element in soup.find_all("a"):
        url=element.get("href")
        link_url=urllib.parse.urljoin(load_url,url)
        f.write(element.text+"\n")
        f.write(link_url+"\n")
        f.write("\n")