# スクレイピングの練習

## HTMLからデータを取得し、エクセルファイルに変換（pandas.read_html() )<br>
https://note.nkmk.me/python-pandas-web-html-table-scraping/

### Yahoo!ファイナンスの時価総額ランキング

In [1]:
import pandas as pd

In [2]:
url = 'https://info.finance.yahoo.co.jp/ranking/?kd=4'
dfs = pd.read_html(url)

In [3]:
dfs

[    順位   コード      市場                    名称    取引値  発行済み株式数    時価総額（百万円）  \
 0    1  7203    東証1部             トヨタ自動車(株)  15:00     7116   3262997492   
 1    2  9437    東証1部             (株)ＮＴＴドコモ  15:00   2839.5   3782299000   
 2    3  9432    東証1部             日本電信電話(株)  15:00     5085   2096394470   
 3    4  8306    東証1部  (株)三菱ＵＦＪフィナンシャル・グループ  15:00    630.2  13900028020   
 4    5  9984    東証1部         ソフトバンクグループ(株)  15:00     7842   1100660365   
 5    6  9433    東証1部               ＫＤＤＩ(株)  15:00     3057   2532004445   
 6    7  6861    東証1部              (株)キーエンス  15:00    63220    121603842   
 7    8  6758    東証1部                ソニー(株)  15:00     5726   1268440749   
 8    9  8686  東証1部外国                 アフラック  13:23     4805   1345761800   
 9   10  8316    東証1部    (株)三井住友フィナンシャルグループ  15:00     4295   1414443390   
 10  11  2914    東証1部                    ＪＴ  15:00     3032   2000000000   
 11  12  7267    東証1部                   ホンダ  15:00     3229   1811428430   
 12  13  718

### 野菜のデータでも試してみる

In [4]:
url = 'https://www.seisen.maff.go.jp/seisen/bs04b040md001/BS04B040UC020SC001-Evt006.do'
fetched_dataframes = pd.io.html.read_html(url)

ValueError: No tables found

→表データをうまく読み込めてない

In [5]:
url = 'oroshi.html'
fetched_dataframes = pd.io.html.read_html(url, encoding ='utf-8')

In [6]:
fetched_dataframes

[                                                   0                  1    \
 0                                 青果物卸売市場調査（日別調査） （野菜）  平成30年 6月 25日 （月）分   
 1                                             農林水産省統計部                NaN   
 2                                              都市名：横浜市                NaN   
 3    品目名／産地  数量(kg)  価格(円/kg)  対前日比  数量(％)  価格(％)  ...             品目名／産地   
 4                                               品目名／産地             数量(kg)   
 5                                                数量(％)              価格(％)   
 6                                                 野菜総量            1149087   
 7                                                  長　野             157571   
 8                                                  茨　城             142061   
 9                                                  群　馬             126119   
 10                                                 千　葉             115856   
 11                                                 佐　賀         

→サイトに問題があったので保存したhtmlで対応

## HTMLからデータを取得し、エクセルファイルに変換（beautifulsoup+csv)<br>
https://qiita.com/hujuu/items/b0339404b8b0460087f9

In [3]:
import requests
from bs4 import BeautifulSoup
import csv

In [8]:
# #HTMLの取得(そのままやると今回の場合システムエラーになるので回避する)
# target_url = 'https://www.seisen.maff.go.jp/seisen/bs04b040md001/BS04B040UC020SC001-Evt006.do'
# r = requests.get(target_url)         #requestsを使って、webから取得

In [9]:
#htmlパース用のオブジェクト作成(上記の通り今回は保存済み　HTMLを使用)
# soup = BeautifulSoup(r.text, 'lxml') #要素を抽出

soup = BeautifulSoup(open('oroshi.html', encoding='utf-8'), 'html.parser')

In [10]:
#csvfileを指定
csvFile = open("oroshi.csv","wt",newline = '', encoding = "shift-jis")
writer = csv.writer(csvFile)

#Tableを指定
tables = soup.find_all("table")
for table in tables:
    rows = [row for row in table.find_all('tr')]
    
try:
    for row in rows:
        csvRow = []
        for cell in row.find_all(['td','th']):
            csvRow.append(cell.get_text())
            print(csvRow)
        writer.writerow(csvRow)
        
finally:
    csvFile.close()

['品目名／産地']
['品目名／産地', '数量(kg)']
['品目名／産地', '数量(kg)', '価格(円/kg)']
['品目名／産地', '数量(kg)', '価格(円/kg)', '対前日比']
['数量(％)']
['数量(％)', '価格(％)']
['野菜総量']
['野菜総量', '1,149,087']
['野菜総量', '1,149,087', '242']
['野菜総量', '1,149,087', '242', '105.1']
['野菜総量', '1,149,087', '242', '105.1', '109.5']
['長\u3000野']
['長\u3000野', '157,571']
['長\u3000野', '157,571', '182']
['長\u3000野', '157,571', '182', '']
['長\u3000野', '157,571', '182', '', '']
['茨\u3000城']
['茨\u3000城', '142,061']
['茨\u3000城', '142,061', '237']
['茨\u3000城', '142,061', '237', '']
['茨\u3000城', '142,061', '237', '', '']
['群\u3000馬']
['群\u3000馬', '126,119']
['群\u3000馬', '126,119', '222']
['群\u3000馬', '126,119', '222', '']
['群\u3000馬', '126,119', '222', '', '']
['千\u3000葉']
['千\u3000葉', '115,856']
['千\u3000葉', '115,856', '204']
['千\u3000葉', '115,856', '204', '']
['千\u3000葉', '115,856', '204', '', '']
['佐\u3000賀']
['佐\u3000賀', '100,548']
['佐\u3000賀', '100,548', '92']
['佐\u3000賀', '100,548', '92', '']
['佐\u3000賀', '100,548', '92', '', '']
['青\u3000森']


In [11]:
col_names = [ 'c{0:02d}'.format(i) for i in range(5) ]
#columnsサイズが特定できない場合は先に名前をつけてあげないとエラーが出る
df = pd.read_csv('oroshi.csv', encoding='shift-jis',names=col_names)

In [12]:
df[:8]

Unnamed: 0,c00,c01,c02,c03,c04
0,品目名／産地,数量(kg),価格(円/kg),対前日比,
1,数量(％),価格(％),,,
2,野菜総量,1149087,242,105.1,109.5
3,長　野,157571,182,,
4,茨　城,142061,237,,
5,群　馬,126119,222,,
6,千　葉,115856,204,,
7,佐　賀,100548,92,,


表全体を読み込むことができた。しかしcolumnの位置がずれている

## HTMLからデータを取得し、エクセルファイルに変換（beautifulsoup+openyxl)<br>

In [13]:
#htmlパース用のオブジェクト作成(上記の通り今回は保存済み　HTMLを使用)
# soup = BeautifulSoup(r.text, 'lxml') #要素を抽出

soup = BeautifulSoup(open('oroshi.html', encoding='utf-8'), 'html.parser')

In [14]:
import openpyxl as px

In [62]:
if __name__ == '__main__':

    wb = px.Workbook()
    ws = wb.active

    # 標準だと `Sheet` だが変更する場合は `title` で変更する
    ws.title = "WorkSheetTitle"
    
    # セルに値を入れる
    ws["A1"] = "品目名／産地"
    ws["B1"] = "数量(kg)"
    ws["C1"] = "価格(円/kg)"
    
# 行列表記でセルに値を入れる
#Tableを指定
    tables = soup.find_all("table")
    for table in tables:
        rows = [row for row in table.find_all('tr')]
        
        count = 1
        for row in rows:
            csvRow = []
            for cell in row.find_all(['td','th']):
                csvRow.append(cell.get_text())

            ws.cell(row= count, column=1).value = csvRow[0]
            count += 1
            if len(csvRow) > 1:
                ws.cell(row= count, column=2).value = csvRow[1]
            if len(csvRow) > 2:ws.cell(row= count, column=3).value = csvRow[2]
           

    # 保存
    wb.save('oroshi.xlsx')
    wb.close()

In [63]:
#excelファイルを読み込む
df = pd.read_excel('oroshi.xlsx')

In [64]:
df[:10]

Unnamed: 0,品目名／産地,数量(kg),価格(円/kg)
0,数量(％),数量(kg),価格(円/kg)
1,野菜総量,価格(％),
2,長　野,1149087,242
3,茨　城,157571,182
4,群　馬,142061,237
5,千　葉,126119,222
6,佐　賀,115856,204
7,青　森,100548,92
8,福　島,56855,163
9,だいこん,46890,276


## urlopen()とBeautifulSoup

In [4]:
import urllib.request as req

url = "http://api.aoikujira.com/zip/xml/1500042"

#urlopen()でデータを取得
res = req.urlopen(url)

#beautifulSoupで解析
soup = BeautifulSoup(res, "html.parser")

#任意のデータを抽出
ken = soup.find("ken").string
shi = soup.find("shi").string
cho = soup.find("cho").string

print(ken, shi, cho)

東京都 渋谷区 宇田川町


【HTML】
```
<address result="1">
<header>
<result>1</result>
<api>api.aoikujira.com/zip</api>
<version>1.1</version>
</header>
<value>
<zip>1500042</zip>
<ken>東京都</ken>
<shi>渋谷区</shi>
<cho>宇田川町</cho>
<disp>東京都渋谷区宇田川町</disp>
<kenkana>トウキョウト</kenkana>
<shikana>シブヤク</shikana>
<chokana>ウダガワチョウ</chokana>
</value>
</address>
```

## CSSセレクタを使う

In [1]:
from bs4 import BeautifulSoup 

# 解析対象となるHTML --- (※1)
html = """
<html><body>
<div id="meigen">
  <h1>トルストイの名言</h1>
  <ul class="items">
    <li>汝の心に教えよ、心に学ぶな</li>
    <li>謙虚な人は誰からも好かれる。</li>
    <li>強い人々は、いつも気取らない。</li>
  </ul>
</div>
</body></html>
"""

# HTMLを解析する --- (※2)
soup = BeautifulSoup(html, 'html.parser')

# 必要な部分をCSSクエリで取り出す
# | タイトル部分を取得 --- (※3)
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)

# | リスト部分を取得 --- (※4)
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
	print("li =", li.string)


h1 = トルストイの名言
li = 汝の心に教えよ、心に学ぶな
li = 謙虚な人は誰からも好かれる。
li = 強い人々は、いつも気取らない。
