# HOMES空き家活用事例のスクレイピング

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

#bot対策にブロックされないようにユーザーエージェントを設定
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69'
headers = {'User-Agent': ua}

#読み込むサイトのURLを指定
url = 'https://www.homes.co.jp/akiyabank/case-study/'

#取得したデータをresに代入
res = requests.get(url, headers=headers)

#文字化け防止
res.encoding = 'utf-8'

#解析したいデータをsoupに代入
soup = BeautifulSoup(res.text, 'html.parser')

#すべてのmod-result-bukkenBoxのdivを取得（30件あることは確認済み）
bukkenbox_from_html = soup.find_all('div', attrs={'class':'mod-result-bukkenBox'})

#情報格納のための空配列を用意
Name = []
Year = []
Summary = []
Type = []

#空配列に情報を格納
for bb in bukkenbox_from_html:
    n = bb.select_one('h1').text.replace('\t\t\t\t\t\t\t','') #名称
    y = bb.select_one('p').text.replace('実施年度：','').replace('\n','').replace('          ','') #実施年
    s = bb.select_one('dd').text #概要
    t = bb.find_all('dd')[1].text.replace('\n','') #活用タイプ
    Name.append(n)
    Year.append(y)
    Summary.append(s)
    Type.append(t)
    
#DFデータ定義
data_list = {
    '実施事業者' : Name,
    '実施年度' : Year,
    '概要' : Summary,
    '取り組み手法' : Type
}

df = pd.DataFrame(data_list)
df

Unnamed: 0,実施事業者,実施年度,概要,取り組み手法
0,ＮＰＯ法人都市環境協会,2021,介護施設入所時に空き家の管理責任者指名の啓発\r\n管理責任者と専門家と新潟市が一体となった...,空き家利活用手法の構築
1,COMMONS ISUMI,2021,事務局の運営\r\n空家調査\r\nイベントの開催\r\nツアーの実施\r\nチャレンジショ...,ワークショップの開催、空き家利活用手法の構築、空き家活用イベント...
2,一般財団法人島根県建築住宅センター,2021,新たな空き家活用のモデルとなる、地域と大学が連携したシェアハウスを整備\r\n空き家の継続的...,空き家利活用手法の構築
3,Japan asset management株式会社,2021,事業ブランドの構築\r\nウェブサイトの構築\r\nウェブサイトと事業の告知\r\nモデルル...,ホームページの作成、セミナーの開催、啓発冊子の作成 ...
4,庄原市空き家解決専門家ネットワーク,2021,多拠点居住、コワーキング等社会ニーズに空き家を利活用する取組\r\n空き家バンク物件掲載、移...,セミナーの開催、相談会の実施、ワンストップ相談体制構築、空き家情...
5,株式会社白浜パーニ,2021,第三者目線から当該地域の魅力を再定義し、体験サービスやWebサイトなど消費者との接点となる部...,空き家利活用手法の構築
6,株式会社スピーク,2021,高齢者サポート事業者との連携による空き家の活用提案と発生抑制\r\n活用の際の建物所有者のコ...,ワークショップの開催、人材育成マニュアルの作成、人材育成研修会の...
7,高岡市空き家活用推進協議会,2021,空き家空き地情報バンク登録システムのデジタル化に対応\r\n「空き家空き地情報バンク」登録物...,空き家利活用手法の構築、空き家情報データベース化 ...
8,特定非営利活動法人高田暮舎,2021,空き家の「利用者」「所有者」に対する調査、分析\r\n利用者開拓と空き家のワンストップ対応を...,ホームページの作成、ワンストップ相談体制構築
9,一般社団法人　太宰府市空家予防推進協議会,2021,空き家活用希望者側のニーズを顕在化し、空き家所有者等に空き家活用の訴求を行い、活用への意識を...,セミナーの開催、相談会の実施


In [2]:
# 残課題
#エリアを取得したいが、div class=innerやdl class=resultTableが他の情報と重複しており簡単には取得できない（スクレイピング対策？）
#resulttableで指定すると各物件２回ずつ出現
resulttable = soup.find_all('dl', attrs={'class':'resultTable'})
resulttable

[<dl class="resultTable">
 <dt>ターゲット</dt>
 <dd>
                 空き家の所有者、将来的な空き家の所有者、地域住民、事業者
               </dd>
 <dt>事業主体</dt>
 <dd>
                 ＮＰＯ法人
               </dd>
 <dt>提携先</dt>
 <dd>
                 自治体、宅建業者、行政書士、業者団体
               </dd>
 </dl>,
 <dl class="resultTable">
 <dt>実施地域</dt>
 <dd>
               新潟県新潟市
             </dd>
 <dt>人口規模</dt>
 <dd>
               50万人以上
             </dd>
 </dl>,
 <dl class="resultTable">
 <dt>実施事業者名</dt>
 <dd>
 <a href="https://niigata-bs.sakura.ne.jp/toshikankyo/" target="_blank">
                               ＮＰＯ法人都市環境協会
                             </a>
 </dd>
 <dt>問い合わせ先</dt>
 <dd>ＮＰＯ法人都市環境協会</dd>
 <dt>電話</dt>
 <dd>025-225-1131</dd>
 </dl>,
 <dl class="resultTable">
 <dt>ターゲット</dt>
 <dd>
                 事業者、自治体
               </dd>
 <dt>事業主体</dt>
 <dd>
                 専門家連携体
               </dd>
 <dt>提携先</dt>
 <dd>
                 自治体、宅建業者
               </dd>
 </dl>,
 <dl class="resultTable">
 <dt>実施地域</dt>
 <dd>
      

# 複数ページのスクレイピング
参考：https://www.youtube.com/watch?v=_H9bdFOZ4vs

In [61]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep

#bot対策にブロックされないようにユーザーエージェントを設定
ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.69'
headers = {'User-Agent': ua}

#URLを指定（後で末尾にページ番号を追加）
url_base = 'https://www.homes.co.jp/akiyabank/case-study?page='

#検索結果ページ数を取得
pagenumbers_from_html = soup.select('li.page-item a')
pagenumber = []

for pn in pagenumbers_from_html:
    pn = pn.text
    if (pn != '›'):
        pagenumber.append(pn)
        
pagenumber_max = int(pagenumber[-1])

#全ての検索ページのURLリストを作成
url_base = 'https://www.homes.co.jp/akiyabank/case-study?page='

for n in range(pagenumber_max-1):
    num += 1
    url_2 = url_base + str(num)
    url_list.append(url_2)

#情報格納のための空配列を用意
Name = []
Year = []
Summary = []
Type = []

for i in range (1, pagenumber_max+1): 
    print('ページ数:', i)
    
    #アクセス先のURLを作成
    target_url = url_base + str(i)
    
    #取得したデータをresに導入+文字化け防止
    res = requests.get(target_url, headers=headers)
    res.encoding = 'utf-8'
    
    #スクレイピング先のサーバーに負荷をかけない対策
    sleep(1)
    
    soup = BeautifulSoup(res.text, 'html.parser')
    #すべてのmod-result-bukkenBoxのdivを取得（30件あることは確認済み）
    bukkenbox_from_html = soup.find_all('div', attrs={'class':'mod-result-bukkenBox'})

    #空配列に情報を格納
    for bb in bukkenbox_from_html:
        n = bb.select_one('h1').text.replace('\t\t\t\t\t\t\t','') #名称
        y = bb.select_one('p').text.replace('実施年度：','').replace('\n','').replace('          ','') #実施年
        s = bb.select_one('dd').text #概要
        t = bb.find_all('dd')[1].text.replace('\n','') #活用タイプ
        Name.append(n)
        Year.append(y)
        Summary.append(s)
        Type.append(t)
        
    #DFデータ定義
    data_list = {
        '実施事業者' : Name,
        '実施年度' : Year,
        '概要' : Summary,
        '取り組み手法' : Type
    }

    df = pd.DataFrame(data_list)
    df
    

ページ数: 1
ページ数: 2
ページ数: 3
ページ数: 4
ページ数: 5
ページ数: 6
ページ数: 7
ページ数: 8
ページ数: 9
ページ数: 10
ページ数: 11
ページ数: 12
ページ数: 13


In [62]:
df

Unnamed: 0,実施事業者,実施年度,概要,取り組み手法
0,ＮＰＯ法人都市環境協会,2021,介護施設入所時に空き家の管理責任者指名の啓発\r\n管理責任者と専門家と新潟市が一体となった...,空き家利活用手法の構築
1,COMMONS ISUMI,2021,事務局の運営\r\n空家調査\r\nイベントの開催\r\nツアーの実施\r\nチャレンジショ...,ワークショップの開催、空き家利活用手法の構築、空き家活用イベント...
2,一般財団法人島根県建築住宅センター,2021,新たな空き家活用のモデルとなる、地域と大学が連携したシェアハウスを整備\r\n空き家の継続的...,空き家利活用手法の構築
3,Japan asset management株式会社,2021,事業ブランドの構築\r\nウェブサイトの構築\r\nウェブサイトと事業の告知\r\nモデルル...,ホームページの作成、セミナーの開催、啓発冊子の作成 ...
4,庄原市空き家解決専門家ネットワーク,2021,多拠点居住、コワーキング等社会ニーズに空き家を利活用する取組\r\n空き家バンク物件掲載、移...,セミナーの開催、相談会の実施、ワンストップ相談体制構築、空き家情...
...,...,...,...,...
359,一般社団法人岡山住まいと暮らしの相談センター,2017,空き家所有者向け相談会、セミナーの実施\n笠岡市内諸島部における空き家の現地調査,セミナーの開催、相談会の実施
360,木綿街道再生モデル事業,2017,空き家利活用の先進事例調査\n先進事例調査および地域概況を踏まえた相談会・勉強会の企画\n人...,人材育成研修会の実施
361,入江不動産株式会社,2017,空き家利活用や適正管理に関するパンフレットの作成、配布による周知\n所有者向け説明会・相談会...,ホームページの作成、啓発冊子の作成、相談会の実施 ...
362,ＮＰＯ法人頴娃おこそ会,2017,当該ＮＰＯが借り受け人として無償ベースで行っている契約内容に関する課題の洗い出し\n空き家再...,セミナーの開催、ワークショップの開催、啓発冊子の作成、人材育成研...
