### 東京都文京区物件スクレイピング

参考文献
スクレイピング動画
- https://www.youtube.com/watch?v=l9KRgSUeNXk
- https://www.youtube.com/watch?v=gixuk9qFpRg
- https://www.youtube.com/watch?v=_H9bdFOZ4vs
- https://www.youtube.com/watch?v=Lq4xHWnT_KE

スプレッドシート動画
- https://youtu.be/fFSGPciIkfI?si=MQ4wrvIiFpmwgdCR

In [18]:
#ライブラリのインポート
from bs4 import BeautifulSoup
import re #不要文字削除
import requests
from time import sleep
from tqdm import tqdm   #for文の進捗確認
import pandas as pd

In [19]:
# 最後のページの数値を取得
url = 'https://suumo.jp/chintai/tokyo/sc_bunkyo/?page={}'
res = requests.get(url.format(1))
#1ページ目のページネーションに全ページの番号が表示される
#1ページ目のページネーション部分をスクレイピングし、その中の最後の要素（最後のページ番号）を取得
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
last_page = int(soup.find('ol', class_='pagination-parts').find_all('li')[-1].text)
#[-1]でページネーションのリストから最後の要素を取得
#textでページ番号を取得
#intで整数型に変換

In [20]:
#空のリストを作成
data_list = []

In [21]:
# 正常にHTML情報が取得できれば以下のコードを実行
if res.status_code == 200:

    #文京区のSUUMO掲載物件全ページ情報を取得
    for page in tqdm(range(1, last_page +1)): #for文の進捗を確認
    #range(start, stop) 関数は、startから始まってstop-1までの数値のシーケンスを生成
    #stopの値自体はシーケンスに含まれないため +1で最後のページもスクレイピング
        target_url = url.format(page)
        #ページ取得できているかの確認
        print("data_listの大きさ:",len(data_list))
        print(target_url)

        #requestを使ってURLにアクセス
        res = requests.get(target_url)
        #相手サイトの負荷軽減
        sleep(1)
        #文字化け防止
        res.encoding = 'utf-8'
        #取得したHTMLをBeautifulSoupで解析
        soup = BeautifulSoup(res.text, 'html.parser')

        #全ての物件情報取得
        contents = soup.find_all('div', class_= 'cassetteitem')

        #for文で物件・部屋情報取得
        for content in contents:
            #物件・部屋情報を解析
            detail = content.find('div', class_='cassetteitem-detail')
            table = content.find('table', class_='cassetteitem_other')

            #物件情報から必要情報を取得
            title = detail.find('div', class_='cassetteitem_content-title').text
            address = detail.find('li', class_='cassetteitem_detail-col1').text
            access = detail.find('li', class_='cassetteitem_detail-col2').text
            age = detail.find('li', class_='cassetteitem_detail-col3').text

            #部屋情報を取得
            tr_tags = table.find_all('tr', class_='js-cassette_link')

            #for文で部屋情報取得
            for tr_tag in tr_tags:
                #部屋情報から必要情報を取得
                floor, price, first_fee, capacity = tr_tag.find_all('td')[2:6]
                #さらに細かい情報取得
                rent, administration = price.find_all('li')
                deposit, gratuity = first_fee.find_all('li')
                madori, menseki = capacity.find_all('li')
                #取得した全ての情報を辞書に格納
                data = {
                    'title' : title,
                    'address' : address,
                    'access' : access,
                    'age' : age,
                    'floor': floor.text,
                    'rent' : rent.text,
                    'administration' : administration.text,
                    'deposit' : deposit.text,
                    'gratuity' : gratuity.text,
                    'madori' : madori.text,
                    'menseki' : menseki.text
                }
                #取得した辞書を格納
                data_list.append(data)

  0%|          | 0/171 [00:00<?, ?it/s]

data_listの大きさ: 0
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=1


  1%|          | 1/171 [00:02<07:31,  2.65s/it]

data_listの大きさ: 106
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=2


  1%|          | 2/171 [00:05<07:12,  2.56s/it]

data_listの大きさ: 187
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=3


  2%|▏         | 3/171 [00:07<06:27,  2.31s/it]

data_listの大きさ: 226
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=4


  2%|▏         | 4/171 [00:09<06:35,  2.37s/it]

data_listの大きさ: 304
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=5


  3%|▎         | 5/171 [00:11<06:20,  2.29s/it]

data_listの大きさ: 387
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=6


  4%|▎         | 6/171 [00:14<06:24,  2.33s/it]

data_listの大きさ: 513
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=7


  4%|▍         | 7/171 [00:16<06:27,  2.36s/it]

data_listの大きさ: 623
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=8


  5%|▍         | 8/171 [00:20<07:19,  2.69s/it]

data_listの大きさ: 723
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=9


  5%|▌         | 9/171 [00:23<07:40,  2.84s/it]

data_listの大きさ: 776
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=10


  6%|▌         | 10/171 [00:25<07:23,  2.75s/it]

data_listの大きさ: 845
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=11


  6%|▋         | 11/171 [00:28<07:37,  2.86s/it]

data_listの大きさ: 1010
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=12


  7%|▋         | 12/171 [00:31<07:14,  2.73s/it]

data_listの大きさ: 1068
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=13


  8%|▊         | 13/171 [00:33<06:47,  2.58s/it]

data_listの大きさ: 1141
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=14


  8%|▊         | 14/171 [00:35<06:40,  2.55s/it]

data_listの大きさ: 1215
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=15


  9%|▉         | 15/171 [00:38<06:22,  2.45s/it]

data_listの大きさ: 1289
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=16


  9%|▉         | 16/171 [00:40<06:01,  2.33s/it]

data_listの大きさ: 1350
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=17


 10%|▉         | 17/171 [00:42<05:52,  2.29s/it]

data_listの大きさ: 1405
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=18


 11%|█         | 18/171 [00:44<05:45,  2.26s/it]

data_listの大きさ: 1448
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=19


 11%|█         | 19/171 [00:46<05:41,  2.25s/it]

data_listの大きさ: 1506
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=20


 12%|█▏        | 20/171 [00:48<05:28,  2.18s/it]

data_listの大きさ: 1555
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=21


 12%|█▏        | 21/171 [00:51<05:33,  2.22s/it]

data_listの大きさ: 1608
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=22


 13%|█▎        | 22/171 [00:53<05:26,  2.19s/it]

data_listの大きさ: 1643
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=23


 13%|█▎        | 23/171 [00:55<05:18,  2.15s/it]

data_listの大きさ: 1683
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=24


 14%|█▍        | 24/171 [00:57<05:15,  2.14s/it]

data_listの大きさ: 1723
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=25


 15%|█▍        | 25/171 [00:59<05:13,  2.15s/it]

data_listの大きさ: 1788
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=26


 15%|█▌        | 26/171 [01:02<05:29,  2.27s/it]

data_listの大きさ: 1828
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=27


 16%|█▌        | 27/171 [01:04<05:19,  2.22s/it]

data_listの大きさ: 1873
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=28


 16%|█▋        | 28/171 [01:06<05:09,  2.16s/it]

data_listの大きさ: 1929
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=29


 17%|█▋        | 29/171 [01:08<05:02,  2.13s/it]

data_listの大きさ: 1979
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=30


 18%|█▊        | 30/171 [01:10<05:08,  2.19s/it]

data_listの大きさ: 2036
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=31


 18%|█▊        | 31/171 [01:12<04:53,  2.10s/it]

data_listの大きさ: 2077
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=32


 19%|█▊        | 32/171 [01:14<04:46,  2.06s/it]

data_listの大きさ: 2137
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=33


 19%|█▉        | 33/171 [01:16<04:46,  2.07s/it]

data_listの大きさ: 2175
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=34


 20%|█▉        | 34/171 [01:19<04:54,  2.15s/it]

data_listの大きさ: 2258
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=35


 20%|██        | 35/171 [01:21<04:48,  2.12s/it]

data_listの大きさ: 2329
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=36


 21%|██        | 36/171 [01:23<04:39,  2.07s/it]

data_listの大きさ: 2384
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=37


 22%|██▏       | 37/171 [01:25<04:39,  2.09s/it]

data_listの大きさ: 2466
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=38


 22%|██▏       | 38/171 [01:27<04:35,  2.07s/it]

data_listの大きさ: 2502
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=39


 23%|██▎       | 39/171 [01:29<04:27,  2.03s/it]

data_listの大きさ: 2534
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=40


 23%|██▎       | 40/171 [01:31<04:25,  2.02s/it]

data_listの大きさ: 2576
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=41


 24%|██▍       | 41/171 [01:33<04:31,  2.09s/it]

data_listの大きさ: 2634
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=42


 25%|██▍       | 42/171 [01:35<04:22,  2.04s/it]

data_listの大きさ: 2671
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=43


 25%|██▌       | 43/171 [01:37<04:21,  2.04s/it]

data_listの大きさ: 2711
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=44


 26%|██▌       | 44/171 [01:39<04:11,  1.98s/it]

data_listの大きさ: 2740
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=45


 26%|██▋       | 45/171 [01:41<04:07,  1.96s/it]

data_listの大きさ: 2769
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=46


 27%|██▋       | 46/171 [01:43<04:07,  1.98s/it]

data_listの大きさ: 2794
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=47


 27%|██▋       | 47/171 [01:45<04:03,  1.96s/it]

data_listの大きさ: 2825
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=48


 28%|██▊       | 48/171 [01:46<03:59,  1.95s/it]

data_listの大きさ: 2854
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=49


 29%|██▊       | 49/171 [01:49<04:08,  2.04s/it]

data_listの大きさ: 2891
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=50


 29%|██▉       | 50/171 [01:51<04:00,  1.99s/it]

data_listの大きさ: 2939
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=51


 30%|██▉       | 51/171 [01:53<03:57,  1.98s/it]

data_listの大きさ: 2972
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=52


 30%|███       | 52/171 [01:55<04:04,  2.05s/it]

data_listの大きさ: 3008
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=53


 31%|███       | 53/171 [01:57<03:54,  1.99s/it]

data_listの大きさ: 3050
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=54


 32%|███▏      | 54/171 [01:59<03:54,  2.00s/it]

data_listの大きさ: 3091
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=55


 32%|███▏      | 55/171 [02:01<03:54,  2.02s/it]

data_listの大きさ: 3146
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=56


 33%|███▎      | 56/171 [02:03<03:50,  2.00s/it]

data_listの大きさ: 3190
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=57


 33%|███▎      | 57/171 [02:05<03:48,  2.00s/it]

data_listの大きさ: 3241
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=58


 34%|███▍      | 58/171 [02:07<03:47,  2.01s/it]

data_listの大きさ: 3277
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=59


 35%|███▍      | 59/171 [02:09<03:43,  1.99s/it]

data_listの大きさ: 3311
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=60


 35%|███▌      | 60/171 [02:11<03:41,  2.00s/it]

data_listの大きさ: 3354
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=61


 36%|███▌      | 61/171 [02:12<03:34,  1.95s/it]

data_listの大きさ: 3390
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=62


 36%|███▋      | 62/171 [02:14<03:31,  1.94s/it]

data_listの大きさ: 3425
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=63


 37%|███▋      | 63/171 [02:16<03:31,  1.96s/it]

data_listの大きさ: 3461
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=64


 37%|███▋      | 64/171 [02:18<03:28,  1.95s/it]

data_listの大きさ: 3496
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=65


 38%|███▊      | 65/171 [02:20<03:30,  1.98s/it]

data_listの大きさ: 3532
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=66


 39%|███▊      | 66/171 [02:22<03:26,  1.97s/it]

data_listの大きさ: 3572
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=67


 39%|███▉      | 67/171 [02:24<03:26,  1.99s/it]

data_listの大きさ: 3626
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=68


 40%|███▉      | 68/171 [02:26<03:22,  1.96s/it]

data_listの大きさ: 3659
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=69


 40%|████      | 69/171 [02:28<03:22,  1.98s/it]

data_listの大きさ: 3700
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=70


 41%|████      | 70/171 [02:30<03:22,  2.00s/it]

data_listの大きさ: 3743
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=71


 42%|████▏     | 71/171 [02:32<03:15,  1.96s/it]

data_listの大きさ: 3771
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=72


 42%|████▏     | 72/171 [02:34<03:12,  1.94s/it]

data_listの大きさ: 3807
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=73


 43%|████▎     | 73/171 [02:36<03:12,  1.96s/it]

data_listの大きさ: 3837
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=74


 43%|████▎     | 74/171 [02:38<03:08,  1.95s/it]

data_listの大きさ: 3875
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=75


 44%|████▍     | 75/171 [02:40<03:17,  2.06s/it]

data_listの大きさ: 3911
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=76


 44%|████▍     | 76/171 [02:42<03:16,  2.07s/it]

data_listの大きさ: 3943
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=77


 45%|████▌     | 77/171 [02:44<03:09,  2.02s/it]

data_listの大きさ: 3979
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=78


 46%|████▌     | 78/171 [02:46<03:06,  2.00s/it]

data_listの大きさ: 4008
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=79


 46%|████▌     | 79/171 [02:48<03:02,  1.99s/it]

data_listの大きさ: 4048
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=80


 47%|████▋     | 80/171 [02:50<02:57,  1.95s/it]

data_listの大きさ: 4081
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=81


 47%|████▋     | 81/171 [02:52<02:59,  1.99s/it]

data_listの大きさ: 4127
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=82


 48%|████▊     | 82/171 [02:54<02:53,  1.95s/it]

data_listの大きさ: 4166
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=83


 49%|████▊     | 83/171 [02:56<02:51,  1.95s/it]

data_listの大きさ: 4208
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=84


 49%|████▉     | 84/171 [02:58<02:51,  1.97s/it]

data_listの大きさ: 4240
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=85


 50%|████▉     | 85/171 [03:00<02:49,  1.97s/it]

data_listの大きさ: 4273
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=86


 50%|█████     | 86/171 [03:02<02:57,  2.09s/it]

data_listの大きさ: 4334
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=87


 51%|█████     | 87/171 [03:04<02:48,  2.01s/it]

data_listの大きさ: 4369
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=88


 51%|█████▏    | 88/171 [03:06<02:45,  1.99s/it]

data_listの大きさ: 4411
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=89


 52%|█████▏    | 89/171 [03:08<02:44,  2.00s/it]

data_listの大きさ: 4443
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=90


 53%|█████▎    | 90/171 [03:10<02:41,  1.99s/it]

data_listの大きさ: 4478
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=91


 53%|█████▎    | 91/171 [03:12<02:39,  1.99s/it]

data_listの大きさ: 4528
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=92


 54%|█████▍    | 92/171 [03:14<02:39,  2.02s/it]

data_listの大きさ: 4565
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=93


 54%|█████▍    | 93/171 [03:16<02:33,  1.97s/it]

data_listの大きさ: 4590
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=94


 55%|█████▍    | 94/171 [03:18<02:32,  1.98s/it]

data_listの大きさ: 4619
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=95


 56%|█████▌    | 95/171 [03:20<02:31,  1.99s/it]

data_listの大きさ: 4653
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=96


 56%|█████▌    | 96/171 [03:22<02:27,  1.96s/it]

data_listの大きさ: 4692
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=97


 57%|█████▋    | 97/171 [03:24<02:25,  1.97s/it]

data_listの大きさ: 4721
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=98


 57%|█████▋    | 98/171 [03:26<02:20,  1.92s/it]

data_listの大きさ: 4747
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=99


 58%|█████▊    | 99/171 [03:28<02:17,  1.91s/it]

data_listの大きさ: 4781
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=100


 58%|█████▊    | 100/171 [03:30<02:17,  1.94s/it]

data_listの大きさ: 4809
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=101


 59%|█████▉    | 101/171 [03:32<02:16,  1.95s/it]

data_listの大きさ: 4835
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=102


 60%|█████▉    | 102/171 [03:34<02:14,  1.95s/it]

data_listの大きさ: 4880
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=103


 60%|██████    | 103/171 [03:36<02:12,  1.94s/it]

data_listの大きさ: 4905
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=104


 61%|██████    | 104/171 [03:38<02:10,  1.95s/it]

data_listの大きさ: 4947
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=105


 61%|██████▏   | 105/171 [03:39<02:06,  1.91s/it]

data_listの大きさ: 4972
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=106


 62%|██████▏   | 106/171 [03:41<02:04,  1.92s/it]

data_listの大きさ: 4994
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=107


 63%|██████▎   | 107/171 [03:43<02:04,  1.94s/it]

data_listの大きさ: 5033
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=108


 63%|██████▎   | 108/171 [03:45<02:02,  1.94s/it]

data_listの大きさ: 5057
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=109


 64%|██████▎   | 109/171 [03:47<01:59,  1.93s/it]

data_listの大きさ: 5083
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=110


 64%|██████▍   | 110/171 [03:49<01:56,  1.91s/it]

data_listの大きさ: 5109
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=111


 65%|██████▍   | 111/171 [03:51<01:55,  1.92s/it]

data_listの大きさ: 5135
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=112


 65%|██████▌   | 112/171 [03:53<01:55,  1.95s/it]

data_listの大きさ: 5165
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=113


 66%|██████▌   | 113/171 [03:55<01:51,  1.93s/it]

data_listの大きさ: 5190
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=114


 67%|██████▋   | 114/171 [03:57<01:49,  1.91s/it]

data_listの大きさ: 5216
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=115


 67%|██████▋   | 115/171 [03:59<01:47,  1.91s/it]

data_listの大きさ: 5241
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=116


 68%|██████▊   | 116/171 [04:00<01:44,  1.89s/it]

data_listの大きさ: 5273
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=117


 68%|██████▊   | 117/171 [04:02<01:42,  1.90s/it]

data_listの大きさ: 5297
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=118


 69%|██████▉   | 118/171 [04:04<01:40,  1.90s/it]

data_listの大きさ: 5326
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=119


 70%|██████▉   | 119/171 [04:06<01:37,  1.88s/it]

data_listの大きさ: 5352
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=120


 70%|███████   | 120/171 [04:08<01:34,  1.85s/it]

data_listの大きさ: 5376
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=121


 71%|███████   | 121/171 [04:10<01:33,  1.87s/it]

data_listの大きさ: 5401
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=122


 71%|███████▏  | 122/171 [04:12<01:36,  1.97s/it]

data_listの大きさ: 5423
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=123


 72%|███████▏  | 123/171 [04:14<01:34,  1.96s/it]

data_listの大きさ: 5447
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=124


 73%|███████▎  | 124/171 [04:16<01:33,  1.99s/it]

data_listの大きさ: 5478
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=125


 73%|███████▎  | 125/171 [04:18<01:31,  1.98s/it]

data_listの大きさ: 5506
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=126


 74%|███████▎  | 126/171 [04:20<01:27,  1.93s/it]

data_listの大きさ: 5527
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=127


 74%|███████▍  | 127/171 [04:22<01:26,  1.96s/it]

data_listの大きさ: 5551
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=128


 75%|███████▍  | 128/171 [04:24<01:23,  1.94s/it]

data_listの大きさ: 5578
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=129


 75%|███████▌  | 129/171 [04:26<01:20,  1.91s/it]

data_listの大きさ: 5602
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=130


 76%|███████▌  | 130/171 [04:27<01:18,  1.91s/it]

data_listの大きさ: 5630
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=131


 77%|███████▋  | 131/171 [04:30<01:18,  1.96s/it]

data_listの大きさ: 5655
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=132


 77%|███████▋  | 132/171 [04:31<01:15,  1.93s/it]

data_listの大きさ: 5681
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=133


 78%|███████▊  | 133/171 [04:33<01:13,  1.92s/it]

data_listの大きさ: 5708
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=134


 78%|███████▊  | 134/171 [04:35<01:10,  1.91s/it]

data_listの大きさ: 5734
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=135


 79%|███████▉  | 135/171 [04:37<01:07,  1.89s/it]

data_listの大きさ: 5754
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=136


 80%|███████▉  | 136/171 [04:39<01:06,  1.89s/it]

data_listの大きさ: 5778
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=137


 80%|████████  | 137/171 [04:41<01:03,  1.87s/it]

data_listの大きさ: 5812
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=138


 81%|████████  | 138/171 [04:43<01:02,  1.91s/it]

data_listの大きさ: 5838
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=139


 81%|████████▏ | 139/171 [04:45<01:00,  1.90s/it]

data_listの大きさ: 5861
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=140


 82%|████████▏ | 140/171 [04:47<00:59,  1.93s/it]

data_listの大きさ: 5887
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=141


 82%|████████▏ | 141/171 [04:48<00:57,  1.91s/it]

data_listの大きさ: 5912
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=142


 83%|████████▎ | 142/171 [04:50<00:55,  1.90s/it]

data_listの大きさ: 5941
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=143


 84%|████████▎ | 143/171 [04:52<00:53,  1.90s/it]

data_listの大きさ: 5970
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=144


 84%|████████▍ | 144/171 [04:54<00:50,  1.89s/it]

data_listの大きさ: 5996
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=145


 85%|████████▍ | 145/171 [04:56<00:49,  1.89s/it]

data_listの大きさ: 6020
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=146


 85%|████████▌ | 146/171 [04:58<00:47,  1.88s/it]

data_listの大きさ: 6048
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=147


 86%|████████▌ | 147/171 [05:00<00:44,  1.86s/it]

data_listの大きさ: 6080
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=148


 87%|████████▋ | 148/171 [05:02<00:43,  1.89s/it]

data_listの大きさ: 6105
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=149


 87%|████████▋ | 149/171 [05:04<00:41,  1.89s/it]

data_listの大きさ: 6135
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=150


 88%|████████▊ | 150/171 [05:05<00:39,  1.88s/it]

data_listの大きさ: 6160
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=151


 88%|████████▊ | 151/171 [05:07<00:37,  1.88s/it]

data_listの大きさ: 6183
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=152


 89%|████████▉ | 152/171 [05:09<00:35,  1.85s/it]

data_listの大きさ: 6206
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=153


 89%|████████▉ | 153/171 [05:11<00:33,  1.85s/it]

data_listの大きさ: 6229
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=154


 90%|█████████ | 154/171 [05:13<00:31,  1.88s/it]

data_listの大きさ: 6255
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=155


 91%|█████████ | 155/171 [05:15<00:30,  1.93s/it]

data_listの大きさ: 6281
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=156


 91%|█████████ | 156/171 [05:17<00:28,  1.90s/it]

data_listの大きさ: 6305
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=157


 92%|█████████▏| 157/171 [05:19<00:26,  1.89s/it]

data_listの大きさ: 6330
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=158


 92%|█████████▏| 158/171 [05:21<00:24,  1.92s/it]

data_listの大きさ: 6360
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=159


 93%|█████████▎| 159/171 [05:22<00:22,  1.90s/it]

data_listの大きさ: 6380
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=160


 94%|█████████▎| 160/171 [05:24<00:20,  1.87s/it]

data_listの大きさ: 6404
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=161


 94%|█████████▍| 161/171 [05:26<00:18,  1.89s/it]

data_listの大きさ: 6431
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=162


 95%|█████████▍| 162/171 [05:28<00:17,  1.93s/it]

data_listの大きさ: 6455
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=163


 95%|█████████▌| 163/171 [05:30<00:15,  1.91s/it]

data_listの大きさ: 6477
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=164


 96%|█████████▌| 164/171 [05:32<00:13,  1.91s/it]

data_listの大きさ: 6501
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=165


 96%|█████████▋| 165/171 [05:34<00:11,  1.87s/it]

data_listの大きさ: 6526
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=166


 97%|█████████▋| 166/171 [05:36<00:09,  1.85s/it]

data_listの大きさ: 6553
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=167


 98%|█████████▊| 167/171 [05:37<00:07,  1.88s/it]

data_listの大きさ: 6582
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=168


 98%|█████████▊| 168/171 [05:39<00:05,  1.88s/it]

data_listの大きさ: 6611
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=169


 99%|█████████▉| 169/171 [05:41<00:03,  1.88s/it]

data_listの大きさ: 6639
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=170


 99%|█████████▉| 170/171 [05:43<00:01,  1.88s/it]

data_listの大きさ: 6667
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=171


100%|██████████| 171/171 [05:45<00:00,  2.02s/it]


utf-8, utf-8-sig の違い
https://qiita.com/showmurai/items/60d32006d13512ffeaff

エンコードのコーデックに 'utf-8-sig' とすると、BOM有りの場合スキップして読み込んでくれる。
BOM無しの場合はそのままUTF-8として読み込むことが可能。

UTF-8 には BOM(Byte order mark)が付く場合がある。
UTF-8にBOMを付けるのは、Windows'メモ帳'やExcel。LinuxやMacは基本的にBOM無しUTF-8で扱う。

In [22]:
#最後のインデックスを確認
data_list[-1]

{'title': 'ＪＲ山手線 田端駅 2階建 築63年',
 'address': '東京都文京区本駒込４',
 'access': '\nＪＲ山手線/田端駅 歩13分\n都営三田線/千石駅 歩17分\n東京メトロ南北線/本駒込駅 歩18分\n',
 'age': '\n築63年\n2階建\n',
 'floor': '\r\n\t\t\t\t\t\t\t\t\t\t\t2階',
 'rent': '3万円',
 'administration': '2000円',
 'deposit': '-',
 'gratuity': '-',
 'madori': 'ワンルーム',
 'menseki': '8.2m2'}

In [23]:
#データフレームを作成
df = pd.DataFrame(data_list)
df2 = df.applymap(lambda x: re.sub('\n', ' ', x)) #`\n`を半角スペースに置換
df3 = df2.applymap(lambda x: re.sub('\r', ' ', x)) #`\r`を半角スペースに置換
df_Final = df3.applymap(lambda x: re.sub('\t', ' ', x)) #`\t`を半角スペースに置換
df_Final.to_csv('SUUMO_bunkyo.csv', index=False, encoding='utf-8-sig')

print("csv出力が完了しました")

#df.applymap() : データフレーム全体に対して、カッコ内の関数を適応
#lambda x: re.sub('\n', ' ', x)) : 引数で渡された`x`に対して、`\n`を半角スペースに置換

df_Final.head()

csv出力が完了しました


Unnamed: 0,title,address,access,age,floor,rent,administration,deposit,gratuity,madori,menseki
0,アーバンステージ千石II,東京都文京区千石４,都営三田線/千石駅 歩6分 ＪＲ山手線/巣鴨駅 歩9分 東京メトロ丸ノ内線/新大塚駅 歩12分,築6年 4階建,1階,10.8万円,8000円,10.8万円,10.8万円,1LDK,30.06m2
1,アーバンステージ千石II,東京都文京区千石４,都営三田線/千石駅 歩6分 ＪＲ山手線/巣鴨駅 歩9分 東京メトロ丸ノ内線/新大塚駅 歩12分,築6年 4階建,2階,15.7万円,10000円,15.7万円,15.7万円,1LDK,41.33m2
2,ＡＴＬＡＳ　Ｃａｒｏ　東大前,東京都文京区弥生２,東京メトロ千代田線/根津駅 歩6分 東京メトロ南北線/東大前駅 歩10分 東京メトロ千代田...,築5年 5階建,3階,9万円,6500円,-,9万円,ワンルーム,20.01m2
3,ＡＴＬＡＳ　Ｃａｒｏ　東大前,東京都文京区弥生２,東京メトロ千代田線/根津駅 歩6分 東京メトロ南北線/東大前駅 歩10分 東京メトロ千代田...,築5年 5階建,5階,15万円,6500円,-,15万円,1LDK,40.27m2
4,モンテ駒込,東京都文京区千駄木５,東京メトロ南北線/本駒込駅 歩8分 東京メトロ千代田線/千駄木駅 歩13分 都営三田線/白...,築2年 5階建,4階,10.3万円,10000円,-,-,1LDK,25.06m2


In [24]:
#dfの大きさ確認
df.shape

(6672, 11)

In [25]:
#物件名の重複を削除した場合の、dfの大きさを確認 = 物件数
len(df.title.unique())

3224

スクレイピングエラーが発生する場合考えられる事項。

以下、調べた結果
- ウェブサイトのアンチスクレイピング機能
    - 多くのウェブサイトは、スクレイピングを検出してブロックするための機能を備えている。頻繁なアクセスや一定のパターンのアクセスが検出されると、IPアドレスが一時的にブロックされることがある。

- リクエストの制限
    - サーバーは一定時間内のリクエスト数に制限を設けている場合がある。これに達すると、それ以上のリクエストは拒否されるか、エラーが返される。

- タイムアウトエラー
    - ネットワークの問題やサーバーの過負荷などにより、リクエストがタイムアウトすることがある。

- ページ構造の変更
    - スクレイピングしているウェブサイトがページの構造を変更した場合、コードが正しく機能しなくなることがある。

- スクリプトのエラー
    - スクリプト自体に問題がある場合。例えば、特定の条件下でエラーが発生する可能性があるコードなど。

一般的には、ウェブサイトやサーバーのポリシーによって、一度のセッションで取得できるデータ量やリクエスト数に制限が設けられることがある。

### スプレッドシートに出力

In [26]:
#google spread sheets 出力
#ライブラリのインポート
import gspread
from oauth2client.service_account import ServiceAccountCredentials

#環境変数関連
from dotenv import load_dotenv
load_dotenv()
import os

In [27]:
#スコープとjsonファイルを使って認証情報を取得
SCOPES = ['https://www.googleapis.com/auth/spreadsheets', 'https://www.googleapis.com/auth/drive']
SERVICE_ACCOUNT_FILE = os.getenv('SERVICE_ACCOUNT_FILE')
credentials = ServiceAccountCredentials.from_json_keyfile_name(SERVICE_ACCOUNT_FILE, SCOPES)

In [28]:
#認証情報をauthorize関数に渡してスプレッドシートの操作権を取得
gs = gspread.authorize(credentials)

#シート情報を取得して変数に代入
SPREADSHEET_KEY = os.getenv('SPREADSHEET_KEY')
workbook = gs.open_by_key(SPREADSHEET_KEY)
worksheet = workbook.worksheet("suumo_DB")

In [29]:
#dfから値を習得
values = [df.columns.values.tolist()] + df.values.tolist()

# ワークシートの指定したセル(B2)から値を追加
worksheet.update("B2", values)

  worksheet.update("B2", values)


{'spreadsheetId': '14JE9_LppdTkFaE533XHqdfOmKSLTas24s_j8RGP_u8A',
 'updatedRange': 'suumo_DB!B2:L6674',
 'updatedRows': 6673,
 'updatedColumns': 11,
 'updatedCells': 73403}