### 東京都文京区物件スクレイピング

In [4]:
#ライブラリのインポート
from bs4 import BeautifulSoup
import re #不要文字削除
import requests
from time import sleep
from tqdm import tqdm   #for文の進捗確認
import pandas as pd

In [5]:
# 最後のページの数値を取得
url = 'https://suumo.jp/chintai/tokyo/sc_bunkyo/?page={}'
res = requests.get(url.format(1))
#1ページ目のページネーションに全ページの番号が表示されるので、1ページ目のページネーション部分をスクレイピングし、その中の最後の要素（最後のページ番号）を取得
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
last_page = int(soup.find('ol', class_='pagination-parts').find_all('li')[-1].text)
#[-1]でページネーションのリストから最後の要素を取得
#textでページ番号を取得
#intで整数型に変換

In [6]:
#空のリストを作成
data_list = []

In [7]:
# 正常にHTML情報が取得できれば以下のコードを実行
if res.status_code == 200:

    #文京区のSUUMO掲載物件全ページ情報を取得
    for page in tqdm(range(1, last_page +1)): #for文の進捗を確認
    #range(start, stop) 関数は、startから始まってstop-1までの数値のシーケンスを生成。stopの値自体はシーケンスに含まれないため +1で最後のページもスクレイピング。
        target_url = url.format(page)
        #ページ取得できているかの確認
        print("data_listの大きさ:",len(data_list))
        print(target_url)

        #requestを使ってURLにアクセス
        res = requests.get(target_url)
        #相手サイトの負荷軽減
        sleep(1)
        #文字化け防止
        res.encoding = 'utf-8'
        #取得したHTMLをBeautifulSoupで解析
        soup = BeautifulSoup(res.text, 'html.parser')

        #全ての物件情報取得
        contents = soup.find_all('div', class_= 'cassetteitem')

        #for文で物件・部屋情報取得
        for content in contents:
            #物件・部屋情報を解析
            detail = content.find('div', class_='cassetteitem-detail')
            table = content.find('table', class_='cassetteitem_other')

            #物件情報から必要情報を取得
            title = detail.find('div', class_='cassetteitem_content-title').text
            address = detail.find('li', class_='cassetteitem_detail-col1').text
            access = detail.find('li', class_='cassetteitem_detail-col2').text
            age = detail.find('li', class_='cassetteitem_detail-col3').text

            #部屋情報を取得
            tr_tags = table.find_all('tr', class_='js-cassette_link')

            #for文で部屋情報取得
            for tr_tag in tr_tags:
                #部屋情報から必要情報を取得
                floor, price, first_fee, capacity = tr_tag.find_all('td')[2:6]
                #さらに細かい情報取得
                rent, administration = price.find_all('li')
                deposit, gratuity = first_fee.find_all('li')
                madori, menseki = capacity.find_all('li')
                #取得した全ての情報を辞書に格納
                data = {
                    'title' : title,
                    'address' : address,
                    'access' : access,
                    'age' : age,
                    'floor': floor.text,
                    'rent' : rent.text,
                    'administration' : administration.text,
                    'deposit' : deposit.text,
                    'gratuity' : gratuity.text,
                    'madori' : madori.text,
                    'menseki' : menseki.text
                }
                #取得した辞書を格納
                data_list.append(data)

  0%|          | 0/170 [00:00<?, ?it/s]

data_listの大きさ: 0
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=1


  1%|          | 1/170 [00:02<07:50,  2.78s/it]

data_listの大きさ: 88
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=2


  1%|          | 2/170 [00:05<07:07,  2.54s/it]

data_listの大きさ: 162
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=3


  2%|▏         | 3/170 [00:07<07:14,  2.60s/it]

data_listの大きさ: 222
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=4


  2%|▏         | 4/170 [00:10<07:37,  2.76s/it]

data_listの大きさ: 288
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=5


  3%|▎         | 5/170 [00:13<07:18,  2.66s/it]

data_listの大きさ: 342
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=6


  4%|▎         | 6/170 [00:15<06:32,  2.39s/it]

data_listの大きさ: 399
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=7


  4%|▍         | 7/170 [00:17<06:48,  2.51s/it]

data_listの大きさ: 446
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=8


  5%|▍         | 8/170 [00:20<06:27,  2.39s/it]

data_listの大きさ: 534
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=9


  5%|▌         | 9/170 [00:22<06:26,  2.40s/it]

data_listの大きさ: 655
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=10


  6%|▌         | 10/170 [00:24<06:09,  2.31s/it]

data_listの大きさ: 713
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=11


  6%|▋         | 11/170 [00:26<05:58,  2.25s/it]

data_listの大きさ: 800
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=12


  7%|▋         | 12/170 [00:28<05:44,  2.18s/it]

data_listの大きさ: 849
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=13


  8%|▊         | 13/170 [00:31<06:06,  2.33s/it]

data_listの大きさ: 953
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=14


  8%|▊         | 14/170 [00:34<06:16,  2.41s/it]

data_listの大きさ: 1100
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=15


  9%|▉         | 15/170 [00:36<06:10,  2.39s/it]

data_listの大きさ: 1176
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=16


  9%|▉         | 16/170 [00:38<05:51,  2.28s/it]

data_listの大きさ: 1216
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=17


 10%|█         | 17/170 [00:40<05:37,  2.20s/it]

data_listの大きさ: 1256
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=18


 11%|█         | 18/170 [00:42<05:36,  2.22s/it]

data_listの大きさ: 1334
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=19


 11%|█         | 19/170 [00:44<05:27,  2.17s/it]

data_listの大きさ: 1391
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=20


 12%|█▏        | 20/170 [00:46<05:22,  2.15s/it]

data_listの大きさ: 1450
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=21


 12%|█▏        | 21/170 [00:48<05:18,  2.14s/it]

data_listの大きさ: 1508
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=22


 13%|█▎        | 22/170 [00:51<05:15,  2.13s/it]

data_listの大きさ: 1549
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=23


 14%|█▎        | 23/170 [00:53<05:20,  2.18s/it]

data_listの大きさ: 1595
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=24


 14%|█▍        | 24/170 [00:55<05:36,  2.31s/it]

data_listの大きさ: 1653
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=25


 15%|█▍        | 25/170 [00:58<05:45,  2.38s/it]

data_listの大きさ: 1698
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=26


 15%|█▌        | 26/170 [01:00<05:24,  2.25s/it]

data_listの大きさ: 1735
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=27


 16%|█▌        | 27/170 [01:02<05:16,  2.21s/it]

data_listの大きさ: 1783
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=28


 16%|█▋        | 28/170 [01:05<05:33,  2.35s/it]

data_listの大きさ: 1852
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=29


 17%|█▋        | 29/170 [01:07<05:26,  2.31s/it]

data_listの大きさ: 1894
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=30


 18%|█▊        | 30/170 [01:09<05:17,  2.27s/it]

data_listの大きさ: 1943
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=31


 18%|█▊        | 31/170 [01:11<05:05,  2.20s/it]

data_listの大きさ: 1981
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=32


 19%|█▉        | 32/170 [01:13<05:00,  2.18s/it]

data_listの大きさ: 2026
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=33


 19%|█▉        | 33/170 [01:16<05:07,  2.24s/it]

data_listの大きさ: 2080
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=34


 20%|██        | 34/170 [01:18<04:58,  2.19s/it]

data_listの大きさ: 2140
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=35


 21%|██        | 35/170 [01:20<04:48,  2.14s/it]

data_listの大きさ: 2190
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=36


 21%|██        | 36/170 [01:22<04:41,  2.10s/it]

data_listの大きさ: 2219
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=37


 22%|██▏       | 37/170 [01:24<04:36,  2.08s/it]

data_listの大きさ: 2267
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=38


 22%|██▏       | 38/170 [01:26<04:46,  2.17s/it]

data_listの大きさ: 2328
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=39


 23%|██▎       | 39/170 [01:28<04:40,  2.14s/it]

data_listの大きさ: 2386
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=40


 24%|██▎       | 40/170 [01:31<04:45,  2.19s/it]

data_listの大きさ: 2486
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=41


 24%|██▍       | 41/170 [01:33<04:44,  2.21s/it]

data_listの大きさ: 2560
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=42


 25%|██▍       | 42/170 [01:35<04:34,  2.15s/it]

data_listの大きさ: 2599
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=43


 25%|██▌       | 43/170 [01:37<04:30,  2.13s/it]

data_listの大きさ: 2642
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=44


 26%|██▌       | 44/170 [01:39<04:38,  2.21s/it]

data_listの大きさ: 2679
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=45


 26%|██▋       | 45/170 [01:41<04:30,  2.17s/it]

data_listの大きさ: 2751
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=46


 27%|██▋       | 46/170 [01:44<04:27,  2.16s/it]

data_listの大きさ: 2787
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=47


 28%|██▊       | 47/170 [01:46<04:21,  2.13s/it]

data_listの大きさ: 2838
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=48


 28%|██▊       | 48/170 [01:48<04:25,  2.17s/it]

data_listの大きさ: 2876
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=49


 29%|██▉       | 49/170 [01:50<04:21,  2.16s/it]

data_listの大きさ: 2914
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=50


 29%|██▉       | 50/170 [01:52<04:20,  2.17s/it]

data_listの大きさ: 2947
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=51


 30%|███       | 51/170 [01:54<04:15,  2.15s/it]

data_listの大きさ: 2977
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=52


 31%|███       | 52/170 [01:57<04:24,  2.24s/it]

data_listの大きさ: 3011
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=53


 31%|███       | 53/170 [01:59<04:18,  2.21s/it]

data_listの大きさ: 3042
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=54


 32%|███▏      | 54/170 [02:01<04:06,  2.13s/it]

data_listの大きさ: 3076
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=55


 32%|███▏      | 55/170 [02:03<04:01,  2.10s/it]

data_listの大きさ: 3119
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=56


 33%|███▎      | 56/170 [02:05<04:05,  2.15s/it]

data_listの大きさ: 3162
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=57


 34%|███▎      | 57/170 [02:07<04:00,  2.13s/it]

data_listの大きさ: 3206
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=58


 34%|███▍      | 58/170 [02:09<03:54,  2.09s/it]

data_listの大きさ: 3256
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=59


 35%|███▍      | 59/170 [02:11<03:47,  2.05s/it]

data_listの大きさ: 3291
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=60


 35%|███▌      | 60/170 [02:13<03:47,  2.07s/it]

data_listの大きさ: 3340
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=61


 36%|███▌      | 61/170 [02:15<03:45,  2.07s/it]

data_listの大きさ: 3382
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=62


 36%|███▋      | 62/170 [02:18<03:48,  2.11s/it]

data_listの大きさ: 3430
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=63


 37%|███▋      | 63/170 [02:19<03:40,  2.06s/it]

data_listの大きさ: 3468
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=64


 38%|███▊      | 64/170 [02:21<03:32,  2.01s/it]

data_listの大きさ: 3502
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=65


 38%|███▊      | 65/170 [02:23<03:30,  2.01s/it]

data_listの大きさ: 3536
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=66


 39%|███▉      | 66/170 [02:25<03:28,  2.00s/it]

data_listの大きさ: 3569
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=67


 39%|███▉      | 67/170 [02:27<03:23,  1.98s/it]

data_listの大きさ: 3605
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=68


 40%|████      | 68/170 [02:29<03:23,  1.99s/it]

data_listの大きさ: 3644
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=69


 41%|████      | 69/170 [02:31<03:25,  2.03s/it]

data_listの大きさ: 3685
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=70


 41%|████      | 70/170 [02:34<03:24,  2.05s/it]

data_listの大きさ: 3745
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=71


 42%|████▏     | 71/170 [02:35<03:18,  2.01s/it]

data_listの大きさ: 3780
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=72


 42%|████▏     | 72/170 [02:37<03:17,  2.01s/it]

data_listの大きさ: 3824
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=73


 43%|████▎     | 73/170 [02:39<03:12,  1.98s/it]

data_listの大きさ: 3868
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=74


 44%|████▎     | 74/170 [02:41<03:07,  1.95s/it]

data_listの大きさ: 3903
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=75


 44%|████▍     | 75/170 [02:43<03:09,  2.00s/it]

data_listの大きさ: 3942
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=76


 45%|████▍     | 76/170 [02:45<03:05,  1.97s/it]

data_listの大きさ: 3981
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=77


 45%|████▌     | 77/170 [02:47<03:04,  1.99s/it]

data_listの大きさ: 4017
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=78


 46%|████▌     | 78/170 [02:49<03:03,  2.00s/it]

data_listの大きさ: 4068
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=79


 46%|████▋     | 79/170 [02:51<03:04,  2.02s/it]

data_listの大きさ: 4103
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=80


 47%|████▋     | 80/170 [02:53<03:02,  2.03s/it]

data_listの大きさ: 4138
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=81


 48%|████▊     | 81/170 [02:56<03:02,  2.05s/it]

data_listの大きさ: 4173
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=82


 48%|████▊     | 82/170 [02:58<02:58,  2.03s/it]

data_listの大きさ: 4204
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=83


 49%|████▉     | 83/170 [02:59<02:54,  2.00s/it]

data_listの大きさ: 4238
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=84


 49%|████▉     | 84/170 [03:01<02:50,  1.98s/it]

data_listの大きさ: 4274
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=85


 50%|█████     | 85/170 [03:03<02:48,  1.98s/it]

data_listの大きさ: 4312
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=86


 51%|█████     | 86/170 [03:05<02:46,  1.98s/it]

data_listの大きさ: 4345
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=87


 51%|█████     | 87/170 [03:07<02:44,  1.99s/it]

data_listの大きさ: 4385
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=88


 52%|█████▏    | 88/170 [03:09<02:42,  1.98s/it]

data_listの大きさ: 4419
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=89


 52%|█████▏    | 89/170 [03:11<02:40,  1.98s/it]

data_listの大きさ: 4456
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=90


 53%|█████▎    | 90/170 [03:13<02:38,  1.99s/it]

data_listの大きさ: 4494
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=91


 54%|█████▎    | 91/170 [03:15<02:35,  1.97s/it]

data_listの大きさ: 4525
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=92


 54%|█████▍    | 92/170 [03:17<02:37,  2.02s/it]

data_listの大きさ: 4573
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=93


 55%|█████▍    | 93/170 [03:19<02:34,  2.00s/it]

data_listの大きさ: 4599
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=94


 55%|█████▌    | 94/170 [03:21<02:29,  1.97s/it]

data_listの大きさ: 4633
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=95


 56%|█████▌    | 95/170 [03:23<02:26,  1.95s/it]

data_listの大きさ: 4668
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=96


 56%|█████▋    | 96/170 [03:25<02:23,  1.94s/it]

data_listの大きさ: 4707
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=97


 57%|█████▋    | 97/170 [03:27<02:22,  1.96s/it]

data_listの大きさ: 4737
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=98


 58%|█████▊    | 98/170 [03:29<02:20,  1.95s/it]

data_listの大きさ: 4771
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=99


 58%|█████▊    | 99/170 [03:31<02:17,  1.94s/it]

data_listの大きさ: 4799
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=100


 59%|█████▉    | 100/170 [03:33<02:18,  1.98s/it]

data_listの大きさ: 4826
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=101


 59%|█████▉    | 101/170 [03:35<02:15,  1.97s/it]

data_listの大きさ: 4851
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=102


 60%|██████    | 102/170 [03:37<02:13,  1.96s/it]

data_listの大きさ: 4880
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=103


 61%|██████    | 103/170 [03:39<02:14,  2.01s/it]

data_listの大きさ: 4907
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=104


 61%|██████    | 104/170 [03:41<02:11,  1.99s/it]

data_listの大きさ: 4938
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=105


 62%|██████▏   | 105/170 [03:43<02:09,  1.99s/it]

data_listの大きさ: 4982
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=106


 62%|██████▏   | 106/170 [03:45<02:05,  1.96s/it]

data_listの大きさ: 5011
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=107


 63%|██████▎   | 107/170 [03:47<02:01,  1.93s/it]

data_listの大きさ: 5036
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=108


 64%|██████▎   | 108/170 [03:48<01:57,  1.89s/it]

data_listの大きさ: 5065
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=109


 64%|██████▍   | 109/170 [03:50<01:55,  1.89s/it]

data_listの大きさ: 5085
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=110


 65%|██████▍   | 110/170 [03:52<01:54,  1.91s/it]

data_listの大きさ: 5109
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=111


 65%|██████▌   | 111/170 [03:54<01:53,  1.92s/it]

data_listの大きさ: 5134
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=112


 66%|██████▌   | 112/170 [03:56<01:52,  1.94s/it]

data_listの大きさ: 5159
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=113


 66%|██████▋   | 113/170 [03:58<01:51,  1.96s/it]

data_listの大きさ: 5183
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=114


 67%|██████▋   | 114/170 [04:00<01:48,  1.93s/it]

data_listの大きさ: 5207
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=115


 68%|██████▊   | 115/170 [04:02<01:47,  1.95s/it]

data_listの大きさ: 5231
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=116


 68%|██████▊   | 116/170 [04:04<01:44,  1.93s/it]

data_listの大きさ: 5258
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=117


 69%|██████▉   | 117/170 [04:06<01:42,  1.93s/it]

data_listの大きさ: 5280
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=118


 69%|██████▉   | 118/170 [04:08<01:40,  1.94s/it]

data_listの大きさ: 5306
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=119


 70%|███████   | 119/170 [04:10<01:38,  1.94s/it]

data_listの大きさ: 5328
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=120


 71%|███████   | 120/170 [04:12<01:37,  1.94s/it]

data_listの大きさ: 5350
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=121


 71%|███████   | 121/170 [04:14<01:34,  1.92s/it]

data_listの大きさ: 5379
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=122


 72%|███████▏  | 122/170 [04:16<01:36,  2.01s/it]

data_listの大きさ: 5410
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=123


 72%|███████▏  | 123/170 [04:18<01:33,  1.99s/it]

data_listの大きさ: 5434
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=124


 73%|███████▎  | 124/170 [04:20<01:30,  1.98s/it]

data_listの大きさ: 5456
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=125


 74%|███████▎  | 125/170 [04:22<01:28,  1.96s/it]

data_listの大きさ: 5485
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=126


 74%|███████▍  | 126/170 [04:24<01:25,  1.93s/it]

data_listの大きさ: 5512
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=127


 75%|███████▍  | 127/170 [04:26<01:27,  2.04s/it]

data_listの大きさ: 5537
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=128


 75%|███████▌  | 128/170 [04:28<01:23,  2.00s/it]

data_listの大きさ: 5559
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=129


 76%|███████▌  | 129/170 [04:30<01:21,  1.98s/it]

data_listの大きさ: 5582
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=130


 76%|███████▋  | 130/170 [04:32<01:18,  1.97s/it]

data_listの大きさ: 5612
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=131


 77%|███████▋  | 131/170 [04:34<01:17,  1.98s/it]

data_listの大きさ: 5643
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=132


 78%|███████▊  | 132/170 [04:36<01:15,  1.98s/it]

data_listの大きさ: 5670
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=133


 78%|███████▊  | 133/170 [04:37<01:11,  1.93s/it]

data_listの大きさ: 5691
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=134


 79%|███████▉  | 134/170 [04:39<01:09,  1.93s/it]

data_listの大きさ: 5718
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=135


 79%|███████▉  | 135/170 [04:41<01:06,  1.90s/it]

data_listの大きさ: 5747
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=136


 80%|████████  | 136/170 [04:43<01:04,  1.90s/it]

data_listの大きさ: 5773
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=137


 81%|████████  | 137/170 [04:45<01:02,  1.90s/it]

data_listの大きさ: 5806
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=138


 81%|████████  | 138/170 [04:47<01:01,  1.93s/it]

data_listの大きさ: 5832
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=139


 82%|████████▏ | 139/170 [04:49<00:59,  1.92s/it]

data_listの大きさ: 5856
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=140


 82%|████████▏ | 140/170 [04:51<00:57,  1.93s/it]

data_listの大きさ: 5886
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=141


 83%|████████▎ | 141/170 [04:53<00:56,  1.94s/it]

data_listの大きさ: 5915
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=142


 84%|████████▎ | 142/170 [04:55<00:54,  1.95s/it]

data_listの大きさ: 5941
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=143


 84%|████████▍ | 143/170 [04:57<00:53,  1.99s/it]

data_listの大きさ: 5970
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=144


 85%|████████▍ | 144/170 [04:59<00:50,  1.96s/it]

data_listの大きさ: 5996
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=145


 85%|████████▌ | 145/170 [05:01<00:49,  1.99s/it]

data_listの大きさ: 6024
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=146


 86%|████████▌ | 146/170 [05:03<00:47,  1.98s/it]

data_listの大きさ: 6053
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=147


 86%|████████▋ | 147/170 [05:05<00:44,  1.94s/it]

data_listの大きさ: 6080
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=148


 87%|████████▋ | 148/170 [05:07<00:42,  1.93s/it]

data_listの大きさ: 6109
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=149


 88%|████████▊ | 149/170 [05:08<00:40,  1.92s/it]

data_listの大きさ: 6132
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=150


 88%|████████▊ | 150/170 [05:10<00:37,  1.89s/it]

data_listの大きさ: 6157
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=151


 89%|████████▉ | 151/170 [05:12<00:35,  1.88s/it]

data_listの大きさ: 6184
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=152


 89%|████████▉ | 152/170 [05:14<00:34,  1.91s/it]

data_listの大きさ: 6209
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=153


 90%|█████████ | 153/170 [05:16<00:32,  1.92s/it]

data_listの大きさ: 6239
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=154


 91%|█████████ | 154/170 [05:18<00:30,  1.91s/it]

data_listの大きさ: 6261
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=155


 91%|█████████ | 155/170 [05:20<00:29,  1.93s/it]

data_listの大きさ: 6292
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=156


 92%|█████████▏| 156/170 [05:22<00:26,  1.92s/it]

data_listの大きさ: 6314
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=157


 92%|█████████▏| 157/170 [05:24<00:24,  1.91s/it]

data_listの大きさ: 6342
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=158


 93%|█████████▎| 158/170 [05:26<00:22,  1.91s/it]

data_listの大きさ: 6362
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=159


 94%|█████████▎| 159/170 [05:28<00:21,  1.92s/it]

data_listの大きさ: 6386
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=160


 94%|█████████▍| 160/170 [05:29<00:19,  1.90s/it]

data_listの大きさ: 6413
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=161


 95%|█████████▍| 161/170 [05:31<00:17,  1.90s/it]

data_listの大きさ: 6438
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=162


 95%|█████████▌| 162/170 [05:33<00:15,  1.89s/it]

data_listの大きさ: 6460
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=163


 96%|█████████▌| 163/170 [05:35<00:13,  1.91s/it]

data_listの大きさ: 6482
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=164


 96%|█████████▋| 164/170 [05:37<00:11,  1.91s/it]

data_listの大きさ: 6507
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=165


 97%|█████████▋| 165/170 [05:39<00:09,  1.90s/it]

data_listの大きさ: 6533
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=166


 98%|█████████▊| 166/170 [05:41<00:07,  1.92s/it]

data_listの大きさ: 6558
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=167


 98%|█████████▊| 167/170 [05:43<00:05,  1.99s/it]

data_listの大きさ: 6585
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=168


 99%|█████████▉| 168/170 [05:45<00:03,  1.97s/it]

data_listの大きさ: 6612
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=169


 99%|█████████▉| 169/170 [05:47<00:01,  1.97s/it]

data_listの大きさ: 6635
https://suumo.jp/chintai/tokyo/sc_bunkyo/?page=170


100%|██████████| 170/170 [05:49<00:00,  2.05s/it]


utf-8, utf-8-sig の違い
https://qiita.com/showmurai/items/60d32006d13512ffeaff

エンコードのコーデックに 'utf-8-sig' とすると、BOM有りの場合スキップして読み込んでくれる。
BOM無しの場合はそのままUTF-8として読み込むことが可能。

UTF-8 には BOM(Byte order mark)が付く場合がある。
UTF-8にBOMを付けるのは、Windows'メモ帳'やExcel。LinuxやMacは基本的にBOM無しUTF-8で扱う。

In [8]:
#最後のインデックスを確認
data_list[-1]

{'title': '大和荘',
 'address': '東京都文京区本駒込４',
 'access': '\nＪＲ山手線/田端駅 歩13分\n都営三田線/千石駅 歩17分\n東京メトロ南北線/本駒込駅 歩18分\n',
 'age': '\n築63年\n2階建\n',
 'floor': '\r\n\t\t\t\t\t\t\t\t\t\t\t2階',
 'rent': '3万円',
 'administration': '2000円',
 'deposit': '-',
 'gratuity': '-',
 'madori': 'ワンルーム',
 'menseki': '8.2m2'}

In [14]:
#データフレームを作成
df = pd.DataFrame(data_list)
df2 = df.applymap(lambda x: re.sub('\n', ' ', x)) #`\n`を半角スペースに置換
df3 = df2.applymap(lambda x: re.sub('\r', ' ', x)) #`\r`を半角スペースに置換
df_Final = df3.applymap(lambda x: re.sub('\t', ' ', x)) #`\t`を半角スペースに置換
df_Final.to_csv('SUUMO_bunkyo.csv', index=False, encoding='utf-8-sig')

print("csv出力が完了しました")

#df.applymap() : データフレーム全体に対して、カッコ内の関数を適応
#lambda x: re.sub('\n', ' ', x)) : 引数で渡された`x`に対して、`\n`を半角スペースに置換

df_Final.head()

csv出力が完了しました


Unnamed: 0,title,address,access,age,floor,rent,administration,deposit,gratuity,madori,menseki
0,フレンシア文京関口,東京都文京区関口１,東京メトロ有楽町線/江戸川橋駅 歩8分 東京メトロ東西線/早稲田駅 歩8分,築5年 13階建,5階,10.4万円,4000円,20.8万円,10.4万円,1K,25.31m2
1,フレンシア文京関口,東京都文京区関口１,東京メトロ有楽町線/江戸川橋駅 歩8分 東京メトロ東西線/早稲田駅 歩8分,築5年 13階建,3階,10.6万円,4000円,10.6万円,10.6万円,1K,25.31m2
2,フレンシア文京関口,東京都文京区関口１,東京メトロ有楽町線/江戸川橋駅 歩8分 東京メトロ東西線/早稲田駅 歩8分,築5年 13階建,4階,10.7万円,4000円,21.4万円,10.7万円,1K,25.31m2
3,フレンシア文京関口,東京都文京区関口１,東京メトロ有楽町線/江戸川橋駅 歩8分 東京メトロ東西線/早稲田駅 歩8分,築5年 13階建,5階,10.8万円,4000円,21.6万円,10.8万円,1K,25.31m2
4,フレンシア文京関口,東京都文京区関口１,東京メトロ有楽町線/江戸川橋駅 歩8分 東京メトロ東西線/早稲田駅 歩8分,築5年 13階建,6階,11.9万円,6000円,11.9万円,11.9万円,1LDK,30.15m2


In [15]:
#dfの大きさ確認
df.shape

(6657, 11)

In [16]:
#物件名の重複を削除した場合の、dfの大きさを確認 = 物件数
len(df.title.unique())

3208

スクレイピングエラーが発生する場合考えられる事項。

以下、調べた結果
- ウェブサイトのアンチスクレイピング機能
    - 多くのウェブサイトは、スクレイピングを検出してブロックするための機能を備えている。頻繁なアクセスや一定のパターンのアクセスが検出されると、IPアドレスが一時的にブロックされることがある。

- リクエストの制限
    - サーバーは一定時間内のリクエスト数に制限を設けている場合がある。これに達すると、それ以上のリクエストは拒否されるか、エラーが返される。

- タイムアウトエラー
    - ネットワークの問題やサーバーの過負荷などにより、リクエストがタイムアウトすることがある。

- ページ構造の変更
    - スクレイピングしているウェブサイトがページの構造を変更した場合、コードが正しく機能しなくなることがある。

- スクリプトのエラー
    - スクリプト自体に問題がある場合。例えば、特定の条件下でエラーが発生する可能性があるコードなど。

一般的には、ウェブサイトやサーバーのポリシーによって、一度のセッションで取得できるデータ量やリクエスト数に制限が設けられることがある。