In [1]:
import requests
from bs4 import BeautifulSoup
from retry import retry
import urllib

import pandas as pd
import numpy as np
import copy
import time
import re
import matplotlib.pyplot as plt

In [2]:
# 音を出す
def sound():
    !rundll32 user32.dll,MessageBeep

In [6]:
# 複数ページの情報をまとめて取得
data_samples = []

# スクレイピングするページ数
max_page = 2915
# SUUMOを東京都23区のみ指定して検索して出力した画面のurl(ページ数フォーマットが必要)
url = 'https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&ta=13&sc=13101&sc=13102&sc=13103&sc=13104&sc=13105&sc=13113&sc=13106&sc=13107&sc=13108&sc=13118&sc=13121&sc=13122&sc=13123&sc=13109&sc=13110&sc=13111&sc=13112&sc=13114&sc=13115&sc=13120&sc=13116&sc=13117&sc=13119&cb=0.0&ct=9999999&mb=0&mt=9999999&et=9999999&cn=9999999&shkr1=03&shkr2=03&shkr3=03&shkr4=03&sngz=&po1=25&pc=50&page={}'

# リクエストがうまく行かないパターンを回避するためのやり直し
@retry(tries=3, delay=10, backoff=2)
def load_page(url):
    html = requests.get(url)
    soup = BeautifulSoup(html.content, 'html.parser')
    return soup

# 処理時間を測りたい
start = time.time()
times = []

# ページごとの処理
for page in range(1,max_page+1):
    before = time.time()
    # ページ情報
    soup = load_page(url.format(page))
    # 物件情報リストを指定
    mother = soup.find_all(class_='cassetteitem')
    
    # 物件ごとの処理
    for child in mother:

        # 建物情報
        data_home = []
        # 建物名
        data_home.append(child.find(class_='cassetteitem_content-title').text)
        # 住所
        data_home.append(child.find(class_='cassetteitem_detail-col1').text)
        # 最寄り駅のアクセス
        children = child.find(class_='cassetteitem_detail-col2')
        for id,grandchild in enumerate(children.find_all(class_='cassetteitem_detail-text')):
            data_home.append(grandchild.text)
        # 築年数と階数
        children = child.find(class_='cassetteitem_detail-col3')
        for grandchild in children.find_all('div'):
            data_home.append(grandchild.text)

        # 部屋情報
        rooms = child.find(class_='cassetteitem_other')
        for room in rooms.find_all(class_='js-cassette_link'):
            data_room = []
            
            # 部屋情報が入っている表を探索
            for id_, grandchild in enumerate(room.find_all('td')):
                # 階
                if id_ == 2:
                    data_room.append(grandchild.text.strip())
                # 家賃と管理費
                elif id_ == 3:
                    data_room.append(grandchild.find(class_='cassetteitem_other-emphasis ui-text--bold').text)
                    data_room.append(grandchild.find(class_='cassetteitem_price cassetteitem_price--administration').text)
                # 敷金と礼金
                elif id_ == 4:
                    data_room.append(grandchild.find(class_='cassetteitem_price cassetteitem_price--deposit').text)
                    data_room.append(grandchild.find(class_='cassetteitem_price cassetteitem_price--gratuity').text)
                # 間取りと面積
                elif id_ == 5:
                    data_room.append(grandchild.find(class_='cassetteitem_madori').text)
                    data_room.append(grandchild.find(class_='cassetteitem_menseki').text)
                # url
                elif id_ == 8:
                    get_url = grandchild.find(class_='js-cassette_link_href cassetteitem_other-linktext').get('href')
                    abs_url = urllib.parse.urljoin(url,get_url)
                    data_room.append(abs_url)
            # 物件情報と部屋情報をくっつける
            data_sample = data_home + data_room
            data_samples.append(data_sample)
    
    # 1アクセスごとに1秒休む
    time.sleep(1)
    
    # 進捗確認
    # このページの作業時間を表示
    after = time.time()
    running_time = after - before
    times.append(running_time)
    print(f'{page}ページ目：{running_time}秒')
    # 取得した件数
    print(f'総取得件数：{len(data_samples)}')
    # 作業進捗
    complete_ratio = round(page/max_page*100,3)
    print(f'完了：{complete_ratio}%')
    # 作業の残り時間目安を表示
    running_mean = np.mean(times)
    running_required_time = running_mean * (max_page - page)
    hour = int(running_required_time/3600)
    minute = int((running_required_time%3600)/60)
    second = int(running_required_time%60)
    print(f'残り時間：{hour}時間{minute}分{second}秒\n')

# 処理時間を測りたい
finish = time.time()
running_all = finish - start
print('総経過時間：',running_all)
sound()

# 2000ページ以降はSUUMO側が耐えないらしいよ

1ページ目：5.891139030456543秒
総取得件数：213
完了：0.034%
残り時間：4時間46分6秒

2ページ目：7.795952320098877秒
総取得件数：579
完了：0.069%
残り時間：5時間32分15秒

3ページ目：7.922363519668579秒
総取得件数：1010
完了：0.103%
残り時間：5時間49分35秒

4ページ目：5.886821269989014秒
総取得件数：1225
完了：0.137%
残り時間：5時間33分30秒

5ページ目：5.917369842529297秒
総取得件数：1392
完了：0.172%
残り時間：5時間24分6秒

6ページ目：7.69843316078186秒
総取得件数：1825
完了：0.206%
残り時間：5時間32分12秒

7ページ目：6.3804240226745605秒
総取得件数：2030
完了：0.24%
残り時間：5時間28分49秒

8ページ目：6.840943813323975秒
総取得件数：2287
完了：0.274%
残り時間：5時間29分3秒

9ページ目：6.853782892227173秒
総取得件数：2528
完了：0.309%
残り時間：5時間29分16秒

10ページ目：7.5822672843933105秒
総取得件数：2817
完了：0.343%
残り時間：5時間32分57秒

11ページ目：6.3669750690460205秒
総取得件数：3046
完了：0.377%
残り時間：5時間30分36秒

12ページ目：7.929954528808594秒
総取得件数：3290
完了：0.412%
残り時間：5時間34分55秒

13ページ目：6.377439260482788秒
総取得件数：3497
完了：0.446%
残り時間：5時間32分46秒

14ページ目：5.727058172225952秒
総取得件数：3661
完了：0.48%
残り時間：5時間28分40秒

15ページ目：5.554433107376099秒
総取得件数：3806
完了：0.515%
残り時間：5時間24分33秒

16ページ目：5.391765117645264秒
総取得件数：3918
完了：0.549%
残り時間：5時間20分27秒

17ページ目

130ページ目：6.059624910354614秒
総取得件数：25094
完了：4.46%
残り時間：5時間15分15秒

131ページ目：5.726823329925537秒
総取得件数：25218
完了：4.494%
残り時間：5時間14分45秒

132ページ目：5.956931114196777秒
総取得件数：25381
完了：4.528%
残り時間：5時間14分21秒

133ページ目：6.394580364227295秒
総取得件数：25581
完了：4.563%
残り時間：5時間14分6秒

134ページ目：11.41183853149414秒
総取得件数：25750
完了：4.597%
残り時間：5時間15分36秒

135ページ目：5.9720752239227295秒
総取得件数：25927
完了：4.631%
残り時間：5時間15分12秒

136ページ目：5.9200849533081055秒
総取得件数：26064
完了：4.666%
残り時間：5時間14分47秒

137ページ目：6.370475769042969秒
総取得件数：26247
完了：4.7%
残り時間：5時間14分31秒

138ページ目：6.2474365234375秒
総取得件数：26406
完了：4.734%
残り時間：5時間14分14秒

139ページ目：6.322934627532959秒
総取得件数：26547
完了：4.768%
残り時間：5時間13分57秒

140ページ目：6.426831007003784秒
総取得件数：26739
完了：4.803%
残り時間：5時間13分44秒

141ページ目：6.171734094619751秒
総取得件数：26911
完了：4.837%
残り時間：5時間13分25秒

142ページ目：6.689643383026123秒
総取得件数：27163
完了：4.871%
残り時間：5時間13分16秒

143ページ目：5.9872825145721436秒
総取得件数：27296
完了：4.906%
残り時間：5時間12分54秒

144ページ目：5.794324159622192秒
総取得件数：27446
完了：4.94%
残り時間：5時間12分28秒

145ページ目：7.151917219161987秒
総取

258ページ目：6.069519758224487秒
総取得件数：46039
完了：8.851%
残り時間：5時間5分26秒

259ページ目：6.155915021896362秒
総取得件数：46167
完了：8.885%
残り時間：5時間5分11秒

260ページ目：6.208731651306152秒
総取得件数：46285
完了：8.919%
残り時間：5時間4分58秒

261ページ目：6.228563547134399秒
総取得件数：46450
完了：8.954%
残り時間：5時間4分44秒

262ページ目：6.460227966308594秒
総取得件数：46603
完了：8.988%
残り時間：5時間4分33秒

263ページ目：6.503612756729126秒
総取得件数：46792
完了：9.022%
残り時間：5時間4分22秒

264ページ目：17.81917428970337秒
総取得件数：47002
完了：9.057%
残り時間：5時間6分5秒

265ページ目：6.1469855308532715秒
総取得件数：47137
完了：9.091%
残り時間：5時間5分50秒

266ページ目：8.682870626449585秒
総取得件数：47299
完了：9.125%
残り時間：5時間6分1秒

267ページ目：7.007394313812256秒
総取得件数：47422
完了：9.16%
残り時間：5時間5分54秒

268ページ目：6.366147518157959秒
総取得件数：47547
完了：9.194%
残り時間：5時間5分42秒

269ページ目：6.4040820598602295秒
総取得件数：47670
完了：9.228%
残り時間：5時間5分30秒

270ページ目：7.490839242935181秒
総取得件数：47846
完了：9.262%
残り時間：5時間5分28秒

271ページ目：6.560649633407593秒
総取得件数：48027
完了：9.297%
残り時間：5時間5分18秒

272ページ目：6.889871597290039秒
総取得件数：48230
完了：9.331%
残り時間：5時間5分11秒

273ページ目：7.156445741653442秒
総取得件数：48394
完了

385ページ目：6.416501998901367秒
総取得件数：62651
完了：13.208%
残り時間：4時間53分43秒

386ページ目：6.789044141769409秒
総取得件数：62802
完了：13.242%
残り時間：4時間53分35秒

387ページ目：10.8952796459198秒
総取得件数：62968
完了：13.276%
残り時間：4時間53分54秒

388ページ目：6.547549247741699秒
総取得件数：63121
完了：13.31%
残り時間：4時間53分44秒

389ページ目：6.6887876987457275秒
総取得件数：63226
完了：13.345%
残り時間：4時間53分35秒

390ページ目：7.065445899963379秒
総取得件数：63353
完了：13.379%
残り時間：4時間53分29秒

391ページ目：6.475948333740234秒
総取得件数：63480
完了：13.413%
残り時間：4時間53分19秒

392ページ目：6.823171854019165秒
総取得件数：63637
完了：13.448%
残り時間：4時間53分11秒

393ページ目：6.885709762573242秒
総取得件数：63741
完了：13.482%
残り時間：4時間53分3秒

394ページ目：7.953898191452026秒
総取得件数：63899
完了：13.516%
残り時間：4時間53分3秒

395ページ目：6.577033281326294秒
総取得件数：63999
完了：13.551%
残り時間：4時間52分53秒

396ページ目：13.673466444015503秒
総取得件数：64101
完了：13.585%
残り時間：4時間53分29秒

397ページ目：6.641231060028076秒
総取得件数：64228
完了：13.619%
残り時間：4時間53分19秒

398ページ目：6.28804349899292秒
総取得件数：64312
完了：13.654%
残り時間：4時間53分8秒

399ページ目：13.038431882858276秒
総取得件数：64473
完了：13.688%
残り時間：4時間53分39秒

400ページ目：7.792

510ページ目：6.831506252288818秒
総取得件数：79161
完了：17.496%
残り時間：4時間45分32秒

511ページ目：7.450793981552124秒
総取得件数：79314
完了：17.53%
残り時間：4時間45分27秒

512ページ目：6.848802804946899秒
総取得件数：79418
完了：17.564%
残り時間：4時間45分18秒

513ページ目：7.927501916885376秒
総取得件数：79524
完了：17.599%
残り時間：4時間45分15秒

514ページ目：6.98499608039856秒
総取得件数：79633
完了：17.633%
残り時間：4時間45分7秒

515ページ目：10.08029055595398秒
総取得件数：79774
完了：17.667%
残り時間：4時間45分14秒

516ページ目：7.432101249694824秒
総取得件数：79946
完了：17.702%
残り時間：4時間45分8秒

517ページ目：10.186335563659668秒
総取得件数：80069
完了：17.736%
残り時間：4時間45分15秒

518ページ目：7.7329161167144775秒
総取得件数：80260
完了：17.77%
残り時間：4時間45分11秒

519ページ目：6.7570600509643555秒
総取得件数：80365
完了：17.804%
残り時間：4時間45分2秒

520ページ目：7.334327459335327秒
総取得件数：80499
完了：17.839%
残り時間：4時間44分56秒

521ページ目：6.802199602127075秒
総取得件数：80609
完了：17.873%
残り時間：4時間44分47秒

522ページ目：6.481091499328613秒
総取得件数：80695
完了：17.907%
残り時間：4時間44分37秒

523ページ目：6.574520587921143秒
総取得件数：80780
完了：17.942%
残り時間：4時間44分27秒

524ページ目：7.4364259243011475秒
総取得件数：80902
完了：17.976%
残り時間：4時間44分21秒

525ページ目：6.87

635ページ目：7.317383289337158秒
総取得件数：94558
完了：21.784%
残り時間：4時間35分24秒

636ページ目：11.522472620010376秒
総取得件数：94711
完了：21.818%
残り時間：4時間35分32秒

637ページ目：7.3613176345825195秒
総取得件数：94866
完了：21.852%
残り時間：4時間35分25秒

638ページ目：6.740779638290405秒
総取得件数：94959
完了：21.887%
残り時間：4時間35分16秒

639ページ目：7.100600242614746秒
総取得件数：95054
完了：21.921%
残り時間：4時間35分9秒

640ページ目：6.707913637161255秒
総取得件数：95150
完了：21.955%
残り時間：4時間34分59秒

641ページ目：6.80159592628479秒
総取得件数：95260
完了：21.99%
残り時間：4時間34分51秒

642ページ目：7.077803611755371秒
総取得件数：95372
完了：22.024%
残り時間：4時間34分43秒

643ページ目：7.11712646484375秒
総取得件数：95480
完了：22.058%
残り時間：4時間34分35秒

644ページ目：7.423673629760742秒
総取得件数：95617
完了：22.093%
残り時間：4時間34分28秒

645ページ目：7.221357107162476秒
総取得件数：95745
完了：22.127%
残り時間：4時間34分21秒

646ページ目：7.027297258377075秒
総取得件数：95847
完了：22.161%
残り時間：4時間34分13秒

647ページ目：7.305762052536011秒
総取得件数：95954
完了：22.196%
残り時間：4時間34分6秒

648ページ目：7.269775390625秒
総取得件数：96082
完了：22.23%
残り時間：4時間33分59秒

649ページ目：7.743090629577637秒
総取得件数：96329
完了：22.264%
残り時間：4時間33分53秒

650ページ目：7.6134657

759ページ目：7.879067897796631秒
総取得件数：109081
完了：26.038%
残り時間：4時間26分50秒

760ページ目：8.305563926696777秒
総取得件数：109223
完了：26.072%
残り時間：4時間26分45秒

761ページ目：9.74407696723938秒
総取得件数：109320
完了：26.106%
残り時間：4時間26分44秒

762ページ目：7.669397592544556秒
総取得件数：109432
完了：26.141%
残り時間：4時間26分37秒

763ページ目：7.3047966957092285秒
総取得件数：109523
完了：26.175%
残り時間：4時間26分30秒

764ページ目：6.639857053756714秒
総取得件数：109615
完了：26.209%
残り時間：4時間26分20秒

765ページ目：7.52880334854126秒
総取得件数：109709
完了：26.244%
残り時間：4時間26分13秒

766ページ目：7.773831367492676秒
総取得件数：109805
完了：26.278%
残り時間：4時間26分6秒

767ページ目：7.656720399856567秒
総取得件数：109905
完了：26.312%
残り時間：4時間25分59秒

768ページ目：7.559715509414673秒
総取得件数：110030
完了：26.346%
残り時間：4時間25分52秒

769ページ目：7.32425332069397秒
総取得件数：110135
完了：26.381%
残り時間：4時間25分45秒

770ページ目：8.810133695602417秒
総取得件数：110242
完了：26.415%
残り時間：4時間25分41秒

771ページ目：7.672501802444458秒
総取得件数：110344
完了：26.449%
残り時間：4時間25分34秒

772ページ目：7.31704044342041秒
総取得件数：110428
完了：26.484%
残り時間：4時間25分27秒

773ページ目：7.889075756072998秒
総取得件数：110531
完了：26.518%
残り時間：4時間25分20秒


882ページ目：7.88370943069458秒
総取得件数：122847
完了：30.257%
残り時間：4時間16分6秒

883ページ目：7.485766172409058秒
総取得件数：122953
完了：30.292%
残り時間：4時間15分58秒

884ページ目：7.8552772998809814秒
総取得件数：123062
完了：30.326%
残り時間：4時間15分51秒

885ページ目：8.140178442001343秒
総取得件数：123171
完了：30.36%
残り時間：4時間15分45秒

886ページ目：6.982776880264282秒
総取得件数：123254
完了：30.395%
残り時間：4時間15分36秒

887ページ目：7.9500768184661865秒
総取得件数：123377
完了：30.429%
残り時間：4時間15分30秒

888ページ目：7.46013617515564秒
総取得件数：123469
完了：30.463%
残り時間：4時間15分22秒

889ページ目：10.654614448547363秒
総取得件数：123555
完了：30.497%
残り時間：4時間15分21秒

890ページ目：7.417543888092041秒
総取得件数：123668
完了：30.532%
残り時間：4時間15分13秒

891ページ目：6.913464307785034秒
総取得件数：123767
完了：30.566%
残り時間：4時間15分4秒

892ページ目：7.919288635253906秒
総取得件数：123868
完了：30.6%
残り時間：4時間14分58秒

893ページ目：7.7210094928741455秒
総取得件数：123970
完了：30.635%
残り時間：4時間14分50秒

894ページ目：7.024746894836426秒
総取得件数：124062
完了：30.669%
残り時間：4時間14分42秒

895ページ目：8.221567153930664秒
総取得件数：124146
完了：30.703%
残り時間：4時間14分36秒

896ページ目：7.7270667552948秒
総取得件数：124267
完了：30.738%
残り時間：4時間14分28秒



1006ページ目：8.340469598770142秒
総取得件数：136279
完了：34.511%
残り時間：4時間2分57秒

1007ページ目：7.644659519195557秒
総取得件数：136391
完了：34.545%
残り時間：4時間2分49秒

1008ページ目：10.504080057144165秒
総取得件数：136495
完了：34.58%
残り時間：4時間2分47秒

1009ページ目：7.793583631515503秒
総取得件数：136602
完了：34.614%
残り時間：4時間2分40秒

1010ページ目：7.569782972335815秒
総取得件数：136700
完了：34.648%
残り時間：4時間2分32秒

1011ページ目：11.950629711151123秒
総取得件数：136822
完了：34.683%
残り時間：4時間2分33秒

1012ページ目：10.51732325553894秒
総取得件数：136933
完了：34.717%
残り時間：4時間2分30秒

1013ページ目：8.769631624221802秒
総取得件数：137060
完了：34.751%
残り時間：4時間2分25秒

1014ページ目：8.148088932037354秒
総取得件数：137158
完了：34.786%
残り時間：4時間2分18秒

1015ページ目：7.739023923873901秒
総取得件数：137286
完了：34.82%
残り時間：4時間2分11秒

1016ページ目：7.955967426300049秒
総取得件数：137391
完了：34.854%
残り時間：4時間2分4秒

1017ページ目：7.874664068222046秒
総取得件数：137490
完了：34.889%
残り時間：4時間1分56秒

1018ページ目：8.163860559463501秒
総取得件数：137602
完了：34.923%
残り時間：4時間1分50秒

1019ページ目：9.484236717224121秒
総取得件数：137755
完了：34.957%
残り時間：4時間1分45秒

1020ページ目：11.36876106262207秒
総取得件数：137849
完了：34.991%
残り時間：4時間1分4

1128ページ目：7.532335519790649秒
総取得件数：149233
完了：38.696%
残り時間：3時間50分14秒

1129ページ目：7.797945022583008秒
総取得件数：149346
完了：38.731%
残り時間：3時間50分6秒

1130ページ目：8.735743045806885秒
総取得件数：149554
完了：38.765%
残り時間：3時間50分0秒

1131ページ目：8.164909839630127秒
総取得件数：149658
完了：38.799%
残り時間：3時間49分53秒

1132ページ目：8.333894491195679秒
総取得件数：149760
完了：38.834%
残り時間：3時間49分46秒

1133ページ目：8.302382946014404秒
総取得件数：149853
完了：38.868%
残り時間：3時間49分40秒

1134ページ目：10.417460203170776秒
総取得件数：149941
完了：38.902%
残り時間：3時間49分36秒

1135ページ目：8.106068134307861秒
総取得件数：150031
完了：38.937%
残り時間：3時間49分29秒

1136ページ目：8.169746398925781秒
総取得件数：150154
完了：38.971%
残り時間：3時間49分22秒

1137ページ目：7.725942134857178秒
総取得件数：150234
完了：39.005%
残り時間：3時間49分14秒

1138ページ目：8.004106283187866秒
総取得件数：150345
完了：39.039%
残り時間：3時間49分7秒

1139ページ目：8.151643753051758秒
総取得件数：150442
完了：39.074%
残り時間：3時間49分0秒

1140ページ目：12.165681600570679秒
総取得件数：150537
完了：39.108%
残り時間：3時間48分59秒

1141ページ目：7.639064073562622秒
総取得件数：150651
完了：39.142%
残り時間：3時間48分51秒

1142ページ目：8.060457468032837秒
総取得件数：150760
完了：39.177

1250ページ目：11.278682470321655秒
総取得件数：162058
完了：42.882%
残り時間：3時間36分40秒

1251ページ目：8.127122163772583秒
総取得件数：162142
完了：42.916%
残り時間：3時間36分33秒

1252ページ目：7.840676784515381秒
総取得件数：162234
完了：42.95%
残り時間：3時間36分25秒

1253ページ目：7.949715852737427秒
総取得件数：162328
完了：42.985%
残り時間：3時間36分17秒

1254ページ目：8.183187484741211秒
総取得件数：162425
完了：43.019%
残り時間：3時間36分10秒

1255ページ目：7.582350730895996秒
総取得件数：162518
完了：43.053%
残り時間：3時間36分2秒

1256ページ目：8.081609725952148秒
総取得件数：162613
完了：43.087%
残り時間：3時間35分54秒

1257ページ目：7.880133390426636秒
総取得件数：162702
完了：43.122%
残り時間：3時間35分47秒

1258ページ目：11.591063499450684秒
総取得件数：162820
完了：43.156%
残り時間：3時間35分44秒

1259ページ目：11.034682035446167秒
総取得件数：162948
完了：43.19%
残り時間：3時間35分40秒

1260ページ目：8.039176940917969秒
総取得件数：163049
完了：43.225%
残り時間：3時間35分33秒

1261ページ目：7.8656275272369385秒
総取得件数：163153
完了：43.259%
残り時間：3時間35分25秒

1262ページ目：7.80065393447876秒
総取得件数：163250
完了：43.293%
残り時間：3時間35分17秒

1263ページ目：8.141594886779785秒
総取得件数：163379
完了：43.328%
残り時間：3時間35分10秒

1264ページ目：7.905057907104492秒
総取得件数：163471
完了：43.3

1372ページ目：8.63493013381958秒
総取得件数：174479
完了：47.067%
残り時間：3時間22分27秒

1373ページ目：7.835545063018799秒
総取得件数：174591
完了：47.101%
残り時間：3時間22分19秒

1374ページ目：8.491301536560059秒
総取得件数：174707
完了：47.136%
残り時間：3時間22分11秒

1375ページ目：8.01881456375122秒
総取得件数：174797
完了：47.17%
残り時間：3時間22分4秒

1376ページ目：8.543453693389893秒
総取得件数：174896
完了：47.204%
残り時間：3時間21分57秒

1377ページ目：8.593136310577393秒
総取得件数：175012
完了：47.238%
残り時間：3時間21分50秒

1378ページ目：8.73079514503479秒
総取得件数：175103
完了：47.273%
残り時間：3時間21分43秒

1379ページ目：11.290352821350098秒
総取得件数：175197
完了：47.307%
残り時間：3時間21分39秒

1380ページ目：8.405538320541382秒
総取得件数：175302
完了：47.341%
残り時間：3時間21分31秒

1381ページ目：8.073538541793823秒
総取得件数：175392
完了：47.376%
残り時間：3時間21分24秒

1382ページ目：8.589452028274536秒
総取得件数：175471
完了：47.41%
残り時間：3時間21分17秒

1383ページ目：10.42840051651001秒
総取得件数：175568
完了：47.444%
残り時間：3時間21分11秒

1384ページ目：8.51801085472107秒
総取得件数：175660
完了：47.479%
残り時間：3時間21分4秒

1385ページ目：8.590798377990723秒
総取得件数：175792
完了：47.513%
残り時間：3時間20分57秒

1386ページ目：7.961223363876343秒
総取得件数：175905
完了：47.547%
残り時

1494ページ目：8.389266014099121秒
総取得件数：185923
完了：51.252%
残り時間：3時間7分45秒

1495ページ目：8.274480819702148秒
総取得件数：186001
完了：51.286%
残り時間：3時間7分37秒

1496ページ目：8.623843431472778秒
総取得件数：186077
完了：51.321%
残り時間：3時間7分30秒

1497ページ目：8.23817491531372秒
総取得件数：186147
完了：51.355%
残り時間：3時間7分22秒

1498ページ目：8.193803548812866秒
総取得件数：186217
完了：51.389%
残り時間：3時間7分15秒

1499ページ目：8.279782772064209秒
総取得件数：186328
完了：51.424%
残り時間：3時間7分7秒

1500ページ目：8.050440073013306秒
総取得件数：186394
完了：51.458%
残り時間：3時間6分59秒

1501ページ目：9.1636483669281秒
総取得件数：186470
完了：51.492%
残り時間：3時間6分53秒

1502ページ目：8.328519344329834秒
総取得件数：186541
完了：51.527%
残り時間：3時間6分45秒

1503ページ目：8.144654273986816秒
総取得件数：186627
完了：51.561%
残り時間：3時間6分37秒

1504ページ目：8.327325344085693秒
総取得件数：186707
完了：51.595%
残り時間：3時間6分30秒

1505ページ目：8.204368591308594秒
総取得件数：186798
完了：51.63%
残り時間：3時間6分22秒

1506ページ目：8.280462741851807秒
総取得件数：186891
完了：51.664%
残り時間：3時間6分15秒

1507ページ目：8.123521566390991秒
総取得件数：186997
完了：51.698%
残り時間：3時間6分7秒

1508ページ目：12.11047077178955秒
総取得件数：187101
完了：51.732%
残り時間：3時間6分3秒

15

1617ページ目：8.233855247497559秒
総取得件数：195353
完了：55.472%
残り時間：2時間52分53秒

1618ページ目：8.402000904083252秒
総取得件数：195423
完了：55.506%
残り時間：2時間52分46秒

1619ページ目：8.283300638198853秒
総取得件数：195493
完了：55.54%
残り時間：2時間52分38秒

1620ページ目：11.558585405349731秒
総取得件数：195557
完了：55.575%
残り時間：2時間52分33秒

1621ページ目：8.038979291915894秒
総取得件数：195631
完了：55.609%
残り時間：2時間52分25秒

1622ページ目：8.545156955718994秒
総取得件数：195699
完了：55.643%
残り時間：2時間52分17秒

1623ページ目：8.144821643829346秒
総取得件数：195776
完了：55.678%
残り時間：2時間52分9秒

1624ページ目：10.438726902008057秒
総取得件数：195844
完了：55.712%
残り時間：2時間52分3秒

1625ページ目：7.850027799606323秒
総取得件数：195914
完了：55.746%
残り時間：2時間51分55秒

1626ページ目：8.483455419540405秒
総取得件数：195986
完了：55.78%
残り時間：2時間51分48秒

1627ページ目：8.46959114074707秒
総取得件数：196059
完了：55.815%
残り時間：2時間51分40秒

1628ページ目：8.123058319091797秒
総取得件数：196137
完了：55.849%
残り時間：2時間51分32秒

1629ページ目：8.233199834823608秒
総取得件数：196234
完了：55.883%
残り時間：2時間51分24秒

1630ページ目：8.267926931381226秒
総取得件数：196303
完了：55.918%
残り時間：2時間51分16秒

1631ページ目：8.285540580749512秒
総取得件数：196379
完了：55.952%

1739ページ目：8.599992275238037秒
総取得件数：204293
完了：59.657%
残り時間：2時間37分27秒

1740ページ目：8.223974227905273秒
総取得件数：204381
完了：59.691%
残り時間：2時間37分19秒

1741ページ目：9.253166675567627秒
総取得件数：204463
完了：59.726%
残り時間：2時間37分12秒

1742ページ目：8.28401231765747秒
総取得件数：204529
完了：59.76%
残り時間：2時間37分4秒

1743ページ目：8.665040731430054秒
総取得件数：204654
完了：59.794%
残り時間：2時間36分57秒

1744ページ目：8.159735679626465秒
総取得件数：204725
完了：59.828%
残り時間：2時間36分49秒

1745ページ目：8.157199621200562秒
総取得件数：204788
完了：59.863%
残り時間：2時間36分41秒

1746ページ目：11.62759804725647秒
総取得件数：204843
完了：59.897%
残り時間：2時間36分35秒

1747ページ目：7.671213626861572秒
総取得件数：204912
完了：59.931%
残り時間：2時間36分27秒

1748ページ目：9.24049973487854秒
総取得件数：205021
完了：59.966%
残り時間：2時間36分20秒

1749ページ目：8.182376623153687秒
総取得件数：205110
完了：60.0%
残り時間：2時間36分12秒

1750ページ目：11.684712171554565秒
総取得件数：205208
完了：60.034%
残り時間：2時間36分6秒

1751ページ目：7.983324289321899秒
総取得件数：205278
完了：60.069%
残り時間：2時間35分58秒

1752ページ目：8.83468246459961秒
総取得件数：205343
完了：60.103%
残り時間：2時間35分50秒

1753ページ目：7.994247913360596秒
総取得件数：205403
完了：60.137%
残り時

1861ページ目：7.9124603271484375秒
総取得件数：213187
完了：63.842%
残り時間：2時間21分41秒

1862ページ目：9.918741464614868秒
総取得件数：213262
完了：63.877%
残り時間：2時間21分34秒

1863ページ目：8.395064115524292秒
総取得件数：213334
完了：63.911%
残り時間：2時間21分26秒

1864ページ目：8.16017198562622秒
総取得件数：213397
完了：63.945%
残り時間：2時間21分18秒

1865ページ目：7.749642848968506秒
総取得件数：213460
完了：63.979%
残り時間：2時間21分10秒

1866ページ目：8.064032554626465秒
総取得件数：213544
完了：64.014%
残り時間：2時間21分2秒

1867ページ目：8.22205638885498秒
総取得件数：213622
完了：64.048%
残り時間：2時間20分54秒

1868ページ目：8.264049530029297秒
総取得件数：213713
完了：64.082%
残り時間：2時間20分46秒

1869ページ目：8.873127460479736秒
総取得件数：213787
完了：64.117%
残り時間：2時間20分38秒

1870ページ目：7.939594030380249秒
総取得件数：213860
完了：64.151%
残り時間：2時間20分30秒

1871ページ目：8.395137071609497秒
総取得件数：213933
完了：64.185%
残り時間：2時間20分22秒

1872ページ目：8.144002199172974秒
総取得件数：213997
完了：64.22%
残り時間：2時間20分14秒

1873ページ目：8.080044269561768秒
総取得件数：214061
完了：64.254%
残り時間：2時間20分6秒

1874ページ目：8.72292447090149秒
総取得件数：214190
完了：64.288%
残り時間：2時間19分59秒

1875ページ目：8.2623929977417秒
総取得件数：214306
完了：64.322%
残り時

1983ページ目：8.338436126708984秒
総取得件数：221902
完了：68.027%
残り時間：2時間5分43秒

1984ページ目：8.136471033096313秒
総取得件数：221972
完了：68.062%
残り時間：2時間5分35秒

1985ページ目：8.20805287361145秒
総取得件数：222042
完了：68.096%
残り時間：2時間5分27秒

1986ページ目：8.00499677658081秒
総取得件数：222112
完了：68.13%
残り時間：2時間5分19秒

1987ページ目：8.623197793960571秒
総取得件数：222173
完了：68.165%
残り時間：2時間5分11秒

1988ページ目：8.10909652709961秒
総取得件数：222250
完了：68.199%
残り時間：2時間5分3秒

1989ページ目：8.232699155807495秒
総取得件数：222321
完了：68.233%
残り時間：2時間4分55秒

1990ページ目：8.41541337966919秒
総取得件数：222395
完了：68.268%
残り時間：2時間4分47秒

1991ページ目：8.157801389694214秒
総取得件数：222458
完了：68.302%
残り時間：2時間4分39秒

1992ページ目：7.8800036907196045秒
総取得件数：222529
完了：68.336%
残り時間：2時間4分30秒

1993ページ目：8.305814504623413秒
総取得件数：222624
完了：68.37%
残り時間：2時間4分22秒

1994ページ目：8.260174989700317秒
総取得件数：222708
完了：68.405%
残り時間：2時間4分14秒

1995ページ目：8.256088733673096秒
総取得件数：222781
完了：68.439%
残り時間：2時間4分6秒

1996ページ目：8.423543214797974秒
総取得件数：222858
完了：68.473%
残り時間：2時間3分58秒

1997ページ目：8.253741264343262秒
総取得件数：222926
完了：68.508%
残り時間：2時間3分50秒

19

2104ページ目：1.229992151260376秒
総取得件数：223085
完了：72.178%
残り時間：1時間44分50秒

2105ページ目：1.147514820098877秒
総取得件数：223085
完了：72.213%
残り時間：1時間44分40秒

2106ページ目：1.1634819507598877秒
総取得件数：223085
完了：72.247%
残り時間：1時間44分30秒

2107ページ目：1.288522481918335秒
総取得件数：223085
完了：72.281%
残り時間：1時間44分20秒

2108ページ目：1.219681978225708秒
総取得件数：223085
完了：72.316%
残り時間：1時間44分9秒

2109ページ目：1.2110700607299805秒
総取得件数：223085
完了：72.35%
残り時間：1時間43分59秒

2110ページ目：1.2640845775604248秒
総取得件数：223085
完了：72.384%
残り時間：1時間43分49秒

2111ページ目：3.8315839767456055秒
総取得件数：223085
完了：72.419%
残り時間：1時間43分40秒

2112ページ目：3.3165524005889893秒
総取得件数：223085
完了：72.453%
残り時間：1時間43分30秒

2113ページ目：1.2436232566833496秒
総取得件数：223085
完了：72.487%
残り時間：1時間43分20秒

2114ページ目：1.3201088905334473秒
総取得件数：223085
完了：72.521%
残り時間：1時間43分10秒

2115ページ目：1.1945323944091797秒
総取得件数：223085
完了：72.556%
残り時間：1時間43分0秒

2116ページ目：1.2188682556152344秒
総取得件数：223085
完了：72.59%
残り時間：1時間42分49秒

2117ページ目：1.2648696899414062秒
総取得件数：223085
完了：72.624%
残り時間：1時間42分39秒

2118ページ目：1.2792260646820068秒
総取得件数：223085


2224ページ目：1.2547540664672852秒
総取得件数：223085
完了：76.295%
残り時間：1時間25分23秒

2225ページ目：1.2665975093841553秒
総取得件数：223085
完了：76.329%
残り時間：1時間25分14秒

2226ページ目：1.2235774993896484秒
総取得件数：223085
完了：76.364%
残り時間：1時間25分5秒

2227ページ目：1.2247471809387207秒
総取得件数：223085
完了：76.398%
残り時間：1時間24分55秒

2228ページ目：1.2521727085113525秒
総取得件数：223085
完了：76.432%
残り時間：1時間24分46秒

2229ページ目：1.25211763381958秒
総取得件数：223085
完了：76.467%
残り時間：1時間24分37秒

2230ページ目：1.1731359958648682秒
総取得件数：223085
完了：76.501%
残り時間：1時間24分27秒

2231ページ目：1.2514169216156006秒
総取得件数：223085
完了：76.535%
残り時間：1時間24分18秒

2232ページ目：1.3084845542907715秒
総取得件数：223085
完了：76.569%
残り時間：1時間24分9秒

2233ページ目：1.2774369716644287秒
総取得件数：223085
完了：76.604%
残り時間：1時間24分0秒

2234ページ目：1.2756173610687256秒
総取得件数：223085
完了：76.638%
残り時間：1時間23分50秒

2235ページ目：1.282926321029663秒
総取得件数：223085
完了：76.672%
残り時間：1時間23分41秒

2236ページ目：1.255023717880249秒
総取得件数：223085
完了：76.707%
残り時間：1時間23分32秒

2237ページ目：1.2805545330047607秒
総取得件数：223085
完了：76.741%
残り時間：1時間23分23秒

2238ページ目：1.2145085334777832秒
総取得件数：223085

2344ページ目：1.2870192527770996秒
総取得件数：223085
完了：80.412%
残り時間：1時間7分39秒

2345ページ目：1.1950790882110596秒
総取得件数：223085
完了：80.446%
残り時間：1時間7分30秒

2346ページ目：1.6177232265472412秒
総取得件数：223085
完了：80.48%
残り時間：1時間7分22秒

2347ページ目：1.2648000717163086秒
総取得件数：223085
完了：80.515%
残り時間：1時間7分13秒

2348ページ目：6.611243009567261秒
総取得件数：223085
完了：80.549%
残り時間：1時間7分6秒

2349ページ目：2.2956249713897705秒
総取得件数：223085
完了：80.583%
残り時間：1時間6分58秒

2350ページ目：4.0404112339019775秒
総取得件数：223085
完了：80.617%
残り時間：1時間6分50秒

2351ページ目：1.2796640396118164秒
総取得件数：223085
完了：80.652%
残り時間：1時間6分41秒

2352ページ目：1.238588571548462秒
総取得件数：223085
完了：80.686%
残り時間：1時間6分33秒

2353ページ目：1.2680754661560059秒
総取得件数：223085
完了：80.72%
残り時間：1時間6分24秒

2354ページ目：1.2534534931182861秒
総取得件数：223085
完了：80.755%
残り時間：1時間6分16秒

2355ページ目：1.2853741645812988秒
総取得件数：223085
完了：80.789%
残り時間：1時間6分8秒

2356ページ目：1.242640495300293秒
総取得件数：223085
完了：80.823%
残り時間：1時間5分59秒

2357ページ目：1.1619791984558105秒
総取得件数：223085
完了：80.858%
残り時間：1時間5分51秒

2358ページ目：1.2412736415863037秒
総取得件数：223085
完了：80.892%
残り

2465ページ目：1.2436842918395996秒
総取得件数：223085
完了：84.563%
残り時間：0時間51分13秒

2466ページ目：1.2783925533294678秒
総取得件数：223085
完了：84.597%
残り時間：0時間51分5秒

2467ページ目：1.2800798416137695秒
総取得件数：223085
完了：84.631%
残り時間：0時間50分58秒

2468ページ目：4.493967533111572秒
総取得件数：223085
完了：84.666%
残り時間：0時間50分50秒

2469ページ目：1.2837581634521484秒
総取得件数：223085
完了：84.7%
残り時間：0時間50分42秒

2470ページ目：1.2860188484191895秒
総取得件数：223085
完了：84.734%
残り時間：0時間50分35秒

2471ページ目：1.2934327125549316秒
総取得件数：223085
完了：84.768%
残り時間：0時間50分27秒

2472ページ目：1.2109575271606445秒
総取得件数：223085
完了：84.803%
残り時間：0時間50分19秒

2473ページ目：3.5922725200653076秒
総取得件数：223085
完了：84.837%
残り時間：0時間50分12秒

2474ページ目：1.269639253616333秒
総取得件数：223085
完了：84.871%
残り時間：0時間50分4秒

2475ページ目：1.2685489654541016秒
総取得件数：223085
完了：84.906%
残り時間：0時間49分56秒

2476ページ目：2.2342607975006104秒
総取得件数：223085
完了：84.94%
残り時間：0時間49分48秒

2477ページ目：1.2080540657043457秒
総取得件数：223085
完了：84.974%
残り時間：0時間49分41秒

2478ページ目：1.2540912628173828秒
総取得件数：223085
完了：85.009%
残り時間：0時間49分33秒

2479ページ目：1.2239866256713867秒
総取得件数：223085

2585ページ目：1.2369778156280518秒
総取得件数：223085
完了：88.679%
残り時間：0時間36分12秒

2586ページ目：1.2351431846618652秒
総取得件数：223085
完了：88.714%
残り時間：0時間36分4秒

2587ページ目：1.267061710357666秒
総取得件数：223085
完了：88.748%
残り時間：0時間35分57秒

2588ページ目：1.2832679748535156秒
総取得件数：223085
完了：88.782%
残り時間：0時間35分50秒

2589ページ目：1.23805570602417秒
総取得件数：223085
完了：88.816%
残り時間：0時間35分43秒

2590ページ目：1.3436942100524902秒
総取得件数：223085
完了：88.851%
残り時間：0時間35分35秒

2591ページ目：1.2690715789794922秒
総取得件数：223085
完了：88.885%
残り時間：0時間35分28秒

2592ページ目：1.4763600826263428秒
総取得件数：223085
完了：88.919%
残り時間：0時間35分21秒

2593ページ目：1.1427671909332275秒
総取得件数：223085
完了：88.954%
残り時間：0時間35分14秒

2594ページ目：1.1637604236602783秒
総取得件数：223085
完了：88.988%
残り時間：0時間35分6秒

2595ページ目：1.2327179908752441秒
総取得件数：223085
完了：89.022%
残り時間：0時間34分59秒

2596ページ目：2.283630132675171秒
総取得件数：223085
完了：89.057%
残り時間：0時間34分52秒

2597ページ目：1.2821495532989502秒
総取得件数：223085
完了：89.091%
残り時間：0時間34分45秒

2598ページ目：1.2348549365997314秒
総取得件数：223085
完了：89.125%
残り時間：0時間34分38秒

2599ページ目：1.2215375900268555秒
総取得件数：22308

2705ページ目：1.219153642654419秒
総取得件数：223085
完了：92.796%
残り時間：0時間22分15秒

2706ページ目：1.2817509174346924秒
総取得件数：223085
完了：92.83%
残り時間：0時間22分9秒

2707ページ目：1.270094871520996秒
総取得件数：223085
完了：92.864%
残り時間：0時間22分2秒

2708ページ目：1.2951011657714844秒
総取得件数：223085
完了：92.899%
残り時間：0時間21分55秒

2709ページ目：1.2401964664459229秒
総取得件数：223085
完了：92.933%
残り時間：0時間21分48秒

2710ページ目：2.2354140281677246秒
総取得件数：223085
完了：92.967%
残り時間：0時間21分42秒

2711ページ目：1.1745352745056152秒
総取得件数：223085
完了：93.002%
残り時間：0時間21分35秒

2712ページ目：1.2498219013214111秒
総取得件数：223085
完了：93.036%
残り時間：0時間21分28秒

2713ページ目：1.264103889465332秒
総取得件数：223085
完了：93.07%
残り時間：0時間21分22秒

2714ページ目：1.2717347145080566秒
総取得件数：223085
完了：93.105%
残り時間：0時間21分15秒

2715ページ目：1.2523868083953857秒
総取得件数：223085
完了：93.139%
残り時間：0時間21分8秒

2716ページ目：1.252448320388794秒
総取得件数：223085
完了：93.173%
残り時間：0時間21分1秒

2717ページ目：1.2795584201812744秒
総取得件数：223085
完了：93.208%
残り時間：0時間20分55秒

2718ページ目：1.2546770572662354秒
総取得件数：223085
完了：93.242%
残り時間：0時間20分48秒

2719ページ目：1.253307580947876秒
総取得件数：223085
完了：

2825ページ目：1.2865440845489502秒
総取得件数：223085
完了：96.913%
残り時間：0時間9分13秒

2826ページ目：1.262498140335083秒
総取得件数：223085
完了：96.947%
残り時間：0時間9分6秒

2827ページ目：1.2792201042175293秒
総取得件数：223085
完了：96.981%
残り時間：0時間9分0秒

2828ページ目：1.2703640460968018秒
総取得件数：223085
完了：97.015%
残り時間：0時間8分54秒

2829ページ目：1.2643918991088867秒
総取得件数：223085
完了：97.05%
残り時間：0時間8分47秒

2830ページ目：1.2493910789489746秒
総取得件数：223085
完了：97.084%
残り時間：0時間8分41秒

2831ページ目：1.2850794792175293秒
総取得件数：223085
完了：97.118%
残り時間：0時間8分35秒

2832ページ目：4.548682451248169秒
総取得件数：223085
完了：97.153%
残り時間：0時間8分29秒

2833ページ目：1.1738908290863037秒
総取得件数：223085
完了：97.187%
残り時間：0時間8分22秒

2834ページ目：1.1456868648529053秒
総取得件数：223085
完了：97.221%
残り時間：0時間8分16秒

2835ページ目：1.2827415466308594秒
総取得件数：223085
完了：97.256%
残り時間：0時間8分10秒

2836ページ目：2.273357391357422秒
総取得件数：223085
完了：97.29%
残り時間：0時間8分4秒

2837ページ目：1.2893917560577393秒
総取得件数：223085
完了：97.324%
残り時間：0時間7分57秒

2838ページ目：1.188678503036499秒
総取得件数：223085
完了：97.358%
残り時間：0時間7分51秒

2839ページ目：1.2620282173156738秒
総取得件数：223085
完了：97.393%
残り時間

In [7]:
columns = ['建物名','住所','最寄り駅1','最寄り駅2','最寄り駅3','築年数','階数','階','賃料','管理費','敷金','礼金','間取り','専有面積','url']
suumo_tokyo = pd.DataFrame(data_samples, columns=columns)

In [23]:
suumo_tokyo

Unnamed: 0,建物名,住所,最寄り駅1,最寄り駅2,最寄り駅3,築年数,階数,階,賃料,管理費,敷金,礼金,間取り,専有面積,url
0,プチ・ボヌール,東京都大田区南蒲田３,京急空港線/糀谷駅 歩7分,京急本線/京急蒲田駅 歩10分,京急本線/雑色駅 歩16分,築4年,2階建,2階,14.8万円,5000円,14.8万円,14.8万円,42DK,48.87m2,https://suumo.jp/chintai/jnc_000046696863/?bc=...
1,コンフォリア町屋,東京都荒川区荒川５,東京メトロ千代田線/町屋駅 歩8分,京成本線/新三河島駅 歩6分,都電荒川線/町屋二丁目駅 歩7分,築16年,11階建,2階,12.1万円,7000円,12.1万円,-,1LDK,39m2,https://suumo.jp/chintai/jnc_000075965634/?bc=...
2,コンフォリア町屋,東京都荒川区荒川５,東京メトロ千代田線/町屋駅 歩8分,京成本線/新三河島駅 歩6分,都電荒川線/町屋二丁目駅 歩7分,築16年,11階建,5階,12.2万円,7000円,12.2万円,-,1LDK,39m2,https://suumo.jp/chintai/jnc_000077047086/?bc=...
3,ＪＲ常磐線 三河島駅 14階建 新築,東京都荒川区東日暮里６,ＪＲ常磐線/三河島駅 歩4分,ＪＲ山手線/日暮里駅 歩11分,東京メトロ千代田線/西日暮里駅 歩14分,新築,14階建,2階,9.5万円,10000円,9.5万円,-,1K,25.01m2,https://suumo.jp/chintai/jnc_000075599259/?bc=...
4,ＪＲ常磐線 三河島駅 14階建 新築,東京都荒川区東日暮里６,ＪＲ常磐線/三河島駅 歩4分,ＪＲ山手線/日暮里駅 歩11分,東京メトロ千代田線/西日暮里駅 歩14分,新築,14階建,2階,9.8万円,10000円,9.8万円,-,1DK,25.01m2,https://suumo.jp/chintai/jnc_000075599258/?bc=...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
255,イーストン リバーサイド6,東京都北区志茂３,東京メトロ南北線/志茂駅 歩7分,埼玉高速鉄道/赤羽岩淵駅 歩21分,ＪＲ京浜東北線/赤羽駅 歩21分,築3年,3階建,3階,12.6万円,3000円,-,12.6万円,1LDK,45.8m2,https://suumo.jp/chintai/jnc_000075832934/?bc=...
256,中目黒4丁目貸家,東京都目黒区中目黒４,東急東横線/中目黒駅 歩12分,ＪＲ山手線/恵比寿駅 歩19分,ＪＲ山手線/目黒駅 歩21分,築8年,2階建,1階,26万円,-,26万円,26万円,1SLDK,58.23m2,https://suumo.jp/chintai/jnc_000026692811/?bc=...
257,中目黒4丁目貸家,東京都目黒区中目黒４,東急東横線/中目黒駅 歩12分,ＪＲ山手線/恵比寿駅 歩19分,ＪＲ山手線/目黒駅 歩21分,築8年,2階建,1-2階,26万円,-,26万円,26万円,1SLDK,58.23m2,https://suumo.jp/chintai/jnc_000028002813/?bc=...
258,ライジングプレイス月島,東京都中央区月島４,東京メトロ有楽町線/月島駅 歩2分,都営大江戸線/勝どき駅 歩9分,ＪＲ京葉線/越中島駅 歩17分,築12年,7階建,2階,10万円,10000円,-,-,1K,25.03m2,https://suumo.jp/chintai/jnc_000076772229/?bc=...


In [8]:
suumo_tokyo.to_csv(f'suumo{max_page}.csv', columns=columns, index=False)

In [9]:
suumo_tokyo = pd.read_csv(f'suumo{max_page}.csv')

In [12]:
suumo_tokyo

Unnamed: 0,建物名,住所,最寄り駅1,最寄り駅2,最寄り駅3,築年数,階数,階,賃料,管理費,敷金,礼金,間取り,専有面積,url
0,プチ・ボヌール,東京都大田区南蒲田３,京急空港線/糀谷駅 歩7分,京急本線/京急蒲田駅 歩10分,京急本線/雑色駅 歩16分,築4年,2階建,2階,14.8万円,5000円,14.8万円,14.8万円,42DK,48.87m2,https://suumo.jp/chintai/jnc_000046696863/?bc=...
1,シティインデックス西日暮里,東京都荒川区西日暮里６,ＪＲ山手線/西日暮里駅 歩7分,東京メトロ千代田線/西日暮里駅 歩6分,京成本線/新三河島駅 歩8分,築11年,14階建,7階,12.5万円,10000円,-,-,1LDK,32.08m2,https://suumo.jp/chintai/jnc_000056910077/?bc=...
2,OLD PAL,東京都荒川区東尾久４,ＪＲ山手線/田端駅 歩12分,日暮里・舎人ライナー/赤土小学校前駅 歩3分,都電荒川線/東尾久三丁目駅 歩10分,築17年,6階建,3階,9.8万円,8000円,9.8万円,9.8万円,1DK,32.2m2,https://suumo.jp/chintai/jnc_000077228173/?bc=...
3,OLD PAL,東京都荒川区東尾久４,ＪＲ山手線/田端駅 歩12分,日暮里・舎人ライナー/赤土小学校前駅 歩3分,都電荒川線/東尾久三丁目駅 歩10分,築17年,6階建,3階,15.4万円,10000円,15.4万円,15.4万円,2LDK,60.5m2,https://suumo.jp/chintai/jnc_000076950589/?bc=...
4,OLD PAL,東京都荒川区東尾久４,ＪＲ山手線/田端駅 歩12分,日暮里・舎人ライナー/赤土小学校前駅 歩3分,都電荒川線/東尾久三丁目駅 歩10分,築17年,6階建,5階,15.7万円,10000円,15.7万円,15.7万円,2LDK,59.6m2,https://suumo.jp/chintai/jnc_000077228174/?bc=...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
223080,メゾンルミエル,東京都目黒区下目黒４,東急目黒線/不動前駅 歩12分,ＪＲ山手線/目黒駅 歩16分,東急目黒線/武蔵小山駅 歩16分,築31年,2階建,2階,8.5万円,-,8.5万円,8.5万円,1K,27.6m2,https://suumo.jp/chintai/jnc_000064271776/?bc=...
223081,メゾンルミエル,東京都目黒区下目黒４,東急目黒線/不動前駅 歩12分,ＪＲ山手線/目黒駅 歩16分,東急目黒線/武蔵小山駅 歩16分,築31年,2階建,2階,8.7万円,-,8.7万円,8.7万円,1K,27.6m2,https://suumo.jp/chintai/jnc_000065859312/?bc=...
223082,メゾンルミエル,東京都目黒区下目黒４,東急目黒線/不動前駅 歩12分,ＪＲ山手線/目黒駅 歩16分,東急目黒線/武蔵小山駅 歩16分,築31年,2階建,2階,8.9万円,-,8.9万円,8.9万円,1K,27.6m2,https://suumo.jp/chintai/jnc_000062882505/?bc=...
223083,東急目黒線 不動前駅 2階建 築5年,東京都品川区西五反田４,東急目黒線/不動前駅 歩6分,東急目黒線/武蔵小山駅 歩13分,ＪＲ山手線/目黒駅 歩20分,築5年,2階建,1階,6.8万円,3500円,-,-,ワンルーム,10.03m2,https://suumo.jp/chintai/jnc_000070439141/?bc=...


In [14]:
# 管理費（正規表現）
suumo_tokyo['管理費']

# 管理費の'-'を0に置き換える
suumo_tokyo.loc[suumo_tokyo['管理費']=="-",'管理費'] = suumo_tokyo.loc[suumo_tokyo['管理費']=="-",'管理費'].replace('-','0')

# 数字+文字→数字
def numobj_num(x):
    return re.sub(r'([0-9]+)\w+',r'\1',x)

# ????円→????
suumo_tokyo['管理費'] = suumo_tokyo['管理費'].map(lambda x: numobj_num(x))
# 整数型に変更
suumo_tokyo['管理費'] = suumo_tokyo['管理費'].astype(int)

In [15]:
# 築年数（正規表現）

# 新築は築0年ということにする
suumo_tokyo.loc[suumo_tokyo['築年数']=='新築','築年数'] = '築0年'

# 文字+数字+文字→数字
def objnumobj_num(x):
    return re.sub(r'\w+?([0-9]+)\w+',r'\1',x)

# 築??年(以上)→??
# 99階以上は99階に圧縮されます
suumo_tokyo['築年数'] = suumo_tokyo['築年数'] = suumo_tokyo['築年数'].map(lambda x: objnumobj_num(x))

In [16]:
# 地下変数（正規表現）

# 平屋は1階建ということにする
suumo_tokyo.loc[suumo_tokyo['階数']=='平屋','階数'] = '1階建'

# この文字列ありますか？関数
def search_object(search,object):
    return bool(re.search(search,object))

# 地下何階までありますか？関数
def underground(x):
    return search_object('地下',x)*objnumobj_num(x)+(1-search_object('地下',x))*'0'
    
# 地下がなければ０、あるなら何階まであるか
suumo_tokyo['地下'] = suumo_tokyo['階数'].map(lambda x: underground(x))

# int型に変換
suumo_tokyo['地下'] = suumo_tokyo['地下'].astype('int')

In [17]:
# 地上変数(正規表現)
suumo_tokyo['階数']

# 平屋は1階建ということにする
suumo_tokyo.loc[suumo_tokyo['階数']=='平屋','階数'] = '1階建'

# 最後の数字列を取り出す
def lastnum(x):
    return re.findall('[0-9]+',x)[-1]

# ??階建→??
suumo_tokyo['地上'] = suumo_tokyo['階数'].map(lambda x: lastnum(x))

# int型に変換
suumo_tokyo['地上'] = suumo_tokyo['地上'].astype(int)

In [18]:
# 階数変数は地下地上の合算にしておく
suumo_tokyo['階数'] = suumo_tokyo['地上'] + suumo_tokyo['地下']

In [19]:
# 階変数(正規表現)

# - は1階ってことにする
suumo_tokyo.loc[suumo_tokyo['階']=='-','階'] = '1階'

# (文字)数字を取り出す
def get_objnum(x):
    return re.search(r'([A-Z]?)([0-9]+)',x).group()

# 階の前処理 -があればその後ろ、なければ(文字)数字
def floor(x):
    return search_object('-',x)*lastnum(x)+(1-search_object('-',x))*get_objnum(x)
# B? → -?,Bがなければそのまま
def basement_floor(x):
    return search_object('B',x)*('-'+re.search(r'[0-9]+',x).group())+(1-search_object('B',x))*(x)
# M? → ?.5 Mがなければそのまま
def middle_floor(x):
    return search_object('M',x)*(re.search(r'[0-9]+',x).group()+'.5')+(1-search_object('M',x))*(x)
   
# 上の処理を適用する
suumo_tokyo['階'] = suumo_tokyo['階'].map(lambda x: floor(x)).map(lambda x: basement_floor(x)).map(lambda x: middle_floor(x))

# float型に変換
suumo_tokyo['階'] = suumo_tokyo['階'].astype(float)

In [20]:
# 賃料変数(正規表現)

# ???万円→???
def drop_man(x):
    return re.sub(r'([0-9]+)万円',r'\1',x)

# 賃料から万円を除去
suumo_tokyo['賃料'] = suumo_tokyo['賃料'].map(lambda x: drop_man(x))
# float型に変換
suumo_tokyo['賃料'] = suumo_tokyo['賃料'].astype(float)

In [21]:
# 礼金変数(正規表現)

# '-'は0万円ってことにする
suumo_tokyo.loc[suumo_tokyo['敷金']=='-','敷金'] = '0万円'

# 敷金から万円を除去
suumo_tokyo['敷金'] = suumo_tokyo['敷金'].map(lambda x: drop_man(x))
# float型に変換
suumo_tokyo['敷金'] = suumo_tokyo['敷金'].astype(float)

In [22]:
# 礼金変数(正規表現)

# '-'は0万円ってことにする
suumo_tokyo.loc[suumo_tokyo['礼金']=='-','礼金'] = '0万円'

# 礼金から万円を除去
suumo_tokyo['礼金'] = suumo_tokyo['礼金'].map(lambda x: drop_man(x))
# float型に変換
suumo_tokyo['礼金'] = suumo_tokyo['礼金'].astype(float)

In [None]:
# 間取り変換案
# そのまま
# 部屋数、onehot(L,D,K)に変換

In [23]:
# 専有面積変数（正規表現）

# 英字以降を切り落とす
def drop_behind_alfa(x):
    return re.sub('[a-z]\w+','',x)
# ????m2 → ????
suumo_tokyo['専有面積'] = suumo_tokyo['専有面積'].map(lambda x: drop_behind_alfa(x))
# float型に変換
suumo_tokyo['専有面積'] = suumo_tokyo['専有面積'].astype(float)

In [24]:
# 住所変数（正規表現）

# ～都,～区,～ に分けたい
# ついでに[都道府県][市区町村][以下]に対応したい

x = suumo_tokyo.loc[0,'住所']

# 住所を(都道府県)(市区町村)(市区町村以下)に分けて取り出す
def split_address(x):
    a,b,c = re.search('(...??[都道府県])(.+?[市区町村])(.+)',x).groups()
    return a,b,c

# 一応分割できたっぽい
suumo_tokyo[['都道府県','市区町村','市区町村以下']] = suumo_tokyo.apply(lambda x:split_address(x.住所),axis=1,result_type='expand')

In [140]:
# 最寄り駅変数（正規表現）

# 最寄り駅から路線と駅を取り出す
suumo_tokyo[['路線','駅']] = suumo_tokyo.apply(lambda x:re.search('(.+)/(.+?)\s(.+)',x.最寄り駅1).groups()[0:2],axis=1,result_type='expand')

def how_to_station():
    # 移動手段は3パターン
    how_to_station = ['歩','バス','車']
    for by in how_to_station:
        # 移動手段変数を生成
        suumo_tokyo[f'{by}'] = np.zeros(suumo_tokyo.shape[0])
        # その移動手段があるなら移動手段変数に格納する
        suumo_tokyo.loc[suumo_tokyo['最寄り駅1'].map(lambda x: search_object(f'{by}[0-9]+分',x)),f'{by}'] = suumo_tokyo.loc[suumo_tokyo['最寄り駅1'].map(lambda x: search_object(f'{by}[0-9]+分',x)),'最寄り駅1'].map(lambda x: re.search(f'{by}([0-9]+)分',x).group(1))
        # 所要時間をint型に変換
        suumo_tokyo[f'{by}'] = suumo_tokyo[f'{by}'].astype(int)

# 移動手段ごとに所用時間変数を作る
how_to_station()

In [173]:
# 順番を見やすいように入れ替える
columns = ['建物名','都道府県','市区町村','市区町村以下','路線','駅','歩','バス','車','築年数','階数','階','賃料','管理費','敷金','礼金','間取り','専有面積','url']
suumo_tokyo_shaped = suumo_tokyo[columns]
# 重複を削除する（重複10000くらいありましたね…）
suumo_tokyo_shaped = suumo_tokyo_shaped[suumo_tokyo_shaped.duplicated() == False]
# 保存
suumo_tokyo_shaped.to_csv('SuumoTokyoShaped20221006.csv', index=False)

In [174]:
pd.read_csv('SuumoTokyoShaped20221006.csv')

Unnamed: 0,建物名,都道府県,市区町村,市区町村以下,路線,駅,歩,バス,車,築年数,階数,階,賃料,管理費,敷金,礼金,間取り,専有面積,url
0,プチ・ボヌール,東京都,大田区,南蒲田３,京急空港線,糀谷駅,7,0,0,4,2,2.0,14.8,5000,14.8,14.8,42DK,48.87,https://suumo.jp/chintai/jnc_000046696863/?bc=...
1,シティインデックス西日暮里,東京都,荒川区,西日暮里６,ＪＲ山手線,西日暮里駅,7,0,0,11,14,7.0,12.5,10000,0.0,0.0,1LDK,32.08,https://suumo.jp/chintai/jnc_000056910077/?bc=...
2,OLD PAL,東京都,荒川区,東尾久４,ＪＲ山手線,田端駅,12,0,0,17,6,3.0,9.8,8000,9.8,9.8,1DK,32.20,https://suumo.jp/chintai/jnc_000077228173/?bc=...
3,OLD PAL,東京都,荒川区,東尾久４,ＪＲ山手線,田端駅,12,0,0,17,6,3.0,15.4,10000,15.4,15.4,2LDK,60.50,https://suumo.jp/chintai/jnc_000076950589/?bc=...
4,OLD PAL,東京都,荒川区,東尾久４,ＪＲ山手線,田端駅,12,0,0,17,6,5.0,15.7,10000,15.7,15.7,2LDK,59.60,https://suumo.jp/chintai/jnc_000077228174/?bc=...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
211279,ヴェール　白鷺　Ｂ棟,東京都,中野区,白鷺３,西武新宿線,鷺ノ宮駅,3,0,0,26,2,1.0,6.0,0,12.0,0.0,ワンルーム,19.02,https://suumo.jp/chintai/jnc_000013450339/?bc=...
211280,ヴェール　白鷺　Ｂ棟,東京都,中野区,白鷺３,西武新宿線,鷺ノ宮駅,3,0,0,26,2,2.0,6.3,0,12.6,0.0,1K,20.28,https://suumo.jp/chintai/jnc_000038197370/?bc=...
211281,ＪＲ総武線 亀戸駅 4階建 築8年,東京都,江東区,亀戸２,ＪＲ総武線,亀戸駅,4,0,0,8,4,4.0,8.1,4000,8.1,0.0,ワンルーム,25.09,https://suumo.jp/chintai/jnc_000076844287/?bc=...
211282,東急目黒線 不動前駅 2階建 築5年,東京都,品川区,西五反田４,東急目黒線,不動前駅,6,0,0,5,2,1.0,6.8,3500,0.0,0.0,ワンルーム,10.03,https://suumo.jp/chintai/jnc_000070439141/?bc=...
