In [7]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import random
%matplotlib inline
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

import requests
import json
import re

In [8]:
url_path = "https://www.land.mlit.go.jp/webland/api/TradeListSearch?from=20171&to=20184&area=13"
request_result = requests.get(url_path)
data_json = request_result.json()["data"]

In [9]:
print(len(data_json))

63052


In [10]:
data_pd = pd.io.json.json_normalize(data_json)
print(data_pd.shape)

(63052, 27)


In [11]:
print(data_pd.head(10))

        Type MunicipalityCode Prefecture Municipality DistrictName TradePrice  \
0   中古マンション等            13101        東京都         千代田区          飯田橋   24000000   
1   中古マンション等            13101        東京都         千代田区          飯田橋   13000000   
2  宅地(土地と建物)            13101        東京都         千代田区          飯田橋  250000000   
3   中古マンション等            13101        東京都         千代田区          飯田橋   22000000   
4   中古マンション等            13101        東京都         千代田区          飯田橋   69000000   
5   中古マンション等            13101        東京都         千代田区          飯田橋   21000000   
6   中古マンション等            13101        東京都         千代田区          飯田橋   81000000   
7   中古マンション等            13101        東京都         千代田区          飯田橋   45000000   
8   中古マンション等            13101        東京都         千代田区          飯田橋   66000000   
9   中古マンション等            13101        東京都         千代田区          飯田橋   19000000   

  FloorPlan Area BuildingYear Structure  ... Region LandShape Frontage  \
0      １ＬＤＫ   35        昭和60年     

In [12]:
data_from_csv  = pd.read_csv("13_Tokyo_20171_20184.csv", encoding='cp932')
print(data_from_csv.shape)

(63052, 30)


In [13]:
print(data_from_csv.iloc[0])

No                     1
種類              中古マンション等
地域                   NaN
市区町村コード            13101
都道府県名                東京都
市区町村名               千代田区
地区名                  飯田橋
最寄駅：名称               飯田橋
最寄駅：距離（分）              3
取引価格（総額）        24000000
坪単価                  NaN
間取り                 １ＬＤＫ
面積（㎡）                 35
取引価格（㎡単価）            NaN
土地の形状                NaN
間口                   NaN
延床面積（㎡）              NaN
建築年                昭和60年
建物の構造                ＳＲＣ
用途                    住宅
今後の利用目的               住宅
前面道路：方位              NaN
前面道路：種類              NaN
前面道路：幅員（ｍ）           NaN
都市計画                商業地域
建ぺい率（％）               80
容積率（％）               700
取引時点          2018年第４四半期
改装                   未改装
取引の事情等               NaN
Name: 0, dtype: object


In [14]:
print(data_from_csv.head(10))

   No         種類   地域  市区町村コード 都道府県名 市区町村名  地区名 最寄駅：名称 最寄駅：距離（分）   取引価格（総額）  \
0   1   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         3   24000000   
1   2   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         4   13000000   
2   3  宅地(土地と建物)  商業地    13101   東京都  千代田区  飯田橋    飯田橋         3  250000000   
3   4   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         3   22000000   
4   5   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         1   69000000   
5   6   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         3   21000000   
6   7   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         4   81000000   
7   8   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         4   45000000   
8   9   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         1   66000000   
9  10   中古マンション等  NaN    13101   東京都  千代田区  飯田橋    飯田橋         5   19000000   

   ...  今後の利用目的 前面道路：方位 前面道路：種類  前面道路：幅員（ｍ）  都市計画 建ぺい率（％） 容積率（％）        取引時点  \
0  ...       住宅     NaN     NaN         NaN  商業地域 

In [15]:
print(data_from_csv["種類"].unique())

['中古マンション等' '宅地(土地と建物)' '宅地(土地)' '林地' '農地']


In [16]:
data_used_apartment = data_from_csv.query('種類  == "中古マンション等"')
print(data_used_apartment.shape)

(30956, 30)


In [17]:
print(data_used_apartment.isnull().sum())

No                0
種類                0
地域            30956
市区町村コード           0
都道府県名             0
市区町村名             0
地区名               0
最寄駅：名称            1
最寄駅：距離（分）        32
取引価格（総額）          0
坪単価           30956
間取り            1263
面積（㎡）             0
取引価格（㎡単価）     30956
土地の形状         30956
間口            30956
延床面積（㎡）       30956
建築年             851
建物の構造           599
用途             8175
今後の利用目的        1453
前面道路：方位       30956
前面道路：種類       30956
前面道路：幅員（ｍ）    30956
都市計画            344
建ぺい率（％）         425
容積率（％）          425
取引時点              0
改装             3721
取引の事情等        30690
dtype: int64


In [19]:
columns_name_list = ["最寄駅：距離（分）", "間取り", "面積（㎡）", "建築年", "建物の構造", "建ぺい率（％）", "容積率（％）", "市区町村名", "取引価格（総額）"]

data_selected = data_used_apartment[columns_name_list]
print(data_selected.shape)

data_selected_dropna  = data_selected.dropna(how = 'any')  # 1つでもNaNデータを含む行を削除
print(data_selected_dropna.shape)
print(data_selected_dropna.iloc[0])

(30956, 9)
(28442, 9)
最寄駅：距離（分）           3
間取り              １ＬＤＫ
面積（㎡）              35
建築年             昭和60年
建物の構造             ＳＲＣ
建ぺい率（％）            80
容積率（％）            700
市区町村名            千代田区
取引価格（総額）     24000000
Name: 0, dtype: object


In [20]:
print(data_selected_dropna["建築年"].unique())

['昭和60年' '昭和57年' '昭和59年' '平成19年' '平成15年' '平成24年' '平成11年' '平成16年' '平成9年'
 '昭和45年' '昭和51年' '平成13年' '昭和47年' '昭和52年' '平成21年' '平成25年' '平成18年' '平成26年'
 '平成17年' '平成12年' '平成14年' '昭和56年' '平成27年' '昭和54年' '昭和55年' '平成20年' '平成28年'
 '平成10年' '平成23年' '昭和53年' '昭和63年' '昭和50年' '平成4年' '平成29年' '昭和46年' '昭和44年'
 '昭和61年' '平成22年' '昭和58年' '平成8年' '平成3年' '昭和48年' '昭和49年' '平成6年' '平成7年'
 '平成5年' '平成30年' '昭和64年' '昭和39年' '昭和28年' '昭和34年' '平成2年' '昭和35年' '昭和41年'
 '昭和43年' '昭和62年' '昭和24年' '昭和40年' '昭和25年' '昭和42年' '昭和38年' '昭和37年' '昭和36年'
 '平成31年' '戦前' '昭和30年']


In [21]:
data_selected_dropna = data_selected_dropna[data_selected_dropna["建築年"].str.match('^平成|昭和')]
wareki_to_seireki = {'昭和': 1926-1, '平成': 1989-1}

building_year_list = data_selected_dropna["建築年"]

building_age_list = []
for building_year in building_year_list:
    # 昭和○年 → 昭和, ○に変換、 平成○年 → 平成, ○に変換
    building_year_split = re.search(r'(.+?)([0-9]+|元)年', building_year)
    # 西暦に変換
    seireki = wareki_to_seireki[building_year_split.groups()[0]] + int(building_year_split.groups()[1])
    
    building_age = 2019 - seireki  # 築年数に変換
    building_age_list.append(building_age)
    
data_selected_dropna["築年数"] = building_age_list  # 新しく、築年数列を追加
# もう使わないので、築年数列は削除
data_added_building_age = data_selected_dropna.drop("建築年", axis=1)
print(data_added_building_age.head())

  最寄駅：距離（分）   間取り 面積（㎡） 建物の構造  建ぺい率（％）  容積率（％） 市区町村名  取引価格（総額）  築年数
0         3  １ＬＤＫ    35   ＳＲＣ     80.0   700.0  千代田区  24000000   34
1         4    １Ｋ    20   ＳＲＣ     80.0   700.0  千代田区  13000000   37
3         3    １Ｋ    30   ＳＲＣ     80.0   700.0  千代田区  22000000   34
4         1  ２ＬＤＫ    70   ＳＲＣ     80.0   600.0  千代田区  69000000   35
5         3    １Ｋ    25   ＳＲＣ     80.0   700.0  千代田区  21000000   34


In [23]:
# ダミー変数化しないもののリスト
columns_name_list = ["最寄駅：距離（分）", "面積（㎡）", "築年数", "建ぺい率（％）", "容積率（％）", "取引価格（総額）"]

# ダミー変数リスト
dummy_list = ["間取り", "建物の構造", "市区町村名"]

# ダミー変数を追加
data_added_dummies = pd.concat([data_added_building_age[columns_name_list], pd.get_dummies(data_added_building_age[dummy_list], drop_first=True)], axis=1)

print(data_added_dummies.shape)
print(data_added_dummies.iloc[0])

(28438, 87)
最寄駅：距離（分）       3
面積（㎡）          35
築年数            34
建ぺい率（％）        80
容積率（％）        700
             ... 
市区町村名_西東京市      0
市区町村名_調布市       0
市区町村名_豊島区       0
市区町村名_足立区       0
市区町村名_青梅市       0
Name: 0, Length: 87, dtype: object


In [24]:
print(data_added_dummies.dtypes)

最寄駅：距離（分）      object
面積（㎡）          object
築年数             int64
建ぺい率（％）       float64
容積率（％）        float64
               ...   
市区町村名_西東京市      uint8
市区町村名_調布市       uint8
市区町村名_豊島区       uint8
市区町村名_足立区       uint8
市区町村名_青梅市       uint8
Length: 87, dtype: object
