### 東京住宅価格予測  
前述  
ボストン住宅価格予測というプロジェクトは非常に有名です。  
ボストンではなくて、東京住宅価格も予測してみたいです。  
東京住宅価格を予測するメリット：  
1、東京住宅価格のデータは、比較的に綺麗ではない、加工する必要のあるデータです。  
2、東京住宅の特徴量はもっと複雑です。(容積率、間取りなど)  
3、pysparkで処理するため、プロジェクトをやる際に、Pysparkの書き方なども習得できます。  
上記3点で、いい練習材料だと思います 。

## データ観察

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
from pyspark.sql.functions import avg

In [3]:
import findspark 
findspark.init()
from pyspark import SparkConf,SparkContext
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.functions import udf
from pyspark.sql.functions import when
from pyspark.sql.functions import avg
from pyspark.sql.types import *

spark = SparkSession.builder.appName("Spark ML example on titanic data").getOrCreate()


In [4]:
path_and_file = './data_japan_house/13_Tokyo_20161_20182.csv'
sdf_tokyo = spark.read.csv(path_and_file,header='True',inferSchema='True',encoding='SHIFT-JIS')
sdf_tokyo.show(1)

+---+---------+---+-------+-----+-----+---+------+------+---------+----+----+---+------+-----+---+----+-----+-----+---------+-------+-------+-------+-------+----+----+---+----------+----+------+
| No|       種類| 地域|市区町村コード|都道府県名|市区町村名|地区名|最寄駅：名称|最寄駅：距離|    取引価格9| 坪単価| 間取り| 面積|取引価格13|土地の形状| 間口|延床面積|  建築年|建物の構造|       用途|今後の利用目的|前面道路：方位|前面道路：種類|前面道路：幅員|都市計画|建ぺい率|容積率|      取引時点|  改装|取引の事情等|
+---+---------+---+-------+-----+-----+---+------+------+---------+----+----+---+------+-----+---+----+-----+-----+---------+-------+-------+-------+-------+----+----+---+----------+----+------+
|  1|宅地(土地と建物)|商業地|  13101|  東京都| 千代田区|飯田橋|   飯田橋|     3|250000000|null|null| 80|  null| ほぼ台形|6.8| 330|昭和61年|   ＲＣ|住宅、事務所、店舗|    事務所|     南西|     区道|    8.0|商業地域|  80|500|平成30年第２四半期|null|  null|
+---+---------+---+-------+-----+-----+---+------+------+---------+----+----+---+------+-----+---+----+-----+-----+---------+-------+-------+-------+-------+----+----+---+----------+----+------+
only showing top 1 row



In [5]:
path_and_file = './data_japan_house/14_Kanagawa Prefecture_20161_20182.csv'
sdf_kanagawa = spark.read.csv(path_and_file,header='True',inferSchema='True',encoding='SHIFT-JIS')
sdf_kanagawa = sdf_kanagawa.filter(col('市区町村名').contains('横浜')|col('市区町村名').contains('川崎'))
sdf_kanagawa.show()

+---+---------+----+-------+-----+------+---+------+------+--------+------+------+---+------+-----+----+----+-----+-----+----+-------+-------+-------+-------+-----+----+---+----------+----+------+
| No|       種類|  地域|市区町村コード|都道府県名| 市区町村名|地区名|最寄駅：名称|最寄駅：距離|   取引価格9|   坪単価|   間取り| 面積|取引価格13|土地の形状|  間口|延床面積|  建築年|建物の構造|  用途|今後の利用目的|前面道路：方位|前面道路：種類|前面道路：幅員| 都市計画|建ぺい率|容積率|      取引時点|  改装|取引の事情等|
+---+---------+----+-------+-----+------+---+------+------+--------+------+------+---+------+-----+----+----+-----+-----+----+-------+-------+-------+-------+-----+----+---+----------+----+------+
|  1|宅地(土地と建物)| 住宅地|  14101| 神奈川県|横浜市鶴見区|朝日町|    浅野|    11|36000000|  null|  null| 60|  null|  長方形| 5.5|  95|平成29年|   木造|  住宅|     住宅|      南|     私道|    4.2|準工業地域|  60|200|平成29年第４四半期|null|  null|
|  2|宅地(土地と建物)| 住宅地|  14101| 神奈川県|横浜市鶴見区|朝日町|    浅野|    11|31000000|  null|  null| 50|  null|  長方形| 3.6|  85|平成29年|   木造|  住宅|     住宅|      東|     市道|    4.2|準工業地域|  60|200|平成29年第３四半期|null|  null|
|  3| 中古マンション等|

東京と神奈川の一部なので、必要なデータをインポートし、結合

In [6]:
sdf = sdf_tokyo.unionAll(sdf_kanagawa)

In [7]:
describe_result = sdf.describe().toPandas()
describe_result

Unnamed: 0,summary,No,種類,地域,市区町村コード,都道府県名,市区町村名,地区名,最寄駅：名称,最寄駅：距離,...,今後の利用目的,前面道路：方位,前面道路：種類,前面道路：幅員,都市計画,建ぺい率,容積率,取引時点,改装,取引の事情等
0,count,103922.0,103922,55002,103922.0,103922,103922,103922,103554,103435.0,...,94732,55000,54450,54156.0,103261,102762.0,102762.0,103922,43075,6503
1,mean,31192.466138065087,,,13409.291410865842,,,,,9.82792388629528,...,,,,6.157563335549175,,61.80845059457776,251.76650902084427,,,
2,stddev,21647.94637294824,,,437.6623099845058,,,,,6.196567177426164,...,,,,4.548122470310611,,12.944754147308164,157.21948728536037,,,
3,min,1.0,中古マンション等,住宅地,13101.0,東京都,あきる野市,あかね台,あざみ野,0.0,...,その他,北,区画街路,1.0,商業地域,30.0,50.0,平成28年第１四半期,改装済,その他事情有り
4,max,75233.0,農地,工業地,14137.0,神奈川県,青梅市,（大字なし）,黒川(神奈川),9.0,...,店舗,西,都道,90.0,都市計画区域外,80.0,1300.0,平成30年第２四半期,未改装,隣地の購入、関係者間取引


In [8]:
sdf.printSchema()

root
 |-- No: integer (nullable = true)
 |-- 種類: string (nullable = true)
 |-- 地域: string (nullable = true)
 |-- 市区町村コード: integer (nullable = true)
 |-- 都道府県名: string (nullable = true)
 |-- 市区町村名: string (nullable = true)
 |-- 地区名: string (nullable = true)
 |-- 最寄駅：名称: string (nullable = true)
 |-- 最寄駅：距離: string (nullable = true)
 |-- 取引価格9: long (nullable = true)
 |-- 坪単価: integer (nullable = true)
 |-- 間取り: string (nullable = true)
 |-- 面積: string (nullable = true)
 |-- 取引価格13: integer (nullable = true)
 |-- 土地の形状: string (nullable = true)
 |-- 間口: string (nullable = true)
 |-- 延床面積: string (nullable = true)
 |-- 建築年: string (nullable = true)
 |-- 建物の構造: string (nullable = true)
 |-- 用途: string (nullable = true)
 |-- 今後の利用目的: string (nullable = true)
 |-- 前面道路：方位: string (nullable = true)
 |-- 前面道路：種類: string (nullable = true)
 |-- 前面道路：幅員: double (nullable = true)
 |-- 都市計画: string (nullable = true)
 |-- 建ぺい率: integer (nullable = true)
 |-- 容積率: integer (nullable = true)
 |-- 取引時点:

Noには関係なさそう  
都道府県より、地域、地区に関係ありそう  
市町村コードに関係ない  
取引価格はダブっているため1個を削除  
坪単価より、最後平米当たり単価を算出するため、ここは必要なし  
最寄駅より、最寄り駅までの距離、地区などが重要だと思って、削除  
取引時点によって多少変動するかもしれないが、今回のデータは2018年取引のデータなので、そこまで変動しいと考えていいと思う  
  
そのため、'No','市区町村コード','取引価格13','都道府県名','坪単価','最寄駅：名称' ,'取引時点'を削除します。  

In [9]:
sdf = sdf.drop( 'No','市区町村コード','都道府県名','地域','地区名', '取引価格13','前面道路：幅員','取引時点' ,'坪単価')

欠損値処理  

欠損値確認

In [10]:
sdf.count()

103922

In [11]:
sdf.describe().toPandas()

Unnamed: 0,summary,種類,市区町村名,最寄駅：名称,最寄駅：距離,取引価格9,間取り,面積,土地の形状,間口,...,建物の構造,用途,今後の利用目的,前面道路：方位,前面道路：種類,都市計画,建ぺい率,容積率,改装,取引の事情等
0,count,103922,103922,103554,103435.0,103922.0,46848,103922.0,54957,50195.0,...,83326,77199,94732,55000,54450,103261,102762.0,102762.0,43075,6503
1,mean,,,,9.82792388629528,60416369.20767499,,111.29266503903423,,9.62276844763319,...,,,,,,,61.80845059457776,251.76650902084427,,
2,stddev,,,,6.196567177426164,242235988.10029456,,153.21097015129263,,5.776756194814655,...,,,,,,,12.944754147308164,157.21948728536037,,
3,min,中古マンション等,あきる野市,あざみ野,0.0,1000.0,オープンフロア,10.0,ほぼ台形,0.5,...,ブロック造,その他,その他,北,区画街路,商業地域,30.0,50.0,改装済,その他事情有り
4,max,農地,青梅市,黒川(神奈川),9.0,30000000000.0,６ＬＤＫ＋Ｓ,990.0,長方形,9.9,...,ＳＲＣ、ＲＣ,駐車場、店舗、その他,店舗,西,都道,都市計画区域外,80.0,1300.0,未改装,隣地の購入、関係者間取引


ないものを未知に  

In [12]:
sdf = sdf.filter(
    col('最寄駅：名称').isNotNull()&
    col('最寄駅：距離').isNotNull()&
    col('都市計画').isNotNull()&
    col('建ぺい率').isNotNull()&
    col('容積率').isNotNull()&
    col('建築年').isNotNull()
    
)
sdf.count()

82457

In [13]:
for c in sdf.columns:
    print(c,'の欠損値の数',sdf.filter(col(c).isNull()).count())

種類 の欠損値の数 0
市区町村名 の欠損値の数 0
最寄駅：名称 の欠損値の数 0
最寄駅：距離 の欠損値の数 0
取引価格9 の欠損値の数 0
間取り の欠損値の数 37353
面積 の欠損値の数 0
土地の形状 の欠損値の数 46922
間口 の欠損値の数 49939
延床面積 の欠損値の数 47254
建築年 の欠損値の数 0
建物の構造 の欠損値の数 1446
用途 の欠損値の数 7672
今後の利用目的 の欠損値の数 4819
前面道路：方位 の欠損値の数 46900
前面道路：種類 の欠損値の数 47096
都市計画 の欠損値の数 0
建ぺい率 の欠損値の数 0
容積率 の欠損値の数 0
改装 の欠損値の数 40951
取引の事情等 の欠損値の数 78129


In [14]:
features_to_fill =[
    '間取り',
    '延床面積',
    '建築年',
    '建物の構造',
    '土地の形状',
    '建物の構造',
    '用途',
    '今後の利用目的','前面道路：方位','前面道路：種類'
    ,'改装','取引の事情等'

]

sdf = sdf.fillna('未知',subset=features_to_fill)

1駅までの距離

In [15]:
sdf.groupby('最寄駅：距離').count().show()

+-------+-----+
| 最寄駅：距離|count|
+-------+-----+
|      7| 4776|
|     15| 2703|
|     11| 4351|
|1H30?2H|   27|
|     29|  468|
|      3| 5188|
|      8| 6170|
|     28|  577|
|     22|   89|
|     16| 2292|
|      0|  329|
|      5| 5820|
|     18| 1846|
|     27|   21|
|     17|  260|
|     26|  604|
|      6| 6558|
|     19| 1581|
|     23|  951|
|     25|  829|
+-------+-----+
only showing top 20 rows



In [16]:
li = ['1H30?2H','1H?1H30','30分?60分','2H?']
sdf = sdf.filter(~(col('最寄駅：距離').isin(li)))

In [17]:
sdf.filter(col('最寄駅：距離').isNull()).count()

0

駅までの距離を解決

面積に異常値などを除去

In [18]:
sdf.select('面積').describe().show()

+-------+------------------+
|summary|                面積|
+-------+------------------+
|  count|             78947|
|   mean| 88.49092730431254|
| stddev|105.63867365237994|
|    min|                10|
|    max|               990|
+-------+------------------+



In [19]:
sdf = sdf.filter(~(col('面積').contains('以上')))
sdf = sdf.filter(~(col('延床面積').contains('以上')))

500以上は広すぎ、

In [20]:
sdf = sdf.filter(~(col('面積')>500))

残りも、わからないのが未知

In [21]:
sdf.show(10)

+---------+-----+------+------+---------+----+---+-----+----+----+-----+-----+---------+-------+-------+-------+----+----+---+---+------+
|       種類|市区町村名|最寄駅：名称|最寄駅：距離|    取引価格9| 間取り| 面積|土地の形状|  間口|延床面積|  建築年|建物の構造|       用途|今後の利用目的|前面道路：方位|前面道路：種類|都市計画|建ぺい率|容積率| 改装|取引の事情等|
+---------+-----+------+------+---------+----+---+-----+----+----+-----+-----+---------+-------+-------+-------+----+----+---+---+------+
|宅地(土地と建物)| 千代田区|   飯田橋|     3|250000000|  未知| 80| ほぼ台形| 6.8| 330|昭和61年|   ＲＣ|住宅、事務所、店舗|    事務所|     南西|     区道|商業地域|  80|500| 未知|    未知|
| 中古マンション等| 千代田区|   飯田橋|     3| 22000000|  １Ｋ| 30|   未知|null|  未知|昭和60年|  ＳＲＣ|       未知|     住宅|     未知|     未知|商業地域|  80|700|未改装|    未知|
| 中古マンション等| 千代田区|   飯田橋|     1| 69000000|２ＬＤＫ| 70|   未知|null|  未知|昭和59年|  ＳＲＣ|       未知|     住宅|     未知|     未知|商業地域|  80|600|未改装|    未知|
| 中古マンション等| 千代田区|   飯田橋|     3| 21000000|  １Ｋ| 25|   未知|null|  未知|昭和60年|  ＳＲＣ|       住宅|    事務所|     未知|     未知|商業地域|  80|700|未改装|    未知|
| 中古マンション等| 千代田区|   飯田橋|     4| 45

築年を築年数に変換

In [22]:
sdf = sdf.filter(col('建築年').isNotNull())
sdf = sdf.filter(~(col('建築年').contains('戦前')))

In [23]:
sdf.select('建築年').show(10)

+-----+
|  建築年|
+-----+
|昭和61年|
|昭和60年|
|昭和59年|
|昭和60年|
|昭和57年|
|昭和59年|
|平成15年|
|平成24年|
|平成15年|
|昭和61年|
+-----+
only showing top 10 rows



In [24]:
import re
def year_transform(year):
    if re.match('昭和元年', year):
        year = 2018-1926
        return year
    elif re.match('昭和',year):
        year = 2018-(1925 + int(re.sub(r'\D','',year)))
        return year
    elif re.match('平成元年', year):
        year = 2018-1989
        return year
    elif re.match('平成',year):
        year = 2018-(1988 + int(re.sub(r'\D','',year)))
        return year
    else:
        return year

In [25]:
year_series = np.array([])
for i in sdf.select('建築年').collect():
    np.append(year_series,year_transform(i[0]))

In [26]:
udf_year_transform = udf(year_transform, IntegerType())
sdf = sdf.withColumn("年数", udf_year_transform("建築年"))
sdf = sdf.drop('建築年')
sdf.show(5)

+---------+-----+------+------+---------+----+---+-----+----+----+-----+---------+-------+-------+-------+----+----+---+---+------+---+
|       種類|市区町村名|最寄駅：名称|最寄駅：距離|    取引価格9| 間取り| 面積|土地の形状|  間口|延床面積|建物の構造|       用途|今後の利用目的|前面道路：方位|前面道路：種類|都市計画|建ぺい率|容積率| 改装|取引の事情等| 年数|
+---------+-----+------+------+---------+----+---+-----+----+----+-----+---------+-------+-------+-------+----+----+---+---+------+---+
|宅地(土地と建物)| 千代田区|   飯田橋|     3|250000000|  未知| 80| ほぼ台形| 6.8| 330|   ＲＣ|住宅、事務所、店舗|    事務所|     南西|     区道|商業地域|  80|500| 未知|    未知| 32|
| 中古マンション等| 千代田区|   飯田橋|     3| 22000000|  １Ｋ| 30|   未知|null|  未知|  ＳＲＣ|       未知|     住宅|     未知|     未知|商業地域|  80|700|未改装|    未知| 33|
| 中古マンション等| 千代田区|   飯田橋|     1| 69000000|２ＬＤＫ| 70|   未知|null|  未知|  ＳＲＣ|       未知|     住宅|     未知|     未知|商業地域|  80|600|未改装|    未知| 34|
| 中古マンション等| 千代田区|   飯田橋|     3| 21000000|  １Ｋ| 25|   未知|null|  未知|  ＳＲＣ|       住宅|    事務所|     未知|     未知|商業地域|  80|700|未改装|    未知| 33|
| 中古マンション等| 千代田区|   飯田橋|     4| 45000000|１ＬＤＫ| 4

種類を集計

In [27]:
sdf.groupBy('種類').count().show()

+---------+-----+
|       種類|count|
+---------+-----+
|宅地(土地と建物)|32023|
| 中古マンション等|45936|
+---------+-----+



マンションと戸建てだけなので、問題なし

二種類の住宅があり、  
延べとこ面積を計算  
戸建てなら、延べとこ面積=面積×容積率  
でも、マンションの場合、延べ床面積=住宅面積  

In [28]:
from pyspark.sql.functions import when
# sdf = sdf.filter(col('容積率').isNotNull())
floor_area_column = when(col('種類') == '宅地(土地と建物)', col('面積')*col('容積率')/100).when(col('種類') == '中古マンション等', col('面積')).otherwise(0)
sdf = sdf.withColumn('延床面積',floor_area_column)

In [29]:
sdf.select('種類','延床面積','面積','容積率').show()

+---------+-----+---+---+
|       種類| 延床面積| 面積|容積率|
+---------+-----+---+---+
|宅地(土地と建物)|400.0| 80|500|
| 中古マンション等|   30| 30|700|
| 中古マンション等|   70| 70|600|
| 中古マンション等|   25| 25|700|
| 中古マンション等|   45| 45|700|
| 中古マンション等|   55| 55|600|
| 中古マンション等|   20| 20|500|
| 中古マンション等|   45| 45|500|
| 中古マンション等|   20| 20|500|
|宅地(土地と建物)|400.0| 80|500|
| 中古マンション等|   55| 55|600|
| 中古マンション等|   55| 55|500|
| 中古マンション等|   55| 55|600|
| 中古マンション等|   55| 55|600|
| 中古マンション等|   20| 20|700|
| 中古マンション等|   70| 70|500|
| 中古マンション等|   50| 50|500|
| 中古マンション等|   85| 85|500|
| 中古マンション等|   55| 55|600|
| 中古マンション等|   55| 55|600|
+---------+-----+---+---+
only showing top 20 rows



これで面積はオッケー

駅名、地区名などをダミー化するのはほぼ不可能なので、  
それより、駅の平均地価、地区の平均地価などを算出して、  
それがより効果的な特徴量だと思います。  

In [30]:
sdf.printSchema()

root
 |-- 種類: string (nullable = true)
 |-- 市区町村名: string (nullable = true)
 |-- 最寄駅：名称: string (nullable = true)
 |-- 最寄駅：距離: string (nullable = true)
 |-- 取引価格9: long (nullable = true)
 |-- 間取り: string (nullable = false)
 |-- 面積: string (nullable = true)
 |-- 土地の形状: string (nullable = false)
 |-- 間口: string (nullable = true)
 |-- 延床面積: string (nullable = true)
 |-- 建物の構造: string (nullable = false)
 |-- 用途: string (nullable = false)
 |-- 今後の利用目的: string (nullable = false)
 |-- 前面道路：方位: string (nullable = false)
 |-- 前面道路：種類: string (nullable = false)
 |-- 都市計画: string (nullable = true)
 |-- 建ぺい率: integer (nullable = true)
 |-- 容積率: integer (nullable = true)
 |-- 改装: string (nullable = false)
 |-- 取引の事情等: string (nullable = false)
 |-- 年数: integer (nullable = true)



In [31]:
sdf = sdf.withColumn("平米単価", col('取引価格9')/col('面積'))
city  = sdf.groupby('市区町村名').agg({"平米単価": "mean"})
sdf = sdf.join(city,sdf['市区町村名'] == city['市区町村名'] )
sdf = sdf.withColumnRenamed('avg(平米単価)', '地区平米単価')

In [32]:
station  = sdf.groupby('最寄駅：名称').agg({"平米単価": "mean"})
sdf = sdf.join(station,sdf['最寄駅：名称'] == station['最寄駅：名称'] )
sdf = sdf.withColumnRenamed('avg(平米単価)', '駅平米単価')

これで、市町村名、最寄駅が不要になる

In [33]:
sdf = sdf.drop('市区町村名','最寄駅：名称')

特徴量削減のため、変な間取を削除する。  
数値＋Sあるかどうか＋Rあるかどうかにしましょう  

In [34]:
sdf.groupby('間取り').count().show(100)

+-------+-----+
|    間取り|count|
+-------+-----+
| １ＬＤＫ＋Ｓ|  130|
|   ５ＬＤＫ|   21|
|   １ＬＤＫ| 3308|
|     １Ｒ|  751|
| ３ＬＤＫ＋Ｓ|   33|
|   スタジオ|   11|
|    ５ＤＫ|    1|
|   ３ＬＤＫ|13325|
|   ２ＬＤＫ| 7848|
|   ４ＬＤＫ| 1510|
|  ２ＬＤ＋Ｓ|    1|
|     未知|33785|
|    ３ＤＫ|  569|
|    ３ＬＫ|    5|
|    ４ＤＫ|   11|
|     ３Ｋ|   17|
| ３ＬＤＫ＋Ｋ|    1|
|    ２ＬＤ|    1|
|     １Ｋ|12245|
| ４ＬＤＫ＋Ｓ|    4|
|     ４Ｋ|    2|
|  ２ＤＫ＋Ｓ|   21|
|  １ＤＫ＋Ｓ|    4|
|   １Ｌ＋Ｓ|    1|
|     ２Ｋ|  106|
|  メゾネット|    2|
|  ３ＤＫ＋Ｓ|    3|
|   ２Ｋ＋Ｓ|    1|
|    ２ＤＫ| 1679|
|オープンフロア|  334|
| ６ＬＤＫ＋Ｓ|    1|
| ２ＬＤＫ＋Ｓ|  311|
|    １ＤＫ| 1916|
|  ２ＬＫ＋Ｓ|    1|
+-------+-----+



In [35]:
floor_plan_list = ['５ＬＤＫ','スタジオ','５ＤＫ','','６ＬＤＫ＋Ｓ','メゾネット','オープンフロア','６ＬＤＫ＋Ｓ','３ＬＤＫ＋Ｋ','１Ｌ＋Ｓ','２ＬＤ＋Ｓ']
sdf = sdf.filter(~(col('間取り').isin(floor_plan_list)))

In [36]:
sdf.groupby('間取り').agg({"面積":"mean","面積":"mean"}).sort('avg(面積)').show(100)

+------+------------------+
|   間取り|           avg(面積)|
+------+------------------+
|    １Ｒ|18.914780292942744|
|    １Ｋ|20.292772560228666|
|    ２Ｋ|30.141509433962263|
|   １ＤＫ|30.177453027139876|
|  ２Ｋ＋Ｓ|              40.0|
| １ＤＫ＋Ｓ|              42.5|
|  １ＬＤＫ| 43.20737605804111|
|    ３Ｋ|  43.8235294117647|
|   ２ＤＫ| 45.09827278141751|
| ２ＤＫ＋Ｓ| 51.19047619047619|
|   ３ＤＫ| 51.48506151142355|
|１ＬＤＫ＋Ｓ| 54.26923076923077|
|    ４Ｋ|              55.0|
|   ３ＬＫ|              59.0|
|  ２ＬＤＫ| 59.78656982670744|
| ２ＬＫ＋Ｓ|              60.0|
| ３ＤＫ＋Ｓ|61.666666666666664|
|２ＬＤＫ＋Ｓ|63.842443729903536|
|   ４ＤＫ| 65.45454545454545|
|  ３ＬＤＫ| 69.84652908067542|
|３ＬＤＫ＋Ｓ| 83.03030303030303|
|   ２ＬＤ|              85.0|
|  ４ＬＤＫ| 88.94039735099338|
|４ＬＤＫ＋Ｓ|             100.0|
|    未知|121.38582211040402|
+------+------------------+



In [37]:
l_column = when(condition=col('間取り').like('%Ｌ%'),value=1).otherwise(0)
d_column = when(condition=col('間取り').like('%Ｄ%'),value=1).otherwise(0)
s_column = when(condition=col('間取り').like('%Ｓ%'),value=1).otherwise(0)
sdf = sdf.withColumn('is_l',l_column).withColumn('is_d',d_column).withColumn('is_s',s_column)

部屋数もを追加しましょう。

In [38]:
dic_num = {1:['１Ｒ','１Ｋ'],
           2:['１ＬＤＫ','１ＤＫ','１ＤＫ＋Ｓ','２Ｋ','１Ｌ＋Ｓ'],
           3:['２Ｋ＋Ｓ','３Ｋ','２ＤＫ','１ＬＤＫ＋Ｓ','２ＬＤＫ','２ＬＤ'],
             4:['３ＤＫ','４Ｋ','３ＬＫ','２ＤＫ＋Ｓ','２ＬＫ＋Ｓ','２ＬＤＫ＋Ｓ'],
             5:['４ＤＫ','３ＬＤＫ','３ＬＤＫ＋Ｓ','４ＬＤＫ'],
             6:['４ＬＤＫ＋Ｓ']
}
number_of_room = when(condition=col('間取り').isin(dic_num[1]),value=1).\
               when(condition=col('間取り').isin(dic_num[2]),value=2).\
                 when(condition=col('間取り').isin(dic_num[3]),value=3).\
                when(condition=col('間取り').isin(dic_num[4]),value=4).\
             when(condition=col('間取り').isin(dic_num[5]),value=5).\
                 when(condition=col('間取り').isin(dic_num[6]),value=6).otherwise('部屋数未知')


                
sdf = sdf.withColumn('部屋数',number_of_room)

sdf.show(10)

+--------+------+--------+----+---+-----+----+----+-----+---+-------+-------+-------+------------+----+---+---+------+---+------------------+------------------+-----------------+----+----+----+---+
|      種類|最寄駅：距離|   取引価格9| 間取り| 面積|土地の形状|  間口|延床面積|建物の構造| 用途|今後の利用目的|前面道路：方位|前面道路：種類|        都市計画|建ぺい率|容積率| 改装|取引の事情等| 年数|              平米単価|            地区平米単価|            駅平米単価|is_l|is_d|is_s|部屋数|
+--------+------+--------+----+---+-----+----+----+-----+---+-------+-------+-------+------------+----+---+---+------+---+------------------+------------------+-----------------+----+----+----+---+
|中古マンション等|     5|50000000|２ＬＤＫ| 55|   未知|null|  55|   ＲＣ| 住宅|     住宅|     未知|     未知|第１種中高層住居専用地域|  60|300|未改装|    未知| 10| 909090.9090909091|1004564.1334076918|916922.5616003348|   1|   1|   0|  3|
|中古マンション等|    10|39000000|３ＬＤＫ| 55|   未知|null|  55|  ＳＲＣ| 住宅|     住宅|     未知|     未知|     第１種住居地域|  60|400|未改装|    未知| 46| 709090.9090909091|1004564.1334076918|916922.5616003348|   1|   1|   0|  5|
|中古マンション等|

面積で補完したいですけど、工数は膨大なので、一旦飛ばします。  

In [39]:
# sdf.groupby('部屋数').agg({'面積':'mean'}).show()

In [40]:
# room_num_without_zero =  when(condition=(col('部屋数')==0 & col('延床面積').between(0,20)),value=1).\
# when(condition=(col('部屋数')==0& col('延床面積')>100),value=7).otherwise(0)
# .\
#                when(col('部屋数')==0& col('延床面積').between(20,40),value=2).\
#                  when(col('部屋数')==0& col('延床面積').between(40,60),value=3).\
#                 when(col('部屋数')==0& col('延床面積').between(60,80),value=5).\
#              when(col('部屋数')==0& col('延床面積').between(80,100),value=6).\
                 

In [41]:
# sdf = sdf.drop('間取り')

間口

間口に関して、中古マンションには間口という概念がなくて、0で補完できる。  
一方、宅地なら間口は必ずあるため、それを平均値で補完  

In [42]:
sdf.filter(col('間口').isNull()).select('種類').groupby('種類').count().show()

+---------+-----+
|       種類|count|
+---------+-----+
|宅地(土地と建物)| 2692|
| 中古マンション等|45563|
+---------+-----+



In [43]:
sdf = sdf.fillna(0,subset=['間口'])
sdf = sdf.withColumn('間口',col('間口').cast(IntegerType()))
print(sdf.groupBy('種類').avg('間口').toPandas())

maguchi = when((col('種類') == '宅地(土地と建物)') & (col('間口')==0),7.5).otherwise(0)
sdf = sdf.withColumn('間口',maguchi)


          種類   avg(間口)
0  宅地(土地と建物)  8.190678
1   中古マンション等       NaN


In [44]:
sdf.groupby('間口').count().show()

+---+-----+
| 間口|count|
+---+-----+
|0.0|77586|
+---+-----+



間口も補間完了  

取引事情ありなしだけで分けようとおもいます。  

In [45]:
others = when(col('取引の事情等')=='未知',0).otherwise(1)
sdf = sdf.withColumn('取引の事情等',others)
sdf.groupby('取引の事情等').count().show()


+------+-----+
|取引の事情等|count|
+------+-----+
|     1| 3989|
|     0|73597|
+------+-----+



未知の場合は0  
南向きなら1  

In [46]:
sdf.groupby('前面道路：方位').count().show()

+-------+-----+
|前面道路：方位|count|
+-------+-----+
|      西| 4367|
|     南西| 3326|
|     未知|45563|
|  接面道路無|  192|
|     北東| 3257|
|     北西| 3454|
|      東| 4372|
|      北| 4649|
|     南東| 3580|
|      南| 4826|
+-------+-----+



In [47]:
direction = when(col('前面道路：方位')=='未知',0).when(col('前面道路：方位').like('%南%'),1).otherwise(-1)
sdf = sdf.withColumn('前面道路：方位',direction)
sdf.groupby('前面道路：方位').count().show()


+-------+-----+
|前面道路：方位|count|
+-------+-----+
|     -1|20291|
|      1|11732|
|      0|45563|
+-------+-----+



In [48]:
sdf.groupby('土地の形状').count().show()

+-----+-----+
|土地の形状|count|
+-----+-----+
|  袋地等| 2324|
|   未知|45582|
| ほぼ台形| 2761|
|ほぼ長方形|11028|
|  正方形|  232|
|  長方形| 7657|
|  不整形| 3986|
|   台形| 1222|
|ほぼ正方形| 1456|
| ほぼ整形| 1338|
+-----+-----+



In [49]:
li1=['ほぼ台形','ほぼ長方形','ほぼ正方形','ほぼ整形']
li2=['台形','長方形','正方形','整形']
sdf = sdf.replace(li1,li2)

In [50]:
sdf = sdf.filter(col('用途').like('%住宅%'))
sdf.groupby('用途').count().show()

+------------------+-----+
|                用途|count|
+------------------+-----+
|             住宅、倉庫|   45|
|    共同住宅、倉庫、店舗、その他|    1|
|         住宅、作業場、店舗|    8|
|          共同住宅、その他|   16|
|        住宅、共同住宅、工場|    3|
|         住宅、作業場、倉庫|    7|
|                住宅|62779|
|       共同住宅、事務所、倉庫|   25|
|          共同住宅、作業場|   16|
|         住宅、倉庫、駐車場|    3|
|共同住宅、事務所、作業場、倉庫、店舗|    1|
|             住宅、店舗|  540|
|       共同住宅、倉庫、その他|    2|
|         住宅、工場、作業場|    1|
|       住宅、共同住宅、駐車場|   11|
|     住宅、工場、事務所、作業場|    1|
|          共同住宅、駐車場|   67|
|  住宅、事務所、作業場、倉庫、店舗|    1|
|住宅、共同住宅、事務所、倉庫、駐車場|    1|
|          住宅、工場、店舗|    1|
+------------------+-----+
only showing top 20 rows



In [51]:
sdf = sdf.filter(col('今後の利用目的').like('%住宅%'))
sdf.groupby('今後の利用目的').count().show()


+-------+-----+
|今後の利用目的|count|
+-------+-----+
|     住宅|59690|
+-------+-----+



In [52]:
sdf = sdf.drop('用途','今後の利用目的')

In [53]:
sdf.groupby('改装').count().show()

+---+-----+
| 改装|count|
+---+-----+
| 未知|29581|
|未改装|21732|
|改装済| 8377|
+---+-----+



これでいいと思います

pipelineなどを作って、一回予測してみましょう

その前に、もう一回スキーマを見ましょう

In [54]:
sdf.printSchema()

root
 |-- 種類: string (nullable = true)
 |-- 最寄駅：距離: string (nullable = true)
 |-- 取引価格9: long (nullable = true)
 |-- 間取り: string (nullable = false)
 |-- 面積: string (nullable = true)
 |-- 土地の形状: string (nullable = false)
 |-- 間口: double (nullable = false)
 |-- 延床面積: string (nullable = true)
 |-- 建物の構造: string (nullable = false)
 |-- 前面道路：方位: integer (nullable = false)
 |-- 前面道路：種類: string (nullable = false)
 |-- 都市計画: string (nullable = true)
 |-- 建ぺい率: integer (nullable = true)
 |-- 容積率: integer (nullable = true)
 |-- 改装: string (nullable = false)
 |-- 取引の事情等: integer (nullable = false)
 |-- 年数: integer (nullable = true)
 |-- 平米単価: double (nullable = true)
 |-- 地区平米単価: double (nullable = true)
 |-- 駅平米単価: double (nullable = true)
 |-- is_l: integer (nullable = false)
 |-- is_d: integer (nullable = false)
 |-- is_s: integer (nullable = false)
 |-- 部屋数: string (nullable = false)



型変換

In [55]:
sdf = sdf.withColumn("最寄駅：距離", sdf["最寄駅：距離"].cast(IntegerType()))
sdf = sdf.withColumn("面積", sdf["面積"].cast(IntegerType()))
sdf = sdf.withColumn("延床面積", sdf["延床面積"].cast(IntegerType()))

In [56]:
sdf.printSchema()

root
 |-- 種類: string (nullable = true)
 |-- 最寄駅：距離: integer (nullable = true)
 |-- 取引価格9: long (nullable = true)
 |-- 間取り: string (nullable = false)
 |-- 面積: integer (nullable = true)
 |-- 土地の形状: string (nullable = false)
 |-- 間口: double (nullable = false)
 |-- 延床面積: integer (nullable = true)
 |-- 建物の構造: string (nullable = false)
 |-- 前面道路：方位: integer (nullable = false)
 |-- 前面道路：種類: string (nullable = false)
 |-- 都市計画: string (nullable = true)
 |-- 建ぺい率: integer (nullable = true)
 |-- 容積率: integer (nullable = true)
 |-- 改装: string (nullable = false)
 |-- 取引の事情等: integer (nullable = false)
 |-- 年数: integer (nullable = true)
 |-- 平米単価: double (nullable = true)
 |-- 地区平米単価: double (nullable = true)
 |-- 駅平米単価: double (nullable = true)
 |-- is_l: integer (nullable = false)
 |-- is_d: integer (nullable = false)
 |-- is_s: integer (nullable = false)
 |-- 部屋数: string (nullable = false)



## ML

In [58]:
cols = sdf.columns
cols

['種類',
 '最寄駅：距離',
 '取引価格9',
 '間取り',
 '面積',
 '土地の形状',
 '間口',
 '延床面積',
 '建物の構造',
 '前面道路：方位',
 '前面道路：種類',
 '都市計画',
 '建ぺい率',
 '容積率',
 '改装',
 '取引の事情等',
 '年数',
 '平米単価',
 '地区平米単価',
 '駅平米単価',
 'is_l',
 'is_d',
 'is_s',
 '部屋数']

In [59]:
from pyspark.ml.feature import OneHotEncoderEstimator, StringIndexer, VectorAssembler
categoricalColumns = ['種類', '間取り', '建物の構造','前面道路：種類' ,'都市計画','部屋数']
stages = []
for categoricalCol in categoricalColumns:
    stringIndexer = StringIndexer(inputCol = categoricalCol, outputCol = categoricalCol + 'Index')
    encoder = OneHotEncoderEstimator(inputCols=[stringIndexer.getOutputCol()], outputCols=[categoricalCol + "classVec"])
    stages += [stringIndexer, encoder]

numericCols = ['最寄駅：距離', '面積','間口', '前面道路：方位','延床面積', '建ぺい率', '容積率', '取引の事情等','年数','地区平米単価', '駅平米単価','平米単価','is_l', 'is_d', 'is_s']
assemblerInputs = [c + "classVec" for c in categoricalColumns] + numericCols
assembler = VectorAssembler(inputCols=assemblerInputs, outputCol="features")
stages += [assembler]

In [60]:
from pyspark.ml import Pipeline
pipeline = Pipeline(stages = stages)
pipelineModel = pipeline.fit(sdf)
sdf = pipelineModel.transform(sdf)

In [61]:
selectedCols = ['features'] + cols
selectedCols

['features',
 '種類',
 '最寄駅：距離',
 '取引価格9',
 '間取り',
 '面積',
 '土地の形状',
 '間口',
 '延床面積',
 '建物の構造',
 '前面道路：方位',
 '前面道路：種類',
 '都市計画',
 '建ぺい率',
 '容積率',
 '改装',
 '取引の事情等',
 '年数',
 '平米単価',
 '地区平米単価',
 '駅平米単価',
 'is_l',
 'is_d',
 'is_s',
 '部屋数']

In [62]:
sdf = sdf.select(selectedCols)
sdf.printSchema()

root
 |-- features: vector (nullable = true)
 |-- 種類: string (nullable = true)
 |-- 最寄駅：距離: integer (nullable = true)
 |-- 取引価格9: long (nullable = true)
 |-- 間取り: string (nullable = false)
 |-- 面積: integer (nullable = true)
 |-- 土地の形状: string (nullable = false)
 |-- 間口: double (nullable = false)
 |-- 延床面積: integer (nullable = true)
 |-- 建物の構造: string (nullable = false)
 |-- 前面道路：方位: integer (nullable = false)
 |-- 前面道路：種類: string (nullable = false)
 |-- 都市計画: string (nullable = true)
 |-- 建ぺい率: integer (nullable = true)
 |-- 容積率: integer (nullable = true)
 |-- 改装: string (nullable = false)
 |-- 取引の事情等: integer (nullable = false)
 |-- 年数: integer (nullable = true)
 |-- 平米単価: double (nullable = true)
 |-- 地区平米単価: double (nullable = true)
 |-- 駅平米単価: double (nullable = true)
 |-- is_l: integer (nullable = false)
 |-- is_d: integer (nullable = false)
 |-- is_s: integer (nullable = false)
 |-- 部屋数: string (nullable = false)



In [63]:
train,test = sdf.randomSplit([0.7,0.3],seed = 0)
print('train:',train.count())

train: 41867


モデリング

In [64]:
from pyspark.ml.regression import RandomForestRegressor

dt = RandomForestRegressor(featuresCol = 'features',labelCol = '取引価格9')
dtModel = dt.fit(train)
dt_pred = dtModel.transform(test)


In [65]:
dt_pred.select("prediction","取引価格9").show()

+--------------------+--------+
|          prediction|   取引価格9|
+--------------------+--------+
| 3.841540291617562E7|45000000|
| 5.950278046117029E7|70000000|
| 5.715383223966868E7|63000000|
| 5.434151423578999E7|57000000|
| 6.085695443721857E7|69000000|
|2.8346707740060605E7| 9600000|
| 1.779623658212096E7|15000000|
| 2.033467400080248E7|15000000|
| 2.033467400080248E7|17000000|
| 2.081104257659803E7|19000000|
| 2.081104257659803E7|20000000|
|  1.47323698491676E7|18000000|
| 1.425600127337205E7| 8500000|
|1.0362090834470537E7| 5500000|
| 3.577189837148527E7|35000000|
| 3.837467193172495E7|38000000|
|5.4567595990676984E7|76000000|
| 5.068877386031244E7|57000000|
|  4.51376003071759E7|50000000|
| 3.736583504129111E7|37000000|
+--------------------+--------+
only showing top 20 rows



In [66]:
dt_pred.show()

+--------------------+--------+------+--------+----+---+-----+---+----+-----+-------+-------+------------+----+---+---+------+---+------------------+------------------+-----------------+----+----+----+-----+--------------------+
|            features|      種類|最寄駅：距離|   取引価格9| 間取り| 面積|土地の形状| 間口|延床面積|建物の構造|前面道路：方位|前面道路：種類|        都市計画|建ぺい率|容積率| 改装|取引の事情等| 年数|              平米単価|            地区平米単価|            駅平米単価|is_l|is_d|is_s|  部屋数|          prediction|
+--------------------+--------+------+--------+----+---+-----+---+----+-----+-------+-------+------------+----+---+---+------+---+------------------+------------------+-----------------+----+----+----+-----+--------------------+
|(88,[0,1,25,41,56...|中古マンション等|     1|45000000|  未知| 50|   未知|0.0|  50|   ＲＣ|      0|     未知|        商業地域|  80|500|未改装|     0|  8|          900000.0| 836232.6794536883|916922.5616003348|   0|   0|   0|部屋数未知| 3.841540291617562E7|
|(88,[0,2,25,41,56...|中古マンション等|     3|70000000|３ＬＤＫ| 65|   未知|0.0|  65|   ＲＣ|      0

In [67]:
from pyspark.ml.evaluation import RegressionEvaluator
evaluator = RegressionEvaluator(
    labelCol="取引価格9", predictionCol="prediction", metricName="r2")

In [68]:
evaluator.evaluate(dt_pred)

0.7147379144521949

R2スコアとして、そこまで悪くはない  
これでオッケー