# 飯田産業　土地の販売価格の推定
## 概略
- 主催者：株式会社飯田産業
- 目的：人材発掘
- タスク：埼玉県における過去の土地の販売実績データを用いて土地の販売価格を予測。
- 賞金：１位以下１００万、７０万、３０万円。
- 注意事項
    - 採用又は業務委託に関する情報提供又はオファーに関する連絡が来る可能性有。
- URL:https://signate.jp/competitions/162

## 株式会社飯田産業とは
日本の不動産会社で、飯田グループホールディングス株式会社の完全子会社。
首都圏を中心に、一戸建て住宅・マンションの建設を手掛ける。大手パワービルダーの一つ。

## ルールと参加規約
- チームでの参加は不可
- 配布するデータ以外のデータを用いてモデルを学習することは禁止（！）
    - 関連するデータ探しをしなくてよい！！！
- モデルの学習に利用するツールは、オープンかつ無料なもの(?)
    - GPL汚染とか大丈夫なの？
- 以下のように前処理、学習、予測の３つに分け、それぞれを実行すれば処理が進むように実装する。
    1. preprocess
    提供データを読み込み、データに前処理を施し、モデルに入力が可能な状態でファイル出力するモジュール。
    get_train_dataやget_test_dataのように、学習用と評価用を分けて前処理を行う関数を定義。
    ※渡す情報として学習用データと評価用データを混在させてもよい。ただし、get_train_dataで返す結果は、
    前処理された学習用データ、get_test_dataで返す結果は前処理された評価用データのように、処理の内容は独立させる。
    ↑どゆこと？
    
    2. train
    ①で作成したファイルを読み込み、モデルを学習するモジュール。
    学習済モデルや特徴量、クロスバリデーションの評価結果を出力する関数等を定義。
    
    3. predict
    ①で作成したテストデータ及び②で作成したモデルを読み込み、予測結果をファイルとして出力するモジュール。
    
- うちの会社に提出物の全権利を渡してください。
- 入省後質疑応答期間があるけどそこで満足行く回答をしなかったら入賞取り消しで。
- コンペ終了後全データ削除してください。

## タスク詳細
- データは「現場」「号棟」の2種類に分かれている。
- 「現場」データには、"PJ番号"で管理される区画毎に土地の情報が記録されている。
- 「号棟」データには、「現場」データで管理される区画に対して、1つ以上の号棟が割り当てられる。
- 「号棟」単位の販売価格を予測する。

<img src="./image/goto.png">

## データセットの内容
|ファイル名|データ名|種別|レコード数|説明|
|:---:|:---:|:---:|:---:|:---:|
|train_genba.tsv|現場データ|学習用|2782|土地の情報|
|train_goto.tsv|号棟データ|学習用|6462|現場データで管理される区画に対して割り当てられた号棟の情報|
|test_genba.tsv|現場データ|評価用|1856|土地の情報|
|test_goto.tsv|号棟データ|評価用|4274|現場データで管理される区画に対して割り当てられた号棟の情報|
|data_definition.txt|データ定義書|資料|x|データの項目名と説明をまとめたファイル。※入力時の不備により、現場データ、号棟データには本定義書で定義されていない値が入っている|
|sample_submit.tsv|応募用サンプルファイル|資料|x|1列目に"id"を、2列目に"id"に対応する、予測した"keiyaku_pr"を記入したファイルを、ヘッダ無しtsv形式で投稿する。|

### データ定義書(data definition.txt)

In [1]:
import numpy as np
import pandas as pd
pd.set_option('display.max_rows', 200)
data_definition = pd.read_csv('dataset/data_definition.txt', delimiter='\t')
print(data_definition[["項目名","データ種別","項目名（日本語）","データ型"]])


                 項目名 データ種別           項目名（日本語）  データ型
0              pj_no    現場               PJ番号    数値
1              jukyo    現場               住居表示  テキスト
2      chiseki_js_hb    現場        地積 (実測)(平米）    数値
3      chiseki_kb_hb    現場        地積 (公簿)(平米）    数値
4              yoto1    現場              用途地域1  カテゴリ
5              yoto2    現場              用途地域2  カテゴリ
6            kempei1    現場              建ぺい率1    数値
7            kempei2    現場              建ぺい率2    数値
8            yoseki1    現場               容積率1    数値
9            yoseki2    現場               容積率2    数値
10             josui    現場             設備(上水)  カテゴリ
11             gesui    現場             設備(下水)  カテゴリ
12               gas    現場             設備(ガス)  カテゴリ
13              usui    現場             設備(雨水)  カテゴリ
14        tateuri_su    現場           販売種別(建売)    数値
15       tochiuri_su    現場         販売種別(土地売り)    数値
16          joken_su    現場        販売種別(条件付売地)    数値
17      hy1f_date_su    現場          販売予定(平屋建)    数値
18      hy2f

In [2]:
print(data_definition[["項目名","説明"]])

                 項目名                                                 説明
0              pj_no                        プロジェクト番号。現場データと号棟データの紐付けキー。
1              jukyo                                         住所（市区町村まで）
2      chiseki_js_hb                                           地積㎡数(実測)
3      chiseki_kb_hb                                           地積㎡数(公簿)
4              yoto1  「第一種低層住居専用地域・第二種低層住居専用地域・第一種中高層住居専用地域・第二種中高層住居...
5              yoto2  「第一種低層住居専用地域・第二種低層住居専用地域・第一種中高層住居専用地域・第二種中高層住居...
6            kempei1                                      用途地域1に対する建ぺい率
7            kempei2                                      用途地域2に対する建ぺい率
8            yoseki1                                       用途地域1に対する容積率
9            yoseki2                                       用途地域2に対する容積率
10             josui                                         「公営・私営・井戸」
11             gesui                             「公共下水・個別浄化槽・集中浄化槽・汲取式」
12               gas                               「都市ガス・個別プロパン・

### 現場データ(train_genba.tsv)
- データ定義書の140番目の項目までが現場データの変数

In [6]:
train_genba = pd.read_csv('dataset/train_genba.tsv', delimiter='\t')
print(train_genba.head(10))
print(train_genba.columns.tolist())
print(len(train_genba.columns.tolist()))

   pj_no             jukyo  chiseki_js_hb  chiseki_kb_hb         yoto1 yoto2  \
0      0          埼玉県朝霞市泉水         109.26         109.10          工業地域   NaN   
1      1        埼玉県川越市大字的場         136.15         136.00   第一種低層住居専用地域   NaN   
2      2         埼玉県川口市安行原          86.92          86.52   第一種低層住居専用地域   NaN   
3      3          埼玉県草加市松江         164.91         164.07          工業地域   NaN   
4      4         埼玉県新座市野火止         403.58         403.58   第一種低層住居専用地域   NaN   
5      5   埼玉県桶川市大字上日出谷字殿山         114.44         114.55       第一種住居地域   NaN   
6      6  埼玉県さいたま市見沼区片柳字南台         531.98         498.06       指定のない区域   NaN   
7      7          埼玉県上尾市東町         242.78         242.78       第一種住居地域   NaN   
8      8          埼玉県狭山市中央         224.99         224.99  第一種中高層住居専用地域   NaN   
9      9    埼玉県北葛飾郡杉戸町大字堤根        1010.00        1002.00       指定のない区域   NaN   

   kempei1  kempei2  yoseki1  yoseki2   ...   bas_toho1 eki_kyori1 bastei_nm1  \
0       60      0.0      200      0.0 

### 号棟データ(train_goto.tsv)
- データ定義書の141番目から157番目までが号棟データの変数
- keiyaku_prを予測する。

In [7]:
train_goto = pd.read_csv('dataset/train_goto.tsv', delimiter='\t')
print(train_goto.head(10))
print(train_goto.columns.tolist())
print(len(train_goto.columns.tolist()))

           id  pj_no  keiyaku_pr  tc_mseki  tt_mseki levelplan  fukuin  \
0  train_0000      0    39800000    109.26    104.43   2F/4LDK     4.0   
1  train_0001      1    22300000    136.11    105.16   2F/4LDK     4.2   
2  train_0002      2    19800000     87.07     85.94   2F/4LDK     4.0   
3  train_0003      3    33990000    163.75    105.98   2F/4LDK     4.0   
4  train_0004      4    30800000    111.51     89.01   2F/4LDK     4.0   
5  train_0005      4    35800000    111.53     89.01   2F/4LDK     4.0   
6  train_0006      4    35300000    111.53     88.18   2F/3LDK     4.0   
7  train_0007      5    21496297    114.44     98.95   2F/4LDK     4.0   
8  train_0008      6    19200000    274.25      0.00   2F/4LDK     7.1   
9  train_0009      6    17900000    241.73      0.00   2F/4LDK     7.4   

  road_st  magutchi setsudo_hi setsudo_kj jigata hiatari  niwasaki  garage  \
0    問題なし       9.9          東         良い    整形地      普通      4.00       1   
1    問題なし       9.3         北

### 現場データ(test_genba.tsv)

In [9]:
test_genba = pd.read_csv('dataset/test_genba.tsv', delimiter='\t')
print(test_genba.head(10))

   pj_no          jukyo  chiseki_js_hb  chiseki_kb_hb         yoto1 yoto2  \
0   2781        埼玉県羽生市東         208.26         208.26   第一種低層住居専用地域   NaN   
1   2782     埼玉県川越市大字寺尾        1369.35        1497.00   第一種低層住居専用地域   NaN   
2   2783       埼玉県三郷市新和         110.28         110.28         準工業地域   NaN   
3   2784       埼玉県志木市柏町         198.38         198.00  第一種中高層住居専用地域   NaN   
4   2785  埼玉県さいたま市北区奈良町         229.45         229.45  第一種中高層住居専用地域   NaN   
5   2786  埼玉県北足立郡伊奈町西小針        2349.39        2349.39          工業地域   NaN   
6   2787      埼玉県草加市金明町          75.61          74.77  第一種中高層住居専用地域   NaN   
7   2788      埼玉県春日部市豊町         133.26         133.26  第一種中高層住居専用地域   NaN   
8   2789       埼玉県ふじみ野市         101.48         101.48       第一種住居地域   NaN   
9   2790      埼玉県新座市野火止         825.19         825.19       第一種住居地域   NaN   

   kempei1  kempei2  yoseki1  yoseki2   ...   bas_toho1 eki_kyori1 bastei_nm1  \
0       50      NaN       80      NaN   ...          徒歩         21     

### 号棟データ(test_goto.tsv)
- 予測変数keiyaku_prのみ項目がない。

In [12]:
test_goto = pd.read_csv('dataset/test_goto.tsv', delimiter='\t')
print(test_goto.head(10))
print(test_goto.columns.tolist())
print(len(test_goto.columns.tolist()))

          id  pj_no  tc_mseki  tt_mseki levelplan  fukuin road_st  magutchi  \
0  test_0000   2781    212.38    118.40   2F/4LDK     4.0    問題なし      13.0   
1  test_0001   2782    100.87     97.08   2F/4LDK     4.0    問題なし       7.9   
2  test_0002   2782    106.02     97.19   2F/4LDK     4.0    問題なし       7.1   
3  test_0003   2782    110.15    100.60   2F/4LDK     4.0    問題なし       9.5   
4  test_0004   2782    112.13     97.29   2F/4LDK     4.0    問題なし      14.1   
5  test_0005   2782    110.03     97.91   2F/4LDK     4.0    問題なし       7.3   
6  test_0006   2782    110.48     99.77   2F/4LDK     4.0    問題なし      14.4   
7  test_0007   2782    110.25     97.92   2F/4LDK     4.0    問題なし      15.0   
8  test_0008   2782    100.43     97.08   2F/4LDK     4.0    問題なし       7.1   
9  test_0009   2782    120.60    101.85   2F/4LDK     4.0    問題なし      14.0   

  setsudo_hi setsudo_kj jigata hiatari  niwasaki  garage kobetsu1 kobetsu2  \
0          西         良い    整形地      良い       6.5    

### 応募用サンプルファイル	(sample_submit.tsv)
- 1列目に"id"を、2列目に"id"に対応する"keiyaku_pr"を記入したファイルを、ヘッダ無しtsv形式で投稿する。

In [13]:
sample_submit = pd.read_csv('dataset/sample_submit.tsv', delimiter='\t')
print(sample_submit.head(10))

   test_0000  19588164
0  test_0001  26903494
1  test_0002  26878754
2  test_0003  26878754
3  test_0004  27112940
4  test_0005  26878754
5  test_0006  26878754
6  test_0007  26878754
7  test_0008  26636112
8  test_0009  28987098
9  test_0010  26878754
