# setup

```bash
pip3 install psycopg2-binary --force-reinstall --no-cache-dir 
pip3 install  ydata-profiling  --force-reinstall --no-cache-dir
pip3 install IProgress


pip3 install keras-ordered-neurons



```


In [None]:
# PostgreSQLに接続し、データを取得する
from sqlalchemy import create_engine, text
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline


engine = create_engine('postgresql://postgres:postgres@localhost:54320/scraping_development',isolation_level="AUTOCOMMIT")
sql = '''
    SELECT * FROM houses;
'''
with engine.connect().execution_options(autocommit=True) as conn:
    query = conn.execute(text(sql))
tmp_houses = pd.DataFrame(query.fetchall())

conn.close()


In [2]:
import copy


# deep copy
houses = copy.deepcopy(tmp_houses)

# 5000件をランダムサンプリングする
# houses = houses.sample(n=5000, random_state=0)

# location0_stationの駅名を全てを機械学習に入れやすくするために数値に置き換える
# 1.駅名を取得する
stations1 = houses['ekiNm1'].unique()
stations2 = houses['ekiNm2'].unique()
stations3 = houses['ekiNm3'].unique()

# 複数の配列の統合
unique_stations = list(set(stations1) | set(stations2) | set(stations3))


stations = ['大宮','浦和','和光市','川口','朝霞台','南越谷','新越谷','北朝霞','大宮','蕨','西川口','南浦和','川越','武蔵浦和','北浦和','さいたま新都心','所沢','志木','草加','上尾','東川口','朝霞','川越','春日部','戸田公園','久喜','ふじみ野','東大宮','東浦和','上福岡','与野','せんげん台','越谷ﾚｲｸﾀｳﾝ','新所沢','熊谷','桶川','越谷','獨協大学前','鶴瀬','八潮','本川越','大宮','北越谷','久喜','宮原','北戸田','川越市','戸田','小手指','みずほ台','蓮田','谷塚','狭山市','鴻巣','新座','北本','吉川','岩槻','南与野','若葉','東川口','土呂','入間市','北上尾','東所沢','新田','新三郷','三郷中央','与野本町','西浦和','三郷','飯能','東武動物公園','中浦和','日進','東松山','籠原','鶴ヶ島','坂戸','新河岸','白岡','西所沢','航空公園','狭山ヶ丘','西大宮','鳩ヶ谷','霞ヶ関','武蔵藤沢','栗橋','指扇','浦和美園','川口元郷','東岩槻','北与野','大和田','七里','柳瀬川','北坂戸','東鷲宮','新狭山','大袋','一ノ割','深谷','蒲生','南大塚','本庄','吹上','入曽','南古谷','南鳩ヶ谷','戸塚安行','武里','高坂','北鴻巣','南桜井','新白岡','豊春','加須','幸手','森林公園','羽生','行田','新井宿','吉川美南','杉戸高野台','八木崎','東飯能','栗橋','花崎','北春日部','仏子','熊谷','小川町','鉄道博物館','大宮公園','南栗橋','川角','稲荷山公園','高麗川','下山口','藤の牛島','武蔵嵐山','北大宮','加茂宮','鷲宮','武蔵高萩','的場','寄居','元加治','笠幡','西武球場前','今羽','東飯能','姫宮','つきのわ','東毛呂','東宮原','神保原','内宿','岡部','西武秩父','羽貫','一本松','和戸','武州長瀬','羽生','沼南','吉野原','西大家','南羽生','金子','本庄早稲田','武州唐沢','越生','原市','丸山','志久','西川越','東行田','伊奈中央','高麗','御花畑','男衾','新古河','行田市','毛呂','柳生','横瀬','ひろせ野鳥の森','東武竹沢','大野原','石原','小前田','武川','持田','鉢形','皆野','桜沢','秩父','上熊谷','長瀞','西武園ゆうえんち','ソシオ流通センター','吾野','野上','玉淀','東吾野','影森','永田','親鼻','三峰口','和銅黒谷','武州荒木','芦ヶ久保','西羽生','武蔵横手','西吾野','新郷','大麻生','明戸','武州中川','波久礼','樋口','正丸','ふかや花園','上長瀞','武州日野','浦山口','白久','みなみ寄居','明覚','竹沢','折原','用土','松久','丹荘','越生','児玉']


# 2.駅名を数値に置き換える
houses['ekiNm1'] = houses['ekiNm1'].replace(stations, range(len(stations)))
houses['ekiNm2'] = houses['ekiNm2'].replace(stations, range(len(stations)))
houses['ekiNm3'] = houses['ekiNm3'].replace(stations, range(len(stations)))



# それでもstring型の文字列があった場合は0にする
# 文字列を0に置き換える関数
def replace_string_with_zero(value):
    if isinstance(value, str):
        return 1000
    else:
        return value

# 文字列を0に置き換える
houses['ekiNm1'] = houses['ekiNm1'].apply(replace_string_with_zero)
houses['ekiNm2'] = houses['ekiNm2'].apply(replace_string_with_zero)
houses['ekiNm3'] = houses['ekiNm3'].apply(replace_string_with_zero)



pd.DataFrame({'station': stations, 'station_id': range(len(stations))})

# unique_stationsに存在して、stationsには無い駅を取得する
diff_list = set(unique_stations) ^ set(stations)

# houses['location0_station']の中で、diff_listの駅名を含む行をNANにする
houses['ekiNm1'] = houses['ekiNm1'].replace(diff_list, np.nan)
houses['ekiNm2'] = houses['ekiNm2'].replace(diff_list, np.nan)
houses['ekiNm3'] = houses['ekiNm3'].replace(diff_list, np.nan)


houses = houses[ houses['ekiNm1'] != 1000]
houses = houses[ houses['ekiNm2'] != 1000]


###############
# shikugunKukuriNmも同様に数値に置き換える

shikugun = [
    'さいたま市西区', 'さいたま市北区', 'さいたま市大宮区', 'さいたま市見沼区', 'さいたま市中央区', 'さいたま市桜区', 'さいたま市浦和区', 'さいたま市南区', 'さいたま市緑区', 'さいたま市岩槻区', '川越市', '熊谷市', '川口市', '行田市', '秩父市', '所沢市', '飯能市', '加須市', '本庄市', '東松山市', '春日部市', '狭山市', '羽生市', '鴻巣市', '深谷市', '上尾市', '草加市', '越谷市', '蕨市', '戸田市', '入間市', '朝霞市', '志木市', '和光市', '新座市', '桶川市', '久喜市', '北本市', '八潮市', '富士見市', '三郷市', '蓮田市', '坂戸市', '幸手市', '鶴ヶ島市', '日高市', '吉川市', 'ふじみ野市', '白岡市', '伊奈町', '三芳町', '毛呂山町', '越生町', '滑川町', '嵐山町', '小川町', '川島町', '吉見町', '鳩山町', 'ときがわ町', '横瀬町', '皆野町', '長瀞町', '小鹿野町', '東秩父村', '美里町', '神川町', '上里町', '寄居町', '宮代町', '杉戸町', '松伏町', '比企郡小川町', '比企郡', '北足立郡', '北足立郡伊奈町']



houses['shikugunNm'] = houses['shikugunNm'].replace(shikugun, range(len(shikugun)))
houses['shikugunKukuriNm3'] = houses['shikugunKukuriNm3'].replace(shikugun, range(len(shikugun)))

# 文字列を0に置き換える
houses['shikugunNm'] = houses['shikugunNm'].apply(replace_string_with_zero)
houses['shikugunKukuriNm3'] = houses['shikugunKukuriNm3'].apply(replace_string_with_zero)




# いつか複数の物件を正しく扱いたい
# 複数存在する配列の値を数値に変換する。2つあるものは最初の値をとる

houses['headerKakakuDisp'] = houses['headerKakakuDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)
houses['latestKakakuDisp'] = houses['latestKakakuDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)

houses['latestHeaderKakakuDisp'] = houses['latestHeaderKakakuDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)
houses['kakakuDisp'] = houses['kakakuDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)
houses['madoriDisp'] = houses['madoriDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)
houses['tatemonoMensekiDisp'] = houses['tatemonoMensekiDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)
houses['senyuMensekiDisp'] = houses['senyuMensekiDisp'].apply(lambda x: x[0] if len(x) > 0 else np.nan)


## 1.物件の種類を数値に置き換える
# ryoikiShu = ['新築一戸建て', '中古一戸建て','新築マンション', '中古マンション', '土地']
# 2.駅名を数値に置き換える
# houses['ryoikiShuNm'] = houses['ryoikiShuNm'].replace(ryoikiShu, range(len(ryoikiShu)))


# ----------------------------- 部屋数を取得する -------------------------
# ['3LDK' '4LDK+S' '4LDK' '2LDK+S' '3LDK+S' '5LDK' '2LDK' '6LDK+S' '3DK'
# '4DK' '5K' '1LDK+2S' '2LDK+2S' '4LDDKK' '3LDK+2S' '4LDK+2S' '3LK+S'
# '3LDK+3S' '5LDK+S' '1LDK' '9LDDKK' '5DK' '8K' '5LDK+2S' '4DK+S' '2DK'
# '7DK+S' '6DK' '1LDK+S' '5LLDDKK' '6LDK+2S' '' '1K+S' '7LDK+S' '4LLDDKK+S'
# '2DK+S' '2LDKK+2S' '6LDK' '3DK+S' '3K' '4LDKK+S' '4LDKK' '4LLDDKK+2S'
# '1DK+S' '6DK+S' '1LDK+3S' '5DK+S' '4LK' '4LDK+3S' '7LLDDKK+S' '7LDDKK'
# '7LDK' '3LDDKK+S' '3K+S' '5LLDDKK+S' '5LLDDKK+3S' '7DKK' '4K' '5K+S'
# '1DK' '5LDK+3S' '5LDKK' '4LLDDKK' '2LDK+3S' '3LLDDKK+S' '6LLDDKK'
# '2LLDDKK+S' '4LK+S' '3LK' 'ワンルーム+S' '3K+2S']
#
# L, D, K, Sはそれぞれ1部屋としてカウントし、3LDKは6部屋としてカウントする
# 4LLDDKKは10部屋としてカウントする

# 1.部屋数を取得する
df = pd.DataFrame({'rooms': houses['madoriDisp']})
df['rooms'] = df['rooms'].dropna()
df['base_count'] = df['rooms'].str.extract(r'^(\d+)', expand=False).astype(float).fillna(0)

df['L_count'] = df['rooms'].str.count('L')
df['D_count'] = df['rooms'].str.count('D')
df['K_count'] = df['rooms'].str.count('K')
df['oneroom_count'] = df['rooms'].str.count('ワンルーム')
df['S_count'] = df['rooms'].str.count('\+S')
df['PS_count'] = df['rooms'].str.extract(r'\+(\d)S', expand=False).astype(float).fillna(0)

df['room_count'] = df.drop('rooms', axis=1).sum(axis=1).astype(int)
houses['room_count'] =df['room_count']
houses.drop('madoriDisp', axis=1, inplace=True)




# ----------------------------- 向き -------------------------
muki = ['南', '南東', '南西', '東', '西', '北東', '北西', '北']
houses['muki'] = houses['muki'].replace(muki, range(len(muki)))





# ----------------------------- 不要なカラムを削除する -------------------------



remove_columns = [
    # 使用しない
    'id', 'page_url', 'section_name', 'name', 'address', 'land_area', 'building_area', 'thumbnail', 'images', 'ryoikiShuCd', 'gamen_type', 'hashEmail', 'alive_date', 'created_at', 'updated_at', 'areaCd', 'busTei1','busTei2', 'ensenNm3', 'saitakakakutai', 'headerKakakuDisp',
    'ensenCd1',
    'ekiCd1',
    'ensenCd2',
    'ekiCd2',
    'ensenCd3',
    'ekiCd3',
    'kakakuDisp',
    'kakaku_mitei_flg',


    # 使わなそう
    # 'busJikan1',
    # 'teihoJoken1',
    # 'kurumaKyori1',
    # 'busJikan2',
    # 'teihoJoken2',
    # 'kurumaKyori2',
    # 'busJikan3',
    # 'teihoJoken3',
    # 'kurumaKyori3',
    # 
    # 'hanbaiKukakusuDisp',
    # 'zoseiKanryoDateDisp',
    # 'hikiwatashiDateDisp',
    # 'senyuMensekiDisp',



    # 謎
    'kikaku',

    # いつか使う
    'todofukenCd', 'todofukenNm', 'areaNm', 'shikugunKukuriNm1', # 埼玉県以外にもなったら
    'busTei1', 'busTei2', 'busTei3',
    'hanbaiScheduleDisp',

    # 使うかも
    'ensenNm1', 'kaisha_nm', 'ensenNm2',
    'madoriList',
    # 'latestMadoriList',
    
    # 雑に消した
    'shikugunKukuriCd1',
    # 'hanbaiKakakuDisp',
    'zoseiKanryoDateDisp',
    'hikiwatashiDateDisp',


    # 空白もじ
    'hanbaiKukakusuDisp',
    'senyuMensekiDisp',
    'muki',
    'soKosuDisp',
    'shikichiMensekiDisp',
    't_tanka',
    'p360_umu_flg',
    'kurumaKyori1',

    # 空文字多すぎ
    'busJikan1',
    'teihoJikan1',
    'kurumaKyori1',
    'busJikan2',
    'teihoJikan2',
    'kurumaKyori2',
    'busJikan3',
    'teihoJikan3',
    'kurumaKyori3',
    'tohoJikan3',
    
    # huyou
    'kakaku_mitei_flg',
    'new_flg',
    'cm_umu_flg',
    'projectCd',
    'bukkenCd',
    'projectCd',
    'bukkenCd',
    'shikugunNm',
    'shikugunKukuriNm3',
    # 'chikugonensu',
    'nyukyoDateDisp',
    'nyukyojiki',
    'upd_flg',
    # 'tatemonoMensekiDisp',
    'chikugonensu',
    
    
    # 相関低い
    'hanbai_kosuu',
    'room_count',
    'doga_umu_flg',
    'raijoYoyakuFlg',
    
    # 重複
    'shikugunKukuriCd3',
    'latestKakakuDisp',
    'ekiNm3',
]
houses = houses.drop(remove_columns, axis=1)
houses





Unnamed: 0,ryoikiShuNm,latestHeaderKakakuDisp,shikugunCd,ekiNm1,tohoJikan1,ekiNm2,tohoJikan2,tokuchoPickupList,soKukakusuDisp,kanseiDateDisp,tatemonoMensekiDisp,kaisha_cd,mado_cd,chikunengetsu
0,新築一戸建て,33900000,221,65,19,37,21,"[設計住宅性能評価書, 建設住宅性能評価書（新築時）, 省エネルギー対策, フラット３５Sに...",15,202402,90.46,179911,001,202402
2,中古一戸建て,25900000,208,33,12,48,19,"[年内引渡可, ２沿線以上利用可, スーパー徒歩10分以内, 市街地が近い, 内装リフォーム...",,200106,103.88,005356,007,200106
3,新築一戸建て,39800000,101,41,,84,33,"[駐車２台可, ＬＤＫ１８畳以上, スーパー徒歩10分以内, システムキッチン, 全居室収納...",3,202308,96.47,153811,001,202308
4,新築一戸建て,39800000,203,9,,10,36,"[設計住宅性能評価書, 建設住宅性能評価書（新築時）, 地盤調査済, 年内引渡可, スーパー...",1,202404,94.77,163942,001,202404
5,中古一戸建て,24800000,101,84,17,41,,"[即引渡可, 市街地が近い, 内装リフォーム, システムキッチン, 南側道路面す, 閑静な住...",1,200504,88.69,123726,003,200504
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32186,新築一戸建て,33900000,221,65,18,37,19,"[設計住宅性能評価書, 建設住宅性能評価書（新築時）, フラット３５Sに対応, 地盤調査済,...",15,202402,90.46,148303,012,202402
32188,中古一戸建て,24800000,221,18,37,37,40,"[即引渡可, ＬＤＫ１８畳以上, スーパー徒歩10分以内, 内外装リフォーム, 内装リフォー...",1,199604,105.16,082183,002,199604
32189,新築一戸建て,33900000,203,85,26,122,27,"[長期優良住宅認定通知書, 設計住宅性能評価書, 建設住宅性能評価書（新築時）, BELS/...",1,202401,87.98,169718,001,202401
32190,新築一戸建て,21800000,240,118,12,124,,"[設計住宅性能評価書, 建設住宅性能評価書（新築時）, フラット３５・S適合証明書, 省エネ...",2,202403,91.08,138599,040,202403


In [3]:
# one hot encodingしない
houses = houses.drop(['tokuchoxPickupList'], axis=1)

# 
# # ---------------- 配列型のhouses['tokuchoPickupList']を one hot encodingする -----------------
# 
# # 1.配列の中身を取得する
# tokuchoPickupList = houses['tokuchoPickupList'].apply(lambda x: x[0] if len(x) > 0 else x)
# tokuchoPickupList = tokuchoPickupList.dropna()
# tokuchoPickupList = tokuchoPickupList.apply(lambda x: x.split(','))
# tokuchoPickupList = tokuchoPickupList.apply(lambda x: [i.replace(' ', '') for i in x])
# tokuchoPickupList = tokuchoPickupList.apply(lambda x: [i.replace('　', '') for i in x])
# tokuchoPickupList = tokuchoPickupList.apply(lambda x: [i.replace('・', '') for i in x])
# 
# # 2.配列の中身を取得する
# tokuchoPickupList = tokuchoPickupList.apply(lambda x: pd.Series(x))
# tokuchoPickupList = pd.get_dummies(tokuchoPickupList.apply(lambda x: x), prefix='', prefix_sep='')
# # tokuchoPickupList = tokuchoPickupList.groupby(level=0, axis=1).sum()
# 
# 
# extraction_columns= [
#     'フラット３５Sに対応', '地盤調査済', '２沿線以上利用可', '設計住宅性能評価書']
# tokuchoPickupList = tokuchoPickupList[extraction_columns]
# 
# # # 3.相関の高いカラムを抽出する
# rename_columns = {
#     'フラット３５Sに対応': 'supported_to_flat_35s',
#     'ルーフバルコニー': 'roof_balcony',
#     '地盤調査済': 'ground_surveied',
#     # '年内引渡可': 'within_year_passing_allowed',
#     # '省エネルギー対策': 'energy_saving_control',
#     # '２沿線以上利用可': '2_railroad_or_more_use_allowed',
#     # 'ＬＤＫ２０畳以上': 'ldk20_tatami_or_more',
#     '設計住宅性能評価書': 'design_housing_performance_evaluation_document',
# }
# 
# tokuchoPickupList= tokuchoPickupList.rename(rename_columns, axis='columns')
# 
# 
# # tokuchoPickupList = tokuchoPickupList.drop('', axis=1)
# # tokuchoPickupList = tokuchoPickupList.fillna(0)
# 
# # tokuchoPickupListの値がTrueとFalseの値を1と0に変換する
# tokuchoPickupList = tokuchoPickupList.applymap(lambda x: 1 if x == True else 0)
# tokuchoPickupList
# 
# # 4.元のhousesからtokuchoPickupListを削除する
# houses = houses.drop('tokuchoPickupList', axis=1)
# 
# # 5.元のhousesとtokuchoPickupListを結合する
# houses = pd.concat([houses, tokuchoPickupList], axis=1)
# 
# houses

KeyError: "['tokuchoxPickupList'] not found in axis"

In [None]:

# houses['ryoikiShuNm'] の値が '中古一戸建て'のもののみ取得

# '中古一戸建て'
old_houses = houses[houses['ryoikiShuNm'] == '中古一戸建て'].drop('ryoikiShuNm', axis=1)
new_houses = houses[houses['ryoikiShuNm'] == '新築一戸建て'].drop('ryoikiShuNm', axis=1)
old_mansion = houses[houses['ryoikiShuNm'] == '中古マンション'].drop('ryoikiShuNm', axis=1)
land = houses[houses['ryoikiShuNm'] == '土地'].drop('ryoikiShuNm', axis=1)






In [None]:
new_houses

In [4]:
df_f = copy.deepcopy(new_houses)

df_f.replace('', np.nan, inplace=True)
df_f.dropna(inplace=True)

corrmat = df_f.corr()
corrmat

f, ax = plt.subplots(figsize=(12,9))
sns.heatmap(corrmat, vmax=.8, square=True)

NameError: name 'new_houses' is not defined

In [5]:
import sklearn

# ランダムフォレストでrental_charges_management_feeを予測する
# 1.データを分割する
from sklearn.model_selection import train_test_split

result_column = 'latestHeaderKakakuDisp'
X = df_f.drop(result_column, axis=1)
y = df_f[result_column]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# 2.ランダムフォレストを行う
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(n_estimators=10, random_state=0)
rf.fit(X_train, y_train)

# 3.ランダムフォレストの結果を表示する
print('学習データの決定係数:{}'.format(rf.score(X_train, y_train)))
print('テストデータの決定係数:{}'.format(rf.score(X_test, y_test)))
print('特徴量の重要度:{}'.format(rf.feature_importances_))

# 4.ランダムフォレストの結果をグラフにする
importances = pd.Series(rf.feature_importances_, index=X.columns)
importances = importances.sort_values()
importances.plot(kind='barh', figsize=(12,9))
plt.show()

# rfを用いて予測する
y_pred = rf.predict(X_test)


# 6.テストデータの予測結果をグラフに表示する
plt.scatter(y_test, y_pred)
plt.xlabel('True Values')
plt.ylabel('Predictions')
plt.show()



NameError: name 'df_f' is not defined

In [None]:
# housesのデータの情報を確認する
houses.info()

In [None]:
# housesのデータの統計量を確認する
houses.describe()

In [None]:
# データ解析

import matplotlib
import ipywidgets
import IProgress
from ydata_profiling import ProfileReport
# profile = ProfileReport(new_houses.sample(n=10000), title='Pandas Profiling Report', explorative=True)
profile = ProfileReport(new_houses, title='Pandas Profiling Report', explorative=True)
profile.to_file('out/houses.html')

profile

In [None]:
# 相関の高いものを取得する

# corrmat['latestHeaderKakakuDisp']
value = 0.07

p_keys = corrmat['latestHeaderKakakuDisp'][corrmat['latestHeaderKakakuDisp'] > value].keys()
n_keys = corrmat['latestHeaderKakakuDisp'][corrmat['latestHeaderKakakuDisp'] < -value].keys()

high_relation_keys = np.concatenate([p_keys, n_keys])

houses[high_relation_keys]

In [None]:
high_relation_keys