In [1]:
import os
import pandas as pd
import numpy as np
import geocoder
import feather
import re
from collections import Counter

In [2]:
train = pd.read_csv('../input/train.csv')
target = train["賃料"]
train = train.drop("賃料", axis=1)
test = pd.read_csv('../input/test.csv')

train_length = train.shape[0]
test_length = test.shape[0]
all_df = pd.concat([train, test], axis=0, ignore_index=True)

In [3]:
org_columns = all_df.columns
org_columns

Index(['id', '所在地', 'アクセス', '間取り', '築年数', '方角', '面積', '所在階', 'バス・トイレ', 'キッチン',
       '放送・通信', '室内設備', '駐車場', '周辺環境', '建物構造', '契約期間'],
      dtype='object')

In [4]:
def pickup_words(df_input, column):
    '''
    単語を分割してCounterに突っ込むことで、単語のリスト + 単語の出現頻度GET
    '''
    all_df[column] = all_df[column].fillna("")
    word_lists = [i.split("／\t") for i in all_df[column]]
    words = []
    for i in word_lists:
        for w in i:
            words.append(w)
    my_counter = Counter(words)
    tmp_common = my_counter.most_common()
    tmp = my_counter.keys()
    return tmp_common

In [5]:
tv_net_words = pickup_words(all_df, "放送・通信")
tv_net_words = [word[0] for word in tv_net_words]
tv_net_words.remove('')
#tv_net_words

In [6]:
bathroom_words = pickup_words(all_df, "バス・トイレ")
bathroom_words = [re.sub(r'\t', "", word[0]) for word in bathroom_words]
bathroom_words = list(set(bathroom_words))
bathroom_words.remove('')
#bathroom_words

In [7]:
tmp_room_facilities_words = pickup_words(all_df, "室内設備")
tmp_room_facilities_words = [word[0].split("\t") for word in tmp_room_facilities_words]
room_facilities_words = []
for i in tmp_room_facilities_words:
    for w in i:
        room_facilities_words.append(w)
room_facilities_words = list(set(room_facilities_words))
room_facilities_words.remove('')
#room_facilities_words

In [8]:
kitchen_words = pickup_words(all_df, "キッチン")
kitchen_words = [word[0].split("\t")[0] for word in kitchen_words]
kitchen_words.remove("")
kitchen_words = list(set(kitchen_words))

konro_list = [w for w in kitchen_words if ("設置可" and "口" in w)]
kitchen_words = [w for w in kitchen_words if w not in konro_list]

In [9]:
access = pickup_words(all_df, "アクセス")

## 特量df 作り

In [10]:
def word_contain_feature(df_input, column, word_list):
    df_out = pd.DataFrame()
    for word in word_list:
        df_out[f"has_{word}_in_{column}"] = np.where(all_df[column].str.contains(word), 1, 0)
        
    return df_out

In [11]:
word_columns = ["バス・トイレ", "放送・通信", "室内設備", "キッチン"]
pickup_word_list = [bathroom_words, tv_net_words, room_facilities_words, kitchen_words]

all_df_feature = pd.concat([word_contain_feature(all_df, column, word_list) for column, word_list 
                    in zip(word_columns, pickup_word_list)], axis=1)

In [12]:
a = np.full_like(all_df["キッチン"].values, np.nan)
for w in ["1", "2", "3", "4", "不明"]:
    if w == "不明":
        continue
    a = np.where(all_df["キッチン"].str.contains(w), int(w), a)
all_df_feature["num_conro"] = a

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')

In [14]:
from sklearn.decomposition import NMF

def NMF_ana(matrix,n_c):
    model = NMF(n_components=n_c, init='random', random_state=0) # n_componentsで特徴の次元を指定
    W = model.fit_transform(matrix) # 学習
    V = model.components_
    return W,V

def clean_kitchen(text):
    if type(text)==float:
        return None
    else:
        text = re.sub("コンロ設置可", "", text)
        return text

In [15]:
bath_vecs = vectorizer.fit_transform(all_df["バス・トイレ"])
df_bath_tfidf = pd.DataFrame(bath_vecs.toarray(), columns=vectorizer.get_feature_names())
df_bath_tfidf.drop("バス", axis=1).head()
df_bath = pd.DataFrame(NMF_ana(df_bath_tfidf, 4)[0], columns=[f"bath_NMF_{i}" for i in range(4)])

In [16]:
kitch_vecs = vectorizer.fit_transform(all_df["キッチン"].apply(lambda x:clean_kitchen(x)))
df_kitch_tfidf = pd.DataFrame(kitch_vecs.toarray(), columns=vectorizer.get_feature_names())
df_kitch = pd.DataFrame(NMF_ana(df_kitch_tfidf, 4)[0], columns=[f"kitch_NMF_{i}" for i in range(4)])

In [17]:
room_vecs = vectorizer.fit_transform(all_df["室内設備"])
df_room_tfidf = pd.DataFrame(room_vecs.toarray(), columns=vectorizer.get_feature_names())
df_room = pd.DataFrame(NMF_ana(df_room_tfidf, 5)[0], columns=[f"room_NMF_{i}" for i in range(5)])

In [18]:
cast_vecs = vectorizer.fit_transform(all_df["放送・通信"])
df_cast_tfidf = pd.DataFrame(cast_vecs.toarray(), columns=vectorizer.get_feature_names())
df_cast = pd.DataFrame(NMF_ana(df_cast_tfidf, 3)[0], columns=[f"cast_NMF_{i}" for i in range(3)])

In [19]:
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
strs = all_df[["所在地", "方角", "駐車場", "バス・トイレ", "キッチン", "室内設備", "周辺環境", "建物構造", "契約期間"]].astype(str).sum(axis=1)


In [20]:
df_access = feather.read_dataframe("../code/feature_csv/access_feature.feather")

In [21]:
df_access = df_access[['路線_0', '駅_0', '路線_1', '駅_1', '路線_2', '駅_2']].astype(str)
df_access[['路線_0', '駅_0', '路線_1', '駅_1', '路線_2']] = pd.concat([df_access[col] + "," for col in ['路線_0', '駅_0', '路線_1', '駅_1', '路線_2']],axis=1)

In [22]:
vectorizer = TfidfVectorizer()#(use_idf=True)#, token_pattern=u'(?u)\\b\\w+\\b')
eki_str = df_access.sum(axis=1)
eki_vecs = vectorizer.fit_transform(eki_str)

df_eki_tfidf = pd.DataFrame(eki_vecs.toarray(), columns=vectorizer.get_feature_names())
df_eki = pd.DataFrame(NMF_ana(df_eki_tfidf, 5)[0], columns=[f"eki_NMF_{i}" for i in range(5)])

In [23]:
all_df_feature.columns

Index(['has_共同バス_in_バス・トイレ', 'has_浴室乾燥機_in_バス・トイレ', 'has_シャワー_in_バス・トイレ',
       'has_専用トイレ_in_バス・トイレ', 'has_トイレなし_in_バス・トイレ', 'has_バスなし_in_バス・トイレ',
       'has_温水洗浄便座_in_バス・トイレ', 'has_脱衣所_in_バス・トイレ', 'has_共同トイレ_in_バス・トイレ',
       'has_追焚機能_in_バス・トイレ', 'has_専用バス_in_バス・トイレ', 'has_洗面台独立_in_バス・トイレ',
       'has_バス・トイレ別_in_バス・トイレ', 'has_インターネット対応_in_放送・通信',
       'has_光ファイバー_in_放送・通信', 'has_BSアンテナ_in_放送・通信', 'has_CATV_in_放送・通信',
       'has_CSアンテナ_in_放送・通信', 'has_インターネット使用料無料_in_放送・通信',
       'has_高速インターネット_in_放送・通信', 'has_有線放送_in_放送・通信', 'has_オール電化_in_室内設備',
       'has_ガスその他_in_室内設備', 'has_冷房_in_室内設備', 'has_3面採光_in_室内設備',
       'has_二世帯住宅_in_室内設備', 'has_敷地内ごみ置き場_in_室内設備', 'has_浄化槽_in_室内設備',
       'has_タイル張り_in_室内設備', 'has_洗濯機置場なし_in_室内設備', 'has_汲み取り_in_室内設備',
       'has_床下収納_in_室内設備', 'has_都市ガス_in_室内設備', 'has_地下室_in_室内設備',
       'has_防音室_in_室内設備', 'has_排水その他_in_室内設備', 'has_出窓_in_室内設備',
       'has_プロパンガス_in_室内設備', 'has_室内洗濯機置場_in_室内設備', 'has_バリアフリー_in_室内設備',
       'has_エレベーター_in_室

In [24]:
all_df_feature = pd.concat([all_df_feature, df_bath, df_cast, df_eki, df_kitch, df_room], axis=1)

In [25]:
all_df_feature.columns

Index(['has_共同バス_in_バス・トイレ', 'has_浴室乾燥機_in_バス・トイレ', 'has_シャワー_in_バス・トイレ',
       'has_専用トイレ_in_バス・トイレ', 'has_トイレなし_in_バス・トイレ', 'has_バスなし_in_バス・トイレ',
       'has_温水洗浄便座_in_バス・トイレ', 'has_脱衣所_in_バス・トイレ', 'has_共同トイレ_in_バス・トイレ',
       'has_追焚機能_in_バス・トイレ', 'has_専用バス_in_バス・トイレ', 'has_洗面台独立_in_バス・トイレ',
       'has_バス・トイレ別_in_バス・トイレ', 'has_インターネット対応_in_放送・通信',
       'has_光ファイバー_in_放送・通信', 'has_BSアンテナ_in_放送・通信', 'has_CATV_in_放送・通信',
       'has_CSアンテナ_in_放送・通信', 'has_インターネット使用料無料_in_放送・通信',
       'has_高速インターネット_in_放送・通信', 'has_有線放送_in_放送・通信', 'has_オール電化_in_室内設備',
       'has_ガスその他_in_室内設備', 'has_冷房_in_室内設備', 'has_3面採光_in_室内設備',
       'has_二世帯住宅_in_室内設備', 'has_敷地内ごみ置き場_in_室内設備', 'has_浄化槽_in_室内設備',
       'has_タイル張り_in_室内設備', 'has_洗濯機置場なし_in_室内設備', 'has_汲み取り_in_室内設備',
       'has_床下収納_in_室内設備', 'has_都市ガス_in_室内設備', 'has_地下室_in_室内設備',
       'has_防音室_in_室内設備', 'has_排水その他_in_室内設備', 'has_出窓_in_室内設備',
       'has_プロパンガス_in_室内設備', 'has_室内洗濯機置場_in_室内設備', 'has_バリアフリー_in_室内設備',
       'has_エレベーター_in_室

In [26]:
output_dir = '../code/feature_csv/'
all_df_feature.to_feather(os.path.join(output_dir, 'word_contain_sparse_feature.feather'))