# Tableauで始めるデータサイエンス学習塾　オープンクラス



今回は東京中古マンションのデータを利用します。「housing_tokyo_chuo_line_week3.csv」のデータが与えられているとして、まずはTableauで可視化をしてみましょう。


こちらの資料は　**「Tableauデータサイエンス学習塾（全6回） 5/13 開催」** (https://ds4tableau-1.connpass.com/event/168438/) のクラス資料の一部です。

講習では、データの理解、準備、予測モデル作成、予測結果の活用といったデータ活用のプロセスを包括的に体験し、自力でデータに立ち向かう力を身に付けます。


### scikit-learnで重回帰分析の実装
#### scikit-learnとは

scikit-learnとは、非常に便利なPythonの機械学習パッケージとなります。少ない行数、わかりやすいコードで機械学習を実装することができるため多くのユーザーに支持されています。Pythonの機械学習パッケージでは、デファクトスタンダードとなっております。

#### データの準備
東京中古マンションのデータを読み込みましょう。

In [75]:
#pandasをインポートします。

import pandas as pd


In [76]:
# データをインポートします。
#data = pd.read_csv("tokyo_housing_chuoline_simple.csv")

In [77]:
#data

In [78]:
## uidは予測に必要がないので削除しましょう。
#df = data[['years','minutes','sqrm','renovate','price']]
#df


## 予測モデルを作る

教師アリ学習での予測モデル作成の流れは以下のようになります。
![教師アリ](images/教師アリ学習.png)

予測モデルを作るために初めにすることは、「説明変数 x」と「目的変数 t」を分けることです。
まずは、入力変数`x`と出力変数`t`に分けておきましょう。分割には`iloc[]`を用います。

In [79]:
#データフレーム df には何が入っているか確認します。　→　何が目的変数ですか？

#df

In [103]:
#priceは除く
#x = df.iloc[:, :-1] 

#priceだけ保持する
#t = df.iloc[:, -1] 

#### scikit-learnのimport
データの準備ができたのでscikit-learnをimportしましょう。scikit-learnは`sklearn`という名前でimportしますが、今回は`sklearn`の中の`linear_model`（線形モデル）の中の`LinearRegression`（線形回帰）をimportします。つまり、重回帰分析を実装するための機能をピンポイントでimportするイメージです。

In [104]:
# Linear Regression の　インポート
from sklearn.linear_model import LinearRegression

#### モデルの宣言

まずは、モデル（手法）の宣言を行います。先程importした`LinearRegression()`を`model`という変数に代入してあげます。厳密には「クラスのインスタンス化」というものにあたりますが、気になる方は調べてみてください。

In [82]:
# ①モデルの宣言
#model = LinearRegression()

#### モデルの学習

モデルの宣言後、**モデルの学習**を行います。モデルの学習とは、手持ちのデータを用いて適切なパラーメータを求めることです。

In [83]:
# ②モデルの学習
#model.fit(x, t)

#### モデルの評価

学習後のモデルを評価しましょう。モデルの評価には決定係数という指標を用います。  決定係数とは、モデルの当てはまりの良さを0から1までの値で表す指標になります。 1に近い方がより良いモデルを表しています。`score()`で評価することができます。評価するには、データも一緒に渡す必要があるため()内に、`x`と`t`を入れております。

In [85]:
# モデルの評価
#model.score(x, t)

xxxx　という数値が出てきました。最大が1であることを考えると思ったより悪くはない数字かと思います。

> 補足：回帰と分類によって、`score()`を使用したときの評価指標が異なります。 分類は正解率（Accuracy）が評価指標になります。
> - 回帰：決定係数  
> - 分類：正解率（Accuracy）

決定係数とは？？
![R2](images/R2.png)


In [86]:
#③予測値をゲットしてみましょう。
#p = model.predict(x)

#データフレームに変換します。
#p = pd.DataFrame(p,columns=['predict'])

In [87]:
#オリジナルのデータと連結します。
#results = pd.concat([data,p],axis=1)
#results

In [88]:
#一度CSVに落としましょう。一度Tableauに戻って評価してみましょう。
#results.to_csv("results.LinearRegression.csv")

In [89]:
# sklearn から mean_squared_error をインポートします。
from sklearn.metrics import mean_squared_error
import math

In [90]:
#RMSEを計算します。
#mse = mean_squared_error(t, p)
#print('RMSE:', math.sqrt(mse))

RMSEとは、Root Mean Square Error（二乗平均平方根誤差）の略で、回帰モデルの最も一般的な性能指標で以下の式で表現されます。

![RMSEとは](images/RMSEとは.png)

## Webからスクレイピングしてきたデータを入力として、予測値を出してみましょう。

モデルの評価が完了したら、次は実際に予測を行っていきましょう。

以下のデータは不動産Webページからスクレイピングしてきたデータです。　
これは学習に利用した国土交通省のデータには含まれていませんので、絶対に学習に使っていないデータです。

国土交通省データで学習したモデルに、Webスクレイピングしたデータを入力して予測値を得ましょう。

RMSEを使ってモデルの精度を確認しましょう。

Tableau を使って特に誤差が大きく発生している原因を考えましょう。

追加すると良いと思われる特徴量を考えてみましょう。


In [92]:
# スクレイピングデータをインポートします。
#data_scraping = pd.read_csv("HOMES_SCRAPING_ChuoLine_lat_long-UTF8.csv")

In [93]:
#中身を確認します。
#data_scraping.head()

In [94]:
#予測に必要な特徴量（説明変数はilocの列指定で、 2:8 です。）
#test_x = data_scraping[['years','minutes','sqrm','renovate']]
#test_x.head()

In [95]:
# predict_price に予測結果を格納します。
#predict_price = model.predict(test_x)

In [96]:
# 予測結果をDataFrame型に変換します。
#df_predict_price = pd.DataFrame(predict_price, columns=['predict'])

In [97]:
#元々の情報に予測結果を追加します。concatを使います。
#scraping_predict =  pd.concat([data_scraping,df_predict_price],axis=1)

In [98]:
#中身を確認します。
#scraping_predict.head()

In [99]:
#回答となる実際のマンション価格 (単位が1万円なので 10000をかけます。)
#t = data_scraping['price']*10000


In [100]:
#RMSEを計算します。
#mse = mean_squared_error(t, predict_price)
#print('RMSE:', math.sqrt(mse))

In [101]:
#csvに吐き出します。この結果をTableauで可視化して誤差を確認し、追加すると良いと思われる説明変数を検討します。
#scraping_predict.to_csv("Chuoline_Scraiping+Predict.csv")

In [102]:
%%HTML
<div class='tableauPlaceholder' id='viz1581142085782' style='position: relative'><noscript><a href='#'><img alt=' ' src='https:&#47;&#47;public.tableau.com&#47;static&#47;images&#47;KD&#47;KD7QTP8FH&#47;1_rss.png' style='border: none' /></a></noscript><object class='tableauViz'  style='display:none;'><param name='host_url' value='https%3A%2F%2Fpublic.tableau.com%2F' /> <param name='embed_code_version' value='3' /> <param name='path' value='shared&#47;KD7QTP8FH' /> <param name='toolbar' value='yes' /><param name='static_image' value='https:&#47;&#47;public.tableau.com&#47;static&#47;images&#47;KD&#47;KD7QTP8FH&#47;1.png' /> <param name='animate_transition' value='yes' /><param name='display_static_image' value='yes' /><param name='display_spinner' value='yes' /><param name='display_overlay' value='yes' /><param name='display_count' value='yes' /><param name='filter' value='publish=yes' /></object></div>                <script type='text/javascript'>                    var divElement = document.getElementById('viz1581142085782');                    var vizElement = divElement.getElementsByTagName('object')[0];                    if ( divElement.offsetWidth > 800 ) { vizElement.style.width='100%';vizElement.style.height=(divElement.offsetWidth*0.75)+'px';} else if ( divElement.offsetWidth > 500 ) { vizElement.style.width='100%';vizElement.style.height=(divElement.offsetWidth*0.75)+'px';} else { vizElement.style.width='100%';vizElement.style.minHeight='1400px';vizElement.style.maxHeight=(divElement.offsetWidth*1.77)+'px';}                     var scriptElement = document.createElement('script');                    scriptElement.src = 'https://public.tableau.com/javascripts/api/viz_v1.js';                    vizElement.parentNode.insertBefore(scriptElement, vizElement);                </script>

## 以上がイントロダクションになります。

## 訓練データと検証データに分割

みなさん、前述のモデルの評価で実はやってはいけないことをしていました。なにかわかりますでしょうか。
それは、学習に用いたデータをそのままモデルの評価に使用している点です。モデルは学習に用いたデータにうまく当てはめようと計算するのですから、うまくあてはまるのはごく自然なことですよね。

(これは試験に何が出るか知っていてこれに答えるカンニングみたいなものです。**学習に使っていない、新しいデータに対しても予測**できなくてはなりません！）

理想は学習に使用するデータにうまくあてはまるだけではなく、新しいデータに対しても上手く当てはまることを確認する必要があります。

ここで出てくるのが**訓練データ**と**検証データ**になります。手持ちのデータを2つに分割し、モデルの学習に用いる訓練データとモデルの評価に用いる検証データに分割します。このようにすることで、新しいデータへの汎用性も確かめることができます。分割の割合はだいたい7:3で行うことが多いです。理想は5:5で半分を学習に用い、半分を評価に用いることです。しかし、現実は理想通りに分割できるほどのサンプル数がありませんので、学習に用いるデータに多くの割合を割くことになります。

このようにデータを訓練データと検証データに分割することを **ホールドアウト法** と呼びます。

また、ここで抑えておきたい話の中に**過学習（オーバーフィッティング）**というものがあります。これは、訓練データにうまく当てはまりすぎてしまい、新しいデータへの汎用性を失ってしまうことを意味します。例えるならば、定期試験前に過去問をひたすら勉強し、過去問では100点をたくさん取ることができるが、実際の試験では60点くらいしか取れないようなイメージです。過去のデータに**学習**し**過**ぎてしまう現象です。

![overfitting](./images/overfitting.png)

上記のことを踏まえ、実際にホールドアウト法でもう一度実装してみましょう。
`sklearn`の中の`model_selection`の中に`train_test_split`がありますので、こちらをimportしましょう。



In [29]:
from sklearn.model_selection import train_test_split

In [30]:
# データをインポートします。
data = pd.read_csv("tokyo_housing_chuoline_simple.csv")

In [31]:
## uidは予測に必要がないので削除しましょう。
df = data[['years','minutes','sqrm','renovate','price']]
df

Unnamed: 0,years,minutes,sqrm,renovate,price
0,34,3,35,0,24000000
1,37,4,20,0,13000000
2,34,3,30,0,22000000
3,35,1,70,0,69000000
4,34,3,25,0,21000000
...,...,...,...,...,...
2994,19,4,20,0,17000000
2995,21,1,80,0,65000000
2996,21,1,65,0,42000000
2997,15,3,25,0,19000000


In [32]:
#priceは除く
x = df.iloc[:, :-1] 

#priceだけ保持する
t = df.iloc[:, -1] 

それぞれ以下の変数名で定義します。
- `x`の訓練データ：`x_train`
- `t`の訓練データ：`t_train`
- `x`の検証データ：`x_val`
- `t`の検証データ：`t_val`

`val`は`validation`（検証）の略です。検証データの割合を全体の30%（0.3）とし、ランダムに分割します。下記のコードを実行するたびに異なるランダムでデータが分割されるのを防ぐために`random_state=3`を指定します。指定する数値は何でも構いませんが、同じ数値にしておくと同じ結果になりますので、今回は3にしておくことをオススメいたします。実行するたびに分割されるデータが変わらないように**再現性の確保**を行っております。各データの`shape`も確認しておきましょう。

![holdout](images/holdout.png)

In [33]:
x_train, x_val, t_train, t_val = train_test_split(x, t, test_size=0.3, random_state=3)
print('訓練データ : ', x_train.shape, t_train.shape)
print('検証データ : ', x_val.shape, t_val.shape)

訓練データ :  (2099, 4) (2099,)
検証データ :  (900, 4) (900,)


行数を確認すると、7:3の割合で分割できていることがわかるかと思います。
それでは、先程と同様にモデルの宣言から評価までを行いましょう。

In [34]:
model = LinearRegression()

学習には訓練データを用います。

In [35]:
model.fit(x_train, t_train)


LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

過学習が起きていないことを確認するために、モデルの評価は訓練データ、検証データの両方で行います。

In [36]:
model.score(x_train, t_train)

0.7321075852483699

In [37]:
model.score(x_val, t_val)

0.7708749691316192

訓練データと検証データへの決定係数の値がほぼ同じであるため、過学習が起きていないことがわかります。
これで評価までの一連の流れはできました。最後に予測値をもとめましょう。

#  いろいろなモデルを試してみましょう！

### 色々なモデルかつ、色々な評価方法で試してみます。
### 以下では、LinearRegression、Ridge回帰、決定木、サポートベクターマシンを比較します。