# TODO title

# これなに?
TODO

## 使用するデータセット

前回の記事で作成したgoogle_analyticsのdatasetから、特定の商品をclickする確率を予測します

前回と同様にmagic commandを利用します(接続方法は前記事参照)

In [2]:
from google.cloud.bigquery import magics
from google.oauth2 import service_account
credentials = (service_account.Credentials.from_service_account_file('/Users/hiroaki/Downloads/scalable-data-science-b045d3ddcc4c.json'))
magics.context.credentials = credentials

In [3]:
%load_ext google.cloud.bigquery

In [5]:
PROJECT ='scalable-data-science'

In [6]:
%%bigquery --project $PROJECT 
SELECT * FROM `google_analytics.ga_dataset` LIMIT 5

Unnamed: 0,hour,browser,isMobile,country,productPrice,isClick
0,13,Chrome,False,United States,20990000,
1,13,Chrome,False,United States,990000,
2,7,Firefox,False,Canada,16990000,
3,7,Firefox,False,Canada,16990000,
4,13,Chrome,False,United States,12990000,


# データセットの特徴を調べる

まず、`isClick`がどのようになっているか確認します

In [10]:
%%bigquery --project $PROJECT 
SELECT isClick, COUNT(1) AS numIsClick FROM `google_analytics.ga_dataset`
GROUP BY isClick

Unnamed: 0,isClick,numIsClick
0,,90973
1,True,2034


この結果を見る限り、どうやらclickしなかった場合、は`False`ではなく、`null`が入っているようです  
今後の分析のことを考えると、1/0で二値化したほうが楽なので、変換します

In [37]:
%%bigquery --project $PROJECT 
CREATE OR REPLACE TABLE google_analytics.ga_dataset_cleansed AS
SELECT 
    *EXCEPT(isClick),
    IF(isClick, 1, 0) as isClick
FROM `google_analytics.ga_dataset`

In [38]:
%%bigquery --project $PROJECT 
SELECT * FROM `google_analytics.ga_dataset_cleansed` LIMIT 5

Unnamed: 0,hour,browser,isMobile,country,productPrice,isClick
0,0,Chrome,False,United States,0,0
1,0,Chrome,False,United States,0,0
2,1,Chrome,False,United States,0,0
3,1,Chrome,False,United States,0,0
4,1,Chrome,False,United States,0,0


# pandasを利用して統計的な特徴を確認

次に、pandasを利用して、データセットの概観を確認します。ただし、全部とってくると当然メモリに乗らない(乗る量ならそもそもBigQueryを使わなくてもよい)ので、`RAND()`関数で適当にsamplingしてきます

In [39]:
%%bigquery data_sampled --project $PROJECT 
-- 10%だけサンプリング
SELECT 
    * FROM `google_analytics.ga_dataset_cleansed` 
WHERE  RAND() < 0.1

概観を確認します

In [42]:
data_sampled.describe()

Unnamed: 0,hour,productPrice,isClick
count,9397.0,9397.0,9397.0
mean,12.811429,23119310.0,0.020219
std,5.403,25823710.0,0.140757
min,0.0,0.0,0.0
25%,9.0,7990000.0,0.0
50%,13.0,16990000.0,0.0
75%,17.0,21990000.0,0.0
max,23.0,575700000.0,1.0


大まかな値段の分布やclickする確率がわかります。ctrは0.02程度で、`productPrice`の分布は右に歪んでそうですね

# データの特徴を探索

## hourとisClickの関係

次に、各変数と`isClick`の関係を見ていきます。まず、`hour`から確認していきます