# ウェブサービスにおけるデータサイエンス実践 第4回

## SQLを用いたデータ解析 (3/3)

## 今日の目的

- 継続率を求めてみよう

- 継続率はサービス運用に置いて最も重要な指標の一つ
- 難しいがこれができるようになると分析の幅が大きく広がる


In [1]:
%matplotlib inline
import sqlite3

import pandas
import matplotlib.pyplot as pyplot

In [2]:
sqlite_conn = sqlite3.connect('./waseda.db')

# 継続率とはなにか？

- 登録日からN日後にどれだけのユーザがサービスを利用し続けているか？
- サービスと顧客との関係性を表す指標
- 1DLあたりの投資効率や、サービスの今後の成長性に置いて重要な数値
- アクティブユーザはsum( 登録人数 × 継続率)で求めることができるので、継続率がわかれば将来のアクティブユーザ数が予測できる
- 継続率をどれだけ改善すれば、将来のアクティブユーザ数を向上させられるのかを判断できる

# 複雑なクエリを書く時にどうするか？

- まずは作る表をイメージしよう


| 経過日数 | アクティブユーザ数/登録ユーザ数 | 
|---|---|
| 1 | 0.5|
| 2 | 0.4|
|...|...|


- この表を作るにはなにが必要かを考える
- この表は登録ユーザ数とアクティブユーザ数の割り算

| 経過日数 | アクティブユーザ数| 登録ユーザ数 | アクティブユーザ数/登録ユーザ数
|---|---|---|---|
| 1 | 500| 1000 | 0.5 |
| 2 | 320 | 800  | 0.4 |
|...|...|...|....|


- この表を作るには登録日と経過日数ごとにアクティブユーザ数と登録ユーザ数をまとめる必要がある

| 登録日 | 経過日数 | アクティブユーザ数 | 登録ユーザ数 |
| ---| ---| ---| ---|
| 2019/4/1 | 0 | 300| 600 |
| 2019/4/1 | 1 | 240 | 600 |
| 2019/4/1 | 2 | 200 | 600 |
| 2019/4/2 | 0 | 100 | 200 |
| 2019/4/2 | 1 |   80    | 200 |
| 2019/4/3 | 0 | 100 | 200 |
|...|...|...|...|

- この表を経過日数でSUMすればできそう。
- この表は登録日・登録ユーザ数の表と、登録日、経過日数、アクティブユーザ数の表を登録日でJOINすればできそう


| 登録日 | 登録ユーザ数 |
| ---| ---| 
| 2019/4/1 | 600 |
| 2019/4/2 | 200 |
| 2019/4/3  | 200 |
|...|...|


| 登録日 | 経過日数 | アクティブユーザ数 | 
| ---| ---| ---| 
| 2019/4/1 | 0 | 300|
| 2019/4/1 | 1 | 240 | 
| 2019/4/1 | 2 | 200 | 
| 2019/4/2 | 0 | 100 | 
| 2019/4/2 | 1 |   80    |
| 2019/4/3 | 0 | 100 | 
|...|...|...|

- 1つ目の表は素直につくればできそう
- 2つめの表は、どうつくるか？ 対象の日付と引き算が必要

| 登録日 | 対象日 | 経過日数 | アクティブユーザ数 | 
| ---| ---| ---| ---| 
| 2019/4/1 | 2019/4/1| 0 | 300|
| 2019/4/1 | 2019/4/2| 1 | 240 | 
| 2019/4/1 | 2019/4/3 | 2 | 200 | 
| 2019/4/2 | 2019/4/2 | 0 | 100 | 
| 2019/4/2 | 2019/4/3 | 1 |   80    |
| 2019/4/3 | 2019/4/3 | 0 | 100 | 
|...|...|...|

- この表は、アクティブユーザ数を登録日ごとに集計すればできそう
- これで表がすべてできそうなものになった

In [None]:
# (1): 日別の登録ユーザ数を計算してみよう

In [None]:
# (2): 登録日別の日別クリックUUを計算してみよう

In [10]:
# (3): (1)と(2)を登録日でJOINしよう


In [11]:
# (4): (3)で作った(b)で引き算をして経過日数を加えよう

In [None]:
# (5): (4) で作った表を経過日数で集計してみよう

In [12]:
# (6) : (5)で作った表から継続率を求めてみよう

In [None]:
# 男女の継続率を比較してみよう


In [None]:
#　登録日のクリック数による継続率の違いを比較したい
# クリック数が5以上のユーザと5未満のユーザで比較してみよう