In [None]:
#各パッケージをインストールしていない場合は先に下記を実行
!pip install psycopg2

In [None]:
import psycopg2
import pandas as pd

In [None]:
#接続情報。パスワードは各自のものに変更のこと。
connector = psycopg2.connect(
                            host="localhost", 
                            database="postgres", 
                            user="postgres", 
                            password="12345678")

#### テーブル内容の確認   
__"SELECT * FROM (テーブル名) LIMIT 100"__ や    
__"SELECT COUNT() FROM (テーブル名)"__ といったクエリで確認できる。

In [None]:
test_sql1 = ('''
                SELECT 
                    COUNT(*) as count_all, 
                    COUNT(DISTINCT user_id) as count_users 
                FROM 
                    users;
            ''')
test_result1 = pd.read_sql(test_sql1,connector)

In [None]:
#上記クエリの実行結果確認
test_result1

これ以外のテーブルの確認はクエリの中身を変更し確認すること

### 課題１：指定されたデータの抽出

１）各ユーザのゲームプレイ回数（questsのみ使用）   
２）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）の__ゲームプレイ回数__（users,questsを使用）   
３）各ユーザの課金回数（purchaseのみ使用）   
４）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）の__課金回数__（users,purchaseを使用）   
５）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）の__課金有無__（users,purchaseを使用／{0,1}で結果を表示）   

作成したクエリ及びテーブルは所定のオブジェクトへ格納してください。

In [None]:
#１）各ユーザのゲームプレイ回数（questsのみ使用）  

q1= ("SELECT user_id, COUNT(DISTINCT started_at) quest_cnt FROM quests GROUP BY 1")
q1 = pd.read_sql(q1,connector)
q1.tail() #今回headでは違いが分かりにくいため、tailを用いて確認

In [None]:
#２）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）のゲームプレイ回数（users,questsを使用）

q2= ('''
    SELECT
        t1.user_id,
        COUNT(DISTINCT t2.started_at) quest_cnt
    FROM
        users t1
    LEFT JOIN
        quests t2
    ON
        t1.user_id = t2.user_id
    GROUP BY 1
    ''')
q2 = pd.read_sql(q2,connector)
q2.tail() #今回headでは違いが分かりにくいため、tailを用いて確認

In [None]:
#３）各ユーザの課金回数（purchaseのみ使用）   

q3= ("SELECT user_id, COUNT(DISTINCT created_at) target FROM purchase GROUP BY 1")
q3 = pd.read_sql(q3,connector)
q3.head()

In [None]:
#４）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）の__課金回数__（users,purchaseを使用）  

q4= ('''
    SELECT
        t1.user_id,
        COUNT(DISTINCT t2.created_at) target
    FROM
        users t1
    LEFT JOIN
        purchase t2
    ON
        t1.user_id = t2.user_id
    GROUP BY 1
    ''')
q4 = pd.read_sql(q4,connector)
q4.head()

In [None]:
#５）2017年6月16日に登録した各ユーザ（＝usersに存在するユーザ）の__課金有無__（users,purchaseを使用）   

q5= ('''
    SELECT
        t1.user_id,
        SUM(DISTINCT CASE WHEN t2.created_at IS NOT NULL THEN 1 ELSE 0 END) target
    FROM
        users t1
    LEFT JOIN
        purchase t2
    ON
        t1.user_id = t2.user_id
    GROUP BY 1
    ''')
q5 = pd.read_sql(q5,connector)
q5.head()

### 課題２：CSVファイルと同じテーブルの作成

但し以下の条件を満たすように作成して下さい。   
１）一列目にuser_id、二列目にゲームプレイ回数、三列目に課金回数（or課金有無）を保持している   
２）ユーザ1人につき1行   
３）2017年6月16日に登録したユーザ（＝usersテーブルに存在するユーザ）が対象   

作成したクエリおよびテーブルは課題１と同様所定のオブジェクトへ格納してください。

In [None]:
sql = ('''
    SELECT
        t1.user_id,
        COUNT(DISTINCT t2.started_at) quest_cnt,
        SUM(DISTINCT CASE WHEN t3.created_at IS NOT NULL THEN 1 ELSE 0 END) target
    FROM
        users t1
    LEFT JOIN
        quests t2
    ON
        t1.user_id = t2.user_id
    LEFT JOIN
        purchase t3
    ON
        t1.user_id = t3.user_id
    GROUP BY 1
      ''')
data = pd.read_sql(sql,connector)

In [None]:
#データの確認
data.head()
#data.describe()

### 課題３:予測結果の確認   

データが正しく抽出されていることを確認した後、CSVデータを用いたときと同じ予測結果がでるか確認。

In [None]:
#ライブラリのインポート
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
#説明変数と目的変数の定義。今回は説明変数にゲームプレイ回数を入れ、目的変数に課金フラグを入れます。
X = data.iloc[:,[1]].copy()
y = data.iloc[:,[2]].copy()

In [None]:
#データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)

#パイプラインの作成
pipe_logistic = Pipeline([('scl', StandardScaler()), ('est',LogisticRegression())])

#モデルの学習
pipe_logistic.fit(X_train,y_train.as_matrix().ravel())

In [None]:
#精度の評価
print('Logistic_Train: %.3f' % accuracy_score(y_train, pipe_logistic.predict(X_train)))
print('Logistic_Test: %.3f' % accuracy_score(y_test, pipe_logistic.predict(X_test)))

### 課題４：変数の定義を変えたテーブルの作成１

以下の条件に沿ったクエリおよびデータマートを作成し、予測精度を先のモデルと比較して下さい。   
１）一列目にuser_id、__二列目に難易度normalのゲームプレイ回数__、三列目に課金回数（or課金有無）を保持している   
２）ユーザ1人につき1行   
３）2017年6月16日に登録したユーザ（＝usersテーブルに存在するユーザ）が対象   

In [None]:
sql2 = ('''
    SELECT
        t1.user_id,
        COUNT(DISTINCT CASE WHEN t2.difficulty = 'normal' THEN t2.started_at ELSE NULL END) quest_cnt,
        SUM(DISTINCT CASE WHEN t3.created_at IS NOT NULL THEN 1 ELSE 0 END) target
    FROM
        users t1
    LEFT JOIN
        quests t2
    ON
        t1.user_id = t2.user_id
    LEFT JOIN
        purchase t3
    ON
        t1.user_id = t3.user_id
    GROUP BY 1
      ''')
data2 = pd.read_sql(sql2,connector)

In [None]:
data2.head()
#data2.describe()

In [None]:
#以降共通している部分のコメントは省略します。
X2 = data2.iloc[:,[1]].copy()
y2 = data2.iloc[:,[2]].copy()
X_train2, X_test2, y_train2, y_test2 = train_test_split(X2, y2, test_size=0.20, random_state=0)
pipe_logistic = Pipeline([('scl', StandardScaler()), ('est',LogisticRegression())])
pipe_logistic.fit(X_train2,y_train2.as_matrix().ravel())

In [None]:
#精度の評価
print('Logistic_Train: %.3f' % accuracy_score(y_train2, pipe_logistic.predict(X_train2)))
print('Logistic_Test: %.3f' % accuracy_score(y_test2, pipe_logistic.predict(X_test2)))

### 課題５：変数の定義を変えたテーブルの作成２

以下の条件に沿ったクエリおよびデータマートを作成し、予測精度を先のモデルと比較して下さい。   
１）一列目にuser_id、__二列目に登録から60分以内のゲームプレイ回数__、三列目に課金回数（or課金有無）を保持している   
２）ユーザ1人につき1行   
３）2017年6月16日に登録したユーザ（＝usersテーブルに存在するユーザ）が対象   

In [None]:
sql3 = ('''
    SELECT
        t1.user_id,
        COUNT(DISTINCT CASE WHEN t2.started_at <= t1.install_at + INTERVAL '60 minutes' THEN t2.started_at ELSE NULL END) quest_cnt,
        SUM(DISTINCT CASE WHEN t3.created_at IS NOT NULL THEN 1 ELSE 0 END) target
    FROM
        users t1
    LEFT JOIN
        quests t2
    ON
        t1.user_id = t2.user_id
    LEFT JOIN
        purchase t3
    ON
        t1.user_id = t3.user_id
    GROUP BY 1
      ''')
data3 = pd.read_sql(sql3,connector)

In [None]:
data3.head()
#data2.describe()

In [None]:
X3 = data3.iloc[:,[1]].copy()
y3 = data3.iloc[:,[2]].copy()
X_train3, X_test3, y_train3, y_test3 = train_test_split(X3, y3, test_size=0.20, random_state=0)
pipe_logistic = Pipeline([('scl', StandardScaler()), ('est',LogisticRegression())])
pipe_logistic.fit(X_train3,y_train3.as_matrix().ravel())

In [None]:
#精度の評価
print('Logistic_Train: %.3f' % accuracy_score(y_train3, pipe_logistic.predict(X_train3)))
print('Logistic_Test: %.3f' % accuracy_score(y_test3, pipe_logistic.predict(X_test3)))