# xAPIステートメントの分析

In [None]:
import json
import requests
import socket
import urllib.parse

import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

## xAPIステートメントをAPIサーバから取得
<span style="color:red"><b>Learning Lockerで作成したLRSのクライアント情報を設定すること。</b></span>

In [None]:
user = '<Key>'
passwd = '<Secret>'

Learning LockerのAggregation APIを用いてステートメントを取得する。
APIの詳細は[AGGREGATION HTTP INTERFACE](https://learninglocker.atlassian.net/wiki/spaces/DOCS/pages/106037259/Aggregation+API)を参照すること。

In [None]:
pipeline = urllib.parse.quote(json.dumps([
    {'$project': {
        'timestamp': 1,
        'statement': 1,
        '_id': 0
    }},
    {'$match': {
        #'statement.verb.id': 'http://www.adlnet.gov/expapi/verbs/initialized',
        #'statement.actor.account.name': 'admin',
        #'statement.object.definition.type': 'http://adlnet.gov/expapi/activities/session-ended',
         'timestamp': {
             "$gte": {
                 '$dte': '2020-04-01T00:00:00Z'
             },
             "$lte": {
                 '$dte': '2021-10-01T00:00:00Z'
             }
         }
    }},
    {'$limit': 30000},
]))
url = f'http://{socket.gethostbyname("learninglocker")}:8080/statements/aggregate?cache=false&pipeline={pipeline}'
r = requests.get(url, auth=(user, passwd))
response_data = json.loads(r.text)
stats = [d['statement'] for d in response_data]
print(f'#Statements: {len(stats)}')

## ステートメントの可視化

In [None]:
# ネスト項目をフラットにしてpandasのDataFrameを作成
df = pd.io.json.json_normalize(stats)
# 配列要素であるContextを分解
def convert(row):
    parent = row['context.contextActivities.parent']
    if not pd.isnull(parent):
        return parent[0]['id']
    return parent
df['context.contextActivities.parent.id'] = df.apply(convert, axis=1)
df['context.contextActivities.parent.objectType'] = 'Activity'
df.drop(['context.contextActivities.parent'], axis=1, inplace=True)

pd.set_option('display.max_columns', 100)
df.head()

### Verbの件数を集計

In [None]:
plt.figure(figsize=(10, 10))
plt.rcParams["font.size"] = 20
sns.countplot(y='verb.id', data=df)

## ステートメントの加工
以降では、Assignmentsの採点（ `asn.grade.submission` ）をより詳細にSupersetで可視化するためのステートメント加工処理を示す。

### 不要な項目を除外
分析対象外の項目を削除する。

In [None]:
df.drop(['version', 'authority.objectType', 'authority.name', 'authority.mbox'], axis=1, inplace=True)
df.head()

### 例1: result.extensionsをSupersetで取り扱うために項目名を短縮
Grade ScaleがPoints以外のAssignmentで設定される `result.extensions` について、カラム名の文字数制限により、そのままではSupersetで扱えないため名前を短縮する。

In [None]:
df.rename(
    columns=lambda x: x.replace(
        'result.extensions.http://sakaiproject.org/xapi/extensions/result/classification',
        'result.extensions.classification'
    ),
    inplace=True
)
df.head()

In [None]:
plt.figure(figsize=(20, 10))
sns.countplot(
    # Gradeの件数を集計
    y='result.extensions.classification.definition.name.en-US',
    data=df,
    # 件数でソート
    order=df['result.extensions.classification.definition.name.en-US'].value_counts().index
)

### 例2: Assignmentの名前を項目化
評価対象となったAssignmentの名称を取り扱えるように、 `object.definition.description.en-US` に含む名前を項目化する。

In [None]:
import numpy as np
import re
def extract_asn_name(row):
    if row['object.definition.type'] == 'http://adlnet.gov/expapi/activities/received-grade-assignment':
        return re.split('User received a grade for their assginment: |; Submission', row['object.definition.description.en-US'])[1]
    return np.nan

df['received_grade_assignment_name'] = df.apply(extract_asn_name, axis=1)
df[df['received_grade_assignment_name'].notnull()]['received_grade_assignment_name'].head()

In [None]:
plt.figure(figsize=(20, 10))
sns.countplot(
    # 採点対象となったAssignment名
    y='received_grade_assignment_name',
    data=df,
    # 件数でソート
    order=df['received_grade_assignment_name'].value_counts().index
)

# Supersetに実行結果を保存

In [None]:
from sqlalchemy import create_engine
engine = create_engine('postgresql://superset:superset@superset-db:5432/jupyter')

# 登録するテーブルの名前を指定
tablename = 'sakai_notebook_results'

# Supersetにテーブルを登録
from sqlalchemy.types import TIMESTAMP, VARCHAR
df.to_sql(
    tablename,
    engine,
    index=False,
    if_exists='replace',
    # 必要に応じてdtypeでカラムの属性を指定する
    dtype={
        'id': VARCHAR(),
        'actor.name': VARCHAR(),
        'actor.account.name': VARCHAR(),
        'actor.account.homePage': VARCHAR(),
        'actor.objectType': VARCHAR(),
        'verb.id': VARCHAR(),
        'object.definition.type': VARCHAR(),
        'object.id': VARCHAR(),
        'object.objectType': VARCHAR(),
        'object.definition.name.en-US': VARCHAR(),
        'object.definition.description.en-US': VARCHAR(),
        'context.contextActivities.parent.id': VARCHAR(),
        'context.contextActivities.parent.objectType': VARCHAR(),
        'stored': TIMESTAMP(),
        'timestamp': TIMESTAMP(),
        # リネームした項目
        'result.extensions.classification.definition.name.en-US': VARCHAR(),
        'result.extensions.classification.definition.type': VARCHAR(),
        'result.extensions.classification.id': VARCHAR(),
        'result.extensions.classification.objectType': VARCHAR(),
        # 新規追加した項目
        'received_grade_assignment_name': VARCHAR(),
    }
)

s = requests.Session()
r = s.post(
    'http://superset:8088/api/v1/security/login',
    json={
        'username': 'admin',
        'password': 'admin',
        'provider': 'db', 
    }
)
headers={
    'Authorization': f'Bearer {r.json()["access_token"]}'
}

r = s.get(
    'http://superset:8088/api/v1/database?q=(filters:!((col:database_name,opr:eq,value:Jupyter)))',
    headers=headers,
)
database_id = r.json()['ids'][0]

r = s.get(
    'http://superset:8088/api/v1/security/csrf_token',
    headers=headers
)
headers['X-CSRFToken'] = r.json()['result']

r = s.post(
    'http://superset:8088/api/v1/dataset',
    headers=headers,
    json={
        'database': database_id,
        'schema': 'public',
        'table_name': tablename
    }
)
print(r.json())

## Supersetに登録済みのテーブル一覧

In [None]:
r = s.get(
    'http://superset:8088/api/v1/dataset',
    headers=headers
)
for dataset in r.json()['result']:
    print(dataset['table_name'])