# Jupyter環境の準備

JupyterからSupersetなどの他のコンテナへの操作を行えるようにDockerをインストールしておきます。Jupyter上でdockerコマンドを実行するために/var/run/docker.sockのボリュームマウントが必要ですが、これはコンテナ起動時に使うdocker-compose.ymlに記述済みです。

本Jupyterコンテナ[niicloudoperation/notebook](https://hub.docker.com/r/niicloudoperation/notebook/)は[Dockerfile](https://github.com/NII-cloud-operation/Jupyter-LC_docker/blob/master/Dockerfile)を確認すると分かるようにdebian:jessieベースなので[公式ドキュメント：debianへのインストール方法](https://docs.docker.com/engine/installation/linux/docker-ce/debian/#install-using-the-repository)の手順を用います。

In [None]:
!sudo apt-get update && sudo apt-get upgrade -y && \
sudo apt-get install -y apt-transport-https ca-certificates curl gnupg2 software-properties-common

In [None]:
!curl -fsSL https://download.docker.com/linux/debian/gpg | sudo apt-key add -
!sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/debian $(lsb_release -cs) stable"
!sudo apt-get update && sudo apt-get install -y docker-ce

dockerコマンドの動作確認を行います。
psで起動しているコンテナを確認すると、このJupyterの他に、Supersetとその動作に必要なRedis、PostgreSQLのコンテナが起動していて、
合計4つのコンテナが動作中であることが確認できます。

In [None]:
!sudo docker -v
!sudo docker ps

# Supersetの初期化

Supersetを使うためには、管理ユーザを作成するなどの初期化が必要です。dockerコマンド経由で、Supersetコンテナに、初期化スクリプトを実行させます。この時、引数として、管理ユーザ作成のための情報を渡します。必要なら、usernameやpasswordを修正して、実行してください。

この初期化を行うとSupersetにアクセスし管理ユーザでログインできるようになります。コンテナの動いているサーバの8088番ポートにwebブラウザでアクセスし、確認してください。

Supersetのコンテナ名を確認します。

In [None]:
!sudo docker ps --filter name=superset

取得したコンテナ名を指定して、初期化を実施します。

In [None]:
!sudo docker exec pwd_superset.1.hogehoge superset-init \
--username admin --firstname admin --lastname user --email admin@fab.org --password password

# Supersetのevaluation-tracer化

evaluation-tracerの中にはメテオラが入っていなければなりません。cssを改変して、メテオラを入れます。

Supersetにアクセスし、webブラウザの開発者機能を使って、stylesheetの適用状況を確認してみたところ、/static/assets/dist/theme.09939b5e6e0a613c0653.cssの7481行から記述されているbodyセクションに背景画像を設定することができそうだと分かりました。
このpathがSupersetコンテナ内のどこのディレクトリになるのか分かれば、改変できることになります。

このコンテナを作った[Dockerfile](https://github.com/mnagaku/superset/blob/master/Dockerfile)を確認すると、supersetはpipでインストールされていることが分かるので、pipでインストールされたモジュールがどこのディレクトリに置かれるのかが分かれば良いことになります。

グーグル先生に質問しながらコンテナ内を探ってみると、/usr/local/lib/python3.6/site-packages/superset/static/assets/dist/theme.09939b5e6e0a613c0653.cssを見つけることができました。

このcssに背景画像を設定する行を追記します。

貼り込む画像は、同じディレクトリの「bg.jpg」を指定しています。もし、別の形式の画像ファイルを貼り込みたい場合は、適切な拡張子を指定するようにしてください。

先ほど取得したSupersetのコンテナ名を指定して、処理を行います。

In [None]:
!sudo docker exec pwd_superset.1.hogehoge sed -i '7482a\  background-image: url("bg.jpg");' /usr/local/lib/python3.6/site-packages/superset/static/assets/dist/theme.09939b5e6e0a613c0653.css

wgetを使って、貼り込む画像をSupersetのコンテナ内にダウンロードします。ダウンロードする画像のURL指定は、お好みに合わせて変更してください。jpg以外の画像形式にしたい場合も、保存先の名前の拡張子を変更してください。

In [None]:
!sudo docker exec pwd_superset.1.hogehoge wget https://img.animatetimes.com/news/visual/2017/1499070324_1_7_fe618586985b5ddc3b8da42e58b81d2e.jpg -O /usr/local/lib/python3.6/site-packages/superset/static/assets/dist/bg.jpg

# データの準備

承認力の観測のためTwitterのデータをPostgreSQLに投入します。20分ほど時間がかかります。

Pythonでデータ取得を行うために必要なモジュールをインストールします。

In [None]:
!sudo $CONDA3_DIR/bin/conda install --quiet --yes sqlalchemy psycopg2 requests beautifulsoup4

取得したデータをPostgreSQLに入れるためにコンテナ名を確認しておきます。

In [None]:
!sudo docker ps --filter name=postgres

キャラクター毎のデータを収集します。

PostgreSQLのコンテナ名を使って、create_engine()の引数を適切に設定してから実行してください。

取得した日時文字列のパースが適当なので、動作がおかしい場合は、resp.textを確認して、処理を書き直してください。PlayWithDocker含め国外のサーバで実行すると、item_a.stringが「Sep 16」の形式で返ってきますが、国内のサーバから実行すると、「9月16日」の形式で返ってくるので、dの中身を作る処理をコメントアウトした処理に入れ替えてください。

In [None]:
import sys
#import re
import datetime
import sqlalchemy as sa
import requests
from bs4 import BeautifulSoup

print("start : ", datetime.datetime.now())

#repatter = re.compile(r"[0-9]+")

engine = sa.create_engine('postgres://superset:superset@pwd_postgres.1.hogehoge/superset')
engine.execute('DROP TABLE IF EXISTS evaluation')
engine.execute('CREATE TABLE evaluation (tw_id VARCHAR(30), keyword VARCHAR(30), day TIMESTAMP, PRIMARY KEY (tw_id, keyword))')
ins = "INSERT INTO evaluation (tw_id, keyword, day) VALUES (%s, %s, %s) ON CONFLICT DO NOTHING"

keywords = [
            {'name':'セレジア・ユピティリア', 'words':['セレジア', 'フォーゲルシュバリエ', 'リベリオン']},
            {'name':'メテオラ・エスターライヒ', 'words':['メテオラ', 'めっちん', 'アヴァルケン', 'イヴァリュエーション・トレーサー', '万理']},
            {'name':'鹿屋瑠偉', 'words':['鹿屋', '瑠偉', 'モノマギア', 'ギガスマキナ']},
            {'name':'弥勒寺優夜', 'words':['弥勒寺', '優夜', '板額', 'カマキリメガネ', '荒塵', 'Arajin', '黒那岐丸', '閉鎖区', 'underground', 'アンダーグラウンド']},
            {'name':'星河ひかゆ', 'words':['星河', 'ひかゆ', 'ミルキーウェイ', 'エクストリームファイナルレジェンドマーシャルアーティスト']},
            {'name':'アルタイル', 'words':['アルタイル', '軍服の姫君', 'シリウス', 'メガロスフィア', 'シロツメクサ', '森羅万象', 'ホロプシコン']},
            {'name':'アリステリア・フェブラリィ', 'words':['アリステリア', 'アリスちゃん', 'ウルターシュタイン', 'ベルリヒンゲン', 'グルファクシ']},
            {'name':'煌樹まみか', 'words':['煌樹', 'まみか', 'マジカルスレイヤー', 'スプラッシュ', 'フレアー']},
            {'name':'ブリッツ・トーカー', 'words':['ブリッツ', 'エリナ', 'コードバビロン', 'code babylon', '重力弾']},
            {'name':'白亜翔', 'words':['白亜', '翔', 'バイヤール', '三節棍', '閉鎖区', 'underground', 'アンダーグラウンド']},
            {'name':'カロン・セイガ', 'words':['カロン']},
            {'name':'築城院真鍳', 'words':['築城院', '真鍳', 'まがね', '夜窓鬼録', '言葉無限欺', 'それはくるりと']}
            ]

date_range = [' since:2017-04-01 until:2017-09-18']

for dr in date_range:
    print(dr)
    for c in keywords:
        print(c['name'])
        for k in c['words']:
            print(k)
            url = "https://mobile.twitter.com/search?q=レクリエイターズ " + k + dr
            try:
                while len(url) > 0:
                    sys.stdout.write('.')
                    resp = requests.get(url)
                    soup = BeautifulSoup(resp.text, "html.parser")
                    tw_items = soup.find_all("td", attrs={"class": "timestamp"})
                    for t in tw_items:
                        item_a = t.find("a")
                        d = item_a.string + ", 2017"
#                        md = repatter.findall(item_a.string)
#                        d = md[0]+"/"+md[1]+"/2017"
                        engine.execute(ins, item_a['name'], c['name'], d)
                    next_div = soup.find("div", attrs={"class": "w-button-more"})
                    if next_div != None:
                        next_a = next_div.find("a")
                        next_url = next_a['href']
                        url = "https://mobile.twitter.com" + next_url
                    else:
                        url = ""
                print("")
            except:
                print("")
                print("except catch")
                print("url = " + url)
                print("tw_id = " + item_a['name'])
                print("name = " + c['name'])
                print("word = " + k)
                print("str = " + item_a.string)
                print("md = ", md)
                print("day = " + md[0]+"/"+md[1]+"/2017")
                raise

print("finish : ", datetime.datetime.now())


# ダッシュボードの作成

Superset上でデータのグラフ化を行います。

## ダッシュボードの作成

画面上部の「Dashboards」を選択し、ダッシュボード一覧を表示します。最初は未作成なので1つもありません。画面右上の（＋）から新規作成を行います。Titleを「イヴァリュエーション・トレーサー」に設定して「Save」します。

## データベースの登録

画面上部の「Sources」のプルダウンから「Databases」を選択し、データベース一覧を表示します。最初に「main」がありますが、これは管理情報を保存しているものなので気にする必要はありません。画面右上の（＋）から新規作成を行います。Databaseを「postgres」に、SQLAlchemy URIを先ほどcreate_engine()の引数に設定した「postgres://superset:superset@pwd_postgres.1.hogehoge/superset」に、Expose in SQL Labをチェック状態に設定して「Save」します。SQLAlchemy URIが正しいかどうかは「Test Connection」で確認できます。

## テーブルの登録

画面上部の「Sources」のプルダウンから「Tables」を選択し、テーブル一覧を表示します。最初は未作成なので1つもありません。画面右上の（＋）から新規作成を行います。Databaseを「postgres」に、Table Nameを「evaluation」に設定して「Save」します。

詳細設定を行うために再度編集画面に入り、List Columnsタブの画面左上の（＋）から、カラム追加を行います。Columnを「week」に、Verbose Nameを「None」に、Typeを「TIMESTAMP WITHOUT TIME ZONE」に、Filterableをチェック状態に、Tableを「evaluation」に、Expressionを「date_trunc('week', day + '2 days') - INTERVAL '2 days'」に、Is temporalをチェック状態に設定して「Save」します。

使わないカラムを削除するために再度編集画面に入り、List Columnsタブで、tw_idとdayを削除します。

## スライスの作成

画面上部の「Slices」を選択し、スライス一覧を表示します。最初は未作成なので1つもありません。画面右上の（＋）から新規作成を行います。Choose a datasourceを「evaluation」に、Choose a visualization typeを「Time Series - Line Chart」に設定して「Create new slice」します。

詳細設定を行う画面に移行するので、TimeのSinceを「1 year ago」に、QueryのGroup byを「keyword」に設定し、画面左上の「Query」でグラフを確認します。

作成したスライスを、画面左上の「Save」で保存します。Save asを「キャラクタ毎の承認力獲得状況」に、Add slice to existing dashboardを「イヴァリュエーション・トレーサー」に設定し、「Save & go to dashboard」します。

## ダッシュボードの調整

表示されたグラフは、右下をドラッグしてサイズを変更できるので、好きなサイズに引き伸ばします。サイズ変更した後は、画面右上にセーブアイコンがあるので、それを押して保存してください。

![できあがりの例](example.png "できあがりの例")
