## 1. データをクローリングする

In [98]:
! mkdir -p html excel csv tokenized vector log

In [None]:
# 事故事例(Excel系)と、事例・状況・原因・対策（HTML系）の2種類を取得する。
! ./get_doc.sh > ./log/get_doc.log 2>&1 

## 2. 取得したデータをCSVに変換する。
* 事故事例のExcelと、事例・状況・原因・対策のHTMLをcsvに変換する。

In [100]:
# Excel to CSV
!python excel_to_csv.py ./excel/ ./csv/ > ./log/excel_to_csv.log 2>&1

In [118]:
# HTML to CSV
!python html_to_csv.py ./html/ ./csv/anzen_all.csv > ./log/html_to_csv.log 2>&1 

## 3. ElasticsearchにIndexを登録する

In [103]:
# 事例・状況・原因・対策用のインデックスを登録
! curl -XPUT -H "Content-Type: application/json" elasticsearch:9200/anzen -d @es_anzen_csv_schema.txt

{"acknowledged":true,"shards_acknowledged":true,"index":"anzen"}

In [101]:
# 事例用のインデックスを登録
! curl -XPUT -H "Content-Type: application/json" elasticsearch:9200/accident -d @es_accident_schema.txt

{"acknowledged":true,"shards_acknowledged":true,"index":"accident"}

## 4. Elasticsearchにデータをロードする

In [104]:
# 事例・状況・原因・対策データをロード(anzenインデックス)
! python load_anzen_es.py --host elasticsearch --index anzen --input_csv ./csv/anzen_all.csv  > ./log/load_anzen_es.log 2>&1

In [105]:
# 事例用データをロード(accidentインデックス)
!python load_accident_es.py --host elasticsearch --index accident --input_dir ./csv/  > ./log/load_accident_es.log 2>&1

## 5. Elasticsearchでトークナイズし、結果をCSV形式とテキスト形式で保存する

In [119]:
# 事例・状況・原因・対策データの文章をトークナイズし、CSVとTXTファイルとして保存する
!python es_anzen_tokenize.py --host elasticsearch --index anzen --output tokenized/anzen_tokenized > ./log/es_anzen_tokenize.log 2>&1

In [120]:
# 事例用データの文章をトークナイズし、CSVとTXTファイルとして保存する
!python es_accident_tokenize.py --host elasticsearch --index accident --output tokenized/accident_tokenized

## 6. GloVeで単語を学習する

In [106]:
# GloVeを取得する。最初に1回だけ実行すれば良い。
! git clone https://github.com/stanfordnlp/GloVe.git
! cd GloVe && make

fatal: destination path 'GloVe' already exists and is not an empty directory.
mkdir -p build


In [121]:
# トークナイズしたanzenとaccidentのテキストファイルを結合する。
! cat tokenized/anzen_tokenized.txt tokenized/accident_tokenized.txt > tokenized/all_tokens.txt

In [127]:
# GloVeで学習する。
! ./glove.sh 


$ GloVe/build/vocab_count -min-count 0 -verbose 2 < tokenized/all_tokens.txt > ./vector/glove_vocab.txt
BUILDING VOCABULARY
Processed 0 tokens.[11G100000 tokens.[11G200000 tokens.[11G300000 tokens.[11G400000 tokens.[11G500000 tokens.[11G600000 tokens.[11G700000 tokens.[11G800000 tokens.[11G900000 tokens.[11G1000000 tokens.[0GProcessed 1062917 tokens.
Counted 22214 unique words.
Using vocabulary of size 22214.

$ GloVe/build/cooccur -memory 4.0 -vocab-file ./vector/glove_vocab.txt -verbose 2 -window-size 15 < tokenized/all_tokens.txt > ./vector/glove_cooccurrence.bin
COUNTING COOCCURRENCES
window size: 15
context: symmetric
max product: 13752509
overflow length: 38028356
Reading vocab from file "./vector/glove_vocab.txt"...loaded 22214 words.
Building lookup table...table contains 62967987 elements.
Processing token: 0[19G100000[19G200000[19G300000[19G400000[19G500000[19G600000[19G700000[19G800000[19G900000[19G1000000[0GProcessed 1062917 tokens.
Writing cooccurren

# SCDVで文章をベクトル化する

## 前処理として学習用のcsvファイルの作成を行う

In [125]:
# anzenとaccidentのCSVをマージする。ベクトル化に必要な列のみ選別し、列名を統一する。
!python merge_csv.py --input_anzen tokenized/anzen_tokenized.csv --input_accident tokenized/accident_tokenized.csv --output_csv tokenized/merge_tokenized.csv

# LDAトピックモデルを使用して、いくつのトピックに分類すると良いか確認する
* 以降のSCDVモデルを構築する際の、GMMのクラスタ数の参考とするため
* 調べたクラスタ数 × 50(GloVeのベクトルサイズ)がSCDVのベクトルサイズとなる。このサイズでElasticsearch用のベクトルインデックスを登録する。
* 以下でElasticsearch用のベクトルインデックスを登録するが、es_vector_schema.txx内の"dense_vector"の"dimes"をこのベクトルサイズに書き換えること。

In [113]:
# ベクターインデックスを登録
! curl -XPUT -H "Content-Type: application/json" elasticsearch:9200/vector -d @es_vector_schema.txt

{"acknowledged":true,"shards_acknowledged":true,"index":"vector"}

## SCDVのGMMモデルを構築する。
* 引数のnum_clustersは上記で調べたLDAトピックモデル数を参考にして設定する。

In [128]:
!python scdv.py --csv_file ./tokenized/merge_tokenized.csv --num_clusters 4

Clustering Done...
Cluster Assignments Saved...
Probabilities of Cluster Assignments saved...
100%|██████████████████████████████████| 42143/42143 [00:02<00:00, 14187.04it/s]
100%|████████████████████████████████████| 4683/4683 [00:00<00:00, 22601.14it/s]
train size:42143  vector size:200
test size:4683  vector size:200
Test start...
Report
              precision    recall  f1-score   support

       cause   0.431548  0.331050  0.374677       438
    measures   0.619748  0.590000  0.604508       500
   situation   0.505525  0.375770  0.431095       487
       title   0.425000  0.195402  0.267717        87
      その他の事業   0.476190  0.164835  0.244898       182
      保健・衛生業   0.000000  0.000000  0.000000         1
        保健衛生   0.000000  0.000000  0.000000         1
       保健衛生業   0.056604  0.187500  0.086957        16
          商業   0.440476  0.252560  0.321041       293
         官公署   0.000000  0.000000  0.000000         1
         建設業   0.582888  0.730930  0.648568      1193
       接

In [129]:
# 全データについてSCDVベクトルを算出し、Elasticsearchに登録する
!python scdv_to_es.py --host elasticsearch --input_csv ./tokenized/merge_tokenized.csv --num_clusters 4 > ./log/scdv_to_es.log 2>&1 