Sentiment Analysis

(注：コードがとても汚いです)

はじめに

マンションコミュニティの口コミから、ポジティブ(買いたくなる)な口コミ、ネガティブ(買いたくなくなる)な口コミを分類するサンプル。

多数のファイルやディレクトリが存在し見通しは悪いが、最終的なアウトプットは、単語のウエイトを計算した情報に集約される。ポジティブな口コミに含まれている傾向の高い単語はプラスのスコアに、ネガティブな口コミに含まれている傾向の高い単語はマイナスのスコアとして計算される。

単語のウエイトは、教師ありの機械学習で計算しており、教師データの整備が分類精度に直結している。今回は、教師データを1人で作成したため、データが十分でないことと、ポジティブ、ネガティブのデータ割合に偏りがあったため、実用に耐える精度には達しなかった。

###実プロダクトへの導入

複数のデータソースがあるため、データフローをまとめる。

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
comments		comments
dic		dic
images		images
judge		judge
model		model
train		train
Normalizer.py		Normalizer.py
README.md		README.md
Tagger.py		Tagger.py
analyzeBalance.sh		analyzeBalance.sh
buildDF.py		buildDF.py
buildFeatures.py		buildFeatures.py
buildFeaturesScikit.py		buildFeaturesScikit.py
buildModel.sh		buildModel.sh
buildModelC.sh		buildModelC.sh
buildTrainSet.sh		buildTrainSet.sh
buildUserDic.sh		buildUserDic.sh
buildWordWeight.sh		buildWordWeight.sh
evaluateModel.sh		evaluateModel.sh
formatJson2TSV.py		formatJson2TSV.py