選挙に関するツイートを解析します
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Failed to load latest commit information.
countMerge.py
distributer.py
distributer.pyc
divideData.py
main.py
multiprocess_main.py
naturalLanguage.py
naturalLanguage.pyc
pool_main.py
readme.md

readme.md

###関連語の抽出プログラム

#####選挙に関するツイートの抽出,解析を目的としている #####関連語の過去の出現分布を利用して現在のトレンドを解析する


条件付き確率(w:単語,c:クラス) P(c|w) = P(c,w)/P(w) = f(c,w)/f(w) = (f(c,w)/Nc)/(f(w)/N)

1.関連語検出(クエリ集合と関連語との積集合)
 クエリを元にクエリ周辺の関連語とその登場回数を調べる(ex.["賛成","反対"])

2.関連語の全体集合における登場回数(関連語集合全体のサイズ)
 返ってきた関連語リストの要素それぞれを今あるツイートデータ(Nツイート)の中から
 何回出現するか測定(一度にやりたい)→保存

3.選挙近辺での関連語再計測
 もう一回別の時点で同クエリを元にNcツイートの中から  クエリ周辺の関連語の登場回数を調べる

4.出現確率計算
 返ってきた関連語のリストと先ほど保存した辞書データを元に確立を計算する


  • main:
    出現回数をカウントする主プログラム

    • distributer:
      関連語を判断して分配するモジュール(並列処理用に作成)
    • naturalLanguage:
      jsonなどの日本語を扱う関数モジュール
  • divideData:
    分散処理のため、対象データを分割するプログラム

  • countMerge:
    分散処理により出力された結果データを統合するプログラム

  • *_main:
    並列処理用に書いたプログラム(使わないが、今後のために保管)