Skip to content
找出政治獻金有趣的地方
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
accounts
analysis
data
sql
src
.gitignore
README.md

README.md

GovCash

找出政治獻金有趣的地方

#資料概要

  1. 總共有 671186 欄位
  2. 共有 21397 User
  3. 3215688 筆資料

#初步分析

  1. [人事費用支出 500,1000 總和統計] (https://github.com/ntuaha/GovCash/blob/master/analysis/walker.csv)

#資料來源

#相關來源 政治獻金API

#資料表格式 Google Doc

#資料清理

  1. 包含去除不符合欄位格式的資料以及不符合欄位應有數值輸入
  2. 請參考 src/load_rawdata_1.py
  3. 去除日期不符合應有的格式
  4. 數字的全半形轉換
  5. col=8 限制只能是, 否, 空白

#資料辨識演算法

  1. 選取每個IP對於該欄位的最新輸入作為投票
  2. 多數決,可決定的欄位設定Vote_Type=1,剩下平手或者無法決定的欄位擱置
  3. 針對已經決定的欄位給投票者1分
  4. 每位投票者可以根據投票情形得到正確率 = 得分/ 總投票數
  5. 針對無法決定的欄位進行所有已經擁有投票的正確率計算,算出每個欄位的正確率 1 - \pi_{\forall user} (1-P(每位投票者正確率)),取出最高的答案,該欄位設定Vote_Type=2
  6. (續5)如果同分的答案,則將該欄位設為Vote_type = 0 無法決定
  7. 最後每個欄位將分為Vote_Type=1 多數決 Vote_Type=2 權威決 Vote_Type=0 無法決定三個類型
  • 建議將Vote_Type的欄位再進行一次辨識
  • 原始監察院也有提供不合理的欄位,並非網友輸入有誤(例如:公司統編應為8碼,但卻看見原始資料有超過8碼的可能性)
  • 可參閱 run4.sql

執行流程

  • 建議安裝postgresql
  • 執行將政治獻金每個頁面代表的候選人資訊讀入
python [絕對路徑]/src/page.py
  • 開始清理資料內容
python [絕對路徑]/src/load_rawdata_1.py [絕對路徑]/data/govcash_txn.csv [絕對路徑]/sql/createRaw_1.sql
  • 設定好資料庫之後執行
psql -d [library] -f [絕對路徑]/sql/run4.sql

之後會建立出以下表格,相關表格資訊可以到Google Doc

  • 接著

  • UserInfo

  • TableColumn

  • Votes

  • govcash_txn_ext

  • govcash_txn2

此外為了輸出檔案到指定的目錄下,請先修改[絕對路徑]/sql/run4.sql的輸出區塊

  • 已辨識完欄位整併
python transpose.py [絕對路徑]/sql/GovCash_pre.sql
  • 最後整理,添加每個page的說明與對應的候選人資訊
psql -d govcash -f [絕對路徑]/sql/GovCash.sqls
  • 完成,開始利用GovCash這張表格做分析吧

###有任何問題請直接回報,會加緊除錯提供更完整的資料表

You can’t perform that action at this time.