Skip to content
This repository has been archived by the owner on Jul 21, 2022. It is now read-only.

月末までのデータの整備についてのタスク整理 #60

Open
tetsuyas1 opened this issue Oct 14, 2017 · 20 comments
Open

月末までのデータの整備についてのタスク整理 #60

tetsuyas1 opened this issue Oct 14, 2017 · 20 comments

Comments

@tetsuyas1
Copy link
Collaborator

@nyampire  

タスクを整理していきたいです。
Excelレベルでデータメンテナンスに協力してくれる人がいるので
タスク化しておいてもらえると一日数時間でもちょいちょい人手で整備をすることができます。
SNSアカウントの取得の自動化/省力化も合わせて検討していきます。

@tetsuyas1
Copy link
Collaborator Author

都道府県知事や参議院の件です。都道府県議会議員はどうするのかなど。

@hkwi
Copy link
Collaborator

hkwi commented Oct 14, 2017

参議院>今思い付きで http://www.sangiin.go.jp/japanese/joho1/kousei/giin/194/giin.htm のページをコピーして google spread sheet に貼りつけたら一覧が一撃でできてしまった!!
https://docs.google.com/spreadsheets/d/1sL6IaDdNyBQM1AI2br6P2ZVd0qex9uFMIsnq28AKIBo/edit?usp=sharing

@higa4
Copy link
Collaborator

higa4 commented Oct 14, 2017

以下のようなデータは一般向けにも公開できると良いと思います。

  • 立候補者一覧
  • 政党一覧
  • 選挙区一覧
  • 当選者一覧

@nyampire
Copy link
Collaborator

都道府県議会議員は、今回の作業のスコープ外でよいと思います。(mySocietyにも、やらない、ということで同意とれています)

参議院は上記でリストができた(!)ので、GrayDBにシートつくります。
都道府県知事は @higa4 さんが前にリストつくってた、と言っていたような? もし勘違いだったらすみません。

@nyampire
Copy link
Collaborator

備忘:mySocietyからきているシートのなかで、Facebook URLというものがあって、mySocietyに確認しています。

Facebook URLが「個人のID」なのか「Facebook Page」のどちらなのか。両方ある場合にどちらをカラムに入れるべきか。

@higa4
Copy link
Collaborator

higa4 commented Oct 15, 2017

@nyampire 都道府県知事はwikidataに入っています。下記は都道府県から知事の一覧を抜いたものですがQ番号しか出ていないので、知事の属性が必要ならヒトから知事の経験者を抜いたほうが良いのかもしれない。
>誰かSPARQL使えるるヒトお願い
http://tinyurl.com/y85snzhc

@tetsuyas1
Copy link
Collaborator Author

ちょっとスレ違いですが、基本的にFacebookUrlについては、FacebookPageを使うのがFacebookの運用ポリシーにもそっているような気がしますので、原則FacebookPageを使い、個人ページは出さないのがいいと思います。どうでしょう?

FacebookページをベースにするポリシーのPros/Cons

Pros

  • FBのポリシーに沿っている
  • 本来個人ページはプライベートなものという位置づけ
  • FB的に正しい使い方を推奨できる。
  • 機械的に集められる
  • 人手でも検索エンジンを使える(個人ページは検索できないことも多々ある)

Cons

  • 登録データ数が減る
  • FBのポリシーに準じない利用をしている人(個人ページで政治活動している人)がわりと存在している
  • 正しくない使い方を是認することになる。

@hkwi
Copy link
Collaborator

hkwi commented Oct 15, 2017

Facebook page は Facebook の収益事業として設定されたというのはあります。ただ個人ページを出さないというのが facebook の policy …かどうかはちょっと見つけられませんでした。Facebook ページは事務所が運営していることも多いので、データベースとしては両方整備しておいて、どう使うかは利用者に委ねるのが良いかと思いましたが、どうでしょうか。

@tetsuyas1
Copy link
Collaborator Author

個人アカウントページからFBページへの移行を推奨していたのは個人的にFBの営業さんから話を聞いたのが原点です。今はどうなっているのか?ですが、基本的に変わらないと思います(多分)。ちょっと面白いので調べてみます

@takahashim
Copy link

http://tinyurl.com/y85snzhc

は存在しない過去の都道府県?が入っていたので除外して、知事の名前も表示するようにしたSPARQLが以下です
http://tinyurl.com/yayb8bv7

@takahashim
Copy link

http://tinyurl.com/ycd6c69l 順番がバラバラだとわかりづらいので、都道府県コード順に並べてみました

@nyampire
Copy link
Collaborator

Facebook URLの件、mySocietyから回答がありました。
個人IDとpages、どっちでもいいけど、どちらかというとpagesのほうがよい、とのこと。

We have a tool that can normalise the URLs for Facebook which can help - the Facebook URL can be for either personal profile or pages but we prefer pages if they are available.

#60 (comment)

@nyampire
Copy link
Collaborator

nyampire commented Oct 16, 2017

参議院と都道府県知事については別途Issueをたてたのでそちらで。

衆議院選挙については、22日まではだいたい以下の作業と思っています。
抜け漏れあったら指摘いただきたくです。

  • Facebookページと個人IDの内容確認(人海戦術)
  • 立候補者がSNSアカウントを持っていない場合に、カラムへハイフン(-)を入れる(人海戦術)
  • Facebook IDおよびページのカラムの表記を、IDからURLに変更する(http:// で始まる形式にする)
  • GrayDBの情報をwikidataに登録 wikidataへのデータ登録再開に向けた方針検討 #61
  • 人海戦術の作業に対して解説文書を作成する(HowToContribute.mdのアップデートをする)

22日以降、GrayDBで、当選者に対してフラグをたてる作業が必要です。

  • 当選者の一覧(可能な限り公的ソース)を入手する
  • 当選者の一覧データを作成(GrayDBの候補者リストに対してフラグたてる)
  • mySocietyにデータを送る

@tetsuyas1
Copy link
Collaborator Author

FB,TWのアカウントの件ですが
候補を機械的に抽出する仕組みを作りました。
メディア報道で把握した立候補者について処理したものが下記になります。
下記のシートをExcelなどで開いて、正解列に1を入れるなどしていけば、ある程度機械的に入ると思います。
https://github.com/codeforjapan/codeforelection/blob/master/data/graydb/haaku_sns_results.sjis.csv

もっとも、明らかにとれてないものもあります。
APIを使っているbingの検索精度がネックになっています。
google を使えると良さそうなのですが、作成した段階ではgoogleの検索APIが使えると思ってませんでした。。

@nyampire
Copy link
Collaborator

ありがとうございます。
では、作業としてはこんなかんじでしょうか。

@tetsuyas1
Copy link
Collaborator Author

それでいいと思います

@hkwi
Copy link
Collaborator

hkwi commented Oct 16, 2017

残念ながら、結構同姓同名の別人が入っているようです…。

@higa4
Copy link
Collaborator

higa4 commented Oct 16, 2017

同姓同名は、誕生日もチェックできると精度が上がるとは思います。機械的に可能かはわかりませんが

@higa4
Copy link
Collaborator

higa4 commented Oct 18, 2017

Excelレベルでデータメンテナンスに協力してくれる人がいるのでタスク化しておいてもらえると一日数時間でもちょいちょい人手で整備をすることができます。

この件で、過去の衆議院選の結果は立候補者の当選回数をはじめとして統計的にいろいろ参考になる情報なのですが、立候補者ごとに探すのは効率が悪すぎるので、各衆議院選挙の結果一覧から一括してwikidataを更新することを考えています。第40回くらいから第47回(前回)までの衆議院選結果をwikipediaをみながら表形式に整理して頂けると一括してwikidataに登録できるため大変ありがたいです。もしお手伝い頂ける方がおられましたら下記シートにて作業お願いします。
https://docs.google.com/spreadsheets/d/1bxFWmlFr81jaDnvVE31rQXSdsD3JuIuxUDTWBTHn9_Q/edit#gid=0

@nyampire
Copy link
Collaborator

@higa4 さんからの最後の質問を別Issueにして対応する。

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants