New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Queries #130

Open
maryLoi opened this Issue Mar 22, 2017 · 1 comment

Comments

Projects
None yet
2 participants
@maryLoi

maryLoi commented Mar 22, 2017

בכנסת פתוחה הצטבר אוסף גדול של פרוטוקולים מדיונים בוועדות הכנסת. אנחנו רוצים לעשות ניתוחים עומק על פרוטוקולים אלה וליישם אלגוריתמים של עיבוד שפה טבעית ולמידת מכונה.
מטרת הפרוייקט היא לפתח מתודה להערכה וכימות של עבודת הפיקוח הפרלמנטרי הנעשית בוועדות הכנסת.
למטה מופיעה רשימת שאלות מעניינות שהתגבשה מתוך שיחות עם עובדי ארגונים חברתיים שמתמחים בעבודה עם הכנסת. בהמשך נערוך ראיונות עם ח"כים כדי לנסח שאלות נוספות.

הסבר על עבודת ועדות הכנסת

ועדות הכנסת מבצעות שני תפקידים עיקריים - חקיקה ופיקוח פרלמנטרי.
בחקיקה - מגבשים ומעבדים נוסחים של הצעות חוק, תקנות וצווים
בפיקוח פרלמנטרי - מפקחים על עבודת משרדי ממשלה: מזמנים פקידים, דורשים מהם להציג נתונים על ביצוע החלטות ממשלה, דו"חות על שימוש בתקציב וכו'. מזמינים בעלי עניין מהחברה האזרחית - ארגוני סנגור, איגודים מקצועיים וגורמים פרטיים.
ידוע, כי מבחינה מבנית, במאזן הכוחות בין הפרלמנט לרשות המבצעת בישראל, ידה של הממשלה על העליונה. לכנסת יש מעט מאוד כלים מערכתיים כדי לעשות עבודת פיקוח משמעותית.
בפרוייקט המחקר הזה אנחנו רוצות, בין היתר, לחשוף את החולשה של הכנסת, דווקא כדי לסייע לחכ"ים שרוצים לעשות עבודה טובה. בהמשך נראיין ח"כים כדי להבין איך הם מגדירים עבודת פיקוח משמעותית. וננסה לבנות כלי שמודד אותם לפי עבודה זו, ולאו דווקא על פי נוכחות גרידא או הצבעה, שידוע שהיא נתונה בסד המשמעת הקואליציונית. העובדה שעבודה פרלמנטרית, שלעיתים קרובות היא עבודת עומק לטווח ארוך לא מתגמלת, תוכל לקבל חשיפה ולזכות ח"כים בקרדיט מול הציבור - תחזק אותם ואת הכנסת.

גישה לדאטה

You can run SQL in our redash - the interface that we use for running, storing and sharing queries (just connect with your google account, its open). If you are writing queries, please document them in this issue like this, because redash is horrible for finding and cataloging things.

The tables are not well documented, but if you play around with Open Knesset, you will get the feel for how the data is organized. Here is a list of the more important tables, documentation is work in progress:

image

  • start a new query
  • Select 'Data Source' - OpenKnesset , or fork an existing query.
  • don't forget to save!!! even when you execute your query it's not saved automatically

The tables you'll mostly use are those starting with 'committees', particularly 'committees_committeemeeting' and 'committees_protocolpart'.
The protocol is stored in sections, each section attributed to speaker. See this issue on explanation how to identify speakers.

Example queries and code

Here are some good queries to start from:

https://github.com/hasadna/Open-Knesset/wiki/Running-SQL-queries-on-Open-Knesset-database-using-re:dash

שולף את כל הדיונים בועדת הכספים בין תאריכים נתונים, כשנושא הדיון עוסק בשינויים בתקציב. סופר לכל ח"כ שהשתתף בדיון את מספר המילים. תוך כדי פותר את הבעיה של כתיב לא קונסיסטנטי לשמות חכים
http://data.obudget.org/queries/998/source#table
there is a 'speaker_id' column in 'committees_protocolpart' table that references the id column in
'persons_person' table, but unfortunately it has many NULLs, so it can't be used. This query kept the string matching and took the names from 'mks_member.name' so we get all unified names and parties (no duplicates such as 'מירב בן ארי/ח"כ מירב בן ארי/מירב בן-ארי, etc). The 'speaker_id' will be fixed in the future.

Python code that extracts from a protocol the full name and position of all guests who attended a committee meeting

דיון בפייסבוק על כלים לניתוח עברית
https://www.facebook.com/groups/543283492502370

נושאי מחקר

מגדר

  1. לפלח את יוזמי החוק מגדרית ולראות אם יש מאפיין מיוחד להצ"ח שיש יותר נשים בין יוזמיהם . למשל, אם בחוקים הבטחוניסטיים יהיו יותר מציעים גברים.
  2. לבדוק נוכחות ח"כים בוועדות לפי מגדר, אם ח"כיות נוכחות יותר בוועדות מסויימות

נושאי דיון

  1. לפלח כותרות של דיונים לנושאים עיקריים. מה הנושאים החמים לדיון
  2. היסטוגרמה של מופעי צמדי מילים. לראות איך היא משתנה בין השנים, בין הכנסות
  3. פילוח דיוני מעקב - כמה יש, על איזה נושאים, באילו ועדות, באילו מרווחי זמן
  4. התפלגות הנושאים לפי זמן
  5. לאפיין את הנושאים שמאפיינים כל ח"כ, בכל וועדה, בכל שנה

נוכחות

  1. באילו ועדות יש הכי הרבה לוביסטים, באילו דיונים
  2. להצליב מאגר אירגונים חברתיים של מידות עם רשימת נוכחים. לראות באילו ועדות ואילו נושאי דיון יש יותר נוכחות ארגוני חברה אזרחית
  3. ממוצע נוכחות ח"כים בוועדות השונות
  4. האם ח"כים מגזרים נוטים יותר להגיע לדיונים בנושאים מסוימים
  5. אילו נציגי ממשלה מזומנים? האם נציג זוטר או בכיר מתייצב?
  6. מי נכנס/יצא באמצע הדיון? מי נכח באיזה חלק מהדיון?

כללי

  1. האם יש דפוס בתגובות של נציגי ממשלה מרשויות שונות
  2. מה הסיבות הכי נפוצות שנציגי הממשלה מביאים כדי לתרץ בעיות בביצוע - למשל האשמת משרד אחר או בעיית תכלול בין גורמים, מחסור בתקציב, מכשול משפטי, בעיה עם האוכלוסיה (למשל בדואים שמוציאים ילדים מבית הספר למרעה
  3. כמה זמן הבעיה הנדונה הקיימת עד שמגיעה לדיון בכנסת
  4. האם יש שימוש מוגזם בעדויות אישיות של אזרחים
  5. האם נשאלה שאלה רלוונטית
  6. האם התקבלה תשובה
  7. האם התקבלה תשובה עניינית? לזהות נסיונות התחמקות משאלה
  8. כמה זמן ניתן לאיזה ארגון אזרחי לדבר?
  9. פילוג זמן הדיבור של ח"כ ע"פ מגדר/מגזר/השתייכות סיעתית '
@OriHoch

This comment has been minimized.

Show comment
Hide comment
@OriHoch

OriHoch Mar 28, 2017

Collaborator

expected outcome from this issue

this is an ongoing epic issue for which new issues should be opened for the specific missing data

  • add more queries to the description
  • take those queries and figure out the relevant data they require
  • ensure the data required exists in all parts of knesset-data
    • knesset-data: documentation (https://github.com/hasadna/knesset-data/tree/master/docs/dataservice)
    • knesset-data-python: issue for supporting low-level fetching of this data
    • knesset-data-datapackage: issue for adding the data to the datapackage
    • knesset-data-django: issue for refactoring and moving relevant scrapers / logic for this data from open knesset to knesset-data-django
  • allow to get the data using either
    • redash queries (once it's in knesset-data-django)
    • alternatively - support for getting it directly form the datapackage
Collaborator

OriHoch commented Mar 28, 2017

expected outcome from this issue

this is an ongoing epic issue for which new issues should be opened for the specific missing data

  • add more queries to the description
  • take those queries and figure out the relevant data they require
  • ensure the data required exists in all parts of knesset-data
    • knesset-data: documentation (https://github.com/hasadna/knesset-data/tree/master/docs/dataservice)
    • knesset-data-python: issue for supporting low-level fetching of this data
    • knesset-data-datapackage: issue for adding the data to the datapackage
    • knesset-data-django: issue for refactoring and moving relevant scrapers / logic for this data from open knesset to knesset-data-django
  • allow to get the data using either
    • redash queries (once it's in knesset-data-django)
    • alternatively - support for getting it directly form the datapackage

@OriHoch OriHoch changed the title from querries to ensure knesset-data workflows support getting common querries / questions we get Mar 28, 2017

@maryLoi maryLoi changed the title from ensure knesset-data workflows support getting common querries / questions we get to Queries Apr 12, 2017

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment