In [1]:
import numpy as np
import pandas as pd
import requests
import re
import openai

from collections import Counter
from typing import List, Dict

import torch
import torch.nn as nn

from consts import *

In [2]:
df = pd.read_csv('kns_csv_files/kns_committee.csv')
df = df[df['KnessetNum'] >= 25]
df = df[df['CategoryID'].isin([MONEY_COM_CATEGORY_ID, DEFENSE_COM_CATEGORY_ID, LAW_ORDER_COM_CATEGORY_ID, MESADERET_COM_CATEGORY_ID, KNESSET_COM_CATEGORY_ID])]
commitee_ids = df['CommitteeID'].to_list()

In [3]:
def get_meeting_protocol_text(text_path):
    # Define the URL to fetch
    base_url = 'https://production.oknesset.org/pipelines/data/committees/meeting_protocols_text/'
    # Send GET request to the URL
    response = requests.get(base_url + text_path)

    # Check if the request was successful (status code 200)
    if response.status_code == 200:
        response.encoding = 'utf-8'
        # Retrieve the content of the file
        return response.text
    else:
        raise ValueError(f"Failed to retrieve content. Status code: {response.status_code}")


In [4]:
com_session_df = pd.read_csv('kns_csv_files/kns_committeesession.csv')
com_session_df = com_session_df[com_session_df['CommitteeID'].isin(commitee_ids)]

com_session_df.dropna(subset=['text_parsed_filename'], inplace=True)
text_paths = com_session_df['text_parsed_filename'].to_list()
texts = [get_meeting_protocol_text(path) for path in text_paths]
agg_scores = [rate_aggressiveness(text) for text in texts]



ConnectionError: HTTPSConnectionPool(host='production.oknesset.org', port=443): Max retries exceeded with url: /pipelines/data/committees/meeting_protocols_text/files/2/1/2197382.txt (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x0000016E83378220>: Failed to establish a new connection: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond'))

In [6]:
knesset_members_df = pd.read_csv('kns_csv_files/kns_person.csv')
first_names, last_names = knesset_members_df['FirstName'].to_list(), knesset_members_df['LastName'].to_list()
knesset_members = [' '.join([first_name, last_name]) for first_name, last_name in zip(first_names, last_names)]

warnings = {mem: [0, 0, 0] for mem in knesset_members}

# handle members with a middle name or a nickname
new_first_names, new_last_names = [], []

for fn, ln in zip(first_names, last_names):
    names = re.findall('\w+', fn)
    
    for name in names:
        warnings[name + ' ' + ln] = warnings[fn + ' ' + ln]
        new_first_names.append(name)
        new_last_names.append(ln)

# update first and last names
first_names = new_first_names
last_names = new_last_names

knesset_members = [' '.join([first_name, last_name]) for first_name, last_name in zip(first_names, last_names)]

In [7]:
def get_meeting_warnings(text, warnings, knesset_members) -> None:
    """
    Return warnings from the meeting protocol text.

    Parameters
    ----------
    text : str
        Meeting protocol text.

    warnings: Dict[str, List[int]]
        Number of warnings for each Knesset member.

    knesset_members: List[str]
        List of Knesset members.
    """

    # find all warnings
    matches = re.findall(WARNING_REGEX, text, flags=re.MULTILINE)
    print(len(matches))
    for i, match in enumerate(matches):
        print(f'match #{i}:')
        print(match)
        sentences = match.split('\n')
        first_sentence, last_sentence = sentences[0], sentences[-1]
        for kns_member in knesset_members:
            if kns_member in first_sentence:
                word2idx = {'ראש': 0, 'שני': 1, 'שליש': 2}
                for word, idx in word2idx.items():
                    if word in last_sentence:
                        warnings[kns_member][idx] += 1
                        break
    
    

In [8]:
alephbert_tokenizer = AutoTokenizer.from_pretrained('onlplab/alephbert-base')
alephbert = AutoModelForSequenceClassification.from_pretrained('onlplab/alephbert-base')

Some weights of the model checkpoint at onlplab/alephbert-base were not used when initializing BertForSequenceClassification: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at onlplab/alephbert-base

In [9]:
# if not finetuning - disable dropout
alephbert.eval()
text = 'מי אתה בכלל שתרים את הקול שלך עליי?'

inputs = alephbert_tokenizer(text, return_tensors='pt')
input_ids = inputs['input_ids']
attention_mask = inputs['attention_mask']

with torch.no_grad():
    outputs = alephbert(input_ids, attention_mask=attention_mask)
    print('output:', outputs)

    logits = outputs.logits
    print('logists shape:', logits.shape)
    print('logits:', logits)

output: SequenceClassifierOutput(loss=None, logits=tensor([[-0.2032, -0.2492]]), hidden_states=None, attentions=None)
logists shape: torch.Size([1, 2])
logits: tensor([[-0.2032, -0.2492]])


In [39]:
def prompt_chatgpt(prompt: str) -> str:
    openai.my_api_key = open('../chatgpt-key.txt', 'r').read().strip('\n')
    response = openai.ChatCompletion.create(
        engine="gpt-3.5-turbo",
        messages=[
            {'role': 'system', 'content': 'You are an intelligent assistant.'},
            {'role': 'user', 'content': prompt}
        ]
    )

    print('answer from chatgpt:\n', response)
    return response.choices[0].message.content

In [51]:
def filter_protocol_sentences(text: str) -> str:
    ind = re.search("<< יור >>", text)
    txt2 = text[ind.span()[0]:]
    txt2 = re.sub("<<.*","", txt2)
    txt2 = re.sub(">>.*","", txt2)
    txt2 = re.sub("\n\s+","\n", txt2)
    txt2 = re.sub(" +"," ", txt2)
    return txt2

In [54]:
with open('protocols/2159679.txt', 'r', encoding='utf-8') as f:
    text = f.read()
filtered_text = filter_protocol_sentences(text)
with open('filtered_protocols/2159679.txt', 'w', encoding='utf-8') as f:
    f.write(filtered_text)

In [40]:
def rate_aggressiveness(text):
    filtered_text = filter_protocol_sentences(text)
    lines = filtered_text.split('\n')

    # Filter non-conversation related lines
    lines = [line for line in lines if line.strip() != '' and '>' not in line and '<' not in line]
    print(lines)

    # Prompt Chat-GPT to rate the aggressiveness of the text
    scores = []
    query = 'דרג את מידת האגרסיביות של השיחה (תשובה מספרית בלבד! מ-1 עד 5 כש-5 זה אגרסיבי מאוד)\n'

    prompt = query
    n_tokens = len(prompt.split(' '))

    for line in lines:
        print('prompt:', prompt)
        print('n_tokens:', n_tokens)
        print('curr line:', line)

        num_new_tokens = len(line.split(' '))
        print('num new tokens:', num_new_tokens)
        if n_tokens + num_new_tokens < CHATGPT_MAX_TOKENS:
            # Maximum amount of tokens not yet exceeded, can add another sentence
            prompt = prompt + line + '\n'
            n_tokens += num_new_tokens
        else:
            # Maximum amount of tokens exceeded, send the accumulated prompt to ChatGPT
            print('prompting', prompt)
            ans = prompt_chatgpt(prompt)
            score = int(re.findall('\d', ans)[0])
            print('got score of', score)
            scores.append(score)

            prompt = query + line + '\n'
            n_tokens = len(prompt.split(' '))
        
    if n_tokens > len(query.split(' ')):
        ans = prompt_chatgpt(prompt)
        score = int(re.findall('\d', ans)[0])
        print('got score of', score)
        scores.append(score)

    print(scores)
    return np.mean(scores)
    

In [None]:
text = '''

הכנסת העשרים-וארבע

הכנסת



2
ועדת הכנסת
25/04/2022


03/05/2022
10:35
מושב שני



פרוטוקול מס' 89
מישיבת ועדת הכנסת
יום שני, כ"ד בניסן התשפ"ב (25 באפריל 2022), שעה 10:00



סדר היום:
 << נושא >> פניית ראש הממשלה ויו"ר ימינה, חה"כ נפתלי בנט, בבקשה להכריז על חבר הכנסת עמיחי שיקלי כפורש מסיעת ימינה. << נושא >>   


נכחו:
חברי הוועדה: 
איתן גינזבורג – מ"מ היו"ר
רם שפע – מ"מ היו"ר
בועז טופורובסקי
אחמד טיבי
יבגני סובה
יצחק פינדרוס


חברי הכנסת:
יולי אדלשטיין
אמיר אוחנה
ינון אזולאי
דוד אמסלם
אופיר אקוניס
משה ארבל
בני בגין
ולדימיר בליאק
איתמר בן גביר
יואב בן צור
גילה גמליאל
צחי הנגבי
מיכל וולדיגר
משה טור פז
אלי כהן
אופיר כץ
אורלי לוי אבקסיס
יריב לוין
אבי מעוז
אורי מקלב
יעקב מרגי
אופיר סופר
עידית סילמן
אורית סטרוק
שירלי פינטו
יואב קיש
שלמה קרעי
מירי רגב
מיכל רוזין
קטי שטרית
עמיחי שיקלי
נירה שפק


מוזמנים: 
שר הדתות מתן כהנא
מזכיר הכנסת דן מרזוק
עו"ד גיא בוסי 		– מייצג את חבר הכנסת עמיחי שיקלי
עו"ד עדי סדינסקי-לוי 	– יועץ משפטי לסיעת ימינה 
עו"ד עמיחי ויינברג 	– יועץ משפטי לסיעת ימינה


ייעוץ משפטי: 
ארבל אסטרחן

מנהלת הוועדה:
נועה בירן-דדון

רישום פרלמנטרי:
שלומית יוסף;
הילה לוי;
שרון רפאלי;
חנה כהן;
יפה קרינצה;
יפעת קדם;
מאיר פרץ;
אור שושני;
טלי רם;
הילה מליחי;
ירון קוונשטוק



 << נושא >> פניית ראש הממשלה ויו"ר ימינה, חה"כ נפתלי בנט, בבקשה להכריז על חבר הכנסת עמיחי שיקלי כפורש מסיעת ימינה. << נושא >>   

 << יור >> היו"ר איתן גינזבורג: << יור >>   

בוקר טוב לכולם. אני מבקש לאפשר לחברי הכנסת מקום לשבת מסביב לשולחן. 

 << דובר >> דוד אמסלם (הליכוד): << דובר >>   

הייתם צריכים לעשות במקום יותר גדול. אם הייתה לכם כוונה טובה ולא לשואו, אז בואו תעשו את זה. לא הבנתי, אתה קובע. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

נכון. אז תן לי עכשיו לנהל את הדיון. 

 << דובר >> דוד אמסלם (הליכוד): << דובר >>   

גם היום אתם גונבים, כשאתם 60, וכבר התפרקתם. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

עוד לא התחלנו, דודי. תן לי רגע. 

 << דובר >> דוד אמסלם (הליכוד): << דובר >>   

עוד לא התחלנו ותראה מה אתם עושים. מה יקרה כשתתחילו? 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

אני סומך עליך. בבקשה, אני רואה פה חברי כנסת שעומדים, אז תאפשרו להם מקום, ובטח לחברי הוועדה שצריכים להיות נוכחים לאורך כל הדיון. 

 << דובר >> דוד אמסלם (הליכוד): << דובר >>   

אתם הרי מתביישים במה שאתם עושים. הכנסתם אזרחים עוד לפני שהגענו. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

יש פה גם הרבה מאוד יועצים. אני מציע שיועצים – יש פה לשכות שלמות. יועץ אחד לכל חבר כנסת נראה לי מספיק, ואם יהיה צורך גם נוציא יועצים. אז תאפשרו למי שבאמת נדרש להיות פה בדיון להיות בדיון כדי שנוכל לנהל אותו. 

 << דובר >> עמיחי שיקלי (ימינה): << דובר >>   

חבר הכנסת גינזבורג, אני  מבקש שיתאפשר למועמדים של הרשימה להיכנס. כי הוציאו אנשים לפני תחילת הדיון, וזה לא מקובל. הם צריכים להיות פה. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

בוקר טוב לכולם. אני מתכבד לפתוח את ישיבת ועדת הכנסת. ראשית אני רוצה להביע את תנחומיי ולהשתתף בצערו של יושב-ראש ועדת הכנסת, חבר הכנסת ניר אורבך, שאמו יעל נפטרה השבוע, וגם חמותו זלדה שנפטרה גם היא השבוע. אני שולח מכאן חיבוק חזק וחיזוק למשפחת אורבך כולה שעוברת שבוע כואב במיוחד. יהי זכרן ברוך. 

ניר אורבך ביקש ממני למלא את מקומו בניהול הדיון היום, ולכן אני אנהל את הדיון. על סדר היום פניית יושב-ראש ימינה, ראש הממשלה נפתלי בנט, להכריז על חבר הכנסת עמיחי שיקלי כעל פורש מסיעת ימינה לפי סעיף 6א לחוק יסוד: הכנסת. 

חברים, אנחנו לא נמצאים בדיון רגיל. זה דיון לא רגיל שלא קורה הרבה בכנסת. זה דיון אישי ויש לו אופי שונה משאר הדיונים בוועדה. 

 << קריאה >> קריאה: << קריאה >>   

אופי נכלולי. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

יש עלינו, חברי הוועדה, אחריות גדולה להיכנס ולהקשיב לדברים. 

 << דובר >> אמיר אוחנה (הליכוד): << דובר >>   

סליחה, יש פה עיתונאים בחוץ. יש פה עורכת הדין כנרת בראשי. אני מבקש להכניס. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

אני מבקש לא להפריע לי כשאני מדבר בדברי הפתיחה שלי, וזה נראה לי הדבר הכי מינימאלי שאפשר לבקש. 

 << דובר >> אמיר אוחנה (הליכוד): << דובר >>   

לא, הדבר הכי מינימלי שהדיון הזה יהיה פומבי, פתוח, כפי שצריך להיות. 

 << יור >> היו"ר איתן גינזבורג: << יור >>   

עוד לא התחיל הדיון, וכבר מפריעים ליושב-ראש לדבר. 

 << דובר >> דוד אמסלם (הליכוד): << דובר >>   

קודם כל תתנהל בכלל בפתיחה כמו בן-אדם. טוב שלא השארת אותנו בחוץ ואמרת שלא נותנים לך לדבר.
'''

rate_aggressiveness(text)

## AlephBert Transfer Learning

In [2]:
from transformers import BertModel, BertTokenizerFast, BertForSequenceClassification

In [3]:
# Load the pre-trained model and tokenizer
alephbert_tokenizer = BertTokenizerFast.from_pretrained('onlplab/alephbert-base')
alephbert = BertModel.from_pretrained('onlplab/alephbert-base')


Some weights of the model checkpoint at onlplab/alephbert-base were not used when initializing BertModel: ['cls.predictions.transform.dense.weight', 'cls.predictions.decoder.bias', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertModel were not initialized from the model checkpoint at onlplab/alephbert-base and are newly initialized: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias

In [6]:
[x for x in dir(alephbert) if not x.startswith('_')]

['T_destination',
 'add_memory_hooks',
 'add_module',
 'adjust_logits_during_generation',
 'apply',
 'base_model',
 'base_model_prefix',
 'beam_sample',
 'beam_search',
 'bfloat16',
 'buffers',
 'call_super_init',
 'children',
 'compute_transition_beam_scores',
 'config',
 'config_class',
 'constrained_beam_search',
 'contrastive_search',
 'cpu',
 'create_extended_attention_mask_for_decoder',
 'cuda',
 'device',
 'double',
 'dtype',
 'dummy_inputs',
 'dump_patches',
 'embeddings',
 'encoder',
 'estimate_tokens',
 'eval',
 'extra_repr',
 'float',
 'floating_point_ops',
 'forward',
 'framework',
 'from_pretrained',
 'generate',
 'get_buffer',
 'get_extended_attention_mask',
 'get_extra_state',
 'get_head_mask',
 'get_input_embeddings',
 'get_memory_footprint',
 'get_output_embeddings',
 'get_parameter',
 'get_position_embeddings',
 'get_submodule',
 'gradient_checkpointing_disable',
 'gradient_checkpointing_enable',
 'greedy_search',
 'group_beam_search',
 'half',
 'init_weights',
 'inve

In [None]:
class Dataset(torch.utils.data.Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __getitem__(self, index):
        text = self.texts[index]
        label = self.labels[index]
        return text, label
    
    def __len__(self):
        return len(self.texts)

In [63]:
from sklearn.model_selection import train_test_split
agg_scores_df = pd.read_csv('agg_score.csv')
agg_scores_df.dropna(inplace=True)

Unnamed: 0,text,score
0,"התחלנו, בוקר טוב - - -\n",1.0
1,"אפשר לקרוא את החומר, אני לא הספקתי לקרוא. \n",4.0
2,"אז בבקשה, יש לכם את החומרים וגם שלחתי לכם את ז...",3.0
3,"יש לנו עכשיו, את תתני לנו לקרוא?\n",5.0
4,"בטח, בטח, בבקשה, תוכלו לקרוא - - -\n",1.0
...,...,...
513,"אה, אוסאמה, אני נותן לך לדבר.\n",3.0
514,"תודה, תודה ביטן שאתה נותן לי לדבר.\n",3.0
515,מאה אחוז. \n,1.0
516,אתם מתנהגים עם טריקים ועם שטיקים. \n,5.0


In [None]:
train_set, test_set = train_test_split(agg_scores_df, test_size=0.2)
agg_train = Dataset(train_set['text'], train_set['score'])
agg_test = Dataset(test_set['text'], test_set['score'])

train_dataloader = torch.utils.data.DataLoader(agg_train, batch_size=16, shuffle=True)
test_dataloader = torch.utils.data.DataLoader(agg_test, batch_size=16, shuffle=False)

In [None]:
# Fine tuning
optimizer = AdamW(alephbert_model.parameters(), lr=1e-4)
loss = nn.CrossEntropyLoss()
for epoch in range(5):
    for texts, scores in train_dataloader:
        optimizer.zero_grad()
        inputs = alephbert_tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
        labels = torch.Tensor(scores).unsqueeze(0)
        outputs = alephbert_model(**inputs, labels=labels)
        loss.backward()
        optimizer.step()

In [None]:
# code from ChatGPT
import torch
from transformers import BertTokenizer, BertForSequenceClassification, AdamW

# Load pre-trained BERT model and tokenizer
model_name = 'bert-base-uncased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)

# Replace final layer with new classifier layer
num_labels = 2 # replace with the number of labels in your classification task
model.classifier = torch.nn.Linear(model.classifier.in_features, num_labels)

# Set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Prepare data
inputs = tokenizer("your input text", padding=True, truncation=True, return_tensors="pt").to(device)
labels = torch.tensor([1]).unsqueeze(0).to(device) # replace with your label

# Set optimizer and loss function
optimizer = AdamW(model.parameters(), lr=5e-5)
loss_func = torch.nn.CrossEntropyLoss()

# Train model
model.train()
for epoch in range(5):
    optimizer.zero_grad()
    outputs = model(**inputs, labels=labels)
    loss = outputs.loss
    loss.backward()
    optimizer.step()

# Evaluate model
model.eval()
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.argmax(outputs.logits, dim=-1)
    print(predictions)
