In [1]:
!bash /home/azureuser/cloudfiles/code/blobfuse/blobfuse_raadsinformatie.sh

In [1]:
import sys
sys.path.append("..")

# Select where to run notebook: "azure" or "local"
my_run = "azure"

# import my_secrets as sc
# import settings as st

if my_run == "azure":
    import config_azure as cf
elif my_run == "local":
    import config as cf


import os
if my_run == "azure":
    if not os.path.exists(cf.HUGGING_CACHE):
        os.mkdir(cf.HUGGING_CACHE)
    os.environ["TRANSFORMERS_CACHE"] = cf.HUGGING_CACHE

# set-up environment - GEITje-7b-chat InContextLearning:
# - install blobfuse -> sudo apt-get install blobfuse
# - pip install transformers
# - pip install torch
# - pip install accelerate
# - pip install jupyter
# - pip install ipywidgets

## Notebook overview
- Goal: Run experiment for InContext Learning GEITje
- Trial run model -> prompt GEITje using, example prompt
- Zeroshot prompts
- Fewshot prompts

Load data and functions:
- data is already split
- text is already converted to tokens using model tokenizer 

In [2]:
import pandas as pd
# df = pd.read_pickle(f"{cf.output_path}/txtfiles_tokenizer.pkl")

import sys
sys.path.append('../scripts/') 
import prompt_template as pt
import prediction_helperfunctions as ph
import truncation as tf


In [3]:
import torch
torch.cuda.empty_cache()

#### Trial run Models 
Code to run the models with a simple prompt.

In [None]:
from transformers import pipeline, Conversation

chatbot_geitje = pipeline(task='conversational', model='Rijgersberg/GEITje-7B-chat-v2',
                   device_map='auto', model_kwargs={'offload_buffers':True})


chatbot_llama = pipeline(task='conversational', model='meta-llama/Llama-2-7b-chat-hf',
                   device_map='auto', model_kwargs={'offload_buffers':True})

chatbot_mistral = pipeline(task='conversational', model='mistralai/Mistral-7B-Instruct-v0.2',
                   device_map='auto', model_kwargs={'offload_buffers':True})

## EXAMPLE PROMPT
# print(chatbot(
    # Conversation('Welk woord hoort er niet in dit rijtje thuis: "auto, vliegtuig, geitje, bus"?')
# ))

#### Experiment functions
Prompt GEITje for each document and save the prediction, return response, response time and the prompt version

Code structure:
- 2 functions/cells:
- predictions_incontextlearning -> given a df with docs that need to be predicted, prompt the model
- run the experiment -> built in failsaves (df run in parts, with saves in between)

In [4]:
import time
import os
import pandas as pd
from bm25 import BM25


""" Given a dataframe with txt, return a df with predictions """
# docs_df = dataframe with the documents that need to be predicted
# text_column = name of the column that includes the input_text. Can be different based on the text representation method. 
# prompt_function = prompt template 
# train_df = dataframe with docs, which can be used as examples/training data/context data
# num_examples = number of examples in the prompt

def predictions_incontextlearning(chatbot, docs_df, text_column, prompt_function, train_df, num_examples):
    results_df = pd.DataFrame(columns = ['id', 'path', 'text_column', 'prompt_function', 'response', 'prediction', 'label', 'runtime', 'date', 'prompt'])


    if prompt_function == pt.fewshot_prompt_with_template or prompt_function == pt.fewshot_prompt_no_template:
        BM25_model = BM25()
        BM25_model.fit(train_df[text_column])
   

    # prompt each document
    for index, row in docs_df.iterrows():
        # if (index + 1) % 200 == 0:
        #     print(f"Iteration {index +1}/{len(docs_df)} completed.")

        start_time = time.time()

        # get the prompt, with the doc filled in
        txt = row[text_column]

        # each prompt function takes different arguments
        # zeroshot prompt for geitje
        if prompt_function == pt.zeroshot_prompt_geitje:
            prompt = prompt_function(txt)

        # zeroshot function for mistral and llama
        elif prompt_function == pt.zeroshot_prompt_mistral_llama:
            prompt = prompt_function(txt)

        # select fewshot examples using bm25, fewshot is the same for all models
        # elif prompt_function == pt.fewshot_prompt_bm25:
        #     prompt = prompt_function(txt, train_df, num_examples, text_column, BM25_model)
        
        elif prompt_function == pt.fewshot_prompt_no_template:
            prompt = prompt_function(txt, train_df, num_examples, text_column, BM25_model)

        elif prompt_function == pt.fewshot_prompt_with_template:
            prompt = prompt_function(txt, train_df, num_examples, text_column, BM25_model)

        else:
            raise ValueError("Prompt function not recognised. Check if prompt function is in prompt_template.py and included in the options above.")

        # prompt and get the response
        # print(prompt)
        converse = chatbot(Conversation(prompt))
        response = converse[1]['content']
        print("label: ", row['label'].lower())
        print("response: ", response)

        # extract prediction from response
        prediction = ph.get_prediction_from_response(response)
        print("prediction:", prediction)

        # save results in dataframe
        results_df.loc[len(results_df)] = {
            'id': row['id'],
            'path' : row['path'],
            'text_column' : docs_df.iloc[0]['trunc_col'],
            'prompt_function': ph.get_promptfunction_name(prompt_function),
            'response':response,
            'prediction':prediction,
            'label':row['label'].lower(),
            'runtime':time.time()-start_time,
            'date': ph.get_datetime(),
            'prompt':prompt
        }
    return results_df



In [5]:
import os
import time
from sklearn.metrics import classification_report, accuracy_score, precision_score, recall_score, f1_score

"""
Function to run GEITje In-Context Learning experiment. 
The function allows to resume experiment, if run_id matches.
"""
# df = dataframe with all docs that need to have a prediction (docs still need to be predict + already predicted)
# run_id = unqiue for each experiment. 
# prompt_function = which prompt from prompt_template.py to use
# text_col = colum in df where the text is. (Needs to be already truncated)
# split_col = column with the dataset split. Either '2split' (train and test)or '4split'(train, test, dev and val)
# subset_train = indicates which subset to use as training. either 'train' or 'dev'
# subset_test = indicates which subset to use for testing. either 'test' or 'val'
# label_col = column with the true label
# prediction_path = path to file where predictions need to be saved.
# overview_path = path to file where results of each run need to be saved.
# model_name = name of the model. string.
# num_exmples = number of exaples given to prompt. zero in case of zeroshot. 

def run_experiment(chatbot, df, run_id, prompt_function, text_col, split_col, subset_train, subset_test, label_col, prediction_path, overview_path, model_name, num_examples=0):
    test_df = df.loc[df[split_col]==subset_test]
    train_df = df.loc[df[split_col]==subset_train]
    
    # get rows of df that still need to be predicted for the specific run_id
    to_predict, previous_predictions = ph.get_rows_to_predict(test_df, prediction_path, run_id)

    # devide to_predict into subsection of 50 predictions at a time. 
    # Allows to rerun without problem. And save subsections of 50 predictions.
    step_range = list(range(0, len(to_predict), 10))

    for i in range(len(step_range)):
        try:
            sub_to_predict = to_predict.iloc[step_range[i]:step_range[i+1]]
            print(f'Starting...{step_range[i]}:{step_range[i+1]} out of {len(to_predict)}')
        except Exception as e:
            sub_to_predict = to_predict[step_range[i]:]
            print(f'Starting...last {len(sub_to_predict)} docs')

        # prompt geitje
        predictions = predictions_incontextlearning(chatbot, sub_to_predict, text_col, prompt_function, train_df, num_examples)

        # save info
        predictions['run_id'] = run_id
        predictions['train_set'] = subset_train
        predictions['test_set'] = subset_test
        predictions['shots'] = num_examples

        # save new combinations in file
        print("Dont interrupt, saving predictions...")
        ph.combine_and_save_df(predictions, prediction_path)

        # if previous predictions, combine previous with new predictions, to get update classification report
        try:
            predictions = pd.concat([predictions, previous_predictions])

            # set previous predictions to all predictions made until now. Necessary for next loop
            previous_predictions = predictions
        except Exception as e:
            # set previous predictions to all predictions made until now. Necessary for next loop
            previous_predictions = predictions

        # save results in overview file
        date = ph.get_datetime()
        y_test = predictions['label']
        y_pred = predictions['prediction']

        # change error predictions to one error
        # error_names = ['NoPredictionInOutput', 'MultiplePredictionErrorInFormatting','NoPredictionFormat', 'MultiplePredictionErrorInOutput']
        # y_pred = ['OutputError' if x in error_names else x for x in y_pred]

        report = classification_report(y_test, y_pred)

        overview = pd.DataFrame(
            [{
                'model':model_name,
                'run_id':run_id,
                'date': date,
                'train_set': subset_train,
                'test_set': subset_test,
                'train_set_support':len(df.loc[df[split_col]==subset_train]),
                'test_set_support':len(predictions),
                'split_col':split_col,
                'text_col':df.iloc[0]['trunc_col'],
                'runtime':sum(predictions['runtime']),
                'accuracy': accuracy_score(y_test, y_pred),
                'macro_avg_precision': precision_score(y_test, y_pred, average='macro'),
                'macro_avg_recall': recall_score(y_test, y_pred, average='macro'),
                'macro_avg_f1': f1_score(y_test, y_pred, average='macro'),
                'weighted_avg_precision': precision_score(y_test, y_pred, average='weighted'),
                'weighted_avg_recall': recall_score(y_test, y_pred, average='weighted'),
                'weighted_avg_f1': f1_score(y_test, y_pred, average='weighted'),
                'classification_report':report
            }   ]
        )
        # remove previous results of run_id, replace with new/updated results
        ph.replace_and_save_df(overview, overview_path, run_id)
        print("Saving done! Interrupting is allowed.")
        print("Accuracy: ", accuracy_score(y_test, y_pred))




Set up variables that are the same for each model

In [6]:
#set  variables, same for each model
TRAIN_SET = 'train' # must be dev or train
TEST_SET = 'test' # must be val or test
SPLIT_COLUMN = 'balanced_split' #must be either 2split or 4split. 2split = data split into train and test. 4split = data split into train, test, dev and val. 
LABEL_COLUMN = 'label'
TEXT_COLUMN = 'trunc_txt'


In [7]:
txt = pd.read_pickle(f"{cf.output_path}/txtfiles_tokenizer.pkl")

### GEITje

In [9]:
SHORT_MODEL_NAME = 'GEITje'
PROMPT = pt.fewshot_prompt_no_template
PROMPT_NAME = ph.get_promptfunction_name(PROMPT)
TOKENS_COL = 'LlamaTokens' # column with text split using tokenizer of either mistral (MistralTokens) or Llama (LlamaTokens). Using Llama, because Llama split into more tokens. 
FRONT_THRESHOLD = 200
BACK_THRESHOLD = 0

if PROMPT==pt.zeroshot_prompt_geitje:
    NUMBER_EXAMPLES = 0
elif PROMPT == pt.fewshot_prompt_no_template:
    NUMBER_EXAMPLES = 2



#### Load model - In-context learning
Note - ONLY load one model: either in-context or fine-tuning

In [13]:
from transformers import pipeline, Conversation

chatbot_geitje = pipeline(task='conversational', model='Rijgersberg/GEITje-7B-chat-v2',
                    device_map='cpu', model_kwargs={'offload_buffers':True})

MODEL_NAME = 'GEITje-7B-chat-v2'
SUBFOLDER = 'in_context'
SHORT_ID = 'IC'





Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

#### Load model - Finetuning

In [None]:
from transformers import pipeline, Conversation

chatbot_geitje = pipeline(task='conversational', model='FemkeBakker/AmsterdamDocClassificationGEITje200T',
                   device_map='cpu', model_kwargs={'offload_buffers':True})

MODEL_NAME = 'AmsterdamDocClassificationGEITje200T'
SUBFOLDER = 'finetuning'
SHORT_ID = 'FT'
EPOCHS = 2

#### Set-up paths to save predictions

In [11]:
import os

if SPLIT_COLUMN == '4split' or SPLIT_COLUMN == '2split':
    OVERVIEW_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/overview.pkl"
    PREDICTION_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/predictions.pkl"
    
elif SPLIT_COLUMN == 'balanced_split':
    if SUBFOLDER == 'finetuning':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/overview.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/{SHORT_MODEL_NAME}First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

    elif SUBFOLDER == 'in_context':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/overview.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

print(OVERVIEW_PATH)
print(PREDICTION_PATH)

if not os.path.isdir(os.path.dirname(os.path.abspath(OVERVIEW_PATH))):
    raise ValueError("Folder to OVERVIEW_PATH does not exist") 
if not os.path.isdir(os.path.dirname(os.path.abspath(PREDICTION_PATH))):
    raise ValueError("Folder to PREDICTION_PATH does not exist") 

run_id = f'{SHORT_ID}_{MODEL_NAME}{PROMPT_NAME}{TOKENS_COL}{FRONT_THRESHOLD}_{BACK_THRESHOLD}{TRAIN_SET}{TEST_SET}_numEx{NUMBER_EXAMPLES}'
print ('\n', run_id)


/home/azureuser/cloudfiles/code/blobfuse/raadsinformatie/processed_data/woo_document_classification/predictionsFinal/in_context/GEITje/overview.pkl
/home/azureuser/cloudfiles/code/blobfuse/raadsinformatie/processed_data/woo_document_classification/predictionsFinal/in_context/GEITje/fewshot_prompt_no_template/First200Last0Predictions.pkl

 IC_GEITje-7B-chat-v2fewshot_prompt_no_templateLlamaTokens200_0traintest_numEx2


#### Run experiment

In [14]:
# ----- EXPERIMENT --------
# add new column with truncated text -> new dataframe with column + new column name
trunc_df = tf.add_truncation_column(txt,'text', TOKENS_COL, FRONT_THRESHOLD, BACK_THRESHOLD)


# if new run MAKE SURE RUN_ID IS UNIQUE, if want to resume run, pass in that run_id
run_experiment(chatbot_geitje, trunc_df, run_id, PROMPT, TEXT_COLUMN, SPLIT_COLUMN, TRAIN_SET, TEST_SET, LABEL_COLUMN, PREDICTION_PATH, OVERVIEW_PATH, MODEL_NAME, NUMBER_EXAMPLES)


Run-id already known, resuming predictions...


In [12]:
pred = pd.read_pickle(OVERVIEW_PATH)
# pred_run = pred.loc[pred['run_id']==f'{PROMPT_NAME}{TOKENS_COL}{FRONT_THRESHOLD}_{BACK_THRESHOLD}']
display(pred)

Unnamed: 0,model,run_id,date,train_set,test_set,train_set_support,test_set_support,split_col,text_col,runtime,accuracy,macro_avg_precision,macro_avg_recall,macro_avg_f1,classification_report,weighted_avg_precision,weighted_avg_recall,weighted_avg_f1
0,GEITje-7B-chat-v2,IC_GEITje-7B-chat-v2zeroshot_prompt_geitjeLlam...,2024-05-17 18:58:16.609662+02:00,train,test,9900,1100,balanced_split,TruncationLlamaTokensFront100Back0,31979.450928,0.576364,0.600419,0.452857,0.46533,precision ...,0.76417,0.576364,0.592238
0,GEITje-7B-chat-v2,IC_GEITje-7B-chat-v2zeroshot_prompt_geitjeLlam...,2024-05-18 17:06:17.572635+02:00,train,test,9900,1100,balanced_split,TruncationLlamaTokensFront200Back0,36118.340253,0.654545,0.598731,0.514286,0.518449,precision ...,0.762021,0.654545,0.659844
0,GEITje-7B-chat-v2,IC_GEITje-7B-chat-v2zeroshot_prompt_geitjeLlam...,2024-05-19 13:22:55.121271+02:00,train,test,9900,1100,balanced_split,TruncationLlamaTokensFront100Back100,33885.346231,0.660909,0.573622,0.519286,0.515415,precision ...,0.730065,0.660909,0.655983
0,GEITje-7B-chat-v2,IC_GEITje-7B-chat-v2zeroshot_prompt_geitjeLlam...,2024-05-27 09:07:33.266268+02:00,train,test,9900,1100,balanced_split,TruncationLlamaTokensFront500Back0,39793.875507,0.454545,0.564183,0.357143,0.39394,precision ...,0.718051,0.454545,0.501379
0,GEITje-7B-chat-v2,IC_GEITje-7B-chat-v2fewshot_prompt_no_template...,2024-06-01 05:53:49.516961+02:00,train,test,9900,1100,balanced_split,TruncationLlamaTokensFront200Back0,45169.860821,0.796364,0.673787,0.625714,0.635318,precision...,0.857547,0.796364,0.808587


### Llama


In [8]:
SHORT_MODEL_NAME = 'Llama'
PROMPT = pt.fewshot_prompt_with_template
PROMPT_NAME = ph.get_promptfunction_name(PROMPT)
TOKENS_COL = 'LlamaTokens' # column with text split using tokenizer of either mistral (MistralTokens) or Llama (LlamaTokens). Using Llama, because Llama split into more tokens. 
FRONT_THRESHOLD = 200
BACK_THRESHOLD = 0

if PROMPT==pt.zeroshot_prompt_mistral_llama:
    NUMBER_EXAMPLES = 0
elif PROMPT == pt.fewshot_prompt_with_template or PROMPT == pt.fewshot_prompt_no_template:
    NUMBER_EXAMPLES = 2



#### Load model - In-context learning
Note - ONLY load one model: either in-context or fine-tuning

In [None]:
from transformers import pipeline, Conversation

# chatbot_llama = pipeline(task='conversational', model='meta-llama/Llama-2-7b-chat-hf',
#                    device_map='cpu', model_kwargs={'offload_buffers':True})
# load llama using cpu, else will give cuda out of memory error when running fewshot bm25 prompt.

MODEL_NAME = 'Llama-2-7b-chat-hf'
SUBFOLDER = 'in_context'
SHORT_ID = 'IC'

#### Load model - finetuning

In [9]:
from transformers import pipeline, Conversation

chatbot_llama = pipeline(task='conversational', model='FemkeBakker/AmsterdamDocClassificationLlama200T',
                   device_map='cpu', model_kwargs={'offload_buffers':True})

MODEL_NAME = 'AmsterdamDocClassificationLlama200T'
SUBFOLDER = 'finetuning'
SHORT_ID = 'FT'
EPOCHS = 2



Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

#### Set-up paths to save predictions

In [10]:
import os

if SPLIT_COLUMN == '4split' or SPLIT_COLUMN == '2split':
    OVERVIEW_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/overview.pkl"
    PREDICTION_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/predictions.pkl"
    
elif SPLIT_COLUMN == 'balanced_split':
    if SUBFOLDER == 'finetuning':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/overview2.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/{SHORT_MODEL_NAME}First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

    elif SUBFOLDER == 'in_context':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/overview2.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

print(OVERVIEW_PATH)
print(PREDICTION_PATH)

if not os.path.isdir(os.path.dirname(os.path.abspath(OVERVIEW_PATH))):
    raise ValueError("Folder to OVERVIEW_PATH does not exist") 
if not os.path.isdir(os.path.dirname(os.path.abspath(PREDICTION_PATH))):
    raise ValueError("Folder to PREDICTION_PATH does not exist") 

run_id = f'{SHORT_ID}_{MODEL_NAME}{PROMPT_NAME}{TOKENS_COL}{FRONT_THRESHOLD}_{BACK_THRESHOLD}{TRAIN_SET}{TEST_SET}_numEx{NUMBER_EXAMPLES}'
print ('\n', run_id)


/home/azureuser/cloudfiles/code/blobfuse/raadsinformatie/processed_data/woo_document_classification/predictionsFinal/finetuning/2epochs/overview2.pkl
/home/azureuser/cloudfiles/code/blobfuse/raadsinformatie/processed_data/woo_document_classification/predictionsFinal/finetuning/2epochs/LlamaFirst200Last0Predictions.pkl

 FT_AmsterdamDocClassificationLlama200Tfewshot_prompt_with_templateLlamaTokens200_0traintest_numEx2


#### Run experiment

In [11]:
# add new column with truncated text -> new dataframe with column + new column name
trunc_df = tf.add_truncation_column(txt,'text', TOKENS_COL, FRONT_THRESHOLD, BACK_THRESHOLD)

# if new run MAKE SURE RUN_ID IS UNIQUE, if want to resume run, pass in that run_id
run_experiment(chatbot_llama, trunc_df, run_id, PROMPT, TEXT_COLUMN, SPLIT_COLUMN, TRAIN_SET, TEST_SET, LABEL_COLUMN, PREDICTION_PATH, OVERVIEW_PATH, MODEL_NAME, NUMBER_EXAMPLES)


Starting...0:10 out of 1100
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 
prediction: onderzoeksrapport
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 

Een document kan meerdere categories hebben, afhankelijk van zijn content en doel. Based on the text you provided, I would categorize the document as an "Onderzoeksrapport" or a "Research Report".

Here is the output in JSON format:

{
"categorie": "Onderzoeksrapport"
}
prediction: MultiplePredictionErrorInFormatting
label:  brief
response:  {'categorie': Brief} 

Ik heb uw vraag versterkt en geven hier de output in de vorm van een JSON file:

{'categorie': Categoriseer het document} 

Na analyse van de inhoud van het document, wordt het in de categorie Brief gecategoriseerd.
prediction: MultiplePredictionErrorInFormatting
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 
Een INNOVATIEF PROJECT IN AMSTERDAM

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5
Starting...10:20 out of 1100
label:  brief
response:  {'categorie': Voordracht} 

{"document":

{
"type": "voordracht",
"title": "Voordracht voor de Commissie MOW van 06 juli 2023",
"text": "
Ter kennisneming
Portefeuille Verkeer, Vervoer en Luchtkwaliteit
Agendapunt 4
Datum besluit College van B&W van 6 juni 2023.
Onderwerp
Uitvoeringsagenda Uitstootvrije Mobiliteit Amsterdam 2023-2026.
De commissie wordt gevraagd
Kennis te nemen van de Uitvoeringsagenda Uitstootvrije Mobiliteit Amsterdam 2023-2026.
"
}


























































prediction: MultiplePredictionErrorInFormatting
label:  onderzoeksrapport
response:  {
"categorie": Onderzoeksrapport
} 
prediction: onderzoeksrapport
label:  raadsadres
response:  {'categorie': Raadsadres} 










prediction: raadsadres
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

Ik kan het document in de categorie Schriftelijke Vraag catego

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.6
Starting...20:30 out of 1100
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  voordracht
response:  {'categorie': Voordracht} 

Eer 043299 N Gemeente Raadscommissie voor Publieke Gezondheid en Preventie, Zorg en OZA

Maatschappelijke Ontwikkeling, Jeugd(zorg), Onderwijs en Armoede en

% Amsterdam PRE 9, “eugdkzorg) | °

Schuldhulpverlening

Voordracht voor de Commissie OZA van 14 december 2022

Ter bespreking en ter kennisneming

Portefeuille Zorg en Maatschappelijke Ontwikkeling

Agendapunt 1/7

Datum besluit n.v.t.

Onderwerp

Gevolgen aanbesteding Dagbesteding

De commissie wordt gevraagd

Kennis te nemen

Onderwerp:
Gevolgen aanbesteding Dagbesteding

De commissie wordt gevraagd

Kennis te nemen
prediction: voordracht
label:  brief
response:  {'categorie': Brief} 

Ik heb in dit document de output in de vorm van een JSON file: {'categorie': Brief}. Het document is een raadsinformatiebr

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.6333333333333333
Starting...30:40 out of 1100
label:  actualiteit
response:  {'categorie': Actualiteit} 
prediction: actualiteit
label:  voordracht
response:  {'categorie': Voordracht} 

Voor het categoriseren van het document VN2023-023465 G Raadscommissie voor Publieke Gezondheid en Preventie, Zorg en Onderwijs, Jeugd en Maatschappelijke Ontwikkeling, Jeugd(zorg), Onderwijs en Armoede en OZA Zorg en Amsterdam Schuldhulpverlening, een voordracht voor de Commissie OZA van 13 december 2023 ter advisering aan de raad, geeft de output: {'categorie': Voordracht}.
prediction: MultiplePredictionErrorInFormatting
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

We ontvangen het volgende document:

n d Serveren.
ORN p gis oe Bel 6 md 4 zi La Ô s
KDE ORT We Pe geene rde) R ei ei bie 4
BN. Me RT rr LA 2
IN ens. HAN 777 RE Tin Et HI ai 7 A In as: rr TA
RN nadele Á WP ao fan En ri
En. Te ed ee PEREN KN a
Ege KKT eeens ge AEN

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.6
Starting...40:50 out of 1100
label:  besluit
response:  {'categorie': Besluit} 

Geef het document dat gecategoriseerd moet worden: Nummer _BD2016-001839

Eindelijk, het categoriseringskanaal voor dit document:

 {'categorie': Voordracht} 
prediction: MultiplePredictionErrorInFormatting
label:  raadsadres
response:  {'categorie': Raadsadres} 

Amsterdam 12 september 2009

Aan de leden van de Commissie Algemene Zaken van de Deelraad Centrum

Archelcode- 97-35 S-p

Ik heb begrepen dat in de commissie vergadering van aanstaande woensdag s0f. |

Petitie van Amsterdam en de reactie van mevrouw Iping daarop

Besproken zal worden. Graag wil ik mede namens velen van mijn buren (QBen: WO

Output van het document: {'categorie': Raadsadres}
prediction: MultiplePredictionErrorInFormatting
label:  voordracht
response:  {'categorie': Voordracht} 

Geef het document:

3022653 N% Gemeente Raadscommissie voor Algemene Zaken, Openbare Orde en AZ
mine


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.6
Starting...50:60 out of 1100
label:  voordracht
response:  { 'categorie': Voordracht} 
prediction: voordracht
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

Amsterdam, April 2022

Foto voorzijde: Weesperstraat 113, fotog 

Amsterdam, April 2023

Foto vo

In opdracht van: Aanpak Binnenstad

Projectnummer: 230431

Auteurs: T. Fedorova, J.Klingen,

E-mailadres: t.fedorova@amsterdam.nl

Bezoekadres: Weesperstraat 113-117

Telefoon: 020 251 0333

Postbus 658, 1000 AR Amsterdam

data.amsterdam.nl

Bezoekersprognose 2023-2025

In opdracht van: Economische Zaken

Projectnummer: 21066

Auteur: T.Fedorova, E.Lindeman en B.Sleutjes

prediction: onderzoeksrapport
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 

De output is een JSON file:

{
"categorie": "Onderzoeksrapport"
}

Het document lijkt op een onderzoeksrapport, waarin verschillende aspecten van een onderwerp worden onderzocht en gepresenteerd. H

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.6
Starting...60:70 out of 1100
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

We zijn ervan overtuigd dat het document in de categorie Onderzoeksrapport moet worden gecategoriseerd.

Een onderzoeksrapport is een document dat de resultaten van een wetenschappelijk onderzoek beschrijft en soms ook voorspellingen bevat over de uitkomsten van toekomstige studies. Het document bevat meestal een samenvatting van het onderwerp, een beschrijving van de methode, de resultaten en de conclusies van het onderzoek.

Deze output is in de vorm van een JSON file, waarin de categorie van het document is vastgelegd: {'categorie': Onderzoeksrapport}.
prediction: MultiplePredictionErrorInFormatting
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

De documenten kunnen worden gecategoriseerd in de volgende category:

1. Schriftelijke Vraag

Both documents are examples of written questions, which are a type

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5714285714285714
Starting...70:80 out of 1100
label:  actualiteit
response:  {'categorie': Actualiteit} 

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.

De documenten kunnen in de volgende categorietypes gecategoriseerd worden:

1. Actualiteit

De documenten zijn twee actualiteiten, een voor de raadscommissie voor Algemene zaken en een voor de raadscommissie voor Financiën, Economische Zaken, Deelnemingen, Lucht- en Zeehaven, Duurzaamheid en Circulaire Economie.

{
"categorie": Actualiteit
}
prediction: MultiplePredictionErrorInFormatting
label:  voordracht
response:  {'categorie': Voordracht} 

De documenten die gegeven werden om te categoriseren, zijn in de volgende vorm te categoriseren:

Voordracht

De eerste document is een voordracht voor de Tijdelijke Algemene Raadscommissie van Amsterdam, die gaat over het kennisnemen van de jaarrekening 2021 van de Ombudsman Metropool Amsterdam.

De tw

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.575
Starting...80:90 out of 1100
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  besluit
response:  {'categorie': Besluit} 




prediction: besluit
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  voordracht
response:  {'categorie': Voordracht} 

Ik classificeer het document VN2023-025253 als een voordracht.

 {'categorie': Voordracht} 

Ik classificeer het document VN2023-024166 als een voordracht.

 {'categorie': Voordracht} 

Ik classificeer het document VN2023-025250 als een voordracht.
prediction: MultiplePredictionErrorInFormatting
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

Gemeente Amsterdam

Inleiding
Op woensdag 20 maart 2019 waren in Amsterdam gecombineerde verkiezingen voor de
provinciale staten en drie waterschappen: Waterschap Amstel, Gooi en Vecht (AGV),
Hoogheemraadschap Rijnland (HHR) en Hoogheemraadsc

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5666666666666667
Starting...90:100 out of 1100
label:  brief
response:  {'categorie': Brief} 

Ik heb uw vraag verricht en hier is de output in de vorm van een JSON file:

{
"categorie": "Brief"
}

Het document dat gecategoriseerd moet worden is:

{
"document": < Gemeente Raadsinformatiebrief
Amsterdam
Aan: De leden van de gemeenteraad van Amsterdam
Datum g september 2021
Portefeuille(s) Duurzaamheid en Circulaire economie
Portefevillehouder(s): Marieke van Doorninck
Behandeld door Bestuurszaken R&D (bestuurszaken.rd@amsterdam.nl)
Onderwerp Duurzaamheidsraad Amsterdam
Geachte leden van de gemeenteraad,
Met deze brief informeert het college v over het volgende.
Naar aanleiding van de Commissie Financiën, Economische Zaken en Duurzaamheid (FED) van 2
juli 202
prediction: MultiplePredictionErrorInFormatting
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  actualiteit
response:  {'categorie': Actualiteit} 
predic

Bad pipe message: %s [b'\xd4j\xaa\xd6"\xe5\rX\xfa\xd3\xe6\x00\xb3\xd66\xce\x8bt \xdc.\xefd\x86\x1ebk\x9aYF\nF\xc7\xc0c\xb1QdDar\xf1\x9aKw\xb5\xbb\xeb^\x9dM\x00\x08\x13\x02\x13\x03\x13\x01\x00\xff\x01\x00\x00\x8f\x00\x00\x00\x0e\x00\x0c\x00\x00\t127.0.0.1\x00\x0b\x00\x04\x03\x00\x01\x02\x00\n\x00\x0c\x00\n\x00\x1d\x00\x17\x00\x1e\x00\x19\x00\x18\x00#\x00\x00\x00\x16\x00\x00\x00\x17\x00\x00\x00\r\x00\x1e\x00\x1c\x04\x03\x05\x03\x06\x03\x08\x07\x08\x08\x08\t\x08\n\x08\x0b\x08\x04\x08\x05\x08\x06\x04\x01\x05', b'']
Bad pipe message: %s [b'']
Bad pipe message: %s [b'\x03\x02\x03\x04\x00-\x00\x02\x01\x01\x003\x00&\x00$\x00\x1d\x00 J\xca*4$4\x81\xdd\xc6a\x86\x00O\x136]\x97\x8d\xba\x01\xc9\xb7']
Bad pipe message: %s [b"\x82\xd8\xf2\x96\xeb\xb5\xf4-D\xfe\x1a\x83M\xeb\xb6\x18W\xb9\x00\x00|\xc0,\xc00\x00\xa3\x00\x9f\xcc\xa9\xcc\xa8\xcc\xaa\xc0\xaf\xc0\xad\xc0\xa3\xc0\x9f\xc0]\xc0a\xc0W\xc0S\xc0+\xc0/\x00\xa2\x00\x9e\xc0\xae\xc0\xac\xc0\xa2\xc0\x9e\xc0\\\xc0`\xc0V\xc0R\xc0$\xc0(\x00k\x00j\xc0#\xc0

label:  raadsadres
response:  {'categorie': Raadsadres} 

Ik heb uw document ingelezen en de output is:

{'categorie': Raadsadres}

Dit is het document dat gecategoriseerd moet worden:

1.1.1 Formulier raadsadres

Naam

E-mail

Adres

Onderwerp: Parkeerbeleid in Zuidoost

Mijn zoon woont inmiddels twee jaar in Amsterdam Zuidoost, Hofgeest 236.
Sinds verleden jaar is hier plotseling betaald parkeren ingesteld. Hierdoor is mijn zoon zeer gedupeerd omdat hij geen parkeervergunning kan krijgen voor de auto die hij voor zijn werk en straks voor zijn stage in Amersfoort nodig heeft. De auto staat nl. op mijn naam hetgeen een probleem blijkt. Hij kan zich als armlastige student zelf geen auto veroorloven.
prediction: MultiplePredictionErrorInFormatting
label:  actualiteit
response:  {'categorie': Motie} 











prediction: motie
label:  raadsadres
response:  {'categorie': Raadsadres} 

Categoriseer dit document:

Van:

Verzonden: dinsdag 21 augustus 2018 01:25

Aan: roze in blauw

CC: Inf

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.56
Starting...100:110 out of 1100
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  onderzoeksrapport
response:  {
"categorie": Onderzoeksrapport
}

Ik heb het document ingevolge jouw verwachtingen ingecategoriseerd. Het document bevat informatie over het uitvoeren van een cultuurhistorische verkenning van het IJ-plein in Amsterdam. Het document bevat een samenvatting, een beleidskader, een historisch stedenbouwkundige analyse en een conclusie en advies. Het is een wetenschappelijk document dat een onderzoek naar de cultuurhistorische context van het plein uitvoert.

Hier is de output in de vorm van een JSON file:

{
"categorie": Onderzoeksrapport
}
prediction: MultiplePredictionErrorInFormatting
label:  onderzoeksrapport
response:  {'categorie': Schriftelijke Vraag} 

Een document kan meerdere categorijen hebben, afhankelijk van zijn inhoud en aard. Categoriseer dit document:

Platform Oplei

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5636363636363636
Starting...110:120 out of 1100
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  raadsadres
response:  {'categorie': Raadsadres} 

Amsterdam

1011 PN Amsterdam

Postbus 202

1000 AE Amsterdam

Telefoon 14020

www.amsterdam.nl

Retouradres: Postbus 202, 1000 AE Amsterdam

Datum 6 juli 2018

Kenmerk LKW/UIT/20180420AK

Behandeld door Programma Luchtkwaliteit, Ruimte en Duurzaamheid, 0202 254 5555,

luchtkwaliteit @amsterdam.nl

Onderwerp Reactie op uw brief aan de gemeenteraad van 7 maart 2018

Geachte,

Aanleiding

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}. [/INST] {'categorie': Raadsadres} 

{
"categorie": Raads
prediction: MultiplePredictionErrorInFormatting
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 

We ontvangen als input het volgende document:

Vn EEK MN ARRA
. ee” Ol el bl lt A
EEK KNN
En nn | (NN
ntt Ol bd

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5416666666666666
Starting...120:130 out of 1100
label:  besluit
response:  {'categorie': Voordracht} 
prediction: voordracht
label:  brief
response:  {'categorie': Brief} 

Ik heb uw verzoek in de vorm van een JSON file opgenomen. Het document dat gecategoriseerd moet worden is:

> < gemeente Raadsinformatiebrief
| msterdam Afdoening motie
Aan: De leden van de gemeenteraad van Amsterdam
Datum 7 december 2021
Portefeuille(s) Vluchtelingen en ongedocumenteerden
Portefeuillehouder(s): Rutger Groot Wassink
Behandeld door WPI, afdeling Statushouders, n.tubbing@amsterdam.nl
Onderwerp Afdoening motie 505.21 van het lid De Graaff VJN 2021 inzake het tekort van arbeidsparticipatie van statushouders in de ouderenzorg
Geachte leden van de gemeenteraad,
Tijdens de gemeenteraadsvergadering van 8 juli 2021 heeft het lid De Graaff (VVD)
prediction: brief
label:  voordracht
response:  {'categorie': Voordracht} 

De documenten die je hebt voorgeven kun

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5230769230769231
Starting...130:140 out of 1100
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

Geef het document dat gecategoriseerd moet worden:

Gemeente Amsterdam

Gemeenteblad

%

Jaar 2020

Afdeling 1

Nummer 908

Datum van indiening 13 augustus 2020
Datum akkoord 14 augustus 2020

Onderwerp

Beantwoording schriftelijke vragen van het lid Yilmaz (DENK) inzake ventilatie van

schoolgebouwen met betrekking tot de Coronamaatregelen.

Aan de gemeenteraad

Toelichting door vragensteller:

Het RIVM heeft het advies geuit dat scholen moeten voldoen aan de eisen ten

aanzien van ventilatie uit het bouwbesluit om

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.
prediction: MultiplePredictionErrorInFormatting
label:  voordracht
response:  {'categorie': Voordracht} 

Ik classification geef je het document dat gecategoriseerd moet worden:

GA0m0a4067, N Gemeente Raadscommiss

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5428571428571428
Starting...140:150 out of 1100
label:  brief
response:  {'categorie': Brief} 

Ik heb het document in de categorie 'Brief' ingevoegd.

Indien het document een andere categorie zou willen hebben, dan kan je het antwoord aanpassen.
prediction: brief
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 

{
"categorie": "Onderzoeksrapport"
}

Categoriseer dit document:

GROEN: MEER DAN MOOI EN GEZOND
De meerwaarde van groen in de stedelijke omgeving

Deze documenten kunnen worden gecategoriseerd in verschillende onder categorieën, zoals:

* Voordracht
* Besluit
* Schriftelijke Vraag
* Brief
* Raadsadres
* Onderzoeksrapport
* Raadsnotulen
* Agenda
* Motie
* Actualiteit
* Factsheet

Houd er rekening mee dat de categorisatie niet altijd een eenvoudige taak is en dat de output niet altijd een duidelijke categorie oplevert. Het is belangrijk om de input te behandelen met respect en om te proberen te vatten de spirit va

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5466666666666666
Starting...150:160 out of 1100
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

Aan de gemeenteraad

Onderwerp
Beantwoording schriftelijke vragen van het lid Duijndam van 7 oktober 2016 inzake verslavingszorg voor gebruikers van crystal meth.

Datum akkoord 10 november 2016
Publicatiedatum 16 november 2016

Toelichting door vragenstelster:

De synthetische harddrug crystal meth (methamfetamine, bijgenaamd Tina of ‘T’)
kwam op 14 september 2016 aan de orde in het debat over de verslavingszorg.

In de gemeenteraad heeft de fractie van de Partij voor de Dieren de vragen van het lid Duijndam
aangenomen en deze aan de gemeenteraad voorgelegd.

Aan de gemeenteraad

Geef de output in de vorm van een JSON file: {'categorie': Schriftelijke Vraag
prediction: schriftelijke vraag
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 
prediction: onderzoeksrapport
label:  raadsadres
respon

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5375
Starting...160:170 out of 1100
label:  voordracht
response:  {'categorie': Voordracht} 

Geef het document:

VN2021-006398 N Gemeente Raadscommissie voor Bouwen en Wonen, Ontwikkelbuurten, W B
Wonen % Amsterdam Dierenwelzijn, Openbare Ruimte en Groen, Reiniging
Voordracht voor de Commissie WB van 24 maart 2021
Ter bespreking en ter kennisneming
Portefeuille Bouwen en Wonen
Agendapunt 6
Datum besluit College B&W 26 januari 2021
Onderwerp
Onderzoeksrapport Verkenning alternatieve financieringsfaciliteit voor woningcorporaties
De commissie wordt gevraagd
Kennis te nemen van het onderzoeksrapport van Vanberkel professionals “Verkenning alternatieve financieringsfaciliteit voor woningcorporaties”
prediction: voordracht
label:  voordracht
response:  {'categorie': Voordracht} 

Ik heb het document in de categorie 'Voordracht' gecategoriseerd, aangezien het een voordracht is voor een raadscommissie en niet een besluit of schriftelijke vra

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5294117647058824
Starting...170:180 out of 1100
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 




prediction: onderzoeksrapport
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  agenda
response:  {'categorie': Agenda} 

De documenten die u hebt gegeven zijn de volgende agenda's van vergaderingen van de Raadscommissie voor Algemene Zaken, Openbare Orde en Veiligheid, Juridische Zaken, Communicatie, Project 1012, Dienstverlening, Bestuurlijk Stelsel en Raadsaangelegenheden van de gemeente Amsterdam.

Hieronder vindt u de output in JSON-formaat:

{
"categorie": Agenda
}

Het document moet in de categorie Agenda gecategoriseerd worden, aangezien het een agenda van een vergadering van een raadscommissie is.
prediction: MultiplePredictionErrorInFormatting
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5333333333333333
Starting...180:190 out of 1100
label:  raadsadres
response:  {'categorie': Raadsadres} 

De documenten kunnen in de volgende categorienummers worden gecategoriseerd:

1. Raadsadres - Document 1
2. Raadsadres - Document 2

Het document dat gecategoriseerd moet worden is:

{'categorie': Raadsadres} 

Van: ns
Verzonden: dinsdag 17 maart 2015 0:25
Aan: Info gemeenteraad
Onderwerp: Verkeerscirculatie Muntplein
Formulier raadsadres
Naam
E-mail
Adres
Postcode
Plaats
Telefoon
Kd
Uw bericht
: Geachte raad,
Wij zijn het apert oneens met de plannen van de raad betreffende de
verkeerscirculatie Muntplein.
4. uit het oogpunt van alle bewoners en gebruikers van het Burgwallengebied
- het wordt onmogelijk om soepel het gebied
prediction: MultiplePredictionErrorInFormatting
label:  voordracht
response:  {'categorie': Voordracht} 

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}. 
prediction: Mult

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5368421052631579
Starting...190:200 out of 1100
label:  factsheet
response:  {'categorie': Factsheet} 
prediction: factsheet
label:  brief
response:  {'categorie': Brief} 
prediction: brief
label:  actualiteit
response:  {'categorie': Brief} 
prediction: brief
label:  factsheet
response:  {'categorie': Factsheet} 
prediction: factsheet
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

Amsterdam

“…

Genteente

/

En

ha

Sen

ee

At

ed

ee

En

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.
prediction: MultiplePredictionErrorInFormatting
label:  actualiteit
response:  {'categorie': Voordracht} 

Dat document moet in de categorie Voordracht gecategoriseerd worden, aangezien het een voordracht voor de raadsvergadering is. Het document bevat een besluit dat de gemeenteraad moet nemen, waarin de vaststelling van de Verordening Afvalstoffenheffing en Reinigingsrecht Bedrijfsafv

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.545
Starting...200:210 out of 1100
label:  raadsadres
response:  {'categorie': Raadsadres} 

Ik kan het document in de categorie Raadsadres categoriseren.

Deze documenten worden gecategoriseerd in: {'categorie': Raadsadres} 
prediction: MultiplePredictionErrorInFormatting
label:  motie
response:  {'categorie': Motie} 
prediction: motie
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  besluit
response:  {'categorie': Besluit} 

Geef het document:

x Gemeente Besluit van de vergadering van het Algemeen Bestuur van
% Amsterdam 72Pril 2025
X Oost
Jaar 2015
Registratienummer Z-14-12644 / INT-15-04774
Onderwerp: Ontwerbestemmingsplan IJburg blok 59
Het Algemeen Bestuur van de Bestuurscommissie Oost,
Gezien het voorstel van het Dagelijks Bestuur d.d. 10 maart 2015
Overwegende dat,

-_De startnotitie bestemmingsplan IJburg blok 59 op 16 december 2014 door het
Algemeen Bestuur van stadsdeel Oost is vastgesteld;

-




  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5523809523809524
Starting...210:220 out of 1100
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 
prediction: schriftelijke vraag
label:  voordracht
response:  { 'categorie': Voordracht} 
prediction: voordracht
label:  voordracht
response:  {'categorie': Voordracht} 

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.

Het document dat gecategoriseerd moet worden is:

vis2022-007849 N% Gemeente Tijdelijke Algemene Raadscommissie TAR
% Amsterdam
Voordracht voor de Tijdelijke Algemene Raadscommissie van o7 april 2022
Ter kennisneming
Portefeuille Bouwen en Wonen
Agendapunt 89
Datum besluit 1 maart 2022
Onderwerp Afhandeling van motie 837 van 2 december 2021 van de leden Boomsma (CDA), Van Renssen
(GroenLinks), Flentge (SP), Kilig (DENK) en Van Dantzig (D66) inzake de kwaliteit huurwoningen in
Amsterdam
De commissie wordt gevraagd
Kennis te nemen van de afhand
prediction: Multi

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5545454545454546
Starting...220:230 out of 1100
label:  brief
response:  {categorie': Brief} 

De documenten die ingevoegd zijn, zijn een gemeente Raadsinformatiebrief en een afdoening toezegging. Hierdoor kunnen de documenten in de categorie 'Brief' gecategoriseerd worden.

Indien het document dat gecategoriseerd moet worden, als volgt wordt opgegeven:

{categorie': Raadsinformatiebrief}
prediction: MultiplePredictionErrorInFormatting
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

De documenten kunnen worden gecategoriseerd in de volgende categoriiën:

1. Schriftelijke Vraag - x Gemeente Amsterdam R Gemeenteblad
2. Besluit -
3. Agenda -
4. Motie -
5. Actualiteit -
6. Factsheet -

De output van het document 1 is: {'categorie': Schriftelijke Vraag} 

De output van het document 2 is: {'categorie': Schriftelijke Vraag} 
prediction: MultiplePredictionErrorInFormatting
label:  agenda
response:  {'categorie': Age

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5391304347826087
Starting...230:240 out of 1100
label:  factsheet
response:  {'categorie': Factsheet} 


prediction: factsheet
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  actualiteit
response:  {'categorie': Actualiteit} 
prediction: actualiteit
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  besluit
response:  {'categorie': Besluit} 








prediction: besluit
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

De documenten kan je categoriseert in de volgende category:

1. Schriftelijke Vraag

De documenten zijn twee voorbeelden van schriftelijke vragen die zijn ingediend aan de gemeenteraad van Amsterdam.
prediction: schriftelijke vraag
label:  voordracht
response:  {'categorie': Voordracht} 
Voor het document VN2021-004346: {'categorie': Voordracht}
prediction: MultiplePredictionErrorInFormatting
label:  motie
response:  {'categor

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.55
Starting...240:250 out of 1100
label:  voordracht
response:  {'categorie': Voordracht} 
Voor het document VN2023-010270:
{'categorie': Voordracht} 

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.
prediction: MultiplePredictionErrorInFormatting
label:  schriftelijke vraag
response:  {categorie}: Schriftelijke Vraag

De documenten die gegeven werden zijn:

Voordracht: Niet van toepassing
Besluit: Niet van toepassing
Schriftelijke Vraag: X Gemeente Amsterdam R
Gemeenteblad: X Gemeente Amsterdam R
Motie: Niet van toepassing
Actualiteit: Niet van toepassing
Factsheet: Niet van toepassing

De document dat gecategoriseerd moet worden is: Gemeente Amsterdam R Gemeenteblad
Jaar 2019 Afdeling 1 Nummer 349
Datum indiening 12 januari 2018 Datum akkoord college van b&w van 19 maart 2019 m.i.v. wijzigingen
Datum publicatie 22 maart 2019 Onderwerp Beantwoording schriftelijke vragen van de leden Boutkan en N

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.552
Starting...250:260 out of 1100
label:  brief
response:  {'categorie': Brief} 

Ik heb uw vraag in mijn head ontvangen en hier is de output in de vorm van een JSON file:

{'categorie': Brief} 

Het document dat gecategoriseerd moet worden is: > < Gemeente Raadsinformatiebrief
Amsterdam

Aan: De leden van de raadscommissie Bouwen en Wonen
Datum 25 november 2021
Portefeuille(s) Groen en Openbare Ruimte
Portefeuillehouder(s):
Behandeld door Ruimte en Duurzaamheid, bestuurszaken.rd@amsterdam.nl
Onderwerp Groenprojecten en inzet middelen
Geachte leden van de gemeenteraad,
In december 2020 heeft u de Groenvisie 2020-2050 vastgesteld. De ambitie is een
natuurinclusieve, leefbare en groene stad in 2050. Daarom werken we
prediction: MultiplePredictionErrorInFormatting
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  onderzoeksrapport
response:  {'categorie': Motie} 

{"document": < Gemeente
Amster

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.55
Starting...260:270 out of 1100
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  brief
response:  {'categorie': Voordracht} 

Geef het document:

{"document": < Gemeente Raadscommissie voor Algemene Zaken, Openbare Orde en Veiligheid, AZ
oov Amsterdam Juridische Zaken, Communicatie, Raadsaangelegenheden, Preventie
D Jeugderiminaliteit, Vluchtelingen en Ongedocumenteerden, Handhaving
% en Toezicht
Voordracht voor de Commissie AZ van 29 april 2021
Ter kennisneming
Portefeuille Openbare Orde en Veiligheid
Agendapunt 5
Datum besluit n.v.t. n.v.t.
Onderwerp
Afdoening toezegging onderzoek naar het fenomeen ‘drillrap’ in Amsterdamse context
De commissie 

Geef de output in de vorm van een JSON fi

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5592592592592592
Starting...270:280 out of 1100
label:  raadsadres
response:  {'categorie': Raadsadres} 




prediction: raadsadres
label:  raadsadres
response:  {'categorie': Raadsadres} 

 {'categorie': Schriftelijke Vraag} 
prediction: MultiplePredictionErrorInFormatting
label:  actualiteit
response:  {'categorie': Actualiteit} 





prediction: actualiteit
label:  voordracht
response:  {'categorie': Voordracht} 

De documenten kunnen in de volgende categorieën gecategoriseerd worden:

1. Voordracht: Dit is het geval met documenten 1 en 2, waarin een voordracht wordt gemaakt voor de commissie.

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.

{
"categorie": Voordracht
}











prediction: MultiplePredictionErrorInFormatting
label:  brief
response:  {'categorie': Brief} 

Ik heb de voorbeelden van documenten en de opgegeven document om te categoriseren. De output is in de vorm van een JSON 

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5535714285714286
Starting...280:290 out of 1100
label:  brief
response:  {categorie': Brief} 
prediction: brief
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag}  Gemeente Amsterdam

De documenten zijn gecategoriseerd als:

1. Gemeente Amsterdam
% Gemeenteblad
% Schriftelijke vragen
Jaar 2019
Afdeling 1
Nummer 1840
Datum indiening 20 augustus 2019
Datum akkoord 28 oktober 2019
Publicatiedatum 29 oktober 2019
Onderwerp
Beantwoording aanvullende schriftelijke vragen van het lid Poot inzake de kraak van
We Are Here in Westpoort

1. Gemeente Amsterdam
% Gemeenteblad
% Schriftelijke vragen
Jaar 2019
Afdeling 1
Nummer 1843
Datum indiening 4 september 2019
Datum akkoord 28 oktober 2019
Publicatiedatum 29 oktober 2019
Onderwerp
Beantwoording schriftelijke vragen van het lid P
prediction: schriftelijke vraag
label:  factsheet
response:  {'categorie': Onderzoeksrapport} 

Ik heb het document "Gemeente "verzonden en de out

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5551724137931034
Starting...290:300 out of 1100
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 
prediction: onderzoeksrapport
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  voordracht
response:  {'categorie': Voordracht} 

Amsterdam

Voordracht voor de Tijdelijke Algemene Raadscommissie van 30 juni 2022
Ter bespreking en ter kennisneming
Portefeuille Algemene Zaken
Agendapunt 43
Datum besluit n.v.t.
Onderwerp
Onderzoeksvoorstel Verkiezingsopkomst
De commissie wordt gevraagd
Kennis te nemen van het onderzoeksvoorstel Verkiezingsopkomst waarmee invulling wordt gegeven
aan motie 203 van lid Moorman c.s.
Wettelijke grondslag
Gemeentewet Artikel 160 lid











prediction: voordracht
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag} 

{"categorie": "Schriftelijke Vraag"} 
prediction: MultiplePredictionErrorInFormatting
label:  schriftelijke vraag
response:  {'cat

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5533333333333333
Starting...300:310 out of 1100
label:  motie
response:  {'categorie': Motie} 
prediction: motie
label:  brief
response:  {'categorie': Motie} 
prediction: motie
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 





prediction: onderzoeksrapport
label:  raadsadres
response:  {'categorie': Raadsadres} 

We received your request to categorize the following document:

Woods ef Nox Com, KO. (4-3 Tal 5)

Relan huisvest AN Ge dan eo Sen JN
ger joor ornerd log of epelk : © DINE,
Swaernven Sne otveiende \e SNaN Inch e |
\tornerde Á jade \ ANA plaat: S melken -
( @venerenken lat ov Karen wel de gen bef onde,
1 Ae Aemstoelwed milde \caal lceppen
Nu 3 sar \ater- 15 Grosk Geven Onderz ze lk
en ur ot venae intereste, Heb
wreede sen Wet wat ol rerealf op Servat of
tn hete afeen peak Anden, |
Naast \oeweneg \elachten ONE geluid fovedo

We have categorized this document as a Raadsadres, as it appears to be a lette

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5580645161290323
Starting...310:320 out of 1100
label:  onderzoeksrapport
response:  {'categorie': Onderzoeksrapport} 

Geef de output in de vorm van een JSON file: {'categorie': categorie van het document}.
prediction: MultiplePredictionErrorInFormatting
label:  brief
response:  {categorie: Brief} 

Ik heb uw document ingevolge uw verzoek in de vorm van een JSON file geactualiseerd:

{
"categorie": "Brief"
}

Geef het document dat gecategoriseerd moet worden:

{
"document": < Gemeente Raadsinformatiebrief
Amsterdam

Aan: De leden van de gemeenteraad van Amsterdam
Datum 8 juni 2021
Portefeuille(s) Verkeer en Vervoer
Portefeuillehouder(s): Egbert de Vries
Behandeld door V&OR, Bestuurlijke. Zaken. VOR@amsterdam.nl
Onderwerp Voortgang nieuw taxistelsel
Geachte leden van de gemeenteraad,
1. Inleiding
Hierbij informeer ik v over de voortgang van de voorbereiding van het nieuwe taxistelsel en een
aantal overige taxi-onderwerpen, waaronder de

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.55
Starting...320:330 out of 1100
label:  agenda
response:  {'categorie': Agenda} 
prediction: agenda
label:  factsheet
response:  {'categorie': Factsheet} 
prediction: factsheet
label:  raadsadres
response:  {'categorie': Raadsadres} 
prediction: raadsadres
label:  besluit
response:  {'categorie': Voordracht} 
prediction: voordracht
label:  raadsnotulen
response:  {'categorie': Raadsnotulen} 
prediction: raadsnotulen
label:  actualiteit
response:  {'categorie': Actualiteit} 






















































































































































































































































prediction: actualiteit
label:  besluit
response:  {'categorie': Besluit} 

We kategoriseren het document als volgt:

In Gemeente Amsterdam

— Stadsdeel Noord

Bestuursflap

Samenvatting

Onderwerp Volgermeer

Verbodsbepal

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Saving done! Interrupting is allowed.
Accuracy:  0.5545454545454546
Starting...330:340 out of 1100
label:  raadsnotulen
response:  {'categorie': Agenda} 


prediction: agenda
label:  schriftelijke vraag
response:  {'categorie': Schriftelijke Vraag}  Gemeente Amsterdam

{categorie: Schriftelijke Vraag}  Gemeente Amsterdam
prediction: MultiplePredictionErrorInFormatting


KeyboardInterrupt: 

In [None]:
pred = pd.read_pickle(OVERVIEW_PATH)
display(pred)

### Mistral

In [None]:
SHORT_MODEL_NAME = 'Mistral'
PROMPT = pt.zeroshot_prompt_mistral_llama
PROMPT_NAME = ph.get_promptfunction_name(PROMPT)
TOKENS_COL = 'LlamaTokens' # column with text split using tokenizer of either mistral (MistralTokens) or Llama (LlamaTokens). Using Llama, because Llama split into more tokens. 
FRONT_THRESHOLD = 100
BACK_THRESHOLD = 0

if PROMPT==pt.zeroshot_prompt_mistral_llama:
    NUMBER_EXAMPLES = 0
elif PROMPT == pt.fewshot_prompt_bm25:
    NUMBER_EXAMPLES = 2



#### Load model - In-context learning
Note - ONLY load one model: either in-context or fine-tuning

In [None]:
from transformers import pipeline, Conversation

chatbot_mistral = pipeline(task='conversational', model='mistralai/Mistral-7B-Instruct-v0.2',
                   device_map='cpu', model_kwargs={'offload_buffers':True})

MODEL_NAME = 'Mistral-7B-Instruct-v0.2'
SUBFOLDER = 'in_context'
SHORT_ID = 'IC'


#### Load model - finetuning

In [None]:
from transformers import pipeline, Conversation

chatbot_mistral = pipeline(task='conversational', model='FemkeBakker/AmsterdamDocClassificationMistral200T',
                   device_map='cpu', model_kwargs={'offload_buffers':True})

MODEL_NAME = 'AmsterdamDocClassificationMistral200T'
SUBFOLDER = 'finetuning'
SHORT_ID = 'FT'
EPOCHS = 2

#### Set-up paths to save predictions

In [None]:
import os

if SPLIT_COLUMN == '4split' or SPLIT_COLUMN == '2split':
    OVERVIEW_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/overview.pkl"
    PREDICTION_PATH = f"{cf.output_path}/predictionsVal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/predictions.pkl"
    
elif SPLIT_COLUMN == 'balanced_split':
    if SUBFOLDER == 'finetuning':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/overview.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{EPOCHS}epochs/{SHORT_MODEL_NAME}First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

    elif SUBFOLDER == 'in_context':
        OVERVIEW_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/overview2.pkl"
        PREDICTION_PATH = f"{cf.output_path}/predictionsFinal/{SUBFOLDER}/{SHORT_MODEL_NAME}/{PROMPT_NAME}/First{FRONT_THRESHOLD}Last{BACK_THRESHOLD}Predictions.pkl"

print(OVERVIEW_PATH)
print(PREDICTION_PATH)

if not os.path.isdir(os.path.dirname(os.path.abspath(OVERVIEW_PATH))):
    raise ValueError("Folder to OVERVIEW_PATH does not exist") 
if not os.path.isdir(os.path.dirname(os.path.abspath(PREDICTION_PATH))):
    raise ValueError("Folder to PREDICTION_PATH does not exist") 

run_id = f'{SHORT_ID}_{MODEL_NAME}{PROMPT_NAME}{TOKENS_COL}{FRONT_THRESHOLD}_{BACK_THRESHOLD}{TRAIN_SET}{TEST_SET}_numEx{NUMBER_EXAMPLES}'
print ('\n', run_id)


#### Run experiment

In [None]:
# run experiment

# add new column with truncated text -> new dataframe with column + new column name
trunc_df = tf.add_truncation_column(txt,'text', TOKENS_COL, FRONT_THRESHOLD, BACK_THRESHOLD)

# if new run MAKE SURE RUN_ID IS UNIQUE, if want to resume run, pass in that run_id
run_experiment(chatbot_mistral, trunc_df, run_id, PROMPT, TEXT_COLUMN, SPLIT_COLUMN, TRAIN_SET, TEST_SET, LABEL_COLUMN, PREDICTION_PATH, OVERVIEW_PATH, MODEL_NAME, NUMBER_EXAMPLES)


In [None]:
pred = pd.read_pickle(OVERVIEW_PATH)
display(pred)
