# Notebook combines in_text and out_of_text tag predictions for the BR24 data set and evaluates the accuracy percentage

### In_text predictions are saved in /data/in_text_approach_1.pkl and out_of_text predictions are saved in out_of_text.pkl. Both are used in this notebook

In [1]:
import pickle as pk
import pandas as pd
import re
from collections import Counter
import matplotlib.pyplot as plt

from tqdm import tqdm
tqdm.pandas()

In [None]:
df_in = pd.read_pickle("../data/in_text_approach_1.pkl", compression='zip')
df_out = pd.read_pickle("../data/out_of_text.pkl")

In [3]:
df = pd.merge(df_in, df_out, on="row_id")

In [4]:
df = df[['created_at_x', 'primary_category_x', 'share_url_x', 'row_id', 'tags_x',
       'title_x', 'text_x', 'type_x', 
       'clean_text_x', 'in_text_x', 'out_of_text_x', 'in_text_percent_x',
       'out_of_text_percent_x', 'nouns', 'ner', 'extractions', 'approach_1_step_2b',
       'approach_1_step_2b_x_tags', 'approach_1_step_2b_x_in_text', 'approach_2_step_1b', 'approach_2_step_2b',
       'approach_2_x_out_of_text']]

In [5]:
df.columns = df.columns.str.rstrip('_x')

In [7]:
df['combined_prediction'] = df['approach_1_step_2b'] + df['approach_2_step_2b']

# Find matches

In [8]:
import difflib

In [9]:
def find_matches(truth, predictions):
    """
    Functions compares the truth value (editor tags) and predictions made by the system using the difflib library.
    1. A prediction is considered as a match if it a close match and scores at least 0.7 with an editor tag using the difflib.get_close_matches
    2. If no match is found then we look for a substring match.
    
    If both steps do not give a match, then there is no prediction for that particular editor tag.
    
    :param truth: editor tags
    :param predictions: predictions made by the system
    :return: those predictions which are correct, i.e., match with editor predictions
    """
    matches = []
    for tag in truth:
        predicted = difflib.get_close_matches(tag, predictions, 1, 0.7) #closest match
        if not predicted:
            predicted = [key for key in predictions if tag in key] #if no closest match then take substring match
        
        if predicted:
            matches.append(predicted[0])
        else:
            continue
    return matches

In [10]:
df['combined_x_tags'] = df.progress_apply(lambda x: find_matches(x['tags'], x['combined_prediction']), axis=1)

100%|██████████| 40862/40862 [00:42<00:00, 970.95it/s] 


In [11]:
combined_x_tags_acc = df.apply(lambda row: int(((len(row.combined_x_tags)/len(row.tags) if len(row.tags) != 0 else -1 ))*100), axis=1)

In [12]:
print(combined_x_tags_acc[combined_x_tags_acc >= 0].mean())

64.82636679555577


# Sample

In [34]:
df.iloc[1].tags

array(['Urteil', 'Rammbock', 'Auto', 'Bamberg', 'Landgericht',
       'Ex-Polizisten', 'Juweliergeschäft', 'Oberfranken'], dtype=object)

In [35]:
print(df.iloc[1].combined_prediction,)

['Landgericht Bamberg', 'Gericht', 'Geschäfts', 'Überfall auf Juwelierladen Auto', 'Bamberger', 'Wagen', 'Raub', 'Gesamtfreiheitsstrafe', 'Juweliergeschäft', 'Elektroartikel', 'Ex-Polizisten', 'Ruhestand', 'Fachmarkt', 'Rammbock', 'ausgeraubtDasselbe', 'Anklageschrift', 'Gebrauchtwagen', 'Polizeibeamten', 'Geländewagens', 'Landespolizei', 'Elektrogeräte', 'Bundespolizei', 'Verurteilten', 'Schaufenster', 'Verkaufswert', 'Angeklagten', 'Probefahrt', 'Diebstahls', '-Jährigen', 'Komplize', 'Bundespolizei', 'Kriminalpolizei', 'Würzburger Kickers', 'Diebstahl', 'Polizeigewalt', 'Regionalliga Bayern', 'Borussia Dortmund', 'Bayerischer Verwaltungsgerichtshof', 'Deutscher Fußball-Bund', 'Polizeieinsatz']


In [14]:
df.iloc[5].clean_text

'Die Grünen können im Saarland nicht mit einer Landesliste an der Bundestagswahl teilnehmen. Der Bundeswahlausschuss bestätigte die Entscheidung des saarländischen Landeswahlausschusses, die dortige Landesliste nicht zuzulassen. Damit wies das Gremium die Beschwerde der Saar-Grünen zurück.Streit in der LandesparteiHintergrund ist ein schwerer Streit in der Landespartei um die Listenaufstellung. Im Juni war im ersten Anlauf, die Landesliste aufzustellen, Hubert Ulrich zum Spitzenkandidaten der Grünen im Saarland gewählt worden. Ulrich ist ehemaliger Parteichef der Saar-Grünen. Doch die Wahl wurde nachträglich für ungültig erklärt, da auch nicht stimmberechtigte Mitglieder ihr Votum abgegeben hatten. Zudem kritisierte ein Schiedsgericht einen Verstoß gegen das Frauenstatut der Partei.Alles Wichtige zur Bundestagswahl finden Sie hier.Vor dem zweiten Anlauf der Listenwahl hatte das Bundesschiedsgericht der Grünen dann Delegierte aus dem Ortsverband Saarlouis ausgeschlossen. Das Parteigeric

In [13]:
print(df.iloc[5].tags,)
print(df.iloc[5].combined_x_tags,)
print(df.iloc[5].approach_1_step_2b_x_tags,)

['Landesliste' 'Saarland' 'Bündnis 90/Die Grünen' 'Bundestagswahl']
['Landesliste', 'Saarland', 'Bündnis 90/Die Grünen', 'Bundestagswahl']
['Landesliste', 'Saarland', 'Bundestagswahl']
