In [1]:
# in general: sample random negative examples from the CR data, assuming they are not verse references; then pick top verse match according to all three methods

# imports
import pandas as pd
import spacy
import time
from tqdm import tqdm
import sys
import argparse
import os
import json
import re
import nltk

from data import congress_utils, data_utils
from src.references.retrieve_and_infer import load_bible_data_for_references, create_inference_df


BIBLE_VERSION = 'King James Bible'
OUT_DATA_PATH = '/home/laviniad/projects/religion_in_congress/src/references/validation/data/true_positive_examples.csv'
MIN_SENTENCE_LENGTH = 5

VERSE_REGEX = r'\b(?:\d\s\w+\s\d+:\d+-\d+|\d\s\w+\s\d+:\d+|\w+\s\d+:\d+-\d+|\w+\s\d+:\d+)\b'


[nltk_data] Downloading package punkt to /home/laviniad/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
verse_df, limited_verse_to_citation, limited_citation_to_verse = load_bible_data_for_references(version=BIBLE_VERSION)
cr_df = congress_utils.load_full_df_from_raw('/data/corpora/congressional-record/')

# transform into sentence-wise df
cr_df = create_inference_df(MIN_SENTENCE_LENGTH, cr_df)

Loading Bible data for version: King James Bible
Loading verses...
Number of verses: 1000
On file 0


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 106493/106493 [00:00<00:00, 202036.55it/s]


On file 1


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 190933/190933 [00:00<00:00, 201666.92it/s]


On file 2


100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 94162/94162 [00:00<00:00, 207830.51it/s]


On file 3


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 207487/207487 [00:01<00:00, 199046.27it/s]


On file 4


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 183503/183503 [00:00<00:00, 199167.22it/s]


On file 5


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 130265/130265 [00:00<00:00, 207128.26it/s]


On file 6


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 197548/197548 [00:00<00:00, 198575.70it/s]


On file 7
On file 8
On file 9


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 139281/139281 [00:00<00:00, 207623.70it/s]


On file 10


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 127268/127268 [00:00<00:00, 204492.27it/s]


On file 11
On file 12


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 179989/179989 [00:00<00:00, 199015.26it/s]


On file 13
On file 14


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 271528/271528 [00:01<00:00, 208747.60it/s]


On file 15


100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 48007/48007 [00:00<00:00, 213746.18it/s]


On file 16


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 210379/210379 [00:01<00:00, 199635.41it/s]


On file 17


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 196111/196111 [00:00<00:00, 201530.50it/s]


On file 18


100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 122717/122717 [00:00<00:00, 204393.38it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████| 2405671/2405671 [11:21<00:00, 3528.20it/s]


In [8]:
from rapidfuzz import fuzz

def find_bible_citations(cr_df, limited_citation_to_verse):
    ref_list = []

    for idx, row in tqdm(cr_df.iterrows()):
        congress_text = row['text']
    
        verse_citations = re.findall(VERSE_REGEX, congress_text)   

        for citation in verse_citations:
            citation = citation.lower()
            if citation in limited_citation_to_verse:
                ref_list.append((row['congress_idx'], congress_text, citation, 1))
                print("Found Bible verse citation: ", citation)

    return ref_list

In [None]:
true_positive_examples = find_bible_citations(cr_df, limited_citation_to_verse)
print("True positive examples found via regex: ", len(true_positive_examples))    
true_positive_examples.to_csv(OUT_DATA_PATH, index=False)
print("Saved true positive examples to ", OUT_DATA_PATH)


In [15]:
true_positive_examples = pd.DataFrame(true_positive_examples, columns=['congress_idx', 'text', 'verse', 'label'])

In [16]:
true_positive_examples.to_csv(OUT_DATA_PATH, index=False)