In [1]:
from dotenv import load_dotenv
import os
load_dotenv()
from openai import OpenAI
import requests
import json
import re
import numpy as np
import random
from torch.utils.data import TensorDataset, DataLoader
from torch import Tensor
from tqdm.notebook import tqdm
from itertools import combinations
import pandas as pd

import sys
sys.path.append("../source")
import helpers
import data
import models
import api

import importlib
importlib.reload(models)

client = OpenAI()
egp = helpers.get_egp()

[nltk_data] Downloading package punkt to
[nltk_data]     /cluster/scratch/dglandorf/cache...
[nltk_data]   Package punkt is already up-to-date!


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

Ask GPT4 for regular expressions of the corpus search.

In [95]:
# sample rule
rule = egp.sample(1).iloc[0]
# compose prompt
prompt = f"""I want to find sentences with {" ".join(rule['Can-do statement'].split(" ")[2:]).replace(".","")} (category: {rule['SuperCategory']}: {rule['SubCategory']}) a text.
What are Python regular expressions I should search for?
Return a json array with basic regex: {{ "search": [regex1, regex2, ...] }}."""
print(prompt)
# query API
messages = [{ "role": "user", "content": prompt}]
response = client.chat.completions.create(
    model="gpt-4-turbo-preview",#"gpt-3.5-turbo-1106",#os.getenv("OPENAI_DEFAULT_MODEL"),
    messages=messages,
    response_format={ "type": "json_object" },
    n=1,
    max_tokens=512,
)
#print(response.choices[0].message.content)

matched_strings = set()
all_expressions = set()
strings_to_search = rule['Example'].split("\n\n")

for choice in response.choices:
    all_expressions.update(json.loads(choice.message.content)['search'])
for pattern in all_expressions:
    print(pattern)

for string in strings_to_search:
    for pattern in all_expressions:
        if re.search(pattern.replace("\x08", "").replace("\x09", "").replace("++", "+"), string, re.IGNORECASE):
            matched_strings.add(string)
            break

print(rule['Example'])

print(len(matched_strings)/len(strings_to_search))

other_rule = egp.sample(1).iloc[0]
string_prob_not_to_match = other_rule['Example'].split("\n\n")
for string in string_prob_not_to_match:
    for pattern in all_expressions:
        if re.search(pattern.replace("\x08", "").replace("\x09", "").replace("++", "+"), string, re.IGNORECASE):
            print(string)
            break


I want to find sentences with the singular reflexive pronouns 'myself', 'yourself', 'himself' and 'herself' for emphasis (category: PRONOUNS: reflexive) a text.
What are Python regular expressions I should search for?
Return a json array with basic regex: { "search": [regex1, regex2, ...] }.
\bhimself\b
\byourself\b
\bmyself\b
\bherself\b
The best solution will be if you decide yourself what to do. 

I think it was the director himself who guided the actress through our wonderful school gardens to film the opening scene there. 

The food was delicious, especially the cake, which Sandra had cooked herself.
1.0
I myself, having been educated the hard way, would specifically insist on them getting the best possible school education. 


In [2]:
def get_response(prompt, stop=[], max_tokens=64, model=None):
    response = client.chat.completions.create(
        model=model if model else "gpt-4o",
        messages=[{ "role": "user", "content": prompt}],
        temperature=0,
        max_tokens=max_tokens,
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
        n=1,
        stop=stop
    )
    return response.choices[0].message.content

In [3]:
def describe_skill(rule):
    return f"""Learn this grammar skill from the description and the examples:
{rule['guideword']}: {rule['Can-do statement']}
Category: {rule['SuperCategory']}
SubCategory: {rule['SubCategory']}
CEFR Level: {rule['Level']}
{f"Lexical Range: {int(rule['Lexical Range'])}/3" if not np.isnan(rule['Lexical Range']) else ""}
Examples:
{rule['Example']}"""

In [16]:
def get_words(rule):
    prompt = f"""
{describe_skill(rule)}

Which words and combinations of words should I search for in a text to find other example sentences of this grammar pattern? Only output the words as a list.
"""
    response = get_response(prompt)
    words = [res.replace("- ", "") for res in response.split("\n")]
    words = [word for word in words if word != ""]
    return words

In [5]:
def get_questions(rule):
    prompt = f"""
{describe_skill(rule)}

Create a checklist with questions that all necessarily need to be answered with "Yes" to judge whether that skill is used in a sentence. Only return the enumerated questions."""

    return get_response(prompt, max_tokens=256)

In [6]:
def detect_prompt(sentence, questions):  
    return f"""
Sentence:
{sentence}

Questions:
{questions}

Given the sentence, answer the given questions with either a clear "Yes" or "No". Only return the enumerated responses.
"""

In [7]:
def judge(sentences, questions, verbose=True, max_positives=25, max_negatives=25):
    positives = []
    negatives = []
    for probe in tqdm(sentences):
        if verbose: print(probe)
        response = get_response(detect_prompt(probe, questions))
        if verbose: print(response)
        if re.search(r"\bNo\b", response):
            negatives.append(probe)
        else:
            positives.append(probe)
        if len(positives) > max_positives: break
        if len(negatives) > max_negatives: break
    return positives, negatives

In [None]:
def search_corpus(words, sents):
    results = {}
    for sentence in tqdm(sents):
        count = 0
        for word in words:
            if bool(re.search(r"\b" + re.escape(word.lower()) + r"\b", sentence.lower())):
                count = count/2 + 1 + word.count(' ') / 4 + int(word in sentence) / 8
        results[sentence] = count

    hits = [key for key, value in results.items() if value > 0]
    sorted_sentences = sorted(hits, key=lambda x: results[x], reverse=True)
    return results, sorted_sentences

In [19]:
# model training
def get_trained_classifier(positive, negative, others, classifier, ratio=1, verbose=False):
    dataset = data.get_dataset(positive, negative, others, models.bert_tokenizer, 64, ratio*len(positive)/len(negative), verbose=verbose) 
    train_dataloader, val_dataloader = data.get_loaders(dataset)
    _, val_metrics = models.train(classifier, train_dataloader, val_dataloader, num_epochs=None, verbose=verbose, leave=not verbose)
    return classifier, val_metrics

In [8]:
sents = data.get_mixed_sentences(1000000)
sents = set(sents) # remove duplicates

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [00:32<00:00,  8.16s/it]


In [9]:
max_batches = 16
batch_size = 256
sentences = list(sents)
encoded_inputs = models.bert_tokenizer(sentences[:12*max_batches*batch_size], return_tensors='pt', max_length=64, padding='max_length', truncation=True)
encoded_inputs['sentences'] = sentences[:12*max_batches*batch_size]

In [15]:
def get_new_candidates(classifier, positives, encoded_inputs, batch_size = 256, num_examples = 32000, max_positive=25):
    shuffled_index = np.random.permutation(encoded_inputs['input_ids'].size(0))
    for key, value in encoded_inputs.items():
        encoded_inputs[key] = value[shuffled_index] if isinstance(value, Tensor) else [value[i] for i in shuffled_index]
    
    corpus_dataset = TensorDataset(encoded_inputs['input_ids'], encoded_inputs['attention_mask'])
    corpus_dataloader = DataLoader(corpus_dataset, batch_size=batch_size, shuffle=False)
    scores, tokens = models.score_corpus(classifier, corpus_dataloader, max_positive=max_positive, max_batches=num_examples//batch_size, threshold=0.5)
    hits = list(zip(scores, tokens, encoded_inputs['sentences'][:len(scores)]))
    subset = [(score, token, sample) for score, token, sample in hits if
         score > 0.5 and not sample in positives]
    return [sample for _, _, sample in subset]

## Auto training flow

In [35]:
# sample a rule
rule = egp.sample(1).iloc[0]
print(f"""{rule['guideword']}: {rule['Can-do statement']}
{rule['Example']}""")
# ask GPT for search strings
words = get_words(rule)
print(words)
# ask GPT for detection questions
questions = get_questions(rule)
print(questions)
# do a sanity check of the questions with the given examples
positives, negatives = judge(rule['Example'].split("\n\n"), questions)
assert len(negatives)==0
# Find candidates in corpus
results, sorted_sentences = search_corpus(words, sents)
others = list(sents.difference(set([key for key, value in results.items() if value == 0])))
print(sorted_sentences[:10])
# judge candidates
positives = []
negatives = []

candidates = sorted_sentences[:50]
#random.shuffle(candidates)
candidates = list(set(candidates).difference(set(positives+negatives)))
new_positives, new_negatives = judge(candidates, questions)
assert len(new_positives) > 5
positives = positives + new_positives
negatives = negatives + new_negatives
 
# iteratively train classifier
metrics = {"precision": 0.}
iterations = 0
while metrics['precision'] < 0.8 and iterations < 5:
    iterations += 0.2
    classifier = models.RuleDetector(models.bert_encoder).to(models.device)
    classifier, metrics = get_trained_classifier(positives, negatives, others, classifier, ratio=3, verbose=True)
    print(metrics)
    if metrics['precision'] == 0.: continue
    # get new candidates
    new_candidates = get_new_candidates(classifier, positives, encoded_inputs)
    assert len(new_candidates) > 5
    iterations += 0.8
    # retrain on new candidates
    new_positives, new_negatives = judge(new_candidates, questions)
    precision = len(new_positives) / (len(new_positives)+len(new_negatives))
    print(precision)
    if precision > 0.75: break
    
    positives = positives + new_positives
    negatives = negatives + new_negatives

if metrics['f1']>0.75:
    models.save_classifier(classifier, rule['#'], "auto_training")

FORM: NEGATIVE: Can use the negative form with an increasing range of verbs.
I didn't realise I had lost the ring till I was at home. 

I didn't trust him. 

[talking about a spare television] ? we had one in the garage that we did not use.
["didn't", 'did not']
1. Does the sentence use the past simple tense?
2. Is the sentence in the negative form?
3. Does the sentence include a verb in its negative form?
4. Is the verb used in the sentence part of an increasing range of verbs (i.e., not limited to basic verbs like "be" or "have")?
5. Does the sentence make sense and convey a clear past action or state that did not happen?


  0%|          | 0/3 [00:00<?, ?it/s]

I didn't realise I had lost the ring till I was at home. 
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
I didn't trust him. 
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
[talking about a spare television] ? we had one in the garage that we did not use.
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes


  0%|          | 0/451036 [00:00<?, ?it/s]

["I didn't dare look up at it as they advised because I did not want to hurt my eyes.", 'My father made varsity in high school football but did not persue it when he moved to Canada.', 'She did not have to think to hard for a name for that one, lol.', 'okay thank you i did not know that, however I hike in the desert how big are the bears there?', 'I did not do anything that sophisticated.', 'That is very interesting, I did not know that.', 'With MySpace, people who did not go out much could reach out to others from the comfort of their own homes.', 'closer to town it seemed crowded but once you go out in the country, it did not seem crowded', 'that i did not know', 'I have heard of the grand rapids, but I did not know they were in Michigan, is it free to go there?']


  0%|          | 0/50 [00:00<?, ?it/s]

She told Johnny that she had seen him walk up the trail earlier, but did not see him come back down, so she decided to come up to see if everything was okay.
1. Yes
2. No
3. Yes
4. Yes
5. Yes
closer to town it seemed crowded but once you go out in the country, it did not seem crowded
1. No
2. No
3. Yes
4. Yes
5. No
Wow I did not know they lived so long.
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
I did not follow through my lessons
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
Even giving them time to think about what to think about did not help.
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
I did not know they were founded in the 1940s by the McDonalds.
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
They did not do that, but they yelled at me a lot
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
Oh I did not know that do you know when they started?
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
Although it did not look unappealing, he was not too fond of his short hair, and desired to grow it out one day.
1. Yes
2. No
3. Yes
4. Yes
5. No
My father mad

  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 18.63it/s][A

Training loss: 0.7036705017089844



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  3.72it/s]

Val loss: 0.675025686621666



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.14it/s][A

Training loss: 0.6672582626342773



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.08it/s]

Val loss: 0.6552436202764511



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 24.81it/s][A

Training loss: 0.6406636238098145



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.29it/s]

Val loss: 0.6363911479711533



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.92it/s][A

Training loss: 0.6161022782325745



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.50it/s]

Val loss: 0.616473451256752



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.85it/s][A

Training loss: 0.5909160375595093



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.60it/s]

Val loss: 0.5983719080686569



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.64it/s][A

Training loss: 0.5770623087882996



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.67it/s]

Val loss: 0.5814603567123413



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.44it/s][A

Training loss: 0.537670910358429



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.74it/s]

Val loss: 0.5658413618803024



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.41it/s][A

Training loss: 0.512141764163971



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.76it/s]

Val loss: 0.5517886132001877



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.51it/s][A

Training loss: 0.47877785563468933



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:01<00:00,  4.80it/s]

Val loss: 0.5384968221187592



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.17it/s][A

Training loss: 0.44390445947647095



                                                                                                                                                                           

Val loss: 0.5265617296099663
{'accuracy': 0.742, 'f1': 0.0, 'precision': 0.0}
78
0.21666666666666667


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.02it/s][A

Training loss: 0.7541539072990417



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:01,  4.82it/s]

Val loss: 0.6947223246097565



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.02it/s][A

Training loss: 0.7064414620399475



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.81it/s]

Val loss: 0.6841177046298981



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.04it/s][A

Training loss: 0.6765459179878235



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.79it/s]

Val loss: 0.6771922409534454



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.09it/s][A

Training loss: 0.6534072160720825



                                                                                                                                                                           

Val loss: 0.6726928353309631
{'accuracy': 0.753, 'f1': 0.0, 'precision': 0.0}
78
0.21666666666666667


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.48it/s][A

Training loss: 0.7834492921829224



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:01,  4.85it/s]

Val loss: 0.7649252116680145



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.09it/s][A

Training loss: 0.7444173693656921



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.82it/s]

Val loss: 0.7410848885774612



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 24.61it/s][A

Training loss: 0.727493405342102



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.77it/s]

Val loss: 0.7153157889842987



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.43it/s][A

Training loss: 0.7150368094444275



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.75it/s]

Val loss: 0.6942311823368073



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.61it/s][A

Training loss: 0.6923277378082275



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.76it/s]

Val loss: 0.6741148680448532



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 24.80it/s][A

Training loss: 0.6608845591545105



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.75it/s]

Val loss: 0.6539289206266403



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.42it/s][A

Training loss: 0.6502724885940552



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.78it/s]

Val loss: 0.6386194825172424



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.59it/s][A

Training loss: 0.639548659324646



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.81it/s]

Val loss: 0.626449853181839



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.62it/s][A

Training loss: 0.6116395592689514



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:01<00:00,  4.80it/s]

Val loss: 0.6149486154317856



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.71it/s][A

Training loss: 0.58664470911026



                                                                                                                                                                           

Val loss: 0.6039915680885315
{'accuracy': 0.784, 'f1': 0.087, 'precision': 0.25}


  3%|████▏                                                                                                                                 | 6/192 [00:02<01:02,  2.97it/s]


  0%|          | 0/28 [00:00<?, ?it/s]

Personally, I am interested in LOL, aka laughing out loud, I get a lot of kicks out of laughing.
1. No
2. No
3. No
4. Yes
5. No
yes a lot in Huntington Beach, but i dont like it there, for me the best place is The gold coast region in Australia :D
1. No
2. No
3. Yes
4. Yes
5. No
I want to ride a horse down it and pretend I'm a cowgirl lol
1. No
2. No
3. No
4. Yes
5. No
LOL I love the description.
1. No
2. No
3. No
4. Yes
5. No
That's not a bad reason to make up that story lol.
1. Yes
2. Yes
3. Yes
4. Yes
5. No
i dont know, but do know it was built to be a practical short route between san frnacisco to san fransico bay
1. Yes
2. Yes
3. Yes
4. No
5. No
I've been reading all the information I need to write it.
1. No
2. No
3. No
4. No
5. No
I can't say I'm a big fan of them lol
1. No
2. Yes
3. Yes
4. No
5. No
Im not sure but  Myron Scott is credited for naming the car after the type of small warship
1. Yes
2. Yes
3. Yes
4. Yes
5. No
I'm not positive, but in many countries you have to go to

  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15.89it/s][A

Training loss: 0.6924113631248474



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  3.38it/s]

Val loss: 0.6533315479755402



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16.85it/s][A

Training loss: 0.6383043527603149



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:02,  3.57it/s]

Val loss: 0.6264836639165878



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 18.36it/s][A

Training loss: 0.5941591858863831



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  3.80it/s]

Val loss: 0.6060847789049149



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.43it/s][A

Training loss: 0.5571304559707642



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:01<00:01,  3.96it/s]

Val loss: 0.5888864398002625



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.65it/s][A

Training loss: 0.5307057499885559



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.05it/s]

Val loss: 0.5731925964355469



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.29it/s][A

Training loss: 0.5079308748245239



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.10it/s]

Val loss: 0.5597813725471497



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.70it/s][A

Training loss: 0.47419461607933044



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.14it/s]

Val loss: 0.5490414053201675



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.56it/s][A

Training loss: 0.44479086995124817



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.16it/s]

Val loss: 0.5408432930707932



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.81it/s][A

Training loss: 0.40977975726127625



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:02<00:00,  4.18it/s]

Val loss: 0.534480482339859



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.53it/s][A

Training loss: 0.38335227966308594



                                                                                                                                                                           

Val loss: 0.529229037463665
{'accuracy': 0.795, 'f1': 0.0, 'precision': 0.0}
78
0.1780821917808219


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 22.19it/s][A

Training loss: 0.8156377673149109



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  4.24it/s]

Val loss: 0.7227945476770401



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.50it/s][A

Training loss: 0.7352733612060547



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.23it/s]

Val loss: 0.6889823228120804



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.71it/s][A

Training loss: 0.6761225461959839



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.22it/s]

Val loss: 0.6605324745178223



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.69it/s][A

Training loss: 0.6377943754196167



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.21it/s]

Val loss: 0.6392902284860611



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.38it/s][A

Training loss: 0.6089059710502625



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.21it/s]

Val loss: 0.6217420697212219



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.97it/s][A

Training loss: 0.5719513297080994



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.21it/s]

Val loss: 0.6058507412672043



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.29it/s][A

Training loss: 0.5494544506072998



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.22it/s]

Val loss: 0.5926124453544617



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.98it/s][A

Training loss: 0.5160545706748962



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.22it/s]

Val loss: 0.5821046382188797



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.71it/s][A

Training loss: 0.49039819836616516



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:02<00:00,  4.23it/s]

Val loss: 0.5731649845838547



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.36it/s][A

Training loss: 0.4764280617237091



                                                                                                                                                                           

Val loss: 0.5656691789627075
{'accuracy': 0.795, 'f1': 0.0, 'precision': 0.0}
78
0.1780821917808219


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.75it/s][A

Training loss: 0.7232652902603149



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  4.23it/s]

Val loss: 0.6784507185220718



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.31it/s][A

Training loss: 0.6780065298080444



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.21it/s]

Val loss: 0.646072655916214



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.79it/s][A

Training loss: 0.6435288786888123



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.19it/s]

Val loss: 0.6205509752035141



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.73it/s][A

Training loss: 0.6052405834197998



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.20it/s]

Val loss: 0.5987463891506195



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.48it/s][A

Training loss: 0.5759108066558838



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.20it/s]

Val loss: 0.5804248452186584



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.11it/s][A

Training loss: 0.5553861856460571



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.19it/s]

Val loss: 0.5659065395593643



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.80it/s][A

Training loss: 0.5222958326339722



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.17it/s]

Val loss: 0.5553257167339325



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.54it/s][A

Training loss: 0.4920880198478699



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.18it/s]

Val loss: 0.5474540442228317



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.64it/s][A

Training loss: 0.4799840748310089



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:02<00:00,  4.19it/s]

Val loss: 0.5407114624977112



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.75it/s][A

Training loss: 0.4417586326599121



                                                                                                                                                                           

Val loss: 0.5343418419361115
{'accuracy': 0.812, 'f1': 0.0, 'precision': 0.0}
78
0.1780821917808219


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.32it/s][A

Training loss: 0.6482275724411011



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  4.19it/s]

Val loss: 0.6136747598648071



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.78it/s][A

Training loss: 0.6288759708404541



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.21it/s]

Val loss: 0.5908813625574112



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.86it/s][A

Training loss: 0.6029932498931885



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.22it/s]

Val loss: 0.5688029676675797



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.70it/s][A

Training loss: 0.5809575319290161



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.22it/s]

Val loss: 0.5486064702272415



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.80it/s][A

Training loss: 0.55214923620224



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.22it/s]

Val loss: 0.5300237536430359



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.37it/s][A

Training loss: 0.5408415198326111



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.22it/s]

Val loss: 0.5118698626756668



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.63it/s][A

Training loss: 0.5182812809944153



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.20it/s]

Val loss: 0.4963161051273346



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.58it/s][A

Training loss: 0.48711928725242615



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.20it/s]

Val loss: 0.47917646169662476



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.79it/s][A

Training loss: 0.4691562056541443



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:02<00:00,  4.20it/s]

Val loss: 0.4632137268781662



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.59it/s][A

Training loss: 0.45345306396484375



                                                                                                                                                                           

Val loss: 0.44689448177814484
{'accuracy': 0.829, 'f1': 0.0, 'precision': 0.0}
78
0.1780821917808219


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.85it/s][A

Training loss: 0.6958546042442322



 10%|█████████████▌                                                                                                                         | 1/10 [00:00<00:02,  4.27it/s]

Val loss: 0.6390906721353531



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.34it/s][A

Training loss: 0.6375834345817566



 20%|███████████████████████████                                                                                                            | 2/10 [00:00<00:01,  4.20it/s]

Val loss: 0.6079714000225067



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.60it/s][A

Training loss: 0.6163535118103027



 30%|████████████████████████████████████████▌                                                                                              | 3/10 [00:00<00:01,  4.21it/s]

Val loss: 0.5876949578523636



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 22.14it/s][A

Training loss: 0.5786628127098083



 40%|██████████████████████████████████████████████████████                                                                                 | 4/10 [00:00<00:01,  4.21it/s]

Val loss: 0.5685053765773773



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.40it/s][A

Training loss: 0.5616912245750427



 50%|███████████████████████████████████████████████████████████████████▌                                                                   | 5/10 [00:01<00:01,  4.21it/s]

Val loss: 0.547991156578064



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.74it/s][A

Training loss: 0.5405859351158142



 60%|█████████████████████████████████████████████████████████████████████████████████                                                      | 6/10 [00:01<00:00,  4.21it/s]

Val loss: 0.5301673859357834



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.82it/s][A

Training loss: 0.5025865435600281



 70%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 7/10 [00:01<00:00,  4.21it/s]

Val loss: 0.515660896897316



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.75it/s][A

Training loss: 0.5042133927345276



 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 8/10 [00:01<00:00,  4.22it/s]

Val loss: 0.5035492405295372



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.64it/s][A

Training loss: 0.4777926802635193



 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:02<00:00,  4.22it/s]

Val loss: 0.49381622672080994



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 22.25it/s][A

Training loss: 0.44165727496147156



                                                                                                                                                                           

Val loss: 0.4872833862900734
{'accuracy': 0.821, 'f1': 0.0, 'precision': 0.0}
78
0.1780821917808219


  0%|                                                                                                                                               | 0/10 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.36it/s][A
                                                                                                                                                                           

Training loss: 0.7644012570381165




KeyboardInterrupt: 

In [33]:
negatives

['When shall we have a coaching period?',
 'When shall we sign the contract, Mrs. Brown?',
 'Where shall we sit?',
 'What shall we do this weekend?',
 'When and where shall we meet?',
 'And by the way, what time shall we get to Nanchang?',
 'When shall we go?',
 'What shall we do when we find a shortage in the shipment?',
 'So, where shall we have our dinner?',
 'Where shall we park our car?',
 "I haven't been in his house for several weeks.When shall we start?",
 'Where shall we go?',
 "We're sleeping here tonight, Jason.",
 'A bunch of us are going there for dinner tomorrow night.How about coming with us?',
 'Jane, yesterday, I got a call from the local police station to pick up Biggie.',
 'I hope to go to one one day.',
 'And I hope I can enter your school one day.',
 "Mom, I don't want to bathe today.",
 "We'll have them worked out by this evening and let you have them tomorrow morning.",
 'It lasts 4 hours, from 10:00 to 14:00',
 'OK, I want 5 tickets for the 9 p.m. showing tonigh

In [26]:
# iteratively train classifier

iterations = 0
while metrics['f1'] < 0.75 and iterations < 5:
    iterations += 0.2
    classifier = models.RuleDetector(models.bert_encoder).to(models.device)
    classifier, metrics = get_trained_classifier(positives, negatives, others, classifier, ratio=3, verbose=False)
    print(metrics)
    if metrics['precision'] == 0.: continue
    # get new candidates
    new_candidates = get_new_candidates(classifier, positives, encoded_inputs)
    assert len(new_candidates) > 5
    iterations += 0.8
    # retrain on new candidates
    new_positives, new_negatives = judge(new_candidates, questions)
    if len(new_positives) / (len(new_positives)+len(new_negatives)) > 0.75: break
    
    positives = positives + new_positives
    negatives = negatives + new_negatives

if metrics['f1']>0.75:
    models.save_classifier(classifier, rule['#'], "auto_training")

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.63it/s]


{'accuracy': 0.783, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.85it/s]


{'accuracy': 0.797, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.83it/s]


{'accuracy': 0.754, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.72it/s]


{'accuracy': 0.797, 'f1': 0.222, 'precision': 0.333}


  1%|▋                                                                                                                                     | 1/192 [00:00<01:49,  1.74it/s]


  0%|          | 0/41 [00:00<?, ?it/s]

yea Porsche are high performance sports cars
1. No
2. No
3. No
4. No
5. Yes
Um, I mean, she didn't tell me anything like that.
1. Yes
2. Yes
3. Yes
4. Yes
5. Yes
Another greatest of all time is Whitney Houston she is another worldwide artist I hated to see go.
1. No
2. No
3. No
4. No
5. Yes
I try to keep it at or under 10% of calories, which is hard given how much sugar is in many foods.
1. No
2. No
3. No
4. Yes
5. Yes
The population there has red hair 2-6% of the time.
1. No
2. No
3. No
4. Yes
5. Yes
820 University, Box 4348, Chicago, Illinois.
1. No
2. No
3. No
4. Yes
5. Yes
I already have a standard meeting on Thursdays at 9:30 a. m. How about Wednesday afternoon at 2
1. No
2. No
3. No
4. Yes
5. Yes
Put the eye-drop into your right eye 4 - - 6 times a day, 1 - - 2 drops each time.
1. No
2. No
3. No
4. No
5. Yes
It takes only one day and you could experience almost all the famous spots in the city, I don't think you would like to miss it.
1. Yes
2. No
3. No
4. No
5. Yes
Now the deadl

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.09it/s]


{'accuracy': 0.818, 'f1': 0.0, 'precision': 0.0}


 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 9/10 [00:01<00:00,  5.77it/s]


{'accuracy': 0.779, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  6.35it/s]


{'accuracy': 0.766, 'f1': 0.1, 'precision': 0.2}


  2%|██                                                                                                                                    | 3/192 [00:01<01:13,  2.58it/s]


  0%|          | 0/31 [00:00<?, ?it/s]

yea they took the wrong side in the civil war there.
1. No
2. No
3. No
4. Yes
5. Yes
I guess they were innovative with their hair too!
1. Yes
2. No
3. No
4. Yes
5. Yes
Apparently, there was a huge computer room we can study in.
1. No
2. No
3. No
4. Yes
5. Yes
I figured they were French in origin.
1. No
2. No
3. No
4. Yes
5. Yes
Maybe we could go to the jazz concert at the school auditorium instead.
1. Yes
2. No
3. No
4. Yes
5. Yes
I mean, if you had said that to me five years ago, I would have thought that you were absolutely mad.
1. Yes
2. No
3. No
4. Yes
5. Yes
Why would they recall something related to floor mats.
1. Yes
2. No
3. No
4. Yes
5. Yes
Honey, we're in the museum now.
1. No
2. No
3. No
4. Yes
5. Yes
They must have practiced a lot.
1. Yes
2. No
3. No
4. Yes
5. Yes
They had been married for 20 years, but had never had a vacation.
1. No
2. No
3. No
4. Yes
5. Yes
What kind of temperament do they have?
1. No
2. No
3. No
4. Yes
5. Yes
its to explore whether they are romantically

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.73it/s]


{'accuracy': 0.741, 'f1': 0.087, 'precision': 0.125}


  1%|▋                                                                                                                                     | 1/192 [00:00<01:50,  1.73it/s]


  0%|          | 0/36 [00:00<?, ?it/s]

Oh, he isn't really bad-tempered.
1. No
2. No
3. Yes
4. Yes
5. Yes
I have also, the inflammation, swelling, and pain was terrible.
1. No
2. No
3. No
4. No
5. No
Cattle were brought to Japan from China way back in the day.
1. No
2. No
3. No
4. Yes
5. Yes
It's crazy to think that the oldest tattooed discovered was from before 3000 BC!
1. Yes
2. No
3. No
4. No
5. Yes
In 2007, the Bloomberg-appointed health board adopted a regulation that forced restaurants to all but eliminate the use of partially hydrogenated vegetable oils and spreads, the main sources of trans fats in the U.S. diet.
1. No
2. No
3. No
4. Yes
5. Yes
that's a nice cruiser-type motorcycle, i like Honda motorcycles
1. No
2. No
3. No
4. Yes
5. Yes
Please come back next week.
1. No
2. No
3. No
4. Yes
5. Yes
what isspecial about pugs, are they super atheletic or anything?
1. No
2. No
3. No
4. No
5. Yes
I play tennis on the weekends, I love it!
1. No
2. No
3. No
4. Yes
5. Yes
I used to be a makeup artist but I hated it, so now 

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.81it/s]


{'accuracy': 0.8, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.86it/s]


{'accuracy': 0.765, 'f1': 0.0, 'precision': 0.0}


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  5.86it/s]


{'accuracy': 0.8, 'f1': 0.105, 'precision': 0.333}


  1%|█▍                                                                                                                                    | 2/192 [00:00<01:22,  2.30it/s]


  0%|          | 0/28 [00:00<?, ?it/s]

But I think you can fly on Northwest 212 to Tokyo and they have a connecting flight on Japan Airline 123 to Auckland, New Zealand's gateway city.
1. Yes
2. No
3. No
4. Yes
5. Yes
I think that a vegetarian diet is often thought to be lower in fat and cholesterol.
1. No
2. No
3. No
4. Yes
5. Yes
Yes there is skiing and you've also got the lake that forms half of Vermont's western border with New York.
1. No
2. No
3. No
4. Yes
5. Yes
Why not buy a guidebook to the city?
1. Yes
2. Yes
3. No
4. Yes
5. Yes
The book is really good.
1. No
2. No
3. No
4. Yes
5. Yes
If wealthy Americans talk about the unique challenges that come with their wealth, people often dismiss their experience.
1. Yes
2. No
3. No
4. Yes
5. Yes
taco predates the arrival of the Spanish in Mexico, there is anthropological evidence that the indigenous people living in the lake region of the Valley of Mexico traditionally ate tacos filled with small fish
1. No
2. No
3. No
4. No
5. Yes
Do you know much about bipolar disorder, 

In [27]:
len(new_positives) / (len(new_positives)+len(new_negatives))

0.07142857142857142

In [545]:
#words += [c[0] + " " + c[1] for c in combinations(words, 2) if c[0].count(' ')==0 and c[1].count(' ')==0] + [c[1] + " " + c[0] for c in combinations(words, 2) if c[0].count(' ')==0 and c[1].count(' ')==0]
words

["I've been",
 'I have been',
 "She's been",
 'She has been',
 "He's been",
 'He has been',
 "We've been",
 'We have been',
 "They've been",
 'They have been',
 "You've been",
 'You have been',
 'for',
 'since']

In [507]:
# output dataset

output_path = '../data/auto_annotated_corpus.json'
instances = pd.DataFrame(columns=['#', 'sentence', 'positive']) if not os.path.exists(output_path) else pd.read_json(output_path)
instances['positive'] = instances['positive'].astype(bool)

In [511]:
for sentence in positives:
    new_row = pd.DataFrame({'#': [rule['#']], 'sentence': [sentence], 'positive': [False]})
    instances = pd.concat([instances, new_row], ignore_index=True)
for sentence in negatives:
    new_row = pd.DataFrame({'#': [rule['#']], 'sentence': [sentence], 'positive': [False]})
    instances = pd.concat([instances, new_row], ignore_index=True)

In [514]:
instances.to_json(output_path)