In [1]:
import logging
from pathlib import Path

import blacktape
from blacktape.lib import match_entities_in_text, match_patterns_in_text, get_entities_for_spacy_model

logger = logging.getLogger(__name__)

In [2]:
blacktape.__version__

'0.0.1.dev10'

### Test Data

In [3]:
test_file = Path('../tests/sample.txt')

In [4]:
text = test_file.read_text(encoding='UTF-8')
# print(text)

### Entities

In [5]:
# Entity types we're interested in
target_entities = {'PERSON', 'ORG', 'DATE', 'FOOD'}

In [6]:
# spaCy model name
model = 'en_core_web_sm'

In [7]:
# List known entity types for this model
known_entities = get_entities_for_spacy_model(model)
print(known_entities)

['CARDINAL', 'DATE', 'EVENT', 'FAC', 'GPE', 'LANGUAGE', 'LAW', 'LOC', 'MONEY', 'NORP', 'ORDINAL', 'ORG', 'PERCENT', 'PERSON', 'PRODUCT', 'QUANTITY', 'TIME', 'WORK_OF_ART']


In [8]:
# Validate our target entities
for label in target_entities:
    if label not in known_entities:
        logger.warning(f"Unknown entity type: {label}")

Unknown entity type: FOOD


In [9]:
ents = match_entities_in_text(text, model, target_entities)

In [10]:
for ent in ents:
    print(ent)

{'text': 'Ann GibbonsAug', 'label': 'PERSON', 'offset': 82}
{'text': '12, 2021', 'label': 'DATE', 'offset': 98}
{'text': 'between the ages of 9 and 15 months', 'label': 'DATE', 'offset': 285}
{'text': '1 day', 'label': 'DATE', 'offset': 358}
{'text': 'Duke University', 'label': 'ORG', 'offset': 631}
{'text': 'Herman Pontzer', 'label': 'PERSON', 'offset': 670}
{'text': 'age 90', 'label': 'DATE', 'offset': 1253}
{'text': '1 week', 'label': 'DATE', 'offset': 1710}
{'text': 'Pontzer', 'label': 'PERSON', 'offset': 1810}
{'text': 'between the ages of 8 days', 'label': 'DATE', 'offset': 1973}
{'text': '95 years', 'label': 'DATE', 'offset': 2004}
{'text': 'daily', 'label': 'DATE', 'offset': 2038}
{'text': 'daily', 'label': 'DATE', 'offset': 2102}
{'text': 'between 9 and 15 months', 'label': 'DATE', 'offset': 2551}
{'text': 'today', 'label': 'DATE', 'offset': 2640}
{'text': 'age 5', 'label': 'DATE', 'offset': 2702}
{'text': 'age 60', 'label': 'DATE', 'offset': 2827}
{'text': 'age 90', 'label': 

### Regexes

In [11]:
# E.g: numbers and capitalized words
patterns = [r"[0-9]+", r"\b[A-Z][a-zA-Z]*\b"]

In [12]:
for res in match_patterns_in_text(text, patterns):
    print(res)

{'pattern': '[0-9]+', 'text': '12', 'offset': 98}
{'pattern': '[0-9]+', 'text': '2021', 'offset': 102}
{'pattern': '[0-9]+', 'text': '2', 'offset': 109}
{'pattern': '[0-9]+', 'text': '00', 'offset': 111}
{'pattern': '[0-9]+', 'text': '9', 'offset': 305}
{'pattern': '[0-9]+', 'text': '15', 'offset': 311}
{'pattern': '[0-9]+', 'text': '50', 'offset': 339}
{'pattern': '[0-9]+', 'text': '1', 'offset': 358}
{'pattern': '[0-9]+', 'text': '60', 'offset': 1119}
{'pattern': '[0-9]+', 'text': '90', 'offset': 1257}
{'pattern': '[0-9]+', 'text': '26', 'offset': 1274}
{'pattern': '[0-9]+', 'text': '24', 'offset': 1697}
{'pattern': '[0-9]+', 'text': '1', 'offset': 1710}
{'pattern': '[0-9]+', 'text': '6421', 'offset': 1944}
{'pattern': '[0-9]+', 'text': '29', 'offset': 1961}
{'pattern': '[0-9]+', 'text': '8', 'offset': 1993}
{'pattern': '[0-9]+', 'text': '95', 'offset': 2004}
{'pattern': '[0-9]+', 'text': '9', 'offset': 2559}
{'pattern': '[0-9]+', 'text': '15', 'offset': 2565}
{'pattern': '[0-9]+', '