In [1]:
import logging
from pathlib import Path

import blacktape
from blacktape.lib import match_entities_in_text, match_patterns_in_text, get_entities_for_spacy_model

logger = logging.getLogger(__name__)

In [2]:
blacktape.__version__

'0.0.1.dev30'

### spaCy Setup

In [3]:
!spacy-model install en_core_web_sm

[2K[32m⠧[0m [1;32mInstalling en_core_web_sm...[0m0m
[1A[2K[32m✔ Installed en_core_web_sm, version 3.3.0[0m


### Test Data

In [4]:
test_file = Path('../tests/data/sample.txt')

In [5]:
text = test_file.read_text(encoding='UTF-8')
# print(text)

### Entities

In [6]:
# Entity types we're interested in
target_entities = {'PERSON', 'ORG', 'DATE', 'FOOD'}

In [7]:
# spaCy model name
model = 'en_core_web_sm'

In [8]:
# List known entity types for this model
known_entities = get_entities_for_spacy_model(model)
print(known_entities)

['CARDINAL', 'DATE', 'EVENT', 'FAC', 'GPE', 'LANGUAGE', 'LAW', 'LOC', 'MONEY', 'NORP', 'ORDINAL', 'ORG', 'PERCENT', 'PERSON', 'PRODUCT', 'QUANTITY', 'TIME', 'WORK_OF_ART']


In [9]:
# Validate our target entities
for label in target_entities:
    if label not in known_entities:
        logger.warning(f"Unknown entity type: {label}")

Unknown entity type: FOOD


In [10]:
ents = match_entities_in_text(text, model, target_entities)

In [11]:
for ent in ents:
    print(ent)

{'type': 'entity', 'text': 'Ann GibbonsAug', 'label': 'PERSON', 'offset': 82}
{'type': 'entity', 'text': '12, 2021', 'label': 'DATE', 'offset': 98}
{'type': 'entity', 'text': 'between the ages of 9 and 15 months', 'label': 'DATE', 'offset': 285}
{'type': 'entity', 'text': '1 day', 'label': 'DATE', 'offset': 358}
{'type': 'entity', 'text': 'Duke University', 'label': 'ORG', 'offset': 631}
{'type': 'entity', 'text': 'Herman Pontzer', 'label': 'PERSON', 'offset': 670}
{'type': 'entity', 'text': 'age 90', 'label': 'DATE', 'offset': 1253}
{'type': 'entity', 'text': '1 week', 'label': 'DATE', 'offset': 1710}
{'type': 'entity', 'text': 'a day', 'label': 'DATE', 'offset': 1784}
{'type': 'entity', 'text': 'Pontzer', 'label': 'PERSON', 'offset': 1810}
{'type': 'entity', 'text': '6421', 'label': 'DATE', 'offset': 1944}
{'type': 'entity', 'text': 'between the ages of 8 days', 'label': 'DATE', 'offset': 1973}
{'type': 'entity', 'text': '95 years', 'label': 'DATE', 'offset': 2004}
{'type': 'entity',

### Regexes

In [12]:
# E.g: numbers and capitalized words
patterns = [
    (r"[0-9]+", "number"),
    (r"\b[A-Z][a-zA-Z]*\b", "capitalized word")
]

In [13]:
for res in match_patterns_in_text(text, patterns):
    print(res)

{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '12', 'offset': 98}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '2021', 'offset': 102}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '2', 'offset': 109}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '00', 'offset': 111}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '9', 'offset': 305}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '15', 'offset': 311}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '50', 'offset': 339}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '1', 'offset': 358}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '60', 'offset': 1119}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '90', 'offset': 1257}
{'type': 'pattern', 'pattern': '[0-9]+', 'label': 'number', 'text': '26', 'offset': 1274}
{'type': 'pattern', 