Загрузка и первичный анализ данных

In [1]:
import pandas as pd

df = pd.read_json('raw_data_20k.json')

In [20]:
print(df.columns, '\n')
print(df['text'][0], '\n')
for ent in df['entities'][0]:
    print(ent)

Index(['id', 'language', 'text', 'entities'], dtype='object') 

**Deportation Notice**

**Ministry of Interior: Department of Immigration and Deportations**  
**Government of Spain**

**Notice No.: 312-5589-0289**  
**Date Issued: October 17, 2023**

---

**To:**  
Tatiana Leon-Palmer  
Pasaje de Efraín Barral 78,  
Santa Cruz de Tenerife, 50091  
**Identification Number:** ES-92-205788-LP

**Subject: Official Notice of Deportation**

Dear Ms. Tatiana Leon-Palmer,

This document serves as an official notification of your impending deportation from the Kingdom of Spain pursuant to Section 24, Subsection 5 of the Spanish Immigration Law. After a thorough review of your case and subsequent legal proceedings, it has been determined that your continued residence in Spain no longer complies with the legal standards set forth by the national immigration policy.

**Circumstances Leading to Deportation:**

- **Violation of Visa Terms:** It is found that you have exceeded the duration of stay pe

Рассчитаем статистику по типам определяемых сущностей

In [56]:
types_stat = dict()

for i, row in df.iterrows():
    for entity in row['entities']:
        types_stat[entity['type']] = types_stat.get(entity['type'], 0) + 1

print('Лейблы:')
print(*list(types_stat.keys()), sep='\n')
print('')
print('Количество лейблов: ', len(types_stat))
print('')
print(sorted(types_stat.items(), key=lambda tup: tup[1], reverse=True))

"""
matplotlib не работает после установки spacy
keys = list(types_stat.keys())
vals = [types_stat[k] for k in keys]
sns.barplot(x=keys, y=vals)
"""

Лейблы:
ADDRESS
PERSON
LOCATION
ID_NUMBER
TEMPORAL_TIME_DATE
ORGANIZATION
CONTACT_INFO
FINANCIAL
NUMBER
JOB_TITLE_OR_ROLE
HEALTH
PASSWORD_OR_KEY
PROPRIETARY_TECHNOLOGY
SERVER_IP_ADDRESS
CODE_RELATED
USERNAME
BANK_OR_FINANCIAL_ACCOUNT
PROFESSIONAL
BUSINESS_STRATEGY
MANUFACTURING_PROCESS
UNIQUE_DESCRIPTOR
MARKETING_STRATEGY
RACIAL_ETHNIC
TRADE_SECRET
SEXUAL_ORIENTATION
EDUCATION
POLITICAL
DEVICE_ID
CURRENCY
SCIENTIFIC_RESEARCH
CRIMINAL
COMMUNICATION
RELIGIOUS
BEHAVIORAL

Количество лейблов:  34

[('TEMPORAL_TIME_DATE', 103250), ('PERSON', 59305), ('ORGANIZATION', 54830), ('FINANCIAL', 42890), ('LOCATION', 36281), ('ADDRESS', 27572), ('NUMBER', 22906), ('ID_NUMBER', 22834), ('UNIQUE_DESCRIPTOR', 20633), ('CODE_RELATED', 20509), ('CONTACT_INFO', 17579), ('PROPRIETARY_TECHNOLOGY', 17539), ('JOB_TITLE_OR_ROLE', 16046), ('BANK_OR_FINANCIAL_ACCOUNT', 10019), ('PASSWORD_OR_KEY', 6262), ('EDUCATION', 5811), ('BUSINESS_STRATEGY', 5343), ('HEALTH', 5250), ('SERVER_IP_ADDRESS', 4182), ('MARKETING_S

'brkn\nkeys = list(types_stat.keys())\nvals = [types_stat[k] for k in keys]\nsns.barplot(x=keys, y=vals)\n'

In [121]:
import spacy

nlp = spacy.load("en_core_web_sm", disable=["tok2vec", "tagger", "parser", "attribute_ruler", "lemmatizer"])
print(*zip(nlp.pipe_labels['ner'], map(spacy.explain, nlp.pipe_labels['ner'])), sep='\n')
print(len(nlp.pipe_labels['ner']))

('CARDINAL', 'Numerals that do not fall under another type')
('DATE', 'Absolute or relative dates or periods')
('EVENT', 'Named hurricanes, battles, wars, sports events, etc.')
('FAC', 'Buildings, airports, highways, bridges, etc.')
('GPE', 'Countries, cities, states')
('LANGUAGE', 'Any named language')
('LAW', 'Named documents made into laws.')
('LOC', 'Non-GPE locations, mountain ranges, bodies of water')
('MONEY', 'Monetary values, including unit')
('NORP', 'Nationalities or religious or political groups')
('ORDINAL', '"first", "second", etc.')
('ORG', 'Companies, agencies, institutions, etc.')
('PERCENT', 'Percentage, including "%"')
('PERSON', 'People, including fictional')
('PRODUCT', 'Objects, vehicles, foods, etc. (not services)')
('QUANTITY', 'Measurements, as of weight or distance')
('TIME', 'Times smaller than a day')
('WORK_OF_ART', 'Titles of books, songs, etc.')
18


NER компонента в модели содержит 18 типов сущностей, почти в 2 раза меньше. Сравнив их, можно заметить, что по смыслу совпадают лейблы для имён, мест, времени, валют, чисел. Далее будет необходимо привести лейблы из датасета в соответствие лейблам spacy, а также добавить новые правила и удалить некоторые старые

Проверим работу spacy на одном из текстов

In [52]:
from spacy import displacy

doc = nlp(df['text'][0])
for ent in doc.ents:
    print('Entity: ', ent.text, ent.label_, spacy.explain(ent.label_))

displacy.render(doc, style="ent")

Entity:  Department of Immigration ORG Companies, agencies, institutions, etc.
Entity:  312-5589-0289 CARDINAL Numerals that do not fall under another type
Entity:  October 17, 2023 DATE Absolute or relative dates or periods
Entity:  Tatiana Leon-Palmer  
Pasaje de Efraín PERSON People, including fictional
Entity:  Barral 78 DATE Absolute or relative dates or periods
Entity:  Santa Cruz de Tenerife GPE Countries, cities, states
Entity:  50091 DATE Absolute or relative dates or periods
Entity:  Tatiana Leon-Palmer PERSON People, including fictional
Entity:  the Kingdom of Spain GPE Countries, cities, states
Entity:  Section 24 LAW Named documents made into laws.
Entity:  Subsection 5 DATE Absolute or relative dates or periods
Entity:  Spain GPE Countries, cities, states
Entity:  January 21, 2021 DATE Absolute or relative dates or periods
Entity:  June 9, 2023 DATE Absolute or relative dates or periods
Entity:  Pedrero y Cerdá S.L.L. ORG Companies, agencies, institutions, etc.
Entity:  S

Сразу видны проблемы с лейблами ID_NUMBER, ADDRESS, CONTACT_INFO. Hаиболее распространенный лейбл TEMPORAL_TIME_DATE не всегда
определяется верно из-за пересечения с контактными данными и из-за запятой после месяца. Стоит проверить тексты из датасета с другими лейблами

In [60]:
labels_to_check = {'UNIQUE_DESCRIPTOR', 'CODE_RELATED', 'CONTACT_INFO', 'PROPRIETARY_TECHNOLOGY', 'JOB_TITLE_OR_ROLE', 'BANK_OR_FINANCIAL_ACCOUNT', 'PASSWORD_OR_KEY', 'EDUCATION', 'BUSINESS_STRATEGY', 'HEALTH', 'SERVER_IP_ADDRESS', 'MARKETING_STRATEGY', 'PROFESSIONAL', 'TRADE_SECRET', 'SCIENTIFIC_RESEARCH', 'DEVICE_ID', 'CRIMINAL', 'USERNAME', 'RACIAL_ETHNIC', 'MANUFACTURING_PROCESS', 'CURRENCY', 'COMMUNICATION', 'POLITICAL', 'RELIGIOUS', 'SEXUAL_ORIENTATION', 'BEHAVIORAL'}
samples = []

for i, row in df.iterrows():
    row_labs = {ent['type'] for ent in row['entities']}
    if labels_to_check & row_labs:
        samples.append(row)
        labels_to_check -= row_labs

print(f'{len(samples)} samples to check')

15 samples to check


Рассмотрим некоторые из примеров

In [70]:
def show_sample(i):
    if i > len(samples): return
    print(*samples[i]['entities'], sep='\n')
    doc = nlp(samples[i]['text'])
    displacy.render(doc, style="ent")

show_sample(1)

{'text': '44-492-8374', 'type': 'ID_NUMBER'}
{'text': '(02) 9375 2431', 'type': 'CONTACT_INFO'}
{'text': 'Coleman and Long Pty Ltd.', 'type': 'ORGANIZATION'}
{'text': 'Level 31, 200 George Street, Sydney, NSW 2000', 'type': 'ADDRESS'}
{'text': 'Stephen Wyatt', 'type': 'PERSON'}
{'text': '(03) 9475 6678', 'type': 'CONTACT_INFO'}
{'text': '58 Arden Street, North Melbourne, VIC 3051', 'type': 'ADDRESS'}
{'text': 'Twenty-fourth of July, Two Thousand and Twenty-Three', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'Twenty-fourth of July, Two Thousand and Twenty-Eight', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'Three Hundred Thousand Australian Dollars', 'type': 'FINANCIAL'}
{'text': 'AUD 300,000', 'type': 'FINANCIAL'}
{'text': 'seven percent', 'type': 'NUMBER'}
{'text': '7%', 'type': 'NUMBER'}
{'text': 'July Twenty-fourth, Two Thousand and Twenty-Three', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'July Twenty-fourth, Two Thousand and Twenty-Eight', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'seven percent',

Здесь видно, что лейбл FINANCIAL в датасете соответствует MONEY в spacy. AUD 300 ошибочно было принято за CARDINAL. NUMBER соответствует PERCENT

In [71]:
show_sample(3)

{'text': 'Dr. William McKenzie', 'type': 'PERSON'}
{'text': 'Toronto Software Solutions, Inc.', 'type': 'ORGANIZATION'}
{'text': 'Canada', 'type': 'LOCATION'}
{'text': 'October 10, 2021', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'Dr. Emily Robertson', 'type': 'PERSON'}
{'text': 'August 15, 2021', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'dbserver.domain.com', 'type': 'SERVER_IP_ADDRESS'}
{'text': 'salesdb', 'type': 'CODE_RELATED'}
{'text': 'dbadmin', 'type': 'USERNAME'}
{'text': 'N3wP@ss2021!', 'type': 'PASSWORD_OR_KEY'}
{'text': 'Mr. Michael Johnson', 'type': 'PERSON'}
{'text': 'September 20, 2021', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'https://api.example.com/data', 'type': 'SERVER_IP_ADDRESS'}
{'text': 'AIzaSyB-4C3x2RQ8fL9nYD27QxTiO_jI4WzG6E0', 'type': 'PASSWORD_OR_KEY'}
{'text': 'Toronto Software Solutions, Inc.', 'type': 'ORGANIZATION'}
{'text': 'October 20, 2021', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'TS20211010CP', 'type': 'ID_NUMBER'}


Здесь видно, что дефолтные правила плохо справляются с кодом. Адрес апи был проигнорирован. ### почему-то принимаются за деньги

In [72]:
show_sample(7)

{'text': 'Luigina Flaiano', 'type': 'PERSON'}
{'text': 'Piazza Zaccardo, 41', 'type': 'ADDRESS'}
{'text': 'Ministry of Interior, Department for Civil Liberties and Immigration', 'type': 'ORGANIZATION'}
{'text': 'September 14, 2021', 'type': 'TEMPORAL_TIME_DATE'}
{'text': '38056 Barco, Trento (TN)', 'type': 'ADDRESS'}
{'text': 'Italy', 'type': 'LOCATION'}
{'text': 'May 22, 1985', 'type': 'TEMPORAL_TIME_DATE'}
{'text': 'Pontegrande, Italy', 'type': 'LOCATION'}
{'text': 'IT985-5628-0417', 'type': 'ID_NUMBER'}
{'text': '+39 0137 485962', 'type': 'CONTACT_INFO'}
{'text': 'Location Manager', 'type': 'JOB_TITLE_OR_ROLE'}
{'text': 'Heterosexual', 'type': 'SEXUAL_ORIENTATION'}
{'text': 'Fingerprint ID 5875-LL9587', 'type': 'HEALTH'}
{'text': 'University Degree in Film Studies', 'type': 'EDUCATION'}
{'text': 'luigina.flaiano@mail.it', 'type': 'CONTACT_INFO'}
{'text': 'University of Milan', 'type': 'EDUCATION'}
{'text': '2007', 'type': 'EDUCATION'}
{'text': 'Non-affiliated', 'type': 'POLITICAL'}


Похоже, лейблы CARDINAL и ORDINAL следует удалить, JOB_TITLE_OR_ROLE, EDUCATION добавить. Некоторые организации определяются не полностью, например 'Gori, Chiaramonte e Antonacci e figli' определилось без 'e figli'

Пользуясь наблюдениями, установим соответствие между лейблами в spacy и в датасете

In [86]:
def fix_labels(df):

    equivalences = {'LOCATION': 'GPE', 'TEMPORAL_TIME_DATE': 'DATE', 'ORGANIZATION': 'ORG', 'NUMBER': 'PERCENT'}
    
    def process_row(row):

        for ent in row:
            ent['type'] = equivalences.get(ent['type'], ent['type'])
        
        return row
    
    df['entities'] = df['entities'].apply(process_row)
    
    return df

Для вычисления метрик качества распознавания сущностей необходимо написать отдельные функции

In [111]:
def ner_prec(result: list, ground_truth: list):
    """
    Сравнение результатов вида
    [{text: tag}, ...]
    """
    correct = len([entity for entity in result if entity in ground_truth])
    total_res = len(result)

    return correct/total_res

def ner_rec(result: list, ground_truth: list):

    correct = len([entity for entity in result if entity in ground_truth])
    total_ground = len(ground_truth)

    return correct/total_ground

def ner_F1(result: list, ground_truth: list):

    prec = ner_prec(result, ground_truth)
    rec = ner_rec(result, ground_truth)

    if prec == rec == 0: return 0
    
    return 2*(prec*rec)/(prec+rec)

Теперь можно проверить точность работы spacy без изменения правил. Лейблы, которых нет в датасете будут отсеяны

In [164]:
def test_performance(df, relevant_labels):
    """
    Расчет метрик и статистики
    """
    metrics = {'prec': [], 'rec': [], 'F1': []}
    label_stats = dict()
    clean_df = fix_labels(df)
    
    for i, row in clean_df.iterrows():
        results = []
        doc = nlp(row['text'])
        for ent in doc.ents:
            if ent.label_ in relevant_labels:
                results.append({'text': ent.text, 'type': ent.label_})
        correct_results = [entity for entity in results if entity in row['entities']]
        
        for res in correct_results:
            label_stats[res['type']] = label_stats.get(res['type'], 0) + 1
        
        metrics['prec'], metrics['rec'], metrics['F1'] = [ner_prec(results, row['entities']), ner_rec(results, row['entities']), ner_F1(results, row['entities'])]

    return metrics, label_stats

In [113]:
import numpy as np

relevant_labels = {'PERSON', 'GPE', 'DATE', 'ORG', 'PERCENT'}
met, stat = test_performance(df, relevant_labels)
print(f'avg precision: {np.average(met['prec'])}, recall: {np.average(met['rec'])}, F1: {np.average(met['F1'])}')
print(stat)

avg precision: 0.3103448275862069, recall: 0.5, F1: 0.3829787234042554
{'DATE': 62688, 'GPE': 24954, 'PERSON': 47659, 'ORG': 37045, 'PERCENT': 11669}


Любопытно, что recall оказалась выше, чем precision. Это может говорить о том, что spacy выделяет больше сущностей, чем есть в датасете, даже с отсеиванием части лейблов. Частичное совпадение/неправильное выделение сущностей затрудняют визуализацию ошибок.

Наиболее распространенные лейблы в датасете:
('TEMPORAL_TIME_DATE', 103250), ('PERSON', 59305), ('ORGANIZATION', 54830), ('FINANCIAL', 42890), ('LOCATION', 36281), ('ADDRESS', 27572), ('NUMBER', 22906)
Правильные результаты работы модели:
{'TEMPORAL_TIME_DATE': 62688, 'LOCATION': 24954, 'PERSON': 47659, 'ORGANIZATION': 37045, 'NUMBER': 11669}

Попробуем добавить новые правила для определения контактных данных

In [120]:
nlp.analyze_pipes()

{'summary': {'ner': {'assigns': ['doc.ents',
    'token.ent_iob',
    'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False},
  'entity_ruler': {'assigns': ['doc.ents', 'token.ent_type', 'token.ent_iob'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False}},
 'problems': {'ner': [], 'entity_ruler': []},
 'attrs': {'doc.ents': {'assigns': ['ner', 'entity_ruler'], 'requires': []},
  'token.ent_iob': {'assigns': ['ner', 'entity_ruler'], 'requires': []},
  'token.ent_type': {'assigns': ['ner', 'entity_ruler'], 'requires': []}}}

In [161]:
nlp = spacy.load("en_core_web_sm", disable=["tok2vec", "tagger", "parser", "attribute_ruler", "lemmatizer"])

config = {
   "validate": True,
   "overwrite_ents": True,
}

ruler = nlp.add_pipe("entity_ruler", config=config, before='ner')

patterns = [{"label": "CONTACT_INFO", "pattern": [{'IS_LOWER': True, 'LIKE_EMAIL': True}]}]

ruler.add_patterns(patterns)

doc = nlp("vos-pablo@interior.es")

for ent in doc.ents:
    print('Entity: ', ent.text, ent.label_)

displacy.render(doc, style="ent")

Entity:  vos-pablo@interior.es CONTACT_INFO None




In [165]:
relevant_labels = {'PERSON', 'GPE', 'DATE', 'ORG', 'PERCENT', 'CONTACT_INFO'}
met, stat = test_performance(df, relevant_labels)
print(f'avg precision: {np.average(met['prec'])}, recall: {np.average(met['rec'])}, F1: {np.average(met['F1'])}')
print(stat)

avg precision: 0.3103448275862069, recall: 0.5, F1: 0.3829787234042554
{'DATE': 62688, 'GPE': 24954, 'PERSON': 47660, 'ORG': 37045, 'CONTACT_INFO': 7720, 'PERCENT': 11669}


Судя по статистике, удалось дополнительно правильно распознать 7720 сущностей

In [None]:
patterns = [{"label": "CONTACT_INFO", "pattern": [{'IS_LOWER': True, 'LIKE_EMAIL': True}]}]

ruler.add_patterns(patterns)

doc = nlp("vos-pablo@interior.es")

for ent in doc.ents:
    print('Entity: ', ent.text, ent.label_)

displacy.render(doc, style="ent")

Для определения остальных сущностей при rule-based подходе пришлось бы написать большое количество сложных правил.
По всей видимости, для этого датасета лучше бы подошел подход с нейросетями