# Nhận dạng thực thể có tên sử dụng sklearn-crfsuite

Huấn luyện mô hình CRF cơ bản cho nhận dạng thực thể có tên trên dữ liệu CoNLL2002 và kiểm tra trọng số của mô hình để xem mô hình học được những gì.

Các thư viện Python NLTK> 3.x và sklearn-crfsuite, sử dụng Python 3.




In [1]:
# !pip install sklearn_crfsuite

In [2]:
# !pip install eli5

In [3]:
#from nltk.corpus import conll2002
#nltk.download('conll2002')

In [4]:
import numpy as np
import nltk
import sklearn_crfsuite
import eli5

# 1. Dữ liệu huấn luyện (Training data)

Bộ dữ liệu CoNLL 2002 chứa danh sách các câu tiếng Tây Ban Nha, với các thực thể có tên được chú giải. Bộ dữ liệu này sử dụng mã hóa IOB2. Dữ liệu CoNLL 2002 cũng cung cấp các thẻ POS.

In [5]:
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))
train_sents[0]

[('Melbourne', 'NP', 'B-LOC'),
 ('(', 'Fpa', 'O'),
 ('Australia', 'NP', 'B-LOC'),
 (')', 'Fpt', 'O'),
 (',', 'Fc', 'O'),
 ('25', 'Z', 'O'),
 ('may', 'NC', 'O'),
 ('(', 'Fpa', 'O'),
 ('EFE', 'NC', 'B-ORG'),
 (')', 'Fpt', 'O'),
 ('.', 'Fp', 'O')]

# 2. Trích xuất đặc trưng

Thẻ POS có thể được xem như là các đặc trưng được trích xuất trước. Hãy trích xuất các đặc trưng khác (word parts, thẻ từ loại đã rút gọn - simplified POS tags, lower/title/upper flags, đặc trưng của các từ lân cận - features of nearby words) và chuyển đổi chúng sang định dạng sklear-crfsuite - mỗi một câu phải được chuyển đổi thành một danh sách của từ điển.

In [6]:
def word2features(sent, i):

    # Lấy từ và nhãn tương ứng
    # sent là 1 câu, i là từ thứ i trong câu, còn index 0, 1  là để lấy word và postag
    # nếu là [i][2] thì lấy postag BIO
    word = sent[i][0]
    postag = sent[i][1]

    features = {
        'bias': 1.0,
        'word.lower()': word.lower(),
        'word[-3:]': word[-3:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2],
    }
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': word1.lower(),
            '-1:word.istitle()': word1.istitle(),
            '-1:word.isupper()': word1.isupper(),
            '-1:postag': postag1,
            '-1:postag[:2]': postag1[:2],
        })
    else:
        features['BOS'] = True # BOS: Begin Of Sentence

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': word1.lower(),
            '+1:word.istitle()': word1.istitle(),
            '+1:word.isupper()': word1.isupper(),
            '+1:postag': postag1,
            '+1:postag[:2]': postag1[:2],
        })
    else:
        features['EOS'] = True # EOS: End Of Sentence

    return features


# Return về 1 list với mỗi phần tử là 1 kết quả trả về của việc gọi word2features()
# Duyệt từng từ trong câu, mỗi từ trích xuất đặc trưng
def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

def sent2labels(sent):
    return [label for token, postag, label in sent]

def sent2tokens(sent):
    return [token for token, postag, label in sent]

X_train = [sent2features(s) for s in train_sents]
Y_train = [sent2labels(s) for s in train_sents]

X_test = [sent2features(s) for s in test_sents]
Y_test = [sent2labels(s) for s in test_sents]


Các đặc trưng được trích xuất từ một token duy nhất có dạng như sau:

In [7]:
X_train[0][1] # câu 0, từ 1

{'bias': 1.0,
 'word.lower()': '(',
 'word[-3:]': '(',
 'word.isupper()': False,
 'word.istitle()': False,
 'word.isdigit()': False,
 'postag': 'Fpa',
 'postag[:2]': 'Fp',
 '-1:word.lower()': 'melbourne',
 '-1:word.istitle()': True,
 '-1:word.isupper()': False,
 '-1:postag': 'NP',
 '-1:postag[:2]': 'NP',
 '+1:word.lower()': 'australia',
 '+1:word.istitle()': True,
 '+1:word.isupper()': False,
 '+1:postag': 'NP',
 '+1:postag[:2]': 'NP'}

# 3. Huấn luyện mô hình CRF

Khi có các đặc trưng ở định dạng phù hợp ta có thể huấn luyện mô hình CRF chuỗi tuyến tính (Conditional Random Field - CRFs) bằng cách sử dụng sklearn_crfsuite.CRF:

In [8]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs', # Limited-memory Broyden–Fletcher–Goldfarb–Shanno, gradient descent
    c1=0.1,
    c2=0.1,
    max_iterations=20,
    all_possible_transitions=False,
)

crf.fit(X_train, Y_train)

# 4. Kiểm tra trọng số mô hình

Các mô hình CRF của CRFsuite sử dụng hai loại đặc trưng: đặc trưng trạng thái và đặc trưng chuyển tiếp. Hãy kiểm tra trọng số của chúng bằng eli5.explain_weights:



In [9]:
eli5.show_weights(crf, top=30)

From \ To,O,B-LOC,I-LOC,B-MISC,I-MISC,B-ORG,I-ORG,B-PER,I-PER
O,3.281,2.204,0.0,2.101,0.0,3.468,0.0,2.325,0.0
B-LOC,-0.259,-0.098,4.058,0.0,0.0,0.0,0.0,-0.212,0.0
I-LOC,-0.173,-0.609,3.436,0.0,0.0,0.0,0.0,0.0,0.0
B-MISC,-0.673,-0.341,0.0,0.0,4.069,-0.308,0.0,-0.331,0.0
I-MISC,-0.803,-0.998,0.0,-0.519,4.977,-0.817,0.0,-0.611,0.0
B-ORG,-0.096,-0.242,0.0,-0.57,0.0,-1.012,4.739,-0.306,0.0
I-ORG,-0.339,-1.758,0.0,-0.841,0.0,-1.382,5.062,-0.472,0.0
B-PER,-0.4,-0.851,0.0,0.0,0.0,-1.013,0.0,-0.937,4.329
I-PER,-0.676,-0.47,0.0,0.0,0.0,0.0,0.0,-0.659,3.754

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8
+4.416,postag[:2]:Fp,,,,,,,
+3.116,BOS,,,,,,,
+2.401,bias,,,,,,,
+2.297,"word[-3:]:,",,,,,,,
+2.297,"word.lower():,",,,,,,,
+2.297,postag:Fc,,,,,,,
+2.297,postag[:2]:Fc,,,,,,,
+2.124,postag[:2]:CC,,,,,,,
+2.124,postag:CC,,,,,,,
+1.984,EOS,,,,,,,

Weight?,Feature
+4.416,postag[:2]:Fp
+3.116,BOS
+2.401,bias
+2.297,"word[-3:]:,"
+2.297,"word.lower():,"
+2.297,postag:Fc
+2.297,postag[:2]:Fc
+2.124,postag[:2]:CC
+2.124,postag:CC
+1.984,EOS

Weight?,Feature
+2.530,word.istitle()
+2.224,-1:word.lower():en
+0.906,word[-3:]:rid
+0.905,word.lower():madrid
+0.646,word.lower():españa
+0.640,word[-3:]:ona
+0.595,word[-3:]:aña
+0.595,+1:postag[:2]:Fp
+0.515,word.lower():parís
+0.514,word[-3:]:rís

Weight?,Feature
+0.886,-1:word.istitle()
+0.664,-1:word.lower():de
+0.582,word[-3:]:de
+0.578,word.lower():de
+0.529,-1:word.lower():san
+0.444,+1:word.istitle()
+0.441,word.istitle()
+0.335,-1:word.lower():la
+0.262,postag[:2]:SP
+0.262,postag:SP

Weight?,Feature
+1.770,word.isupper()
+0.693,word.istitle()
+0.606,"word.lower():"""
+0.606,"word[-3:]:"""
+0.606,postag:Fe
+0.606,postag[:2]:Fe
+0.538,+1:word.istitle()
+0.508,"-1:word.lower():"""
+0.508,-1:postag:Fe
+0.508,-1:postag[:2]:Fe

Weight?,Feature
+1.364,-1:word.istitle()
+0.675,-1:word.lower():de
+0.597,+1:postag[:2]:Fe
+0.597,"+1:word.lower():"""
+0.597,+1:postag:Fe
+0.369,-1:postag:NC
+0.369,-1:postag[:2]:NC
+0.324,-1:word.lower():liga
+0.318,word[-3:]:de
+0.304,word.lower():de

Weight?,Feature
+2.695,word.lower():efe
+2.519,word.isupper()
+2.084,word[-3:]:EFE
+1.174,word.lower():gobierno
+1.142,word.istitle()
+1.018,-1:word.lower():del
+0.958,word[-3:]:rno
+0.671,word.lower():pp
+0.671,word[-3:]:PP
+0.667,-1:word.lower():al

Weight?,Feature
+1.499,-1:word.istitle()
+1.200,-1:word.lower():de
+0.539,-1:word.lower():real
+0.511,word[-3:]:rid
+0.446,word[-3:]:de
+0.433,word.lower():de
+0.428,-1:postag:SP
+0.428,-1:postag[:2]:SP
+0.399,word.lower():madrid
+0.368,word[-3:]:la

Weight?,Feature
+1.698,word.istitle()
+0.683,-1:postag:VMI
+0.601,+1:postag[:2]:VM
+0.589,postag[:2]:NP
+0.589,postag:NP
+0.589,+1:postag:VMI
+0.565,-1:word.lower():a
+0.520,word[-3:]:osé
+0.503,word.lower():josé
+0.476,-1:postag[:2]:VM

Weight?,Feature
+2.742,-1:word.istitle()
+0.736,word.istitle()
+0.660,-1:word.lower():josé
+0.598,-1:postag:AQ
+0.598,-1:postag[:2]:AQ
+0.510,-1:postag[:2]:VM
+0.487,-1:word.lower():juan
+0.419,-1:word.lower():maría
+0.413,-1:postag:VMI
+0.345,-1:word.lower():luis



Các đặc trưng chuyển tiếp có ý nghĩa: ít nhất mô hình đã học rằng I-ENTITY phải theo sau B-ENTITY. Nó cũng học được rằng một số chuyển tiếp khó xảy ra, ví dụ: ngay sau tên tổ chức thường không phải là một vị trí (I-ORG -> B-LOC có trọng số âm lớn).

Các đặc trưng không sử dụng từ điển địa lý, vì vậy mô hình phải nhớ một số tên địa lý từ dữ liệu huấn luyện, ví dụ: España là một địa điểm.

Nếu chúng ta regularize CRF hơn, chúng ta có thể kỳ vọng rằng các đặc trưng duy nhất mang tính tổng quát sẽ vẫn còn, và thẻ ghi nhớ sẽ mất đi. Với hệ số chính quy L1 (tham số c1) của hầu hết các đặc trưng sẽ được chuyển về không. Hãy kiểm tra xem việc regularization có ảnh hưởng gì đến trọng số CRF:


In [10]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=200,
    c2=0.1,
    max_iterations=20,
    all_possible_transitions=False,
)
crf.fit(X_train, Y_train)
eli5.show_weights(crf, top=30)

From \ To,O,B-LOC,I-LOC,B-MISC,I-MISC,B-ORG,I-ORG,B-PER,I-PER
O,3.232,1.76,0.0,2.026,0.0,2.603,0.0,1.593,0.0
B-LOC,0.035,0.0,2.773,0.0,0.0,0.0,0.0,0.0,0.0
I-LOC,-0.02,0.0,3.099,0.0,0.0,0.0,0.0,0.0,0.0
B-MISC,-0.382,0.0,0.0,0.0,4.758,0.0,0.0,0.0,0.0
I-MISC,-0.256,0.0,0.0,0.0,4.155,0.0,0.0,0.0,0.0
B-ORG,0.161,0.0,0.0,0.0,0.0,0.0,3.344,0.0,0.0
I-ORG,-0.126,-0.081,0.0,0.0,0.0,0.0,4.048,0.0,0.0
B-PER,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.449
I-PER,-0.085,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.254

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8
+3.363,BOS,,,,,,,
+2.842,bias,,,,,,,
+2.478,postag[:2]:Fp,,,,,,,
+0.665,-1:word.isupper(),,,,,,,
+0.439,+1:postag[:2]:AQ,,,,,,,
+0.439,+1:postag:AQ,,,,,,,
+0.400,postag:Fc,,,,,,,
+0.400,"word.lower():,",,,,,,,
+0.400,postag[:2]:Fc,,,,,,,
+0.400,"word[-3:]:,",,,,,,,

Weight?,Feature
+3.363,BOS
+2.842,bias
+2.478,postag[:2]:Fp
+0.665,-1:word.isupper()
+0.439,+1:postag[:2]:AQ
+0.439,+1:postag:AQ
+0.400,postag:Fc
+0.400,"word.lower():,"
+0.400,postag[:2]:Fc
+0.400,"word[-3:]:,"

Weight?,Feature
1.417,-1:word.lower():en
1.183,word.istitle()
0.498,+1:postag[:2]:Fp
0.15,"+1:word.lower():,"
0.15,+1:postag:Fc
0.15,+1:postag[:2]:Fc
0.098,-1:postag[:2]:Fp
0.081,-1:word.lower():(
0.081,-1:postag:Fpa
0.08,postag[:2]:NP

Weight?,Feature
0.788,-1:word.istitle()
0.248,word[-3:]:de
0.237,word.lower():de
0.199,-1:word.lower():de
0.19,postag[:2]:SP
0.19,postag:SP
0.06,-1:postag[:2]:SP
0.06,-1:postag:SP
0.04,+1:word.istitle()

Weight?,Feature
0.349,word.isupper()
0.053,-1:postag:DA
0.053,-1:postag[:2]:DA
0.03,word.istitle()
-0.009,-1:postag[:2]:SP
-0.009,-1:postag:SP
-0.06,bias
-0.172,-1:word.istitle()

Weight?,Feature
0.432,-1:word.istitle()
0.158,-1:postag:NC
0.158,-1:postag[:2]:NC
0.146,+1:postag[:2]:Fe
0.146,+1:postag:Fe
0.146,"+1:word.lower():"""
0.03,postag[:2]:SP
0.03,postag:SP
-0.087,word.istitle()
-0.094,bias

Weight?,Feature
1.681,word.isupper()
0.507,-1:word.lower():del
0.35,-1:postag:DA
0.35,-1:postag[:2]:DA
0.282,word.lower():efe
0.234,word[-3:]:EFE
0.195,-1:word.lower():(
0.195,-1:postag:Fpa
0.192,word.istitle()
0.178,+1:word.lower():)

Weight?,Feature
1.318,-1:word.istitle()
0.762,-1:word.lower():de
0.185,-1:postag:SP
0.185,-1:postag[:2]:SP
0.185,word[-3:]:de
0.058,word.lower():de
-0.043,-1:word.isupper()
-0.267,+1:word.istitle()
-0.536,bias

Weight?,Feature
0.8,word.istitle()
0.463,-1:postag:Fc
0.463,"-1:word.lower():,"
0.463,-1:postag[:2]:Fc
0.148,+1:postag:VMI
0.125,+1:word.istitle()
0.095,+1:postag[:2]:VM
0.007,+1:postag[:2]:AQ
0.007,+1:postag:AQ
-0.039,-1:word.istitle()

Weight?,Feature
2.127,-1:word.istitle()
0.331,word.istitle()
0.016,"+1:word.lower():,"
0.016,+1:postag:Fc
0.016,+1:postag[:2]:Fc
-0.089,+1:postag[:2]:SP
-0.089,+1:postag:SP
-0.648,bias


Như chúng ta có thể thấy, các thẻ được ghi nhớ hầu hết đã biến mất và mô hình hiện dựa vào khuôn dạng từ (word shapes) và nhãn từ loại (POS tags). Chỉ còn lại một số đặc trưng khác không. Trong ví dụ này, sự thay đổi có thể khiến chất lượng kém hơn, nhưng đó là một vấn đề riêng.

Hãy tập trung vào trọng số chuyển tiếp. Chúng ta có thể cho rằng các chuyển tiếp O -> I-ENTIRY có trọng số âm lớn vì chúng là không thể. Nhưng những chuyển tiếp này có trọng số bằng không, không có trọng số âm, cả trong mô hình được chính quy hóa nhiều và trong mô hình ban đầu. Có gì đó đang xảy ra ở đây.

Lý do chúng bằng 0 là crfsuite đã không nhìn thấy những chuyển đổi này trong dữ liệu huấn luyện và để tiết kiệm thời gian tính toán nên đã cho rằng không cần phải học trọng số đối với chúng. Đây là mặc định, nhưng có thể tắt nó bằng cách sử dụng sklearn_crfsuite.CRF tùy chọn all_possible_transitions. Hãy kiểm tra xem nó ảnh hưởng như thế nào đến kết quả:

In [11]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=20,
    all_possible_transitions=True,
)
crf.fit(X_train, Y_train)

#Hiển thị trọng số với top 5 dùng transition_features
eli5.show_weights(crf, top=5)

From \ To,O,B-LOC,I-LOC,B-MISC,I-MISC,B-ORG,I-ORG,B-PER,I-PER
O,2.732,1.217,-4.675,1.515,-5.785,1.36,-6.19,0.968,-6.236
B-LOC,-0.226,-0.091,3.378,-0.433,-1.065,-0.861,-1.783,-0.295,-1.57
I-LOC,-0.184,-0.585,2.404,-0.276,-0.485,-0.582,-0.749,-0.442,-0.647
B-MISC,-0.714,-0.353,-0.539,-0.278,3.512,-0.412,-1.047,-0.336,-0.895
I-MISC,-0.697,-0.846,-0.587,-0.297,4.252,-0.84,-1.206,-0.523,-1.001
B-ORG,0.419,-0.187,-1.074,-0.567,-1.607,-1.13,5.392,-0.223,-2.122
I-ORG,-0.117,-1.715,-0.863,-0.631,-1.221,-1.442,5.141,-0.397,-1.908
B-PER,-0.127,-0.806,-0.834,-0.52,-1.228,-1.089,-2.076,-1.01,4.04
I-PER,-0.766,-0.242,-0.67,-0.418,-0.856,-0.903,-1.472,-0.692,2.909

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8
+4.931,BOS,,,,,,,
+3.754,postag[:2]:Fp,,,,,,,
+3.539,bias,,,,,,,
… 15043 more positive …,… 15043 more positive …,,,,,,,
… 3906 more negative …,… 3906 more negative …,,,,,,,
-3.685,word.isupper(),,,,,,,
-7.025,word.istitle(),,,,,,,
+2.397,word.istitle(),,,,,,,
+2.147,-1:word.lower():en,,,,,,,
… 2284 more positive …,… 2284 more positive …,,,,,,,

Weight?,Feature
+4.931,BOS
+3.754,postag[:2]:Fp
+3.539,bias
… 15043 more positive …,… 15043 more positive …
… 3906 more negative …,… 3906 more negative …
-3.685,word.isupper()
-7.025,word.istitle()

Weight?,Feature
+2.397,word.istitle()
+2.147,-1:word.lower():en
… 2284 more positive …,… 2284 more positive …
… 433 more negative …,… 433 more negative …
-1.080,postag:SP
-1.080,postag[:2]:SP
-1.273,-1:word.istitle()

Weight?,Feature
+0.882,-1:word.lower():de
+0.780,-1:word.istitle()
+0.718,word[-3:]:de
+0.711,word.lower():de
… 1684 more positive …,… 1684 more positive …
… 268 more negative …,… 268 more negative …
-1.965,BOS

Weight?,Feature
+2.017,word.isupper()
+0.603,word.istitle()
… 2287 more positive …,… 2287 more positive …
… 337 more negative …,… 337 more negative …
-0.850,-1:word.istitle()
-0.959,postag[:2]:SP
-0.959,postag:SP

Weight?,Feature
+0.864,-1:word.istitle()
+0.616,-1:word.lower():de
+0.591,+1:postag[:2]:Fe
+0.591,+1:postag:Fe
+0.591,"+1:word.lower():"""
… 3684 more positive …,… 3684 more positive …
… 582 more negative …,… 582 more negative …

Weight?,Feature
+3.041,word.isupper()
+2.952,word.lower():efe
+1.851,word[-3:]:EFE
… 3528 more positive …,… 3528 more positive …
… 622 more negative …,… 622 more negative …
-1.416,postag:SP
-1.416,postag[:2]:SP

Weight?,Feature
+1.159,-1:word.lower():de
+0.993,-1:word.istitle()
+0.637,-1:postag:SP
+0.637,-1:postag[:2]:SP
… 3519 more positive …,… 3519 more positive …
… 679 more negative …,… 679 more negative …
-1.290,bias

Weight?,Feature
+1.757,word.istitle()
… 4142 more positive …,… 4142 more positive …
… 352 more negative …,… 352 more negative …
-0.971,-1:postag:DA
-0.971,-1:postag[:2]:DA
-1.503,postag[:2]:DA
-1.503,postag:DA

Weight?,Feature
+1.545,-1:word.istitle()
+0.976,word.istitle()
+0.695,-1:word.lower():josé
+0.677,postag[:2]:NC
+0.677,postag:NC
… 3930 more positive …,… 3930 more positive …
… 363 more negative …,… 363 more negative …


Với all_possible_transitions = True CRF đã học được các trọng số âm lớn cho các chuyển đổi không thể như O -> I-ORG.

# 5. Tùy chỉnh
Bảng trên lớn và khó quan sát, eli5 cung cấp một số tùy chọn để chỉ xem xét một phần của các đặc trưng. Chúng ta có thể chỉ kiểm tra một tập hợp con các nhãn:

In [12]:
eli5.show_weights(crf, top=10, targets=['O', 'B-ORG', 'I-ORG'])

From \ To,O,B-ORG,I-ORG
O,2.732,1.36,-6.19
B-ORG,0.419,-1.13,5.392
I-ORG,-0.117,-1.442,5.141

Weight?,Feature,Unnamed: 2_level_0
Weight?,Feature,Unnamed: 2_level_1
Weight?,Feature,Unnamed: 2_level_2
+4.931,BOS,
+3.754,postag[:2]:Fp,
+3.539,bias,
+2.328,postag:Fc,
+2.328,"word.lower():,",
+2.328,postag[:2]:Fc,
+2.328,"word[-3:]:,",
… 15039 more positive …,… 15039 more positive …,
… 3905 more negative …,… 3905 more negative …,
-2.187,postag:NP,

Weight?,Feature
+4.931,BOS
+3.754,postag[:2]:Fp
+3.539,bias
+2.328,postag:Fc
+2.328,"word.lower():,"
+2.328,postag[:2]:Fc
+2.328,"word[-3:]:,"
… 15039 more positive …,… 15039 more positive …
… 3905 more negative …,… 3905 more negative …
-2.187,postag:NP

Weight?,Feature
+3.041,word.isupper()
+2.952,word.lower():efe
+1.851,word[-3:]:EFE
+1.278,word.lower():gobierno
+1.033,word[-3:]:rno
+1.005,word.istitle()
+0.864,-1:word.lower():del
… 3524 more positive …,… 3524 more positive …
… 621 more negative …,… 621 more negative …
-0.842,-1:word.lower():en

Weight?,Feature
+1.159,-1:word.lower():de
+0.993,-1:word.istitle()
+0.637,-1:postag[:2]:SP
+0.637,-1:postag:SP
+0.570,-1:word.lower():real
+0.547,word.istitle()
… 3517 more positive …,… 3517 more positive …
… 676 more negative …,… 676 more negative …
-0.480,postag:VMI
-0.508,postag[:2]:VM


Một tùy chọn khác là chỉ kiểm tra một số đặc trưng - nó giúp kiểm tra xem một hàm đặc trưng có hoạt động như dự kiến hay không. Ví dụ: hãy kiểm tra cách mô hình sử dụng các đặc trưng khuôn dạng từ bằng cách sử dụng đối số feature_re và ẩn bảng chuyển tiếp:

In [13]:
eli5.show_weights(crf, top=10, feature_re='^word\.is',
                  horizontal_layout=False, show=['targets'])

  eli5.show_weights(crf, top=10, feature_re='^word\.is',


Weight?,Feature
-3.685,word.isupper()
-7.025,word.istitle()

Weight?,Feature
2.397,word.istitle()
0.099,word.isupper()
-0.152,word.isdigit()

Weight?,Feature
0.46,word.istitle()
-0.018,word.isdigit()
-0.345,word.isupper()

Weight?,Feature
2.017,word.isupper()
0.603,word.istitle()
-0.012,word.isdigit()

Weight?,Feature
0.271,word.isdigit()
-0.072,word.isupper()
-0.106,word.istitle()

Weight?,Feature
3.041,word.isupper()
1.005,word.istitle()
-0.044,word.isdigit()

Weight?,Feature
0.547,word.istitle()
0.014,word.isdigit()
-0.012,word.isupper()

Weight?,Feature
1.757,word.istitle()
0.05,word.isupper()
-0.123,word.isdigit()

Weight?,Feature
0.976,word.istitle()
0.193,word.isupper()
-0.106,word.isdigit()


# 6. Trả kết quả về dạng văn bản
Cũng có thể định dạng kết quả dưới dạng văn bản (có thể xuất ra console):

In [14]:
expl = eli5.explain_weights(crf, top=5, targets=['O', 'B-LOC', 'I-LOC'])
print(eli5.format_as_text(expl))

Explained as: CRF

Transition features:
            O    B-LOC    I-LOC
-----  ------  -------  -------
O       2.732    1.217   -4.675
B-LOC  -0.226   -0.091    3.378
I-LOC  -0.184   -0.585    2.404

y='O' top features
Weight  Feature       
------  --------------
+4.931  BOS           
+3.754  postag[:2]:Fp 
+3.539  bias          
… 15043 more positive …
… 3906 more negative …
-3.685  word.isupper()
-7.025  word.istitle()

y='B-LOC' top features
Weight  Feature           
------  ------------------
+2.397  word.istitle()    
+2.147  -1:word.lower():en
  … 2284 more positive …  
  … 433 more negative …   
-1.080  postag:SP         
-1.080  postag[:2]:SP     
-1.273  -1:word.istitle() 

y='I-LOC' top features
Weight  Feature           
------  ------------------
+0.882  -1:word.lower():de
+0.780  -1:word.istitle() 
+0.718  word[-3:]:de      
+0.711  word.lower():de   
  … 1684 more positive …  
  … 268 more negative …   
-1.965  BOS               

