<h1 align="center"> Aplicações em Processamento de Linguagem Natural </h1>
<h2 align="center"> Aula 06 - Extração de Informação (Parte 1)</h2>
<h3 align="center"> Prof. Fernando Vieira da Silva MSc.</h3>

<h2>1. Reconhecimento de Entidades Nomeadas</h2>
<p>O Reconhecimento de Entidades Nomeadas (NER, do inglês Named Entity Recognition) consiste na identificação de nomes próprios em texto e na classificação em categorias, geralmente nomes de pessoas, organizações ou locais (cidades, estados, países, etc). Trata-se de uma tarefa essencial para extração de informação automática, uma vez que, com isso, é possível compreender quais entidades estão sendo tratadas no texto, auxiliando na compreensão de seu assunto como um todo.</p>

<p>O principal desafio está em resolver certas ambiguidades, além de considerar as palavras próximas para escolher a qual categoria uma determinada entidade pertence. Considere o exemplo abaixo:</p>

"Dr. Rodolfo S. Silva, um renomado cardiologista, adquiriu um novo consultório na Av. Edson A. Nascimento pela quantia de R$ 4.5 milhões, que atenderá pacientes do S.U.S. e do plano Saúde Mais Inc."

Nessa frase, temos as seguintes entidades:
* Rodolfo S. Silva (PESSOA)
* Av. Edson A. Nascimento (LOCALIDADE)
* S.U.S. (ORGANIZAÇÃO)
* Saúde Mais Inc. (ORGANIZAÇÃO)

Perceba que NER traz os seguintes desafios:
* Identificar qual palavra faz parte de uma entidade;
* Identificar onde começa uma entidade;
* Identificar onde termina uma entidade;
* Classificar uma entidade.

Há diversas bibliotecas para extração de entidades nomeadas disponíveis porém, a identificação de entidades em um corpus de domínio específico ou a identificação de entidades de categorias diferentes das padrão pode requerer o treinamento de um modelo de NER. Imagine, por exemplo, que se deseja extrair nomes de advogados e seus clientes em uma base de documentos jurídicos. Perceba que todos são nomes próprios, mas as palavras que os circundam devem ser diferentes, de uma forma geral. Nesse caso, é necessário treinar um modelo para isso, uma vez que os modelos padrão não atendem esse tipo de categoria.

Nesta aula veremos como fazer isso utilizando o algoritmo CRF (Conditional Random Field), uma das abordagens mais comuns para esse problema.

<h2>2. Algoritmo CRF (Conditional Random Field)</h2>

<p>Trata-se de um modelo discriminativo e probabilístico que trabalha com sequências. Em outras palavras, as amostras anterior e seguinte são levadas em consideração. A expressão abaixo ilustra esse modelo:</p>


![](https://cdn-images-1.medium.com/max/800/1*srzbO2c_h5FOZ3Kk0nhjpQ.gif)
<p fontsize='small'>Fonte: https://medium.com/ml2vec/overview-of-conditional-random-fields-68a2a20fa541</p>

No caso, <i>f</i> é o conjunto de atributos, que deve ser codificado e lambda é o conjunto de pesos aprendido pelo algoritmo. Exemplos de atributos para NER:

f1(s,i,li,li−1)=1 Se a primeira letra de li é maiúscula; senão 0

f2(s,i,li,li−1)=1 Se li é composta somente por letras maíusculas; senão 0

f3(s,i,li,li−1)=1 Se a POS Tag de li for NOUN; senão 0




Vamos estudar um exemplo de um modelo de NER em Espanhol para entidades do corpus CoNLL2002 (um corpus com entidades anotadas, disponibilizado em desafio apresentado na 6th Conference on Natural Language Learning, 2002), inspirado no código disponível em https://eli5.readthedocs.io/en/latest/tutorials/sklearn_crfsuite.html

In [1]:
!pip install sklearn_crfsuite

Collecting sklearn_crfsuite
  Downloading https://files.pythonhosted.org/packages/25/74/5b7befa513482e6dee1f3dd68171a6c9dfc14c0eaa00f885ffeba54fe9b0/sklearn_crfsuite-0.3.6-py2.py3-none-any.whl
Collecting python-crfsuite>=0.8.3 (from sklearn_crfsuite)
[?25l  Downloading https://files.pythonhosted.org/packages/2f/86/cfcd71edca9d25d3d331209a20f6314b6f3f134c29478f90559cee9ce091/python_crfsuite-0.9.6-cp36-cp36m-manylinux1_x86_64.whl (754kB)
[K    100% |████████████████████████████████| 757kB 13.5MB/s 
Installing collected packages: python-crfsuite, sklearn-crfsuite
Successfully installed python-crfsuite-0.9.6 sklearn-crfsuite-0.3.6


In [2]:
!pip install eli5



In [3]:
import nltk
import sklearn_crfsuite
import eli5

In [4]:
train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))
test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))

In [5]:
print((train_sents[:1]))

[[('Melbourne', 'NP', 'B-LOC'), ('(', 'Fpa', 'O'), ('Australia', 'NP', 'B-LOC'), (')', 'Fpt', 'O'), (',', 'Fc', 'O'), ('25', 'Z', 'O'), ('may', 'NC', 'O'), ('(', 'Fpa', 'O'), ('EFE', 'NC', 'B-ORG'), (')', 'Fpt', 'O'), ('.', 'Fp', 'O')]]


In [6]:
import pprint

pprint.pprint(len(train_sents))
pprint.pprint(len(test_sents))

pprint.pprint(train_sents[2])
pprint.pprint(test_sents[2])

8323
1517
[('El', 'DA', 'O'),
 ('Abogado', 'NC', 'B-PER'),
 ('General', 'AQ', 'I-PER'),
 ('del', 'SP', 'I-PER'),
 ('Estado', 'NC', 'I-PER'),
 (',', 'Fc', 'O'),
 ('Daryl', 'VMI', 'B-PER'),
 ('Williams', 'NC', 'I-PER'),
 (',', 'Fc', 'O'),
 ('subrayó', 'VMI', 'O'),
 ('hoy', 'RG', 'O'),
 ('la', 'DA', 'O'),
 ('necesidad', 'NC', 'O'),
 ('de', 'SP', 'O'),
 ('tomar', 'VMN', 'O'),
 ('medidas', 'NC', 'O'),
 ('para', 'SP', 'O'),
 ('proteger', 'VMN', 'O'),
 ('al', 'SP', 'O'),
 ('sistema', 'NC', 'O'),
 ('judicial', 'AQ', 'O'),
 ('australiano', 'AQ', 'O'),
 ('frente', 'RG', 'O'),
 ('a', 'SP', 'O'),
 ('una', 'DI', 'O'),
 ('página', 'NC', 'O'),
 ('de', 'SP', 'O'),
 ('internet', 'NC', 'O'),
 ('que', 'PR', 'O'),
 ('imposibilita', 'VMI', 'O'),
 ('el', 'DA', 'O'),
 ('cumplimiento', 'NC', 'O'),
 ('de', 'SP', 'O'),
 ('los', 'DA', 'O'),
 ('principios', 'NC', 'O'),
 ('básicos', 'AQ', 'O'),
 ('de', 'SP', 'O'),
 ('la', 'DA', 'O'),
 ('Ley', 'NC', 'B-MISC'),
 ('.', 'Fp', 'O')]
[('Las', 'DA', 'O'),
 ('reservas', '

Observe que as palavras estão anotadas seguindo a codificação IOB (Inside, Begin e Outside), ou seja, I para uma palavra "dentro" de uma entidade, B para uma palavra que "começa" uma entidade e O para palavras que estão fora de nomes de entidades, ou seja, que não se tratam de entidades.

Agora vamos definir a função que extrai os nossos atributos de uma dada palavra. A função word2features extrai os atributos mais comuns para tarefas de NER:

* Flag indicando se a primeira letra é maiúscula
* Flag indicando se todas as letras são maiúsculas
* POS Tag da palavra, e a palavra em si (no caso, se transformará em diversos atributos, um para cada POS tag presente e um para cada ocorrência de palavra diferente)
* Os mesmos atributos para a palavra anterior, e para a próxima


In [7]:
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]

    features = {
        'bias': 1.0,
        'word.lower()': word.lower(),
        'word[-3:]': word[-3:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2],
        'hasnumbers': any(char.isdigit() for char in word)
    }
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': word1.lower(),
            '-1:word.istitle()': word1.istitle(),
            '-1:word.isupper()': word1.isupper(),
            '-1:postag': postag1,
            '-1:postag[:2]': postag1[:2],
            '-1:hasnumbers': any(char.isdigit() for char in word1)
        })
    else:
        features['BOS'] = True

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': word1.lower(),
            '+1:word.istitle()': word1.istitle(),
            '+1:word.isupper()': word1.isupper(),
            '+1:postag': postag1,
            '+1:postag[:2]': postag1[:2],
            '+1:hasnumbers': any(char.isdigit() for char in word1)
        })
    else:
        features['EOS'] = True

    return features


Agora vamos escrever o código para extrair esses atributos do corpus

In [8]:
def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

def sent2labels(sent):
    return [label for token, postag, label in sent]

def sent2tokens(sent):
    return [token for token, postag, label in sent]

X_train = [sent2features(s) for s in train_sents]
y_train = [sent2labels(s) for s in train_sents]

X_test = [sent2features(s) for s in test_sents]
y_test = [sent2labels(s) for s in test_sents]

Vamos ver um exemplo de atributos extraídos

In [9]:
y_train[0]

['B-LOC', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'O', 'O']

In [10]:
X_train[0][1]

{'bias': 1.0,
 'word.lower()': '(',
 'word[-3:]': '(',
 'word.isupper()': False,
 'word.istitle()': False,
 'word.isdigit()': False,
 'postag': 'Fpa',
 'postag[:2]': 'Fp',
 'hasnumbers': False,
 '-1:word.lower()': 'melbourne',
 '-1:word.istitle()': True,
 '-1:word.isupper()': False,
 '-1:postag': 'NP',
 '-1:postag[:2]': 'NP',
 '-1:hasnumbers': False,
 '+1:word.lower()': 'australia',
 '+1:word.istitle()': True,
 '+1:word.isupper()': False,
 '+1:postag': 'NP',
 '+1:postag[:2]': 'NP',
 '+1:hasnumbers': False}

Agora vamos treinar nosso CRF, usando o algoritmo L-BFGS para descida do gradiente.

In [11]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=20,
    all_possible_states=False # Replica os atributos para cada categoria. 
                              # Isso permite aumentar a performance para categorias específicas, mas deixa o treino mais lento. 
                              # Não vamos usar neste exemplo.
)
crf.fit(X_train, y_train);


Agora vamos avaliar os resultados. Lembrando que a categoria O (não entidades) não é relevante para nós.

In [12]:
from sklearn_crfsuite import metrics

labels = list(crf.classes_)
labels.remove('O')
labels

y_pred = crf.predict(X_test)
metrics.flat_f1_score(y_test, y_pred,
                      average='weighted', labels=labels)

0.612204178501461

In [13]:
# Agrupandos resultados de B e I
sorted_labels = sorted(
    labels,
    key=lambda name: (name[1:], name[0])
)
print(metrics.flat_classification_report(
    y_test, y_pred, labels=sorted_labels, digits=3
))

              precision    recall  f1-score   support

       B-LOC      0.686     0.593     0.636      1084
       I-LOC      0.519     0.209     0.298       325
      B-MISC      0.373     0.083     0.135       339
      I-MISC      0.555     0.181     0.273       557
       B-ORG      0.641     0.756     0.694      1400
       I-ORG      0.598     0.796     0.683      1104
       B-PER      0.720     0.769     0.743       735
       I-PER      0.793     0.869     0.829       634

   micro avg      0.657     0.630     0.643      6178
   macro avg      0.611     0.532     0.537      6178
weighted avg      0.637     0.630     0.612      6178



In [14]:
eli5.show_weights(crf, top=30)

From \ To,O,B-LOC,I-LOC,B-MISC,I-MISC,B-ORG,I-ORG,B-PER,I-PER
O,3.035,2.028,0.0,2.499,0.0,3.338,0.0,2.292,0.0
B-LOC,-0.179,-0.073,3.666,0.0,0.0,0.0,0.0,-0.195,0.0
I-LOC,-0.256,-0.609,3.105,0.0,0.0,0.0,0.0,0.0,0.0
B-MISC,-0.802,-0.342,0.0,0.0,4.833,-0.367,0.0,-0.337,0.0
I-MISC,-0.776,-1.028,0.0,-0.544,4.781,-0.824,0.0,-0.642,0.0
B-ORG,-0.09,-0.241,0.0,-0.561,0.0,-1.019,4.676,-0.265,0.0
I-ORG,-0.44,-1.778,0.0,-0.848,0.0,-1.393,5.004,-0.41,0.0
B-PER,-0.217,-0.798,0.0,0.0,0.0,-1.023,0.0,-0.958,4.6
I-PER,-0.83,-0.53,0.0,0.0,0.0,0.0,0.0,-0.671,3.474

Weight?,Feature,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0
Weight?,Feature,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Weight?,Feature,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Weight?,Feature,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Weight?,Feature,Unnamed: 2_level_4,Unnamed: 3_level_4,Unnamed: 4_level_4,Unnamed: 5_level_4,Unnamed: 6_level_4,Unnamed: 7_level_4,Unnamed: 8_level_4
Weight?,Feature,Unnamed: 2_level_5,Unnamed: 3_level_5,Unnamed: 4_level_5,Unnamed: 5_level_5,Unnamed: 6_level_5,Unnamed: 7_level_5,Unnamed: 8_level_5
Weight?,Feature,Unnamed: 2_level_6,Unnamed: 3_level_6,Unnamed: 4_level_6,Unnamed: 5_level_6,Unnamed: 6_level_6,Unnamed: 7_level_6,Unnamed: 8_level_6
Weight?,Feature,Unnamed: 2_level_7,Unnamed: 3_level_7,Unnamed: 4_level_7,Unnamed: 5_level_7,Unnamed: 6_level_7,Unnamed: 7_level_7,Unnamed: 8_level_7
Weight?,Feature,Unnamed: 2_level_8,Unnamed: 3_level_8,Unnamed: 4_level_8,Unnamed: 5_level_8,Unnamed: 6_level_8,Unnamed: 7_level_8,Unnamed: 8_level_8
+4.138,postag[:2]:Fp,,,,,,,
+3.004,bias,,,,,,,
+3.000,BOS,,,,,,,
+2.162,"word[-3:]:,",,,,,,,
+2.162,"word.lower():,",,,,,,,
+2.162,postag:Fc,,,,,,,
+2.162,postag[:2]:Fc,,,,,,,
+2.146,postag:CC,,,,,,,
+2.146,postag[:2]:CC,,,,,,,
+1.982,EOS,,,,,,,

Weight?,Feature
+4.138,postag[:2]:Fp
+3.004,bias
+3.000,BOS
+2.162,"word[-3:]:,"
+2.162,"word.lower():,"
+2.162,postag:Fc
+2.162,postag[:2]:Fc
+2.146,postag:CC
+2.146,postag[:2]:CC
+1.982,EOS

Weight?,Feature
+2.288,word.istitle()
+2.084,-1:word.lower():en
+0.929,word[-3:]:rid
+0.928,word.lower():madrid
+0.660,word.lower():españa
+0.655,word[-3:]:ona
+0.607,word[-3:]:aña
+0.587,+1:postag[:2]:Fp
+0.529,word.lower():parís
+0.528,word[-3:]:rís

Weight?,Feature
+0.882,-1:word.istitle()
+0.625,word[-3:]:de
+0.620,word.lower():de
+0.582,-1:word.lower():de
+0.548,-1:word.lower():san
+0.397,word.istitle()
+0.353,-1:word.lower():la
+0.342,+1:word.istitle()
+0.267,word[-3:]:del
+0.265,-1:postag[:2]:SP

Weight?,Feature
+1.833,word.isupper()
+0.539,word.istitle()
+0.511,postag[:2]:Fe
+0.511,postag:Fe
+0.511,"word.lower():"""
+0.511,"word[-3:]:"""
+0.411,word.lower():liga
+0.410,word[-3:]:iga
+0.394,-1:postag[:2]:Fe
+0.394,"-1:word.lower():"""

Weight?,Feature
+1.095,-1:word.istitle()
+0.923,-1:word.lower():de
+0.579,+1:postag:Fe
+0.579,"+1:word.lower():"""
+0.579,+1:postag[:2]:Fe
+0.332,-1:word.lower():liga
+0.305,-1:postag:NC
+0.305,-1:postag[:2]:NC
+0.266,-1:postag[:2]:SP
+0.266,-1:postag:SP

Weight?,Feature
+2.736,word.lower():efe
+2.681,word.isupper()
+1.965,word[-3:]:EFE
+1.520,word.istitle()
+1.204,word.lower():gobierno
+0.999,word[-3:]:rno
+0.973,-1:word.lower():del
+0.699,-1:word.lower():al
+0.679,word[-3:]:PP
+0.679,word.lower():pp

Weight?,Feature
+1.512,-1:word.istitle()
+1.369,-1:word.lower():de
+0.612,word[-3:]:rid
+0.600,word.lower():madrid
+0.571,-1:word.lower():real
+0.433,word[-3:]:la
+0.392,+1:word.lower():(
+0.392,+1:postag:Fpa
+0.376,-1:word.lower():consejo
+0.375,postag:AQ

Weight?,Feature
+1.638,word.istitle()
+0.757,+1:postag:VMI
+0.708,-1:postag:VMI
+0.651,+1:postag[:2]:VM
+0.585,-1:word.lower():a
+0.543,postag[:2]:NP
+0.543,postag:NP
+0.520,word[-3:]:osé
+0.504,word.lower():josé
+0.486,-1:postag[:2]:VM

Weight?,Feature
+2.791,-1:word.istitle()
+0.664,-1:word.lower():josé
+0.605,word.istitle()
+0.593,-1:postag:AQ
+0.593,-1:postag[:2]:AQ
+0.497,-1:word.lower():juan
+0.450,-1:postag[:2]:VM
+0.430,-1:word.lower():maría
+0.402,-1:postag:VMI
+0.352,-1:word.lower():luis


<p><b>Exercício 6:</b>Crie um modelo de NER para identificar nomes de jogadores de futebol, no corpus de eventos de narração de jogos.</p>

In [15]:
import pickle
import os
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
from nltk.chunk import conlltags2tree, tree2conlltags
import string

path = "../input"

x_train = pickle.load(open(os.path.join(path, 'football_ner_x_train.pkl'), 'rb'))
y_train = pickle.load(open(os.path.join(path, 'football_ner_y_train.pkl'), 'rb'))
        
x_test = pickle.load(open(os.path.join(path, 'football_ner_x_test.pkl'), 'rb'))
y_test = pickle.load(open(os.path.join(path, 'football_ner_y_test.pkl'), 'rb'))

In [16]:
#print(x_train[11:14])
print(y_train[:10])

[list([0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0])
 list([0, 0, 0, 0, 0, 0, 0, 1, 1, 0]) list([0, 0, 0, 0, 0, 0, 0, 1, 1, 0])
 list([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
 list([0, 0, 0, 1, 1, 1, 0, 0, 0, 0]) list([0, 0, 0, 0, 0, 0, 1, 1, 0])
 list([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])
 list([0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0])
 list([0, 0, 1, 1, 0, 0, 0, 0, 0])
 list([1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])]


In [17]:
from nltk.corpus import stopwords
stopwords_list = stopwords.words('english')

def preprocess(sent):
    sent = nltk.word_tokenize(sent)
    sent = nltk.pos_tag(sent)
    non_stopwords = [w for w in sent if not w[0].lower() in stopwords_list]
    non_punctuation = [w for w in non_stopwords if not w[0] in string.punctuation]
    return non_stopwords
    
    #return sent

In [18]:
from nltk import pos_tag
from nltk import word_tokenize
x_train_postag=[]
x_test_postag=[]
for i in x_train:
    x_train_postag.append(preprocess(str(i)))

for i in x_test:
    x_test_postag.append(preprocess(str(i)))

In [19]:
pattern = 'NP: {<DT>?<JJ>*<NN>}'
cp = nltk.RegexpParser(pattern)
cstrain=[]
cstest=[]
for i in x_train_postag:
    cstrain.append( cp.parse(i))

for i in x_test_postag:
    cstest.append( cp.parse(i))


In [20]:
iob_tag_train=[]
iob_tag_test=[]
for i in cstrain:
    iob_tag_train.append(tree2conlltags(i))

for i in cstest:
    iob_tag_test.append(tree2conlltags(i))


In [21]:
import nltk
import sklearn_crfsuite
import eli5
import numpy as np
import pandas as pd

**Aviso**, Fernando desculpa fazer um For grande mas fica mais legivel, eu que sou programador java das antigas fica complicado ler tudo em uma linha apenas.

In [22]:
#desbinarizando a parada
#y_train2 =['O' if y==0 else if y==1 'I' for y in y_train]
y_train2=[]
# for yList in y_train:
#     for y in yList:
#         if (y==0):
#             y_train2.append('O')
#         elif (y==1):
#             y_train2.append('I')
# for yList in y_train:
#     y=yList[0]
#     if (y==0):
#         y_train2.append('O')
#     elif (y==1):
#         y_train2.append('I')

# y_train2 =[['O' if y==0 else 'I' for y in y_train_] for y_train_ in y_train]

In [23]:
y_train2 =[['O' if y==0 else 'I' for y in y_train_] for y_train_ in y_train]

In [24]:
y_test2 =[['O' if y==0 else 'I' for y in y_test_] for y_test_ in y_test]

In [25]:
# #y_test2 =['O' if y==0 else 'I' for y in y_test]

# #desbinarizando a parada
# #y_train2 =['O' if y==0 else if y==1 'I' for y in y_train]
# y_test2=[]
# # for yList in y_test:
# #     for y in yList:
# #         if (y==0):
# #             y_test2.append('O')
# #         else:
# #             y_test2.append('I')

# for yList in y_test:
#     y=yList[0]
#     if (y==0):
#         y_test2.append('O')
#     elif (y==1):
#         y_test2.append('I')


# #y_test2 =[['O' if y==0 else 'I' for y in y_test_] for y_test_ in y_test]

In [26]:
print(len(y_train2))
print(len(y_test2))
print(len(iob_tag_train))
print(len(iob_tag_test))

713
287
713
287


In [27]:
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    
    #hack
   # word = word[0]
   # postag=postag[0]
    features = {
        'bias': 1.0,
        'word.lower()': word.lower(),
        'word[-3:]': word[-3:],
        'word.isupper()': word.isupper(),
        'word.istitle()': word.istitle(),
        'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2],
        'hasnumbers': any(char.isdigit() for char in word)
    }
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': word1.lower(),
            '-1:word.istitle()': word1.istitle(),
            '-1:word.isupper()': word1.isupper(),
            '-1:postag': postag1,
            '-1:postag[:2]': postag1[:2],
            '-1:hasnumbers': any(char.isdigit() for char in word1)
        })
    else:
        features['BOS'] = True

    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': word1.lower(),
            '+1:word.istitle()': word1.istitle(),
            '+1:word.isupper()': word1.isupper(),
            '+1:postag': postag1,
            '+1:postag[:2]': postag1[:2],
            '+1:hasnumbers': any(char.isdigit() for char in word1)
        })
    else:
        features['EOS'] = True

    return features


In [28]:
# X_train = [ne_tree_train for s in iob_tag_train]
# X_test = [ne_tree_test for s in iob_tag_test]

In [29]:
X_train = [sent2features(s) for s in iob_tag_train]
X_test = [sent2features(s) for s in iob_tag_test]

In [30]:
X_train = np.array(X_train)
X_test = np.array(X_test)


In [31]:
type(y_train2)

list

In [32]:
y_train = np.array(y_train2)
y_test = np.array(y_test2)

In [33]:
print(len(X_train))
print(len(X_test))
print(len(y_train))
print(len(y_test))

713
287
713
287


In [34]:
crf = sklearn_crfsuite.CRF(
    algorithm='lbfgs',
    c1=0.1,
    c2=0.1,
    max_iterations=20,
    all_possible_states=False # Replica os atributos para cada categoria. 
                              # Isso permite aumentar a performance para categorias específicas, mas deixa o treino mais lento. 
                              # Não vamos usar neste exemplo.
)
crf.fit(X_train, y_train);


ValueError: The numbers of items and labels differ: |x| = 99, |y| = 31

In [35]:
labels = list(crf.classes_)
labels.remove('O')
labels



ValueError: Invalid model file '/tmp/model8wa3t6z1.crfsuite'

In [36]:
y_pred = crf.predict(X_test)


ValueError: Invalid model file '/tmp/model8wa3t6z1.crfsuite'

In [37]:
metrics.flat_f1_score(y_test, y_pred,
                      average='weighted', labels=labels)


ValueError: Found input variables with inconsistent numbers of samples: [4561, 51533]

In [38]:

sorted_labels = sorted(
    labels,
    key=lambda name: (name[1:], name[0])
)
print(metrics.flat_classification_report(
    y_test2, y_pred, labels=sorted_labels, digits=3
))

ValueError: Found input variables with inconsistent numbers of samples: [4561, 51533]

In [39]:
eli5.show_weights(crf, top=30)

ValueError: Invalid model file '/tmp/model8wa3t6z1.crfsuite'