<h1 align="center"> Aplicações em Processamento de Linguagem Natural </h1>
<h2 align="center"> Aula 07 - Extração de Informação (Parte 2)</h2>
<h3 align="center"> Prof. Fernando Vieira da Silva MSc.</h3>

<h2>1. Extração de Relacionamentos</h2>
<p>A extração de relacionamentos consiste em identificar a ligação entre diversas entidades nomeadas no texto. Isso envolve mencionar qual é o tipo da ligação entre duas entidades. Considere o exemplo de sentença abaixo.</p>

<p>"Carlos Alberto de Nogueira é o morador mais antigo da Rua Praça da Alegria."</p>

<p>Temos as entidades:</p>

* Carlos Alberto de Nogueira (PESSOA)
* Rua Praça da Alegria (LOCALIDADE)

<p>Essas mesmas entidades estão relacionadas da seguinte forma:</p>

[Carlos Alberto de Nogueira (PERSON); morador mais antigo; Rua Praça da Alegria (LOCALIDADE)]


<p>Um dos mais famosos exemplos de sistema de reconhecimento é o [Never-Ending Language Learning (NELL)](http://rtw.ml.cmu.edu/), projeto desenvolvido pela Universidade Carnigie Mellon, com participação do Google e inclusive de pesquisadores brasileiros financiados pelo CNPq. Esse projeto consiste em extrair relacionamentos de milhões de páginas da internet, criando uma gigantesca base de conhecimento.</p>

<h2>2. Métodos para identificação de relacionamentos</h2>

<p>Os métodos mais comuns para identificar relacionamentos entre entidades são:</p>

* **Padrões codificados manualmente**: Basta criar padrões usando expressões regulares, por exemplo, para identificar que duas entidades se relacionam. Assim como em "X mora em Y" pode ser um padrão para identificar o relacionamento (X, mora_em, Y) entre uma entidade X do tipo PESSOA e uma entidade Y do tipo LOCALIDADE.
* **Métodos bootstraping**: Com poucos dados, procura por ocorrências de duas entidades em que já se conhece o relacionamento (no Google, por exemplo), e usa os modelos encontrados como modelos para o mesmo relacionamento entre outras entidades.
* **Métodos supervisionados**: Com base num corpus anotado com relacionamentos, criar modelos que 1) detecte quando existe o relacionamento entre duas entidades e 2) classifique o tipo de relacionamento entre elas. 

<p>Nesta aula, vamos ver um método supervisionado para classificar o relacionamento entre entidades, usando técnicas que já utilizamos em aulas anteriores.</p>

<p>Para isso, utilizaremos alguns atributos mais comuns para o problema, como:</p>

* Bag of Words/LSA
* Flags indicadores dos tipos das entidades
* Número de palavras entre as duas entidades
* Flag indicando se o texto de uma entidade é composto pelo texto da outra
* POS tags
* etc



<h2>3. Criando um Modelo Supervisionado</h2>
<p> Vamos utilizar o corpus [Figure Eight: Medical Sentence Summary](https://www.kaggle.com/kmader/figure-eight-medical-sentence-summary), que possui diversas sentenças extraídas do PubMed, com entidades anotadas, assim como seus tipos de relacionamento.</p>

In [None]:
import pandas as pd

df_train = pd.read_csv('../input/figure-eight-medical-sentence-summary/train.csv')
df_test = pd.read_csv('../input/figure-eight-medical-sentence-summary/test.csv')

df_train.head(20)

In [None]:
df_train['relation'].unique()

<p>Transformamos as sentenças e tipos de relacionamento em matrizes numpy. Também binarizamos os rótulos dos relacionamentos, para utilizarmos no nosso classificador logo mais.</p>

In [None]:
import numpy as np

x_train = df_train['sentence'].as_matrix()
y_train = df_train['relation'].as_matrix()

from sklearn.preprocessing import label_binarize

y_train = label_binarize(y_train, classes=df_train['relation'].unique())

print(x_train[:10])
print(y_train[:10])

<p>Como não temos os tipos das entidades, mas sabemos que se trata de nomes de medicamentos e doenças na maioria dos casos, não utilizaremos o tipo das entidades como atributos, mas utilizaremos os POS tags de todas as palavras entre as entidades. Vamos criar outras matrizes com esses atributos. </p>

<p>Para os POS Tags, vamos fazer algo parecido ao chunking sugerido em https://courses.cs.washington.edu/courses/cse517/13wi/slides/cse517wi13-RelationExtraction.pdf, mas ao invés de usar chunking, vamos criar 3-grams desses POS tags para simplificar.</p>

In [None]:
x_train_sub_list = []

for i, row in df_train.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    len_t1 = len(row['term1'])
    
    pos_t2 = row['sentence'].find(row['term2'])    
    
    x_train_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    

x_train_sub = np.array(x_train_sub_list)

print(x_train_sub[:10])

<p>Agora vamos definir duas funções de tokenização: uma para tokenizar bag-of-words e outra para tokenizar os POS tags</p>

In [None]:
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import string
from nltk.corpus import wordnet

def my_tokenizer_pos(doc):
    words = word_tokenize(doc)
    
    pos_tags = pos_tag(words)
    
    return [pos[1] for pos in pos_tags]

# testando nossa função:

for x in x_train_sub[:10]:
    print(my_tokenizer_pos(x))

In [None]:
stopwords_list = stopwords.words('english')

lemmatizer = WordNetLemmatizer()

def my_tokenizer_bow(doc):
    words = word_tokenize(doc)
    
    pos_tags = pos_tag(words)
    
    non_stopwords = [w for w in pos_tags if not w[0].lower() in stopwords_list]
    
    non_punctuation = [w for w in non_stopwords if not w[0] in string.punctuation]
    
    lemmas = []
    for w in non_punctuation:
        if w[1].startswith('J'):
            pos = wordnet.ADJ
        elif w[1].startswith('V'):
            pos = wordnet.VERB
        elif w[1].startswith('N'):
            pos = wordnet.NOUN
        elif w[1].startswith('R'):
            pos = wordnet.ADV
        else:
            pos = wordnet.NOUN
        
        lemmas.append(lemmatizer.lemmatize(w[0], pos))

    return lemmas

<p>Vamos reaproveitar a classe para seleção de atributos usando SVD.</p>

In [None]:
from sklearn.decomposition import TruncatedSVD

class SVDDimSelect(object):
    def fit(self, X, y=None):        
        try:
            self.svd_transformer = TruncatedSVD(n_components=round(X.shape[1]/2))
            self.svd_transformer.fit(X)
        
            cummulative_variance = 0.0
            k = 0
            for var in sorted(self.svd_transformer.explained_variance_ratio_)[::-1]:
                cummulative_variance += var
                if cummulative_variance >= 0.5:
                    break
                else:
                    k += 1
                
            self.svd_transformer = TruncatedSVD(n_components=k)
        except Exception as ex:
            print(ex)
            
        return self.svd_transformer.fit(X)
    
    def transform(self, X, Y=None):
        return self.svd_transformer.transform(X)
        
    def get_params(self, deep=True):
        return {}

<p>Agora vamos criar nosso Pipeline. Em resumo, vamos usar o TFIDF Vectorizer e o nosso POS Tagger em paralelo, e depois juntar os atributos para redimensionar usando o SVD.</p>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import scipy

clf = OneVsRestClassifier(LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial'))


my_pipeline = Pipeline([
                        ('union', FeatureUnion([('bow', TfidfVectorizer(tokenizer=my_tokenizer_bow)),\
                                                ('pos', Pipeline([('pos-vect', CountVectorizer(tokenizer=my_tokenizer_pos)), \
                                                         ('pos-tfidf', TfidfTransformer())]))
                                               ])),\
                       ('svd', SVDDimSelect()), \
                       ('clf', clf)])

par = {'clf__estimator__C' : np.logspace(-4, 4, 20)}

hyperpar_selector = RandomizedSearchCV(my_pipeline, par, cv=3, scoring='f1_weighted', n_jobs=1, n_iter=20)

<p>Agora vamos treinar os algoritmos</p>

In [None]:
print(x_train_sub.shape)
print(y_train.shape)

hyperpar_selector.fit(X=x_train_sub, y=y_train)

In [None]:
x_test = df_test['sentence'].as_matrix()
y_test = df_test['relation'].as_matrix()

y_test = label_binarize(y_test, classes=df_train['relation'].unique())

x_test_sub_list = []

for i, row in df_test.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    pos_t2 = row['sentence'].find(row['term2'])    

    if pos_t1 < pos_t2:
        len_t1 = len(row['term1'])    
        x_test_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    else:
        len_t2 = len(row['term2'])    
        x_test_sub_list.append(row['sentence'][pos_t2+len_t2:pos_t1])
    

x_test_sub = np.array(x_test_sub_list)

In [None]:
y_predicted = hyperpar_selector.predict(x_test)

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_predicted, target_names=df_train['relation'].unique()))

<p>
</p>

<p><b>Exercício 7:</b> Treine um modelo de extração de relacionamentos em Português, utilizando o corpus extraído do DBPedia e com relacionamentos entre pares de entidades anotadas.</p>

In [1]:
!python -m spacy download pt_core_news_sm

Collecting pt_core_news_sm==2.1.0 from https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.1.0/pt_core_news_sm-2.1.0.tar.gz#egg=pt_core_news_sm==2.1.0
[?25l  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-2.1.0/pt_core_news_sm-2.1.0.tar.gz (12.8MB)
[K    100% |████████████████████████████████| 12.9MB 98.2MB/s eta 0:00:01
[?25hInstalling collected packages: pt-core-news-sm
  Running setup.py install for pt-core-news-sm ... [?25ldone
[?25hSuccessfully installed pt-core-news-sm-2.1.0
[33mYou are using pip version 19.0.3, however version 19.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('pt_core_news_sm')


In [2]:
import pt_core_news_sm
nlp = pt_core_news_sm.load()
import nltk
from nltk.stem import RSLPStemmer

In [3]:
import warnings
warnings.filterwarnings(action='ignore')

In [4]:
start = False
lista = []
with open('../input/dbpedia-with-entity-relations-in-portuguese/DBpediaRelations-PT-0.2.txt') as file:
    for line in file:
        if(line.strip() == '*********'):
            break
        if(line.strip() == '****************************'):
            if (not start):
                dic = {}
            else:
                #print(dic)
                lista.append(dic)
            start = ~start
        else:
            if (start):
                if (line.strip() != ''):
                    #print(line)
                    aux = line.split(':')
                    if(len(aux) < 2):
                        print(aux)
                    dic[aux[0].strip()] = aux[1].strip()  

In [5]:
import pandas as pd
import numpy as np
import random
random.seed(42)
porcentagem = 0.7
mask = np.ones(int(len(lista)*porcentagem))
mask = np.concatenate((mask, np.zeros(len(lista) - len(mask)))) == 1
random.shuffle(mask)

In [6]:
lista = pd.DataFrame(lista)

In [7]:
treino = lista[mask]
teste = lista[~mask]

In [8]:
teste[:10]

Unnamed: 0,ENTITY1,ENTITY2,MANUALLY CHECKED,REL TYPE,SENTENCE,TYPE1,TYPE2
2,América Latina,Brasil,True,locatedInArea,A América Latina destaca-se ainda por sua prod...,LOCATION,LOCATION
5,Albert Einstein,Ulm,True,origin,"É em Ulm que nasce Albert Einstein, em 14 de m...",PERSON,LOCATION
14,Afeganistão,Kandahar,True,other,A capital do Afeganistão foi transferida em 17...,LOCATION,LOCATION
15,Afeganistão,Hamid Karzai,True,keyPerson,Em dezembro de 2001 o Conselho de Segurança da...,LOCATION,PERSON
17,Angola,Luanda,True,other,O nome Angola é uma derivação portuguesa do te...,LOCATION,LOCATION
18,Angola,Luanda,True,other,No dia 11 de novembro de 1975 foi proclamada a...,LOCATION,LOCATION
19,Angola,Luanda,True,other,"Em Angola, e mais especialmente em Luanda, a e...",LOCATION,LOCATION
23,Amazonas,Manaus,True,other,Ganhou a condição de Província do Amazonas pel...,LOCATION,LOCATION
27,Amazonas,Maués,True,other,"Chegaram ao Amazonas os primeiros imigrantes, ...",LOCATION,LOCATION
29,Amazonas,Manaus,True,other,O Amazonas possui várias instituições educacio...,LOCATION,LOCATION


In [9]:
treino[:10]

Unnamed: 0,ENTITY1,ENTITY2,MANUALLY CHECKED,REL TYPE,SENTENCE,TYPE1,TYPE2
0,América Latina,Argentina,True,locatedInArea,A América Latina localiza-se totalmente no hem...,LOCATION,LOCATION
1,América Latina,Brasil,True,locatedInArea,"A América Latina não apresenta, ao contrário d...",LOCATION,LOCATION
3,Albert Einstein,Ulm,True,origin,Albert Einstein nasceu na região alemã de Würt...,PERSON,LOCATION
4,Albert Einstein,Württemberg,True,origin,Albert Einstein nasceu na região alemã de Würt...,PERSON,LOCATION
6,Adriano,Trajano,True,successor,"Nascido em Itálica na atual Espanha, ou em Rom...",PERSON,PERSON
7,Adriano,Itália,True,origin,"Nascido em Itálica na atual Espanha, ou em Rom...",PERSON,LOCATION
8,Adriano,Trajano,True,successor,Talvez por entender que o império esgotara sua...,PERSON,PERSON
9,Adriano,Trajano,True,successor,Adriano também retificou os limites de uma out...,PERSON,PERSON
10,Dom Afonso de Portugal,Lisboa,True,origin,"Dom Afonso de Portugal (Lisboa, 18 de Maio de ...",PERSON,LOCATION
11,Dom Afonso de Portugal,Santarém,True,deathOrBurialPlace,"Dom Afonso de Portugal (Lisboa, 18 de Maio de ...",PERSON,LOCATION


In [10]:
len(lista)

98023

In [11]:
treino['REL TYPE'].unique()

x_train = treino['SENTENCE'].as_matrix()
y_train = treino['REL TYPE'].as_matrix()

from sklearn.preprocessing import label_binarize

y_train = label_binarize(y_train, classes=treino['REL TYPE'].unique())

print(x_train[:10])
print(y_train[:10])

['A América Latina localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a Argentina e o Chile.'
 'A América Latina não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no Brasil; lagoas de inundação nas planícies Amazônica e do Orinoco; e lagos de altitude, como o Titicaca, entre o Peru e a Bolívia.'
 'Albert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 'Albert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 'Nascido em Itálica na atual Espanha, ou em Roma, na Itália, Adriano era descendente de colonos romanos domiciliados no Sul da Hispânia e primo de Tr

In [19]:
x_train_sub_list = []

for i, row in treino.iterrows():
    pos_t1 = row['SENTENCE'].find(row['ENTITY1'])
    pos_t2 = row['SENTENCE'].find(row['ENTITY2'])    
    
    if pos_t1 < pos_t2:
        len_t1 = len(row['ENTITY1'])
        x_train_sub_list.append(row['SENTENCE'][pos_t1+len_t1:pos_t2])
    else:
        len_t2 = len(row['ENTITY2'])
        x_train_sub_list.append(row['SENTENCE'][pos_t2+len_t2:pos_t1])
        
x_train_sub = np.array(x_train_sub_list)

print(x_train_sub[:10])

[' localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a '
 ' não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no '
 ' nasceu na região alemã de Württemberg, na cidade de '
 ' nasceu na região alemã de '
 ' era descendente de colonos romanos domiciliados no Sul da Hispânia e primo de '
 ', ' ' abandonou a política de conquistas de '
 ' também retificou os limites de uma outra conquista de ' ' ('
 ' (Lisboa, 18 de Maio de 1475 – ']


In [20]:
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import string
from nltk.corpus import wordnet

def my_tokenizer_pos(doc):
    words = word_tokenize(doc)
    
    pos_tags = pos_tag(words)
    
    return [pos[1] for pos in pos_tags]

# testando nossa função:

for x in x_train_sub[:10]:
    print(my_tokenizer_pos(x))

['JJ', 'NN', 'DT', 'NN', 'NN', ',', 'VBP', 'JJ', 'NN', 'NNP', 'FW', 'NNP', ',', 'NN', 'VBD', 'DT', 'JJ', 'JJ', 'VBP', 'NNP', ':', 'NN', 'NNP', ',', 'NN', 'NN', 'NN', 'NNP', ',', 'NNP', ',', 'NNP', 'VBZ', 'JJ', 'NN', 'NNS', 'VBP', 'NNP', ':', 'CC', 'VB', 'NNP', 'FW', 'NNP', ',', 'NN', 'NN', 'NN', 'NNP', ',', 'NN', 'NNP', ',', 'DT']
['JJ', 'NN', ',', 'VBP', 'NN', 'NN', 'NNP', 'VBP', 'NNP', ',', 'VBZ', 'JJ', 'NNS', ',', 'FW', 'FW', 'FW', 'FW', 'FW', 'FW', 'NNS', ',', 'NN', 'TO', 'NN', 'NN', ',', 'VB', 'DT', 'JJ', 'NN', 'NNP', ',', 'DT']
['RB', 'JJ', 'NN', 'NN', 'IN', 'NNP', ',', 'RB', 'NN', 'IN']
['RB', 'JJ', 'NN', 'NN', 'IN']
['NN', 'NN', 'IN', 'FW', 'NNS', 'VBP', 'DT', 'NNP', 'VBZ', 'NNP', 'NN', 'NN', 'IN']
[',']
['VB', 'DT', 'NN', 'IN', 'FW', 'FW']
['NN', 'NN', 'JJ', 'VBZ', 'FW', 'FW', 'JJ', 'NN', 'IN']
['(']
['(', 'NNP', ',', 'CD', 'FW', 'NNP', 'IN', 'CD', 'NN']


In [21]:
stopwords_list = stopwords.words('portuguese')

stemmer = nltk.stem.RSLPStemmer()

In [22]:
def my_tokenizer_bow(doc):
    words = word_tokenize(doc)
    
    non_stopwords = [w for w in words if not w[0].lower() in stopwords_list]
    
    non_punctuation = [w for w in non_stopwords if not w[0] in string.punctuation]
    
    lemmas = []
    for w in non_punctuation:
                
        lemmas.append(stemmer.stem(w))

    return lemmas

In [23]:
from sklearn.decomposition import TruncatedSVD

class SVDDimSelect(object):
    def fit(self, X, y=None):        
        try:
            self.svd_transformer = TruncatedSVD(n_components=round(X.shape[1]/2))
            self.svd_transformer.fit(X)
        
            cummulative_variance = 0.0
            k = 0
            for var in sorted(self.svd_transformer.explained_variance_ratio_)[::-1]:
                cummulative_variance += var
                if cummulative_variance >= 0.5:
                    break
                else:
                    k += 1
                
            self.svd_transformer = TruncatedSVD(n_components=k)
        except Exception as ex:
            print(ex)
            
        return self.svd_transformer.fit(X)
    
    def transform(self, X, Y=None):
        return self.svd_transformer.transform(X)
        
    def get_params(self, deep=True):
        return {}

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import scipy

clf = OneVsRestClassifier(LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial'))


my_pipeline = Pipeline([
                        ('union', FeatureUnion([('bow', TfidfVectorizer(tokenizer=my_tokenizer_bow)),\
                                                ('pos', Pipeline([('pos-vect', CountVectorizer(tokenizer=my_tokenizer_pos)), \
                                                         ('pos-tfidf', TfidfTransformer())]))
                                               ])),\
                       ('svd', SVDDimSelect()), \
                       ('clf', clf)])

par = {'clf__estimator__C' : np.logspace(-4, 4, 20)}

hyperpar_selector = RandomizedSearchCV(my_pipeline, par, cv=3, scoring='f1_weighted', n_jobs=1, n_iter=20)

In [25]:
print(x_train_sub.shape)
print(y_train.shape)

hyperpar_selector.fit(X=x_train_sub[:500], y=y_train[:500])

(68616,)
(68616, 10)


RandomizedSearchCV(cv=3, error_score='raise-deprecating',
          estimator=Pipeline(memory=None,
     steps=[('union', FeatureUnion(n_jobs=None,
       transformer_list=[('bow', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_r...tate=0, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False),
          n_jobs=None))]),
          fit_params=None, iid='warn', n_iter=20, n_jobs=1,
          param_distributions={'clf__estimator__C': array([1.00000e-04, 2.63665e-04, 6.95193e-04, 1.83298e-03, 4.83293e-03,
       1.27427e-02, 3.35982e-02, 8.85867e-02, 2.33572e-01, 6.15848e-01,
       1.62378e+00, 4.28133e+00, 1.12884e+01, 2.97635e+01, 7.84760e+01,
       2.06914e+02, 5.45559e+02, 1.43845e+03, 3.79269e+03, 1.00000e+04])},
          pre_dispatch='2*n_jobs', random_state=None, refit=True,
          return_tra

In [28]:
x_test = teste['SENTENCE'].as_matrix()
y_test = teste['REL TYPE'].as_matrix()

y_test = label_binarize(y_test, classes=treino['REL TYPE'].unique())

x_test_sub_list = []

for i, row in teste.iterrows():
    pos_t1 = row['SENTENCE'].find(row['ENTITY1'])
    pos_t2 = row['SENTENCE'].find(row['ENTITY2'])    

    if pos_t1 < pos_t2:
        len_t1 = len(row['ENTITY1'])    
        x_test_sub_list.append(row['SENTENCE'][pos_t1+len_t1:pos_t2])
    else:
        len_t2 = len(row['ENTITY2'])    
        x_test_sub_list.append(row['SENTENCE'][pos_t2+len_t2:pos_t1])
    

x_test_sub = np.array(x_test_sub_list)

In [29]:
y_predicted = hyperpar_selector.predict(x_test)

In [30]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_predicted, target_names=treino['REL TYPE'].unique()))

                    precision    recall  f1-score   support

     locatedInArea       0.69      0.31      0.43     14047
            origin       0.54      0.00      0.01      7881
         successor       0.00      0.00      0.00       160
deathOrBurialPlace       0.54      0.40      0.46      2157
             other       0.13      0.13      0.13      3165
         keyPerson       0.00      0.00      0.00       116
            partOf       0.17      0.00      0.01      1663
      influencedBy       0.00      0.00      0.00        51
           partner       0.00      0.00      0.00        65
            parent       0.00      0.00      0.00       102

         micro avg       0.50      0.19      0.28     29407
         macro avg       0.21      0.09      0.10     29407
      weighted avg       0.54      0.19      0.26     29407
       samples avg       0.19      0.19      0.19     29407

