<h1 align="center"> Aplicações em Processamento de Linguagem Natural </h1>
<h2 align="center"> Aula 07 - Extração de Informação (Parte 2)</h2>
<h3 align="center"> Prof. Fernando Vieira da Silva MSc.</h3>

<h2>1. Extração de Relacionamentos</h2>
<p>A extração de relacionamentos consiste em identificar a ligação entre diversas entidades nomeadas no texto. Isso envolve mencionar qual é o tipo da ligação entre duas entidades. Considere o exemplo de sentença abaixo.</p>

<p>"Carlos Alberto de Nogueira é o morador mais antigo da Rua Praça da Alegria."</p>

<p>Temos as entidades:</p>

* Carlos Alberto de Nogueira (PESSOA)
* Rua Praça da Alegria (LOCALIDADE)

<p>Essas mesmas entidades estão relacionadas da seguinte forma:</p>

[Carlos Alberto de Nogueira (PERSON); morador mais antigo; Rua Praça da Alegria (LOCALIDADE)]


<p>Um dos mais famosos exemplos de sistema de reconhecimento é o [Never-Ending Language Learning (NELL)](http://rtw.ml.cmu.edu/), projeto desenvolvido pela Universidade Carnigie Mellon, com participação do Google e inclusive de pesquisadores brasileiros financiados pelo CNPq. Esse projeto consiste em extrair relacionamentos de milhões de páginas da internet, criando uma gigantesca base de conhecimento.</p>

<h2>2. Métodos para identificação de relacionamentos</h2>

<p>Os métodos mais comuns para identificar relacionamentos entre entidades são:</p>

* **Padrões codificados manualmente**: Basta criar padrões usando expressões regulares, por exemplo, para identificar que duas entidades se relacionam. Assim como em "X mora em Y" pode ser um padrão para identificar o relacionamento (X, mora_em, Y) entre uma entidade X do tipo PESSOA e uma entidade Y do tipo LOCALIDADE.
* **Métodos bootstraping**: Com poucos dados, procura por ocorrências de duas entidades em que já se conhece o relacionamento (no Google, por exemplo), e usa os modelos encontrados como modelos para o mesmo relacionamento entre outras entidades.
* **Métodos supervisionados**: Com base num corpus anotado com relacionamentos, criar modelos que 1) detecte quando existe o relacionamento entre duas entidades e 2) classifique o tipo de relacionamento entre elas. 

<p>Nesta aula, vamos ver um método supervisionado para classificar o relacionamento entre entidades, usando técnicas que já utilizamos em aulas anteriores.</p>

<p>Para isso, utilizaremos alguns atributos mais comuns para o problema, como:</p>

* Bag of Words/LSA
* Flags indicadores dos tipos das entidades
* Número de palavras entre as duas entidades
* Flag indicando se o texto de uma entidade é composto pelo texto da outra
* POS tags
* etc



In [None]:
import nltk from

In [2]:
import pandas as pd

df_train = pd.read_csv('../input/Figure Eight/train.csv')
df_test = pd.read_csv('../input/Figure Eight/test.csv')

df_train.head(20)

FileNotFoundError: File b'../input/Figure Eight/train.csv' does not exist

<h2>3. Criando um Modelo Supervisionado</h2>
<p> Vamos utilizar o corpus [Figure Eight: Medical Sentence Summary](https://www.kaggle.com/kmader/figure-eight-medical-sentence-summary), que possui diversas sentenças extraídas do PubMed, com entidades anotadas, assim como seus tipos de relacionamento.</p>

In [None]:
df_train['relation'].unique()

<p>Transformamos as sentenças e tipos de relacionamento em matrizes numpy. Também binarizamos os rótulos dos relacionamentos, para utilizarmos no nosso classificador logo mais.</p>

In [None]:
import numpy as np

x_train = df_train['sentence'].as_matrix()
y_train = df_train['relation'].as_matrix()

from sklearn.preprocessing import label_binarize

y_train = label_binarize(y_train, classes=df_train['relation'].unique())

print(x_train[:10])
print(y_train[:10])

<p>Como não temos os tipos das entidades, mas sabemos que se trata de nomes de medicamentos e doenças na maioria dos casos, não utilizaremos o tipo das entidades como atributos, mas utilizaremos os POS tags de todas as palavras entre as entidades. Vamos criar outras matrizes com esses atributos. </p>

<p>Para os POS Tags, vamos fazer algo parecido ao chunking sugerido em https://courses.cs.washington.edu/courses/cse517/13wi/slides/cse517wi13-RelationExtraction.pdf, mas ao invés de usar chunking, vamos criar 3-grams desses POS tags para simplificar.</p>

In [None]:
x_train_sub_list = []

for i, row in df_train.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    len_t1 = len(row['term1'])
    
    pos_t2 = row['sentence'].find(row['term2'])    
    
    x_train_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    

x_train_sub = np.array(x_train_sub_list)

print(x_train_sub[:10])

<p>Agora vamos definir duas funções de tokenização: uma para tokenizar bag-of-words e outra para tokenizar os POS tags</p>

In [None]:
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import string
from nltk.corpus import wordnet

def my_tokenizer_pos(doc):
    words = word_tokenize(doc)
    
    pos_tags = pos_tag(words)
    
    return [pos[1] for pos in pos_tags]

# testando nossa função:

for x in x_train_sub[:10]:
    print(my_tokenizer_pos(x))

In [None]:
stopwords_list = stopwords.words('english')

lemmatizer = WordNetLemmatizer()

def my_tokenizer_bow(doc):
    words = word_tokenize(doc)
    
    pos_tags = pos_tag(words)
    
    non_stopwords = [w for w in pos_tags if not w[0].lower() in stopwords_list]
    
    non_punctuation = [w for w in non_stopwords if not w[0] in string.punctuation]
    
    lemmas = []
    for w in non_punctuation:
        if w[1].startswith('J'):
            pos = wordnet.ADJ
        elif w[1].startswith('V'):
            pos = wordnet.VERB
        elif w[1].startswith('N'):
            pos = wordnet.NOUN
        elif w[1].startswith('R'):
            pos = wordnet.ADV
        else:
            pos = wordnet.NOUN
        
        lemmas.append(lemmatizer.lemmatize(w[0], pos))

    return lemmas

<p>Vamos reaproveitar a classe para seleção de atributos usando SVD.</p>

In [None]:
from sklearn.decomposition import TruncatedSVD

class SVDDimSelect(object):
    def fit(self, X, y=None):        
        try:
            self.svd_transformer = TruncatedSVD(n_components=round(X.shape[1]/2))
            self.svd_transformer.fit(X)
        
            cummulative_variance = 0.0
            k = 0
            for var in sorted(self.svd_transformer.explained_variance_ratio_)[::-1]:
                cummulative_variance += var
                if cummulative_variance >= 0.5:
                    break
                else:
                    k += 1
                
            self.svd_transformer = TruncatedSVD(n_components=k)
        except Exception as ex:
            print(ex)
            
        return self.svd_transformer.fit(X)
    
    def transform(self, X, Y=None):
        return self.svd_transformer.transform(X)
        
    def get_params(self, deep=True):
        return {}

<p>Agora vamos criar nosso Pipeline. Em resumo, vamos usar o TFIDF Vectorizer e o nosso POS Tagger em paralelo, e depois juntar os atributos para redimensionar usando o SVD.</p>

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import scipy

clf = OneVsRestClassifier(LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial'))


my_pipeline = Pipeline([
                        ('union', FeatureUnion([('bow', TfidfVectorizer(tokenizer=my_tokenizer_bow)),\
                                                ('pos', Pipeline([('pos-vect', CountVectorizer(tokenizer=my_tokenizer_pos)), \
                                                         ('pos-tfidf', TfidfTransformer())]))
                                               ])),\
                       ('svd', SVDDimSelect()), \
                       ('clf', clf)])

par = {'clf__estimator__C' : np.logspace(-4, 4, 20)}

hyperpar_selector = RandomizedSearchCV(my_pipeline, par, cv=3, scoring='f1_weighted', n_jobs=1, n_iter=20)

<p>Agora vamos treinar os algoritmos</p>

In [None]:
print(x_train_sub.shape)
print(y_train.shape)

hyperpar_selector.fit(X=x_train_sub, y=y_train)

In [None]:
x_test = df_test['sentence'].as_matrix()
y_test = df_test['relation'].as_matrix()

y_test = label_binarize(y_test, classes=df_train['relation'].unique())

x_test_sub_list = []

for i, row in df_test.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    len_t1 = len(row['term1'])
    
    pos_t2 = row['sentence'].find(row['term2'])    
    
    x_test_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    

x_test_sub = np.array(x_test_sub_list)

In [None]:
y_predicted = hyperpar_selector.predict(x_test)

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_predicted, target_names=df_train['relation'].unique()))

<p>
</p>

<p><b>Exercício 7:</b> Treine um modelo de extração de relacionamentos em Português, utilizando o corpus extraído do DBPedia e com relacionamentos entre pares de entidades anotadas.</p>

In [6]:
df_dict = {"sentence": [], "term1": [], "term2":[], "relation": []}
with open("../input/dbpedia-with-entity-relations-in-portuguese/DBpediaRelations-PT-0.2.txt","r") as train_arquivo:
    linha = train_arquivo.readlines()
    for l in linha:
         if len(l) > 1:
                valores = l.split(':')
                if valores[0].strip() == 'SENTENCE':
                    df_dict["sentence"].append(' '.join(valores[1:]))
                elif valores[0].strip() == 'ENTITY1':
                        df_dict["term1"].append(' '.join(valores[1:]))
                elif valores[0].strip() == 'ENTITY2':
                        df_dict["term2"].append(' '.join(valores[1:]))
                elif valores[0].strip() == 'REL TYPE':
                            df_dict["relation"].append(' '.join(valores[1:]))       
                    
train_arquivo.close()


In [95]:
Df = pd.DataFrame.from_dict(df_dict)

In [96]:
Df

Unnamed: 0,sentence,term1,term2,relation
0,A América Latina localiza-se totalmente no he...,América Latina\n,Argentina\n,locatedInArea\n
1,"A América Latina não apresenta, ao contrário ...",América Latina\n,Brasil\n,locatedInArea\n
2,A América Latina destaca-se ainda por sua pro...,América Latina\n,Brasil\n,locatedInArea\n
3,Albert Einstein nasceu na região alemã de Wür...,Albert Einstein\n,Ulm\n,origin\n
4,Albert Einstein nasceu na região alemã de Wür...,Albert Einstein\n,Württemberg\n,origin\n
5,"É em Ulm que nasce Albert Einstein, em 14 de ...",Albert Einstein\n,Ulm\n,origin\n
6,"Nascido em Itálica na atual Espanha, ou em Ro...",Adriano\n,Trajano\n,successor\n
7,"Nascido em Itálica na atual Espanha, ou em Ro...",Adriano\n,Itália\n,origin\n
8,Talvez por entender que o império esgotara su...,Adriano\n,Trajano\n,successor\n
9,Adriano também retificou os limites de uma ou...,Adriano\n,Trajano\n,successor\n


In [97]:
Df['relation'].unique()

array([' locatedInArea\n', ' origin\n', ' successor\n',
       ' deathOrBurialPlace\n', ' other\n', ' keyPerson\n', ' partOf\n',
       ' influencedBy\n', ' partner\n', ' parent\n'], dtype=object)

In [120]:
x_train_sub_list = []

for i, row in Df.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    pos_t2 = row['sentence'].find(row['term2']) 
    if pos_t1 < pos_t2:
        len_t1 = len(row['term1'])
        x_train_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    else:
        len_t2 = len(row['term2'])
        x_train_sub_list.append(row['sentence'][pos_t2+len_t2:pos_t1])
    
    

x_train_sub = np.array(x_train_sub_list)

print(x_train_sub[:10])

[' Latina localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a Argentina e o Chile.'
 'ica Latina não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no Brasil; lagoas de inundação nas planícies Amazônica e do Orinoco; e lagos de altitude, como o Titicaca, entre o Peru e a Bolívia.'
 'ica Latina destaca-se ainda por sua produção de chumbo (Peru e México), níquel (Cuba), prata (México e Peru), zinco (Peru), bauxita (Brasil e Venezuela) e platina (Colômbia).'
 'ert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 'tein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 

In [121]:
X_test = Df['sentence'].as_matrix()
y_test = Df['relation'].as_matrix()

y_test = label_binarize(y_test, classes= Df['relation'].unique())

x_test_sub_list = []

for i, row in Df.iterrows():
    pos_t1 = row['sentence'].find(row['term1'])
    pos_t2 = row['sentence'].find(row['term2']) 
    if pos_t1 < pos_t2:
        len_t1 = len(row['term1'])
        x_test_sub_list.append(row['sentence'][pos_t1+len_t1:pos_t2])
    else:
        len_t2 = len(row['term2'])
        x_test_sub_list.append(row['sentence'][pos_t2+len_t2:pos_t1])
    
    

x_test_sub = np.array(x_test_sub_list)

print(x_test_sub[:10])

  """Entry point for launching an IPython kernel.
  


[' Latina localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a Argentina e o Chile.'
 'ica Latina não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no Brasil; lagoas de inundação nas planícies Amazônica e do Orinoco; e lagos de altitude, como o Titicaca, entre o Peru e a Bolívia.'
 'ica Latina destaca-se ainda por sua produção de chumbo (Peru e México), níquel (Cuba), prata (México e Peru), zinco (Peru), bauxita (Brasil e Venezuela) e platina (Colômbia).'
 'ert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 'tein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.'
 

In [122]:
X = Df['sentence']
y = Df['relation']

In [123]:
import numpy as np
from sklearn.model_selection import train_test_split

In [125]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [126]:
import numpy as np

X_train = Df['sentence'].as_matrix()
y_train = Df['relation'].as_matrix()

from sklearn.preprocessing import label_binarize

y_train = label_binarize(y_train, classes=Df['relation'].unique())

print(X_train[:10])
print(y_train[:10])

[' A América Latina localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a Argentina e o Chile.\n'
 ' A América Latina não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no Brasil; lagoas de inundação nas planícies Amazônica e do Orinoco; e lagos de altitude, como o Titicaca, entre o Peru e a Bolívia.\n'
 ' A América Latina destaca-se ainda por sua produção de chumbo (Peru e México), níquel (Cuba), prata (México e Peru), zinco (Peru), bauxita (Brasil e Venezuela) e platina (Colômbia).\n'
 ' Albert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.\n'
 ' Albert Einstein nasceu na região alemã de Württem

  This is separate from the ipykernel package so we can avoid doing imports until
  after removing the cwd from sys.path.


In [127]:
import numpy as np

X_test = Df['sentence'].as_matrix()
y_test = Df['relation'].as_matrix()

from sklearn.preprocessing import label_binarize

y_test = label_binarize(y_test, classes=Df['relation'].unique())

print(X_test[:10])
print(y_test[:10])

[' A América Latina localiza-se totalmente no hemisfério ocidental, sendo atravessada pelo Trópico de Câncer, que corta a parte central do México; pelo Equador, que passa pelo Brasil, Colômbia, Equador e toca o norte do Peru; e pelo Trópico de Capricórnio, que atravessa o Brasil, o Paraguai, a Argentina e o Chile.\n'
 ' A América Latina não apresenta, ao contrário da América do Norte, grandes extensões lacustres, mas ainda assim possui inúmeras lagoas costeiras, sobretudo na vertente atlântica, como a lagoa dos Patos, no Brasil; lagoas de inundação nas planícies Amazônica e do Orinoco; e lagos de altitude, como o Titicaca, entre o Peru e a Bolívia.\n'
 ' A América Latina destaca-se ainda por sua produção de chumbo (Peru e México), níquel (Cuba), prata (México e Peru), zinco (Peru), bauxita (Brasil e Venezuela) e platina (Colômbia).\n'
 ' Albert Einstein nasceu na região alemã de Württemberg, na cidade de Ulm, numa família judaica.\n'
 ' Albert Einstein nasceu na região alemã de Württem

  This is separate from the ipykernel package so we can avoid doing imports until
  after removing the cwd from sys.path.


In [128]:
stopwords_list = stopwords.words('portuguese')
stemmer = nltk.stem.RSLPStemmer()


#lemmatizer = WordNetLemmatizer()

def my_tokenizer_bow_pt(doc):
    words = word_tokenize(doc, language ='portuguese')
    
    #pos_tags = pos_tag(words)
    
    non_stopwords = [w for w in words if not w[0].lower() in stopwords_list]
    
    non_punctuation = [w for w in non_stopwords if not w[0] in string.punctuation]
    
    stems = []
    for w in non_punctuation:
        stems.append(stemmer.stem(w))
    return stems

In [129]:
from nltk import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
import string
from nltk.corpus import wordnet
import nltk
from nltk.stem import RSLPStemmer
stopwords_list = stopwords.words('portuguese')

import pt_core_news_sm
nlp = pt_core_news_sm.load()

def my_tokenizer_pos_pt(doc):
    tokens = nlp(doc)
    pos_tags = []
    for t in tokens:
        pos_tags.append(t.pos_)
    
    return pos_tags

# testando nossa função:

for x in x_train[:10]:
    print(my_tokenizer_pos_pt(x))

['SPACE', 'DET', 'PROPN', 'PROPN', 'PROPN', 'PROPN', 'PRON', 'NOUN', 'ADJ', 'PUNCT', 'AUX', 'VERB', 'ADP', 'PROPN', 'ADP', 'PROPN', 'PUNCT', 'PRON', 'VERB', 'DET', 'NOUN', 'ADJ', 'ADP', 'PROPN', 'PUNCT', 'ADP', 'PROPN', 'PUNCT', 'PRON', 'VERB', 'ADV', 'PROPN', 'PUNCT', 'PROPN', 'PUNCT', 'PROPN', 'CCONJ', 'VERB', 'DET', 'NOUN', 'ADP', 'PROPN', 'PUNCT', 'PUNCT', 'ADV', 'PROPN', 'ADP', 'PROPN', 'PUNCT', 'PRON', 'VERB', 'DET', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'PUNCT', 'DET', 'PROPN', 'CCONJ', 'DET', 'PROPN', 'PUNCT', 'SPACE']
['SPACE', 'DET', 'PROPN', 'PROPN', 'ADV', 'VERB', 'PUNCT', 'ADP', 'DET', 'NOUN', 'ADP', 'PROPN', 'ADP', 'PROPN', 'PUNCT', 'ADJ', 'NOUN', 'ADJ', 'PUNCT', 'CCONJ', 'ADV', 'ADV', 'VERB', 'ADJ', 'NOUN', 'ADJ', 'PUNCT', 'ADV', 'ADP', 'NOUN', 'ADJ', 'PUNCT', 'ADP', 'DET', 'NOUN', 'VERB', 'PROPN', 'PUNCT', 'ADP', 'PROPN', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'ADJ', 'NOUN', 'PROPN', 'CCONJ', 'PROPN', 'PROPN', 'PUNCT', 'PUNCT', 'NOUN', 'ADP', 'NOUN', 'PUNCT', 'ADP', 'DET', 'PROPN'

In [130]:
from sklearn.decomposition import TruncatedSVD

class SVDDimSelect(object):
    def fit(self, X, y=None):        
        try:
            self.svd_transformer = TruncatedSVD(n_components=round(X.shape[1]/2))
            self.svd_transformer.fit(X)
        
            cummulative_variance = 0.0
            k = 0
            for var in sorted(self.svd_transformer.explained_variance_ratio_)[::-1]:
                cummulative_variance += var
                if cummulative_variance >= 0.5:
                    break
                else:
                    k += 1
                
            self.svd_transformer = TruncatedSVD(n_components=k)
        except Exception as ex:
            print(ex)
            
        return self.svd_transformer.fit(X)
    
    def transform(self, X, Y=None):
        return self.svd_transformer.transform(X)
        
    def get_params(self, deep=True):
        return {}

In [131]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import scipy

clf = OneVsRestClassifier(LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial'))


my_pipeline = Pipeline([
                        ('union', FeatureUnion([('bow', TfidfVectorizer(tokenizer=my_tokenizer_bow_pt)),\
                                                ('pos', Pipeline([('pos-vect', CountVectorizer(tokenizer=my_tokenizer_pos_pt)), \
                                                         ('pos-tfidf', TfidfTransformer())]))
                                               ])),\
                       ('svd', SVDDimSelect()), \
                       ('clf', clf)])

par = {'clf__estimator__C' : np.logspace(-4, 4, 20)}

hyperpar_selector = RandomizedSearchCV(my_pipeline, par, cv=3, scoring='f1_weighted', n_jobs=1, n_iter=20)

In [134]:
print(x_train_sub.shape)
print(y_train.shape)

hyperpar_selector.fit(X=x_train_sub[:500], y=y_train[:500])

(98023,)
(98023, 10)


  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


RandomizedSearchCV(cv=3, error_score='raise-deprecating',
          estimator=Pipeline(memory=None,
     steps=[('union', FeatureUnion(n_jobs=None,
       transformer_list=[('bow', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_r...tate=0, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False),
          n_jobs=None))]),
          fit_params=None, iid='warn', n_iter=20, n_jobs=1,
          param_distributions={'clf__estimator__C': array([1.00000e-04, 2.63665e-04, 6.95193e-04, 1.83298e-03, 4.83293e-03,
       1.27427e-02, 3.35982e-02, 8.85867e-02, 2.33572e-01, 6.15848e-01,
       1.62378e+00, 4.28133e+00, 1.12884e+01, 2.97635e+01, 7.84760e+01,
       2.06914e+02, 5.45559e+02, 1.43845e+03, 3.79269e+03, 1.00000e+04])},
          pre_dispatch='2*n_jobs', random_state=None, refit=True,
          return_tra

In [136]:
print(x_test_sub.shape)
print(y_test.shape)

hyperpar_selector.fit(X=x_test_sub[:500], y=y_test[:500])

(98023,)
(98023, 10)


  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted',

  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  str(classes[c]))
  str(classes[c]))
  str(classes[c]))
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)
  'precision', 'predicted', average, warn_for)
  'recall', 'true', average, warn_for)


  str(classes[c]))
  str(classes[c]))
  str(classes[c]))


RandomizedSearchCV(cv=3, error_score='raise-deprecating',
          estimator=Pipeline(memory=None,
     steps=[('union', FeatureUnion(n_jobs=None,
       transformer_list=[('bow', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_r...tate=0, solver='lbfgs',
          tol=0.0001, verbose=0, warm_start=False),
          n_jobs=None))]),
          fit_params=None, iid='warn', n_iter=20, n_jobs=1,
          param_distributions={'clf__estimator__C': array([1.00000e-04, 2.63665e-04, 6.95193e-04, 1.83298e-03, 4.83293e-03,
       1.27427e-02, 3.35982e-02, 8.85867e-02, 2.33572e-01, 6.15848e-01,
       1.62378e+00, 4.28133e+00, 1.12884e+01, 2.97635e+01, 7.84760e+01,
       2.06914e+02, 5.45559e+02, 1.43845e+03, 3.79269e+03, 1.00000e+04])},
          pre_dispatch='2*n_jobs', random_state=None, refit=True,
          return_tra

In [None]:
y_predicted = hyperpar_selector.predict(X_test)

In [116]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_predicted, target_names=Df['relation'].unique()))

NameError: name 'y_predicted' is not defined