# Teste do modelo treinado

[Voltar ao √çndice](../00_indice.ipynb)

Aqui carregamos o modelo BERT de detec√ß√£o de discursos violentos, previamente treinado e salvo, e o aplicamos a casos de teste.

In [18]:
import speechwrapper as sw
import pandas as pd
import numpy as np

from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from sklearn.model_selection import KFold

from xavy.mltools import shuffled_pos

#### Carrega o modelo

In [19]:
model = sw.HateSpeechModel('../../modelos/bertimbau-hatespeech-v01')

Loading tokenizer from neuralmind/bert-base-portuguese-cased
Loading trained model: ../../modelos/bertimbau-hatespeech-v01


Some layers from the model checkpoint at ../../modelos/bertimbau-hatespeech-v01 were not used when initializing TFBertForSequenceClassification: ['dropout_151']
- This IS expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertForSequenceClassification were initialized from the model checkpoint at ../../modelos/bertimbau-hatespeech-v01.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


#### Carrega os dados

In [20]:
test_df = pd.read_csv('../../dados/processados/hatespeech_fortuna3+offcombr2_test_seed1323.csv')

#### Prediz com o modelo

In [22]:
# Valores verdadeiros:
y_test = test_df['label']
# Prediz a classe:
y_test_pred = model.predict_class(test_df['text'])
# Calcula a probabilidade:
y_test_prob = model.predict_proba(test_df['text'])

  0%|          | 0/1 [00:00<?, ?ba/s]



  0%|          | 0/1 [00:00<?, ?ba/s]



In [23]:
# Metrics:
for name, scorer in {'acc': accuracy_score, 'f1': f1_score, 'prec': precision_score, 'rec': recall_score}.items():
    s = scorer(y_test, y_test_pred)
    print('{}: {:.3f}'.format(name, s))

acc: 0.903
f1: 0.602
prec: 0.705
rec: 0.525


#### Teste de c√°lculo de n√∫mero de agress√µes

Queremos aqui veririficar se, para contabilizarmos o total de tweets agressivos dentro de uma amostra, √© melhor somarmos o n√∫mero de tweets 
considerados agressivos (dado um limiar de 0.5) ou se √© melhor somarmos as probabilidades de cada tweet ser agressivo. Buscaremos a estrat√©gia 
de menor bias e erro quadr√°tico m√©dio quando comparamos a previs√£o com as classifica√ß√µes verdadeiras.


In [62]:
n_split   = 5
n_samples = len(y_test)
batch_size = int(n_samples / n_split)

n_true = []
n_est  = []
n_pred = []
shuffler = shuffled_pos(len(y_test), 1)
for i in range(n_split):
    y_true_batch = y_test[shuffler][batch_size * i: batch_size * (i + 1)]
    y_prob_batch = y_test_prob[shuffler][batch_size * i: batch_size * (i + 1)]
    y_pred_batch = y_test_pred[shuffler][batch_size * i: batch_size * (i + 1)]
    n_true.append(y_true_batch.sum())
    n_est.append(y_prob_batch.sum())
    n_pred.append(y_pred_batch.sum())

Por soma das probabilidades

In [63]:
print('Bias:  {:.4f}'.format(np.mean(np.array(n_est) - np.array(n_true))))
print('StDev: {:.4f}'.format(np.std(np.array(n_est) - np.array(n_true))))

Bias:  0.3576
StDev: 1.4311


Por soma das predi√ß√µes

In [64]:
print('Bias:  {:.4f}'.format(np.mean(np.array(n_pred) - np.array(n_true))))
print('StDev: {:.4f}'.format(np.std(np.array(n_pred) - np.array(n_true))))

Bias:  -5.8000
StDev: 1.6000


#### Teste ao vivo

In [30]:
good_text = test_df.query('label == 0').sample(5)['text'].tolist()

In [32]:
bad_text = test_df.query('label == 1').sample(5)['text'].tolist()

In [33]:
bad_text

['azeiteiro, quero q te fodas volta para a tua terra',
 'LIXO DO CRL',
 'kkkkkkkk falida igual seu comentario idiota',
 'Iiiih sapat√£o sinistra kkkkkkkkkkkkkkkk',
 'CONCA TA BIXADO MANEKKKKKKKK']

In [40]:
texts = ['sua m√£e √© um hamster', 'sua m√£e √© uma boa professora', 'sua m√£e √© uma professora', 'sua m√£e tem um hamster']
#texts = bad_text
probs = model.predict_proba(texts)
print('')
for p, t in zip(probs, texts):
    print('{:.3f} << {}'.format(p,t))

  0%|          | 0/1 [00:00<?, ?ba/s]


0.496 << sua m√£e √© um hamster
0.098 << sua m√£e √© uma boa professora
0.167 << sua m√£e √© uma professora
0.438 << sua m√£e tem um hamster


# Lixo

## M√≥dulo externo

### Dados

In [1]:
bad_texts = ['Essa a√≠ e t√£o piranha que eu nem pegava.',
             'Bolsonarista s√≥ se resolve na base da porrada.',
             'Esquerdista s√≥ se resolve na base da porrada.',
             'Seu preto sujo nojento',
             'S√≥ podia ser preto favelado mesmo',
             'Seu liberal safado, voc√™ vai ver.',
             'MST √© tudo terrorista',
             'Vai sua bicha',
             'Essa a√≠ √© sapat√£o',
             'Voc√™ √© um palha√ßo mesmo! kkkkk',
             'Miga, voc√™ √© muito escrota',
             'Estarei te esperando com minha glock, pode chegar',
             'Voc√™ vai adorar a pica que eu vou botar',
             'Esses bolivianos ignorantes vem encher o saco',
             'Voc√™s deviam voltar pra √°frica',
             'Lugar de mulher √© na cozinha',
             'Voc√™ √© bandido, e bandido bom √© bandido morto!',
             'ceh bandido badido bom e bandido morto',
             'Empresta seu cabelo pra eu ariar uma panela',
             'Macaco',
             'macaco',
             'T√° com fome, eu te dou uma banana kkkkk',
             'condizente com o c√©rebro de quem ap√≥ia ladr√µes!! N√£o se pode esperar muito‚Ä¶']

good_texts = ['Piranha √© o nome de um peixe',
              'Bolsonarista n√£o respeita a democracia',
              'Esquerdista n√£o respeita a democracia',
              'O len√ßol √© sujo e nojento',
              'A pol√≠cia s√≥ mata preto e favelado',
              'Ele √© o liberal mais safado que eu conhe√ßo.',
              'Al Quaeda s√£o terroristas',
              'A bichinha miou tanto que deu uma d√≥!',
              'E aquele sapat√£o do palha√ßo?',
              'Tinha uns palha√ßos muito engra√ßados no circo ontem.',
              'Boa miga! Tamo junto',
              'To te esperando com um cafezinho, pode chegar',
              'Voc√™ vai adorar a grana que eu vou botar',
              'Fico com muita dor quando uma abelha me pica',
              'Os bolivianos viajam com um saco ao inv√™s de mochila',
              'Vamos voltar √† √°frica',
              'Lugar de mulher √© onde ela quiser',
              'N√£o gostei nada da sua √∫ltima proposta, com exce√ß√£o, talvez, da parte 2.',
              'n gostei da sua proposta com ecessao da parte 2.',
              'dizem que h√° corrup√ß√£o no governo Bolsonaro',
              'diz q a corupcao no gov bolsonaro',
              'Mas esse bombril √© t√£o ruim que n√£o d√° nem pra ariar panela',
              'Cada macaco no seu galho',
              'Com o pre√ßo da banana eu t√¥ √© com fome',
              'Bola para frente tudo tem seu tempo e a Hora vai chegar',
              'Para de firulas vamos para a realidade, que est√° muito distante da sua exist√™ncia!!',
              'Votei em voc√™ e decepcionei. Te parabenizo por chegar t√£o longe. Mas p governador, me desculpe. O ES merece mais.']

## Prototyping

In [6]:
import xavy.dataframes as xd
import numpy as np

In [7]:
import pandas as pd
# Hugging Face:
import tensorflow as tf
from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from datasets import Dataset 
from transformers import DefaultDataCollator 

## Fun√ß√µes

In [8]:
###########################################
### Splitting datasets into random sets ###
###########################################

def shuffled_pos(length, seed):
    """
    Return indices from 0 to `length` - 1 in a shuffled state, given random `seed`.
    """
    return np.random.RandomState(seed=seed).permutation(length)


def random_index_sets(size, set_fracs, seed):
    """
    Return sets of random indices (from 0 to `size` - 1) with lengths 
    given by ~ `size` * `set_fracs`.
    
    
    Input
    -----
    
    size : int
        The size of the index list to split into sets.
        
    set_fracs : iterable
        The fractions of the list of indices that each index set 
        should contain. 
    
    seed : int
        The seed for the random number generator.
        
        
    Returns
    -------
    
    indices : tuple of arrays
        The indices for each set.
    """
    
    assert np.isclose(np.sum(set_fracs), 1), '`set_fracs` should add up to one.'
    
    # Create randomized list of indices:
    shuffled_indices = shuffled_pos(size, seed)
    
    
    indices   = []
    set_start = [0]
    # Determine the sizes of the sets:
    set_sizes = [round(size * f) for f in set_fracs]
    set_sizes[0] = size - sum(set_sizes[1:])
    assert np.sum(set_sizes) == size, 'Set sizes should add up to total size.'
    
    for i in range(0, len(set_fracs) - 1):
        # Select indices for a set:
        set_start.append(set_start[i] + set_sizes[i])
        set_indices = shuffled_indices[set_start[i]:set_start[i + 1]]
        indices.append(set_indices)
        assert len(indices[i]) == len(set(indices[i])), 'There are repeating indices in a set.'
        
    # Select the indices for the last set:
    indices.append(shuffled_indices[set_start[-1]:])
    assert len(set(np.concatenate(indices))) == sum([len(i) for i in indices]), \
    'There are common indices between sets.'
    
    return tuple(indices)


def random_set_split(df, set_fracs, seed):
    """
    Split a DataFrame into randomly selected disjoint and complete sets.
    
    
    Input
    -----
    
    df : Pandas DataFrame
        The dataframe to split into a complete and disjoint set of sub-sets.
        
    set_fracs : array-like
        The fraction of `df` that should be put into each set. The length of 
        `set_fracs` determines the number of sub-sets to create.
    
    seed : int
        The seed for the random number generator used to split `df`.
        
    
    Returns
    -------
    
    A tuple of DataFrames, one for each fraction in `set_fracs`, in that order.
    """
    # Get positional indices for each set:
    sets_idx = random_index_sets(len(df), set_fracs, seed)
    
    return tuple(df.iloc[idx] for idx in sets_idx)


In [11]:
def process_pandas_to_tfdataset(df, tokenizer, max_length=80, shuffle=True, text_col='text', target_col='label', batch_size=8):
    """
    Prepare NLP data in a Pandas DataFrame to be used 
    in a TensorFlow transformer model.
    
    Parameters
    ----------
    df : DataFrame
        The corpus, containing the columns `text_col` 
        (the sentences) and `target_col` (the labels).
    tokenizer : HuggingFace AutoTokenizer
        A tokenizer loaded from 
        `transformers.AutoTokenizer.from_pretrained()`.
    max_length : int
        Maximum length of the sentences (smaller 
        sentences will be padded and longer ones
        will be truncated). This is required for 
        training, so batches have instances of the
        same shape.
    shuffle : bool
        Shuffle the dataset order when loading. 
        Recommended True for training, False for 
        validation/evaluation.
    text_col : str
        Name of `df` column containing the sentences.
    target_col : str
        Name of `df` column containing the labels of 
        the sentences.
    batch_size : int
        The size of the batch in the output 
        tensorflow dataset.
        
    Returns
    -------
    tf_dataset : TF dataset
        A dataset that can be fed into a transformer 
        model.
    """
    
    # Security checks:
    renamed_df = df.rename({target_col:'labels'}, axis=1) # Hugging Face requer esse nome p/ y.
    
    # Define fun√ß√£o para processar os dados com o tokenizador:
    def tokenize_function(examples):
        return tokenizer(examples[text_col], padding=True, max_length=max_length, truncation=True)
    
    # pandas -> hugging face:
    hugging_set = Dataset.from_pandas(renamed_df)
    # texto -> sequ√™ncia de IDs: 
    encoded_set = hugging_set.map(tokenize_function, batched=True)
    # hugging face -> tensorflow dataset:
    data_collator = DefaultDataCollator(return_tensors="tf")
    tf_dataset = encoded_set.to_tf_dataset(columns=["attention_mask", "input_ids", "token_type_ids"], label_cols=["labels"], shuffle=shuffle, collate_fn=data_collator, batch_size=batch_size)
    
    return tf_dataset


def predict_proba(model, tf_dataset):
    """
    Use the provided model to compute the
    probability that each instance is 
    in the positive class (1 in a binary 
    classification).

    Parameters
    ----------
    model : TFBertForSequenceClassification
        A Hugging Face implementation of a 
        Tensorflow transformer model.
    tf_dataset : Tensorflow Dataset
        The data for which to make predictions.
    
    Returns
    -------
    probs : array
        Probability that the corresponding 
        instance falls in the positive class
        (y = 1).
    """

    tf_predict = model.predict(tf_dataset).logits
    probs = tf.sigmoid(tf_predict)[:,0].numpy()
    
    return probs


def predict_class(model, tf_dataset, threshold=0.5):
    """
    Use the provided model to predict
    the class of each instance.

    Parameters
    ----------
    model : TFBertForSequenceClassification
        A Hugging Face implementation of a 
        Tensorflow transformer model.
    tf_dataset : Tensorflow Dataset
        The data for which to make predictions.
    
    Returns
    -------
    preds : array
        Predicted class for the corresponding
        instances.
    """

    probs = predict_proba(model, tf_dataset)
    preds = (probs > threshold).astype(int)

    return preds


def rate_speech_for_hate(model, tokenizer, texts):
    """
    Rate the level of violence in the sentences.
    
    Parameters
    ----------
    model : TFAutoModelForSequenceClassification
        Trained Hugging Face transformer model 
        for hate speech identification.
    tokenizer : AutoTokenizer
        Hugging Face tokenizer.
    texts : str or list of str
        Sentences to classify.
        
    Returns
    -------
    probs : array
        Probabilities that the sentences in 
        `texts` contain violence.
    """
    
    # Standardize input:
    if type(texts) == str:
        texts = [texts]
    
    # Prepare date format and tokenize:
    input_df  = pd.DataFrame({'text': texts, 'label': [1] * len(texts)})
    input_tfd = process_pandas_to_tfdataset(input_df, tokenizer, shuffle=False)
    # Predict with model:
    probs = predict_proba(model, input_tfd)
    
    return probs

## Carregando os dados

Fonte: Juntamos os dados de Fortuna e Pelle (veja o notebook do modelo baseline).

In [8]:
# Carrega os dados:
mass_df = pd.read_csv('../../dados/processados/hatespeech_fortuna3+offcombr2.csv')

In [11]:
# Separa os dados em amostras:
train_df, val_df, test_df = random_set_split(mass_df, [0.7, 0.15, 0.15], 1323)

## Teste

### Carrega o modelo

In [12]:
# Carrega tokenizer:
tokenizer  = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)
# Carrega o modelo:
model = TFAutoModelForSequenceClassification.from_pretrained('../../modelos/bertimbau-hatespeech-v01')
#model2 = TFAutoModelForSequenceClassification.from_pretrained('../../modelos/bertimbau-hatespeech-v02')

Some layers from the model checkpoint at ../modelos/bertimbau-hatespeech-v01 were not used when initializing TFBertForSequenceClassification: ['dropout_151']
- This IS expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertForSequenceClassification were initialized from the model checkpoint at ../modelos/bertimbau-hatespeech-v01.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


### Testa nos dados rotulados

In [55]:
sampled_df = test_df.sample(5)
xd.print_string_series(sampled_df.set_index('label')['text'])

[1m0[0m: RT @DaniloGentili: Quando Jo√£o Kleber faz na Rede TV=Putaria, Mau Gosto, Baixaria
Quando fazem na Globo=Ousadia, Arte, Tapa na cada da soc _
[1m0[0m: RT @Leandroow3: s√≥ pode comemorar quem viu o pai voltar com o cigarro
[1m1[0m: @bbb17aovivo quero ver a cara do recauque quando a emili pegar o lider e joga a roberta no paredao aquela vaca fausa gorda e feia rsrrsrsrsr
[1m0[0m: Volta a Copa 2014 ae s√≥ pra eu ver um neg√≥cio aqui rapid√£o
[1m1[0m: @homemdeverdade pega forte na cintura da sua f√™mea, essa coisa de delicadeza nessas horas √© desses Jonnys Man√©s Citricos bunda mole!


In [58]:
input_texts = list(sampled_df['text'])
rate_speech_for_hate(model, tokenizer, input_texts)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 216.00ba/s]




array([0.24199916, 0.02296981, 0.6980702 , 0.15228723, 0.92074054],
      dtype=float32)

### Testes com posts reais

In [25]:
posts = ['@tabataamaralsp O Estado n√£o pode ser respons√°vel pelos pais que colocam filhos no mundo e n√£o consegue dar o m√≠nimo de ‚Äúeduca√ß√£o‚Äù o que √© diferente de escolaridade.',
 '@tabataamaralsp Pra te apoiar tem que ser muito desinformada.\nVoc√™, apesar de jovem, representa a velha pol√≠tica.\nEspero que n√£o seja reeleita.\nVoc√™ foi uma decep√ß√£o.',
 '@tabataamaralsp Parab√©ns, estamos  juntos..',
 '@LulaOficial @gleisi @IvanValente @pauloteixeira13 @paulopaim @mariadorosario @tabataamaralsp @senadorhumberto O povo brasileiro, de bem, n√£o esqueceu o tipo de governan√ßa do PT: Cleptocracia Estado governado por ladr√µes.\n#PTNuncaMais https://t.co/TX5CC7zJKg',
 'üìÑ A deputada federal @tabataamaralsp encaminhou of√≠cio ao Minist√©rio da Cidadania pedindo mais transpar√™ncia na divulga√ß√£o de dados sobre a fila de espera do #Aux√≠lioBrasil: https://t.co/FHQ3NPxIWq',
 '@tabataamaralsp boa tarde "cumpanh√™ra" https://t.co/5sspVpUSnn',
 '@tabataamaralsp ESTAMOS ESPERANDO UM POUCO DE LUCIDEZ SUA .',
 '@Tali_Mito22 @tabataamaralsp Essa √© a rainha dos "idiotas uteis". Next üëâ',
 '@tabataamaralsp Da serie fakenews e democratico https://t.co/HHMPyqo2zl',
 '@LucasSousaR @tabataamaralsp @Papaulo1337 @_luizmorais_ Exatamente! \n\nhttps://t.co/ZZfQlxjT6p']
posts = ['ELA SO FALA EM CORRUP√áAO, MAS NO FUNDO E DA MESMA PANELA, E CAIU NOS BRA√áOS DO MAIOR CORRUPTO DESDE BRASIL, MESU PARABENS SUA IDIOTA PERFEITA, JA COME√áE A ARRUMAR OUTRA COISA PARA FAZER, POIS O BRASIL VAI VOTAR EM']

In [26]:
rate_speech_for_hate(model, tokenizer, posts)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 355.24ba/s]




array([0.54134405], dtype=float32)

### Testes com novas frases

In [13]:
bad_texts = ['Essa a√≠ e t√£o piranha que eu nem pegava.',
             'Bolsonarista s√≥ se resolve na base da porrada.',
             'Esquerdista s√≥ se resolve na base da porrada.',
             'Seu preto sujo nojento',
             'S√≥ podia ser preto favelado mesmo',
             'Seu liberal safado, voc√™ vai ver.',
             'MST √© tudo terrorista',
             'Vai sua bicha',
             'Essa a√≠ √© sapat√£o',
             'Voc√™ √© um palha√ßo mesmo! kkkkk',
             'Miga, voc√™ √© muito escrota',
             'Estarei te esperando com minha glock, pode chegar',
             'Voc√™ vai adorar a pica que eu vou botar',
             'Esses bolivianos ignorantes vem encher o saco',
             'Voc√™s deviam voltar pra √°frica',
             'Lugar de mulher √© na cozinha',
             'Voc√™ √© bandido, e bandido bom √© bandido morto!',
             'ceh bandido badido bom e bandido morto',
             'Empresta seu cabelo pra eu ariar uma panela',
             'Macaco',
             'macaco',
             'T√° com fome, eu te dou uma banana kkkkk',
             'condizente com o c√©rebro de quem ap√≥ia ladr√µes!! N√£o se pode esperar muito‚Ä¶']

bad_rates = rate_speech_for_hate(model, tokenizer, bad_texts)
bad_labels = ['{:.2f}'.format(x) for x in bad_rates]
xd.print_string_series(pd.Series(bad_texts, index=bad_labels))
print('{:.4f} +/- {:.4f}'.format(np.mean(bad_rates), np.std(bad_rates) / np.sqrt(len(bad_rates))))

#bad_rates = rate_speech_for_hate(model2, tokenizer, bad_texts)
#bad_labels = ['{:.2f}'.format(x) for x in bad_rates]
#xd.print_string_series(pd.Series(bad_texts, index=bad_labels))
#print('{:.4f} +/- {:.4f}'.format(np.mean(bad_rates), np.std(bad_rates) / np.sqrt(len(bad_rates))))

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 261.72ba/s]


[1m0.91[0m: Essa a√≠ e t√£o piranha que eu nem pegava.
[1m0.46[0m: Bolsonarista s√≥ se resolve na base da porrada.
[1m0.71[0m: Esquerdista s√≥ se resolve na base da porrada.
[1m0.99[0m: Seu preto sujo nojento
[1m0.67[0m: S√≥ podia ser preto favelado mesmo
[1m0.96[0m: Seu liberal safado, voc√™ vai ver.
[1m0.63[0m: MST √© tudo terrorista
[1m0.99[0m: Vai sua bicha
[1m0.97[0m: Essa a√≠ √© sapat√£o
[1m0.34[0m: Voc√™ √© um palha√ßo mesmo! kkkkk
[1m0.98[0m: Miga, voc√™ √© muito escrota
[1m0.08[0m: Estarei te esperando com minha glock, pode chegar
[1m0.86[0m: Voc√™ vai adorar a pica que eu vou botar
[1m0.82[0m: Esses bolivianos ignorantes vem encher o saco
[1m0.52[0m: Voc√™s deviam voltar pra √°frica
[1m0.31[0m: Lugar de mulher √© na cozinha
[1m0.15[0m: Voc√™ √© bandido, e bandido bom √© bandido morto!
[1m0.47[0m: ceh bandido badido bom e bandido morto
[1m0.53[0m: Empresta seu cabelo pra eu ariar uma panela
[1m0.57[0m: Macaco
[1m0.49[0m: macaco
[1m0.5

In [9]:
good_texts = ['Piranha √© o nome de um peixe',
              'Bolsonarista n√£o respeita a democracia',
              'Esquerdista n√£o respeita a democracia',
              'O len√ßol √© sujo e nojento',
              'A pol√≠cia s√≥ mata preto e favelado',
              'Ele √© o liberal mais safado que eu conhe√ßo.',
              'Al Quaeda s√£o terroristas',
              'A bichinha miou tanto que deu uma d√≥!',
              'E aquele sapat√£o do palha√ßo?',
              'Tinha uns palha√ßos muito engra√ßados no circo ontem.',
              'Boa miga! Tamo junto',
              'To te esperando com um cafezinho, pode chegar',
              'Voc√™ vai adorar a grana que eu vou botar',
              'Fico com muita dor quando uma abelha me pica',
              'Os bolivianos viajam com um saco ao inv√™s de mochila',
              'Vamos voltar √† √°frica',
              'Lugar de mulher √© onde ela quiser',
              'N√£o gostei nada da sua √∫ltima proposta, com exce√ß√£o, talvez, da parte 2.',
              'n gostei da sua proposta com ecessao da parte 2.',
              'dizem que h√° corrup√ß√£o no governo Bolsonaro',
              'diz q a corupcao no gov bolsonaro',
              'Mas esse bombril √© t√£o ruim que n√£o d√° nem pra ariar panela',
              'Cada macaco no seu galho',
              'Com o pre√ßo da banana eu t√¥ √© com fome',
              'Bola para frente tudo tem seu tempo e a Hora vai chegar',
              'Para de firulas vamos para a realidade, que est√° muito distante da sua exist√™ncia!!',
              'Votei em voc√™ e decepcionei. Te parabenizo por chegar t√£o longe. Mas p governador, me desculpe. O ES merece mais.']

good_rates = rate_speech_for_hate(model, tokenizer, good_texts)
good_labels = ['{:.2f}'.format(x) for x in good_rates]
xd.print_string_series(pd.Series(good_texts, index=good_labels))
print('{:.4f} +/- {:.4f}'.format(np.mean(good_rates), np.std(good_rates) / np.sqrt(len(good_rates))))

#good_rates = rate_speech_for_hate(model2, tokenizer, good_texts)
#good_labels = ['{:.2f}'.format(x) for x in good_rates]
#xd.print_string_series(pd.Series(good_texts, index=good_labels))
#print('{:.4f} +/- {:.4f}'.format(np.mean(good_rates), np.std(good_rates) / np.sqrt(len(good_rates))))

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 238.83ba/s]


[1m0.15[0m: Piranha √© o nome de um peixe
[1m0.05[0m: Bolsonarista n√£o respeita a democracia
[1m0.13[0m: Esquerdista n√£o respeita a democracia
[1m0.67[0m: O len√ßol √© sujo e nojento
[1m0.34[0m: A pol√≠cia s√≥ mata preto e favelado
[1m0.86[0m: Ele √© o liberal mais safado que eu conhe√ßo.
[1m0.11[0m: Al Quaeda s√£o terroristas
[1m0.55[0m: A bichinha miou tanto que deu uma d√≥!
[1m0.58[0m: E aquele sapat√£o do palha√ßo?
[1m0.09[0m: Tinha uns palha√ßos muito engra√ßados no circo ontem.
[1m0.14[0m: Boa miga! Tamo junto
[1m0.09[0m: To te esperando com um cafezinho, pode chegar
[1m0.08[0m: Voc√™ vai adorar a grana que eu vou botar
[1m0.33[0m: Fico com muita dor quando uma abelha me pica
[1m0.20[0m: Os bolivianos viajam com um saco ao inv√™s de mochila
[1m0.17[0m: Vamos voltar √† √°frica
[1m0.39[0m: Lugar de mulher √© onde ela quiser
[1m0.01[0m: N√£o gostei nada da sua √∫ltima proposta, com exce√ß√£o, talvez, da parte 2.
[1m0.02[0m: n gostei da sua pro

In [12]:
testes_df = pd.DataFrame({'text': good_texts + bad_texts, 'violence_level': list(good_rates) + list(bad_rates)})

In [15]:
#testes_df.sort_values('violence_level').to_csv('../../dados/processados/testes_bertimbau-hatespeech-v01', index=False)

## Analisando os erros

In [138]:
y_test_pred = predict_class(model, process_pandas_to_tfdataset(test_df, tokenizer, shuffle=False))

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 15.40ba/s]




In [143]:
error_df = test_df.copy()
error_df['pred'] = pd.Series(y_test_pred, index=error_df.index)
error_df = error_df.query('label != pred')

### Falsos negativos

In [147]:
xd.print_string_series(error_df.query('label == 1')['text'])

[1m5634[0m: LIXO DO CRL
[1m3385[0m: RT @imztiffany: Taeyeon - Dilma
- lider da na√ß√£o
- tem muito hate 
- plastica
- sapat√£o
- apaixonada no aecio
- m√£e de todos
- sua fav √© s _
[1m2490[0m: O que seria 'v√°lido', ent√£o? Feminic√≠dio? Estupro? Mercado de trabalho? Falamos disso todo dia. Poderia dedicar uma coluna a isso, ent√£o.
[1m5499[0m: seu nome ja disse tudo e um maria mesmo
[1m5425[0m: treina num curral Voce viu o CT pronto doente
[1m1029[0m: Em meio a esc√¢ndalos de corrup√ß√£o e nepotismo, o presidente de Angola anunciou que n√£o tentar√° reelei√ß√£o em 2017.... https://t.co/MnLXSQS3vg
[1m4268[0m: VAI TOMAR NO CU!!! JUDICI√ÅRIO √â A VERGONHA DO BRASIL!!! 
REVOLTANTE!! https://t.co/WxzQR85O3o
[1m1594[0m: Hoje em dia n√£o pode mais praticar genoc√≠dio numa igreja que j√° √© racismo
[1m4008[0m: S√≥ h√° uma coisa que eu detesto mais que um atrasado mental:
Um atrasado mental q pensa que √© um campe√£o qd est√° atr√°s de um ecr√£ de um PC
[1m1134[0m: Esse ca

### Falsos positivos

In [148]:
xd.print_string_series(error_df.query('label == 0')['text'])

[1m2081[0m: MINHA TATARAV√ì ERA NEGRA!!! TENHO SANGUE NEGRO
[1m5072[0m: MARIAS NOS CIO  MINHAS PRESAS PREDILETAS VOU ME ESBANJAR EM DEVORALAS
[1m2242[0m: N√£o tinha reparado com aquela menina √© gata
[1m4750[0m: a batata dela ta assando e ja fazendo plano de fuga
[1m4595[0m: Engracado e que se voce disputar emprego com eles voce perdera
[1m2390[0m: O gay assumido bem resolvido √© bem mais @homemdeverdade do que frangas arrogantes, dissimulados que n√£o enfrentam a pr√≥pria cara no espelho!
[1m1380[0m: FICA TRANQUILO IRM√ÉO V√ÅRIAS DAS MINHAS TRANZAS J√Å ACABAM COM CHORO E ZOA√á√ÉO FAZ PARTE @JOAQUINRESPONDE https://t.co/yGwTy17tSJ
[1m4912[0m: VAI NO CEMINTERIO ESTA MAIS LOTADO CHEIO DE INOCENTES MORTOS PELAS MAOS DESSES VERMES
[1m4263[0m: vai pra cuba
[1m1616[0m: Homem que √© homem come doritos de pimenta com gel√©ia extra-forte de pimenta e guaran√° ice.
[1m5234[0m: Os netos que devem ter vergonha dele
[1m3490[0m: RT @kordeidoI: 6- emily fields
s√≥ se fode
emay

### Debug

In [5]:
import speechwrapper as sw

In [6]:
wrapper = sw.HateSpeechModel('../../modelos/bertimbau-hatespeech-v01')

Loading tokenizer from neuralmind/bert-base-portuguese-cased
Loading trained model: ../modelos/bertimbau-hatespeech-v01


Some layers from the model checkpoint at ../modelos/bertimbau-hatespeech-v01 were not used when initializing TFBertForSequenceClassification: ['dropout_151']
- This IS expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFBertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
All the layers of TFBertForSequenceClassification were initialized from the model checkpoint at ../modelos/bertimbau-hatespeech-v01.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


In [7]:
exemplos = ['To te esperando com um cafezinho, pode chegar', 'N√£o gostei nada da sua √∫ltima proposta, com exce√ß√£o, talvez, da parte 2.']
wrapper.predict_proba(exemplos)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 287.12ba/s]




array([0.09299637, 0.00845698], dtype=float32)

### Fun√ß√µes

In [2]:
import hatepred as hp

2022-08-04 12:26:46.541941: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-08-04 12:26:46.541963: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
  from .autonotebook import tqdm as notebook_tqdm


In [4]:
# Carrega tokenizer:
tokenizer  = hp.AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased', do_lower_case=False)
# Carrega o modelo:
model = hp.TFAutoModelForSequenceClassification.from_pretrained('../../modelos/bertimbau-hatespeech-v01')

2022-08-04 12:15:57.885133: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error
2022-08-04 12:15:57.885175: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:169] retrieving CUDA diagnostic information for host: glitterbu
2022-08-04 12:15:57.885181: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: glitterbu
2022-08-04 12:15:57.885279: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:200] libcuda reported version is: 390.154.0
2022-08-04 12:15:57.885300: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:204] kernel reported version is: 390.151.0
2022-08-04 12:15:57.885306: E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:313] kernel version 390.151.0 does not match DSO version 390.154.0 -- cannot find working devices in this configuration
2022-08-04 12:15:57.885521: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Librar

In [6]:
hp.rate_speech_for_hate(model, tokenizer, bad_texts)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 61.48ba/s]




array([0.9067946 , 0.4641457 , 0.7122503 , 0.9855008 , 0.66725206,
       0.96393603, 0.6290632 , 0.98527336, 0.96865195, 0.3382687 ,
       0.9841449 , 0.07876287, 0.8605168 , 0.8150324 , 0.51905274,
       0.31016403, 0.14504538, 0.4707777 , 0.5290753 , 0.57215285,
       0.4866424 , 0.5380142 , 0.05814871], dtype=float32)

### Classe

In [2]:
import speechwrapper as sw

2022-08-04 12:17:55.428503: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-08-04 12:17:55.428527: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
  from .autonotebook import tqdm as notebook_tqdm


In [3]:
wrapper = sw.HateSpeechModel('../../modelos/bertimbau-hatespeech-v01')

Loading tokenizer from neuralmind/bert-base-portuguese-cased
Loading trained model: ../modelos/bertimbau-hatespeech-v01


2022-08-04 12:18:08.963943: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_UNKNOWN: unknown error
2022-08-04 12:18:08.963975: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:169] retrieving CUDA diagnostic information for host: glitterbu
2022-08-04 12:18:08.963982: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: glitterbu
2022-08-04 12:18:08.964059: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:200] libcuda reported version is: 390.154.0
2022-08-04 12:18:08.964080: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:204] kernel reported version is: 390.151.0
2022-08-04 12:18:08.964086: E tensorflow/stream_executor/cuda/cuda_diagnostics.cc:313] kernel version 390.151.0 does not match DSO version 390.154.0 -- cannot find working devices in this configuration
2022-08-04 12:18:08.964334: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Librar

In [5]:
hp.rate_speech_for_hate(wrapper.model, wrapper.tokenizer, good_texts)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 101.83ba/s]




array([0.14720546, 0.05058111, 0.13043758, 0.66963   , 0.3385753 ,
       0.8626306 , 0.11031707, 0.55077153, 0.58265865, 0.09415061,
       0.13883495, 0.09299637, 0.08486506, 0.33029503, 0.19715138,
       0.17266637, 0.3865594 , 0.00845698, 0.01503846, 0.04057452,
       0.06342246, 0.4787394 , 0.22150485, 0.19421276, 0.00696036,
       0.05128425, 0.02889735], dtype=float32)

In [10]:
tfd = hp.process_pandas_to_tfdataset(hp.pd.DataFrame({'text': bad_texts, 'label': [1] * len(bad_texts)}), wrapper.tokenizer)

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 252.18ba/s]


In [11]:
wrapper.predict_proba_from_tfd(tfd)



array([0.4707777 , 0.9841449 , 0.14504538, 0.5380142 , 0.9855008 ,
       0.96865195, 0.46414563, 0.33826876, 0.96393603, 0.4866424 ,
       0.66725206, 0.5290753 , 0.57215285, 0.8150324 , 0.05814879,
       0.9067946 , 0.62906325, 0.3101641 , 0.7122503 , 0.98527336,
       0.5190528 , 0.8605168 , 0.07876287], dtype=float32)

In [8]:
tfd = wrapper.process_pandas_to_tfdataset(hp.pd.DataFrame({'text': bad_texts, 'label': [1] * len(bad_texts)}))



INFO:tensorflow:Assets written to: ram://16a7e2e5-d037-48ca-aa5a-7645064e1c56/assets


INFO:tensorflow:Assets written to: ram://16a7e2e5-d037-48ca-aa5a-7645064e1c56/assets
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 246.96ba/s]


In [4]:
model.predict_proba(good_texts)



INFO:tensorflow:Assets written to: ram://f2055a48-31e6-45e2-8fc4-225320b14f5c/assets


INFO:tensorflow:Assets written to: ram://f2055a48-31e6-45e2-8fc4-225320b14f5c/assets
100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00,  5.49ba/s]




array([0.14720546, 0.05058111, 0.13043758, 0.66963   , 0.3385753 ,
       0.8626306 , 0.11031707, 0.55077153, 0.58265865, 0.09415061,
       0.13883495, 0.09299637, 0.08486506, 0.33029503, 0.19715138,
       0.17266637, 0.3865594 , 0.00845698, 0.01503846, 0.04057452,
       0.06342246, 0.4787394 , 0.22150485, 0.19421276, 0.00696036,
       0.05128425, 0.02889735], dtype=float32)