In [1]:
import transformers, re, datasets, torch, evaluate
import pandas as pd
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification

f1 = evaluate.load('f1')
dataset = pd.read_csv(r'C:\Users\FLopezP\Desktop\PCIC\Segundo Semestre\Minería de textos\Corpus TASS\corpusTASS-2020\test.tsv', sep = '\t')
dataset.head(5)

Unnamed: 0,id,texto,pais,etiqueta
0,770809220291760128,Quiero que alguien me diga cosas bonitas,ES,N
1,772825676793589760,@RavlRVara ¡Síguenos porfa! Tenemos que decirt...,ES,NEU
2,772508582923337729,@Charlywayty @Karim0931 cualquiera diría que e...,ES,NEU
3,790657169876193281,"a to esto, el tio de ono no ha venio",ES,N
4,770967255773507584,@IKEASpain es el mismo así que tomo nota de to...,ES,P


In [2]:
def no_arrobas(tweet):
    return re.sub("@+([a-zA-Z|0-9])+ | #+[a-zA-Z|0-9]", '', tweet)

def create_dataset(texto, tag, clean):
    """
    texto = list ; Conjunto de tweets
    tag = list ; Conjunto de etiquetas
    clean = bool ; Opción de preprocesamiento
    """
    if clean:
        texto = [no_arrobas(_) for _ in texto]
    dict_dataset = {'Tweets': texto, 'Tags': tag}
    aux_df = pd.DataFrame(dict_dataset)
    return Dataset.from_pandas(aux_df)

In [3]:
ds_limpio = create_dataset(dataset['texto'], dataset['etiqueta'], True)
ds_normal = create_dataset(dataset['texto'], dataset['etiqueta'], False)
ds_limpio

Dataset({
    features: ['Tweets', 'Tags'],
    num_rows: 7264
})

In [4]:
tokenizer = AutoTokenizer.from_pretrained("finiteautomata/beto-sentiment-analysis")
model = AutoModelForSequenceClassification.from_pretrained("finiteautomata/beto-sentiment-analysis")

In [5]:
def evaluate_example(tweet):
    """
    Evaluación manual multiclase 

    tweet = str ;  Texto a clasificar
    """
    inputs = tokenizer(tweet, return_tensors = 'pt')
    with torch.no_grad():
        logits = model(**inputs).logits
        logits = torch.sigmoid(logits)

    value = logits[0]
    aux = 0
    classifier = -1
    for _ in value:
        if _.item() > aux:
            aux = _
            classifier += 1
    return classifier

In [6]:
%%time

labels = ds_limpio['Tags']
pred_limpio = [evaluate_example(_) for _ in ds_limpio['Tweets']]
pred_normal = [evaluate_example(_) for _ in ds_normal['Tweets']]
print(len(pred_limpio), len(pred_normal))

7264 7264
CPU times: total: 25min 38s
Wall time: 5min 13s


In [7]:
def translate_and_eval(etiquetas, predicciones):
    new_labels = []
    for _ in etiquetas:
        if str(_) == 'P':
            new_labels.append(2)
        elif str(_) == 'N':
            new_labels.append(0)
        else:
            new_labels.append(1)
    results = f1.compute(references = new_labels, predictions = predicciones, average = 'macro')
    return results, new_labels

In [8]:
limpio, limpio_labels = translate_and_eval(labels, pred_limpio)
normal, normal_labels = translate_and_eval(labels, pred_normal)
print(limpio, normal)

{'f1': 0.5762955723975381} {'f1': 0.5766719809382167}


1. Positivo = 2
2. Negativo = 0
3. Neutral = 1

In [9]:
def analysis(prediction, reference, dataset):
    for i in range(15):
        if prediction[i] != reference[i]:
            print(f"Tweet mal clasificado: {dataset['Tweets'][i]}")
            print(f"Tag correcto: {prediction[i]}. Tag del modelo: {reference[i]}.")
            print("---")
            
analysis(limpio_labels, pred_limpio, ds_limpio)
print("-----------------")
analysis(normal_labels, pred_normal, ds_normal)

Tweet mal clasificado: Quiero que alguien me diga cosas bonitas 
Tag correcto: 0. Tag del modelo: 1.
---
Tweet mal clasificado: es el mismo así que tomo nota de todo racias
Tag correcto: 2. Tag del modelo: 1.
---
Tweet mal clasificado: q en horas estemos en septiembre, perdona?????  24 junio dnde stas 
Tag correcto: 0. Tag del modelo: 1.
---
Tweet mal clasificado: Estás muy calladito por aquí julio... q n puedo poner la radio 
Tag correcto: 0. Tag del modelo: 1.
---
Tweet mal clasificado: Hay algunos shojos de comedia romántica que me gustaría que se centraran un poco más en lo romántico 
Tag correcto: 0. Tag del modelo: 2.
---
Tweet mal clasificado: Tengo que hacer resumen de sociales de 5 temas y todos los ejercicios de 4 temas  Me suicido ya?
Tag correcto: 0. Tag del modelo: 1.
---
-----------------
Tweet mal clasificado: Quiero que alguien me diga cosas bonitas 
Tag correcto: 0. Tag del modelo: 1.
---
Tweet mal clasificado: @IKEASpain es el mismo así que tomo nota de todo  #gracias