## 1. Evaluación del modelo de Sentiment Analysis BETO en el dataset de noticias de prensa chilena

- Modelo BETO

In [1]:
from tqdm import tqdm # Barra de progreso


import transformers
transformers.__version__

'4.12.2'

In [2]:
model_name = "finiteautomata/beto-sentiment-analysis"

from transformers import AutoTokenizer, AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

2022-11-08 09:57:19.134077: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2022-11-08 09:57:23.015436: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2022-11-08 09:57:23.015550: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2022-11-08 09:57:23.506013: E tensorflow/stream_executor/cuda/cuda_blas.cc:2981] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2022-11-08 09:57:35.217287: W tensorflow/stream_executor/platform/de

- Dataset "noticias de prensa chilena etiquetado"

In [44]:
import pandas as pd

archivo = "./data/sentiment_analysis_news/dataset_sentiment_analysis_news.csv"
dataset = pandas.read_csv(archivo)
dataset.drop('Unnamed: 0', axis=1, inplace=True)  

- Aplicación del modelo BETO sobre el dataset

In [3]:
from transformers import pipeline
nlp = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

In [46]:
dataset['prediction'] = ""
dataset['score'] = ""

for index, row in tqdm(dataset.iterrows(), desc='Análisis de sentimiento', total=dataset.shape[0]):
    
    # Analizamos su sentimiento en inglés
    sentiment_value = nlp(row['title'])
    
    # Insertamos en dataframe
    dataset.at[index, "prediction"] = sentiment_value[0].get('label')
    dataset.at[index, "score"] = sentiment_value[0].get('score')

Análisis de sentimiento: 100%|████████████████| 328/328 [00:13<00:00, 23.63it/s]


In [47]:
pandas.set_option('display.max_colwidth', None)
pandas.set_option('display.max_rows', None)

dataset

Unnamed: 0,id_news,title,label,anotador,prediction,score
0,21868949.0,Provincial Osorno pierde el invicto tras caer 1-0 ante Rengo en emocionante partido,NEU,spacheco,NEG,0.742287
1,21863164.0,Combustibles volverán a bajar este jueves y también la próxima semana,POS,spacheco,NEU,0.98114
2,21862451.0,Osorno: Un 33% de avance registra construcción de nuevo gimnasio en Escuela Monseñor Francisco Valdés en Francke,POS,spacheco,POS,0.702303
3,21865072.0,Detienen a presunto autor de homicidio registrado afuera de local nocturno en Osorno,POS,spacheco,NEG,0.589283
4,21860581.0,Una persona fallecida dejó choque en ruta 215 en las cercanías de Osorno,NEG,spacheco,NEG,0.64568
5,21859282.0,Autoridades y representantes del rubro agrícola efectúan primera reunión del año contra el abigeato,POS,spacheco,NEU,0.939422
6,21864849.0,Jürgensen desdramatizó últimas cifras de Cadem en torno a gestión de Sebastián Piñera,NEU,spacheco,NEG,0.498778
7,21858814.0,Compensaciones: Essal solo contempla apegarse a la ley,NEG,spacheco,NEG,0.706188
8,21862085.0,En Río Rahue encuentran sin vida a joven estudiante viñamarino extraviado en Osorno,POS,spacheco,NEU,0.94623
9,21862192.0,Osorno: Construyeron petril al final de calle Pérez que evitaría crecida del río Damas,POS,spacheco,NEU,0.996407


- Evaluación: matriz de confusión, precision y recall

In [48]:
from pandasql import sqldf

In [49]:
def get_confusion_matrix(dataset):
    # 3x3 matrix: POS,NEU,NEG
    matrix = [[0,0,0],[0,0,0],[0,0,0]]
    labels = ["POS","NEU","NEG"]
    predictions = ["POS","NEU","NEG"]
    
    for i, label in enumerate(labels):
        for j, prediction in enumerate(predictions):
       
            subset=sqldf("SELECT * FROM dataset WHERE label=\""+label+"\" AND prediction=\""+prediction+"\"", globals())
            result=len(subset)
            matrix[i][j]=result
        
    return matrix

matrix=get_confusion_matrix(dataset)
matrix

[[20, 72, 7], [4, 110, 19], [1, 16, 79]]

In [50]:
def precision(matrix=matrix):
    labels = ["POS","NEU","NEG"]
    for i, label in enumerate(labels):
        total_pred=matrix[0][i]+matrix[1][i]+matrix[2][i]
        correct_pred=matrix[i][i]
        precision=correct_pred/total_pred
        
        print("Precisión "+labels[i]+": "+str(precision)+" ("+str(correct_pred)+"/"+str(total_pred)+")")

precision(matrix)

Precisión POS: 0.8 (20/25)
Precisión NEU: 0.5555555555555556 (110/198)
Precisión NEG: 0.7523809523809524 (79/105)


In [51]:
def recall(matrix=matrix):
    labels = ["POS","NEU","NEG"]
    for i, label in enumerate(labels):
        total_label=matrix[i][0]+matrix[i][1]+matrix[i][2]
        correct_pred=matrix[i][i]
        recall=correct_pred/total_label
        
        print("Recall "+labels[i]+": "+str(recall)+" ("+str(correct_pred)+"/"+str(total_label)+")")

recall(matrix)

Recall POS: 0.20202020202020202 (20/99)
Recall NEU: 0.8270676691729323 (110/133)
Recall NEG: 0.8229166666666666 (79/96)


- Exploración de los errores

Errores graves = POS/NEG o NEG/POS

In [53]:
errores_graves_1=sqldf("SELECT * FROM dataset WHERE label=\"POS\" AND prediction=\"NEG\"")
errores_graves_2=sqldf("SELECT * FROM dataset WHERE label=\"NEG\" AND prediction=\"POS\"")

In [54]:
errores_graves_1

Unnamed: 0,id_news,title,label,anotador,prediction,score
0,21865072.0,Detienen a presunto autor de homicidio registrado afuera de local nocturno en Osorno,POS,spacheco,NEG,0.589283
1,47138493.0,"Murió Luis Cortes Villa, expresidente de la fundación del dictador Augusto Pinochet",POS,agarnica,NEG,0.513324
2,47163574.0,Condenan a 5 años y un día de presidio efectivo a autor de tráfico de drogas en Los Vilos,POS,agarnica,NEG,0.743856
3,21909993.0,Prisión preventiva para hombre de 27 años de edad por llevar más de 15 kilos de drogas en un bus,POS,fruiz,NEG,0.689018
4,21829724.0,Operativo policial termina con una mujer detenida y con el decomiso de 3.490 dosis de cocaína en Osorno,POS,fruiz,NEG,0.518949
5,218290040.0,Presentan recurso de protección en contra de inmobiliaria para proteger humedal de Osorno,POS,tbadilla,NEG,0.929685
6,47333339.0,CONSEJERO CASANOVA PROPONE ENTREGAR HOSPITAL DE CAMPAÑA QUE ACTUALMENTE ESTÁ SIN USO PARA EL USO DE LA ATENCIÓN PRIMARIA DE OSORNO.,POS,svergara,NEG,0.790883


In [55]:
errores_graves_2

Unnamed: 0,id_news,title,label,anotador,prediction,score
0,47317276.0,Incautan más de 5 toneladas de recursos del mar,NEG,svergara,POS,0.883114


**El modelo ve una positividad/negatividad, que el humano no ve**

In [56]:
errores_3=sqldf("SELECT * FROM dataset WHERE label=\"NEU\" AND prediction!=\"NEU\"")
errores_3

Unnamed: 0,id_news,title,label,anotador,prediction,score
0,21868949.0,Provincial Osorno pierde el invicto tras caer 1-0 ante Rengo en emocionante partido,NEU,spacheco,NEG,0.742287
1,21864849.0,Jürgensen desdramatizó últimas cifras de Cadem en torno a gestión de Sebastián Piñera,NEU,spacheco,NEG,0.498778
2,21867919.0,Autoridades llaman a la calma ante Alerta Amarilla declarada en complejo volcánico Puyehue-Cordón Caulle,NEU,spacheco,NEG,0.94277
3,21865257.0,Presidente de Aproleche manifiesta preocupación por lentitud en aplicación de salvaguardia de la leche,NEU,spacheco,NEG,0.995082
4,21859279.0,Provincial Osorno cayó 2-0 de visita ante Rancagua Sur,NEU,spacheco,NEG,0.790374
5,21887534.0,Municipio de Puerto Montt despliega más de 60 “Ferias Callejeras Territoriales” en víspera de Navidad,NEU,fruiz,POS,0.863655
6,21936126.0,Camioneros ante propuesta de Boric: Nos quieren reemplazar por Ferrocarriles del Estado,NEU,fruiz,NEG,0.77665
7,21935917.0,Vocerías dan por zanjado tema de actitudes machistas de Boric tras pronunciamiento de la afectada,NEU,fruiz,NEG,0.858057
8,21475035.0,4 consejos para escoger tus próximas zapatillas Adidas,NEU,fruiz,POS,0.987218
9,219097530.0,42 contagios de covid-19 se reportaron este martes en la región de Los Lagos,NEU,tbadilla,NEG,0.974703


**El humano ve una positividad/negatividad, que el modelo no ve**

In [58]:
errores_4=sqldf("SELECT * FROM dataset WHERE label!=\"NEU\" AND prediction=\"NEU\"")
errores_4

Unnamed: 0,id_news,title,label,anotador,prediction,score
0,21863164.0,Combustibles volverán a bajar este jueves y también la próxima semana,POS,spacheco,NEU,0.98114
1,21859282.0,Autoridades y representantes del rubro agrícola efectúan primera reunión del año contra el abigeato,POS,spacheco,NEU,0.939422
2,21862085.0,En Río Rahue encuentran sin vida a joven estudiante viñamarino extraviado en Osorno,POS,spacheco,NEU,0.94623
3,21862192.0,Osorno: Construyeron petril al final de calle Pérez que evitaría crecida del río Damas,POS,spacheco,NEU,0.996407
4,21862577.0,Sin señalética: Camionetas protagonizan colisión con volcamiento en calle Bilbao de Osorno (VIDEO),POS,spacheco,NEU,0.630377
5,21864185.0,Sectores apartados ya pueden postular al Fondo de Acceso a la Energía,POS,spacheco,NEU,0.996962
6,21860841.0,Formalizan por cuasidelito de homicidio a implicados en muerte de menor en piscina de Puyehue,POS,spacheco,NEU,0.510449
7,21864906.0,Los Lagos: Core acuerda trabajo intersectorial para crear plan de mejoramiento en conectividad,POS,spacheco,NEU,0.991566
8,21861084.0,Sorprendente hallazgo: Confirman presencia de un meteorito en sitio Pilauco de Osorno,POS,spacheco,NEU,0.995935
9,21861351.0,Por un verano más sano: Minsal fiscalizó locales del Mercado Municipal de Osorno,POS,spacheco,NEU,0.996008
