#**Roberta For Fake News**

> Este trabajo se enfoca en la detección de noticias falsas en español, un desafío crítico en la era digital. Para abordar este problema, se utiliza el modelo RoBERTa junto con técnicas de procesamiento de lenguaje natural. El proceso implica la recopilación y curación de un conjunto de datos en español que abarque noticias auténticas y falsas, considerando diversos temas y estilos de escritura. Una vez que se cuenta con el conjunto de datos adecuado, se configuran hiper parámetros específicos del idioma y se lleva a cabo la tokenización adecuada para adaptar el modelo RoBERTa al español. Luego, se procede a entrenar el modelo utilizando técnicas de aprendizaje profundo, como el ajuste fino, con el objetivo de desarrollar un sistema de detección de noticias falsas eficaz en español. El proceso de entrenamiento y evaluación involucra la separación de datos en conjuntos de entrenamiento, validación y prueba para ajustar los hiper parámetros y evitar el sobreajuste. Una vez que se ha logrado un rendimiento satisfactorio, el modelo entrenado se puede implementar en aplicaciones o sistemas, contribuyendo de esta manera a la mitigación de la difusión de información falsa y engañosa en el ámbito de habla hispana.



##**Requerimientos**


> Paquetes para Mapeo y ETL

*   HuggingFace: transformers, datasets
*   Kaggle:




---




In [1]:
!pip install accelerate==0.20.1 transformers[torch] datasets #para el trainning /librerías específicas #TODO/



In [2]:
#Vamos a instalar todos los módulos

!pip install kaggle #Para mapeo de Kaggle

!pip install Pyspark #Para el ETL

!huggingface-cli login #necesitarán un token de acceso, puedes usar este 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



    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

    A token is already saved on your machine. Run `huggingface-cli whoami` to get more information or `huggingface-cli logout` if you want to log out.
    Setting a new token will erase the existing one.
    To login, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Token: 
Add token as git credential? (Y/n) n
Token is valid (permission: write).
Your token has been saved to /root/.c

##**Mapeo de datasets y ETL**

---



###**Mapeo de datasets en HuggingFace y Kaggle**

####**Kaggle**
Vamos a mapear datasets de noticias falses en español usando la API de Kaggle.

#####**Mapeo de Datos**

In [3]:
#Primero vamos a importar la función "files" del módulo  google.colab

from google.colab import files

In [4]:
#Acá subimos la llave .json de nuestra cuenta de Kaggle

files.upload()
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

Saving kaggle.json to kaggle.json


In [5]:
#Buscamos los datasets relacionados a "news"

!kaggle datasets list -s "news"

ref                                                  title                                          size  lastUpdated          downloadCount  voteCount  usabilityRating  
---------------------------------------------------  --------------------------------------------  -----  -------------------  -------------  ---------  ---------------  
rmisra/news-category-dataset                         News Category Dataset                          27MB  2022-09-24 08:07:21          57046        691  1.0              
hacker-news/hacker-news                              Hacker News                                      0B  2019-02-12 00:34:51              0        523  0.7058824        
therohk/million-headlines                            A Million News Headlines                       21MB  2022-06-11 14:08:07          39497        635  1.0              
gpreda/bbc-news                                      BBC News                                        2MB  2023-11-20 00:27:56           2063     

In [6]:
#Miramos los documentos que tiene el dataset
!kaggle datasets files javieroterovizoso/spanish-political-fake-news

name                 size  creationDate         
-------------------  ----  -------------------  
D5500_test.csv        2MB  2023-11-03 16:28:06  
D21000_train.csv      7MB  2023-11-03 16:28:06  
D46000_train.csv     15MB  2023-11-03 16:28:06  
ReadMe.txt           334B  2023-11-03 16:28:06  
D11000_test.csv       4MB  2023-11-03 16:28:06  
D57000_complete.csv  19MB  2023-11-03 16:28:06  


#####**Descarga de datasets de Kaggle**
El dataset que descargaremos de Kaggle es **"javieroterovizoso/spanish-political-fake-news"**
que tiene noticias etiquetadas en español. Y descargaremos la versión compacta:

*   D57000_complete.csv  19MB

In [7]:
!kaggle datasets download -d javieroterovizoso/spanish-political-fake-news -f D57000_complete.csv

D57000_complete.csv.zip: Skipping, found more recently modified local copy (use --force to force download)


#####**Descomprimimos los datasets de Kaggle**

In [8]:
import zipfile

# Nombre del archivo ZIP descargado
zip_filename = "D57000_complete.csv.zip"

# Directorio de destino para descomprimir
extract_dir = "/content/extracted_data"

with zipfile.ZipFile(zip_filename, 'r') as zip_ref:
  zip_ref.extractall(extract_dir)


In [9]:
#Ahora descargamos el otro dataset

!kaggle datasets files arseniitretiakov/noticias-falsas-en-espaol

name                size  creationDate         
-----------------  -----  -------------------  
onlytrue1000.csv   238KB  2020-08-18 12:53:00  
test.csv           112KB  2020-08-18 12:53:00  
train.csv          474KB  2020-08-18 12:53:00  
onlyfakes1000.csv  234KB  2020-08-18 12:53:00  
fakes1000.csv      484KB  2020-08-18 12:53:00  


In [10]:
!kaggle datasets download -d arseniitretiakov/noticias-falsas-en-espaol -f fakes1000.csv

fakes1000.csv: Skipping, found more recently modified local copy (use --force to force download)


####**HuggingFace**

#####**Descargamos el dataset**

In [11]:
from datasets import load_dataset

dataset_train = load_dataset("sayalaruano/FakeNewsCorpusSpanish", split="train", column_names=['Id', 'Category', 'Topics', 'Source', 'Headline', 'Text', 'Link'])
print(f"Train dataset size: {len(dataset_train)}")



Train dataset size: 677


In [12]:
dataset_test = load_dataset("sayalaruano/FakeNewsCorpusSpanish", split="test", column_names=['Id', 'Category', 'Topics', 'Source', 'Headline', 'Text', 'Link'])
print(f"Train dataset size: {len(dataset_test)}")



Train dataset size: 573


In [13]:
df_p_HF_train = dataset_train.to_pandas()
df_p_HF_test = dataset_test.to_pandas()

###**ETL de los datasets mapeados**

In [14]:
#Transformar esos csv a Dataframes con Pyspark

from pyspark.sql import SparkSession

# Inicializa la sesión de Spark
spark = SparkSession.builder.appName("ALLDataset").getOrCreate()

# Carga un archivo CSV en un DataFrame de PySpark
df_s_KG_D57000_complete = spark.read.csv("/content/extracted_data/D57000_complete.csv", header=True, inferSchema=True, sep=';')

df_s_KG_D57000_complete.show()

+---+-----+--------------------+--------------------+----------+
| ID|Label|              Titulo|         Descripcion|     Fecha|
+---+-----+--------------------+--------------------+----------+
| ID|    1|Moreno intenta ap...|El presidente abr...|19/04/2022|
| ID|    1|La Abogacía del E...|En un escrito, la...|17/09/2021|
| ID|    0|Las promesas incu...|Este lunes y mart...|12/09/2022|
| ID|    1|Sánchez defiende ...|Resulta evidente ...|07/02/2023|
| ID|    1|Ian Gibson cierra...|El hispanista, qu...|12/04/2023|
| ID|    1|ERC y Junts se at...|Empieza una inten...|19/09/2022|
| ID|    1|El PP se rinde al...|Núñez Feijóo guar...|13/01/2023|
| ID|    1|El PSOE denuncia ...|Los socialistas h...|31/03/2023|
| ID|    1|Escrivá niega que...|El ministro de In...|08/08/2022|
| ID|    1|IU propone una de...|Izquierda Unida d...|26/11/2022|
| ID|    1|Ayuso rescata a V...|La presidenta mad...|25/04/2021|
| ID|    0|Los 33 días que f...|El 16 de febrero ...|21/03/2022|
| ID|    0|El Nueva Canar

In [15]:
#Veemos el esquema del dataframe

df_s_KG_D57000_complete.printSchema()

root
 |-- ID: string (nullable = true)
 |-- Label: integer (nullable = true)
 |-- Titulo: string (nullable = true)
 |-- Descripcion: string (nullable = true)
 |-- Fecha: string (nullable = true)



In [16]:
from pyspark.sql.functions import col
def Registros_Nulos_SQL(data_frame):

    data_frame.createOrReplaceTempView("tbl_data_frame")

    resultado = spark.sql("SELECT COUNT(*) AS ValoresNulos FROM tbl_data_frame WHERE Descripcion IS NULL")

    resultado.show()

In [17]:
Registros_Nulos_SQL(df_s_KG_D57000_complete)

+------------+
|ValoresNulos|
+------------+
|           0|
+------------+



In [18]:
#Conservamos campos que nos interesen
df_s_KG_D57000_complete = df_s_KG_D57000_complete.drop(*('ID', 'Titulo', 'Fecha'))
df_s_KG_D57000_complete.show()

+-----+--------------------+
|Label|         Descripcion|
+-----+--------------------+
|    1|El presidente abr...|
|    1|En un escrito, la...|
|    0|Este lunes y mart...|
|    1|Resulta evidente ...|
|    1|El hispanista, qu...|
|    1|Empieza una inten...|
|    1|Núñez Feijóo guar...|
|    1|Los socialistas h...|
|    1|El ministro de In...|
|    1|Izquierda Unida d...|
|    1|La presidenta mad...|
|    0|El 16 de febrero ...|
|    0|La oposición pide...|
|    0|El Congreso acuer...|
|    1|Los afectados ago...|
|    1|Yolanda Díaz se p...|
|    1|Creo que no vamos...|
|    1|Un concejal del p...|
|    1|Los beneficiarios...|
|    1|El presidente del...|
+-----+--------------------+
only showing top 20 rows



In [19]:
#Ahora con el dataset de fakes1000

df_s_KG_fakes1000 = spark.read.csv("/content/fakes1000.csv", header=True, inferSchema=True, sep=',')

df_s_KG_fakes1000.show()

+-----+--------------------+
|class|                Text|
+-----+--------------------+
| TRUE| Algunas de las v...|
| TRUE| Después de casi ...|
| TRUE| Dos periodistas ...|
| TRUE| El Cuerpo Nacion...|
| TRUE| El desfile de la...|
| TRUE| El miedo a la pé...|
| TRUE| El Ministerio de...|
| TRUE| El nuevo plan mi...|
| TRUE|" El secretario g...|
|FALSE| El suceso ha ten...|
| TRUE| Ernest Maragall,...|
| TRUE| España es líder ...|
|FALSE| Estamos en la se...|
|FALSE| Estudios científ...|
| TRUE|" Existe un lugar...|
| TRUE| Gente de todas l...|
|FALSE| Ha sucedido en l...|
|FALSE|" La fiesta en Se...|
| TRUE| La juez de Instr...|
| TRUE| La mujer pakista...|
+-----+--------------------+
only showing top 20 rows



In [20]:
df_s_KG_fakes1000 = df_s_KG_fakes1000.withColumnRenamed("class", "Label")

df_s_KG_fakes1000 = df_s_KG_fakes1000.withColumnRenamed("Text", "Descripcion")

# Mostrar el DataFrame con el nuevo nombre de columna
df_s_KG_fakes1000.show()

+-----+--------------------+
|Label|         Descripcion|
+-----+--------------------+
| TRUE| Algunas de las v...|
| TRUE| Después de casi ...|
| TRUE| Dos periodistas ...|
| TRUE| El Cuerpo Nacion...|
| TRUE| El desfile de la...|
| TRUE| El miedo a la pé...|
| TRUE| El Ministerio de...|
| TRUE| El nuevo plan mi...|
| TRUE|" El secretario g...|
|FALSE| El suceso ha ten...|
| TRUE| Ernest Maragall,...|
| TRUE| España es líder ...|
|FALSE| Estamos en la se...|
|FALSE| Estudios científ...|
| TRUE|" Existe un lugar...|
| TRUE| Gente de todas l...|
|FALSE| Ha sucedido en l...|
|FALSE|" La fiesta en Se...|
| TRUE| La juez de Instr...|
| TRUE| La mujer pakista...|
+-----+--------------------+
only showing top 20 rows



In [21]:
df_s_KG_fakes1000.printSchema()

root
 |-- Label: string (nullable = true)
 |-- Descripcion: string (nullable = true)



In [22]:
Registros_Nulos_SQL(df_s_KG_fakes1000)

+------------+
|ValoresNulos|
+------------+
|           1|
+------------+



In [23]:
df_s_KG_fakes1000 = df_s_KG_fakes1000.dropna()

In [24]:
Registros_Nulos_SQL(df_s_KG_fakes1000)

+------------+
|ValoresNulos|
+------------+
|           0|
+------------+



In [25]:
from pyspark.sql.functions import when
df_s_KG_fakes1000 = df_s_KG_fakes1000.withColumn("Label", when(col("Label") == "TRUE", 1).otherwise(0))

In [26]:
df_s_KG_fakes1000.groupby('Label').count().show()

+-----+-----+
|Label|count|
+-----+-----+
|    1| 1000|
|    0| 1001|
+-----+-----+



In [27]:
#Cambiar tipo de dato de columna
df_s_KG_fakes1000 = df_s_KG_fakes1000.withColumn("Label", col("Label").cast("int"))

In [28]:
df_s_KG_fakes1000.head()

Row(Label=1, Descripcion=' Algunas de las voces extremistas más conocidas de EE.UU., cuentas asociadas con al movimiento de la conocida como alt-right o ligadas a grupos antisemitas o xenófobos , han sido eliminadas de un plumazo de la redes sociales Facebook e Instagram. Se trat')

In [29]:
#DataFrame HuggingFace
df_p_HF_train = dataset_train.to_pandas()
df_p_HF_test = dataset_test.to_pandas()

In [30]:
df_p_HF_train = df_p_HF_train.drop(df_p_HF_train.index[0])

In [31]:
df_p_HF_test = df_p_HF_test.drop(df_p_HF_test.index[0])

In [32]:
#De pandas a Spark
df_s_HF_train = spark.createDataFrame(df_p_HF_train)
df_s_HF_test = spark.createDataFrame(df_p_HF_test)

###**Juntar todos los dataframes**


In [33]:
#Unión de los dataframes
df_s_HF_tt = df_s_HF_train.union(df_s_HF_test)

In [34]:
df_s_HF_tt.show()

+---+--------+---------+---------------+--------------------+--------------------+--------------------+
| Id|Category|   Topics|         Source|            Headline|                Text|                Link|
+---+--------+---------+---------------+--------------------+--------------------+--------------------+
|  1|    Fake|Education| El Ruinaversal|RAE INCLUIRÁ LA P...|RAE INCLUIRÁ LA P...|http://www.elruin...|
|  2|    Fake|Education|    Hay noticia|La palabra "haiga...|La palabra "haiga...|https://haynotici...|
|  3|    Fake|Education| El Ruinaversal|YORDI ROSADO ESCR...|YORDI ROSADO ESCR...|http://www.elruin...|
|  4|    True|Education|   EL UNIVERSAL|UNAM capacitará a...|UNAM capacitará a...|http://www.eluniv...|
|  5|    Fake|Education|         Lamula|pretenden aprobar...|Alerta: pretenden...|https://redaccion...|
|  6|    True|Education|        Heraldo|Un paso más cerca...|Un paso más cerca...|https://www.heral...|
|  7|    Fake|Education| El Ruinaversal|UNAM REALIZARÁ PR...|UNA

In [35]:
#Seleccionamos las columnas que nos interesen
df_s_HF_tt = df_s_HF_tt.select("Category", "Text")
df_s_HF_tt.show()

+--------+--------------------+
|Category|                Text|
+--------+--------------------+
|    Fake|RAE INCLUIRÁ LA P...|
|    Fake|La palabra "haiga...|
|    Fake|YORDI ROSADO ESCR...|
|    True|UNAM capacitará a...|
|    Fake|Alerta: pretenden...|
|    True|Un paso más cerca...|
|    Fake|UNAM REALIZARÁ PR...|
|    True|Niño de *NUMBER* ...|
|    True|*NUMBER* palabras...|
|    Fake|LIMITARÁN EL TIEM...|
|    True|La UNAM limpia au...|
|    Fake|La Universidad de...|
|    True|Presentan la UNAM...|
|    Fake|La nueva selectiv...|
|    Fake|PIETRO BOSELLI, E...|
|    Fake|Angelica Rivera "...|
|    Fake|INE permitirá a c...|
|    Fake|Colas de *NUMBER*...|
|    Fake|El consentimiento...|
|    Fake|Se descubre que S...|
+--------+--------------------+
only showing top 20 rows



In [36]:
df_s_HF_tt = df_s_HF_tt.withColumnRenamed("Category", "Label").withColumnRenamed("Text", "Descripcion")
df_s_HF_tt.show()

+-----+--------------------+
|Label|         Descripcion|
+-----+--------------------+
| Fake|RAE INCLUIRÁ LA P...|
| Fake|La palabra "haiga...|
| Fake|YORDI ROSADO ESCR...|
| True|UNAM capacitará a...|
| Fake|Alerta: pretenden...|
| True|Un paso más cerca...|
| Fake|UNAM REALIZARÁ PR...|
| True|Niño de *NUMBER* ...|
| True|*NUMBER* palabras...|
| Fake|LIMITARÁN EL TIEM...|
| True|La UNAM limpia au...|
| Fake|La Universidad de...|
| True|Presentan la UNAM...|
| Fake|La nueva selectiv...|
| Fake|PIETRO BOSELLI, E...|
| Fake|Angelica Rivera "...|
| Fake|INE permitirá a c...|
| Fake|Colas de *NUMBER*...|
| Fake|El consentimiento...|
| Fake|Se descubre que S...|
+-----+--------------------+
only showing top 20 rows



In [37]:
#cambiar tipo de dato
df_s_HF_tt = df_s_HF_tt.withColumn("Label", col("Label").cast("int"))

In [38]:
print("=========================\nDataframe D57000 : \n")
print(df_s_KG_D57000_complete.printSchema())
print("=========================\nDataframe fakes1000 : \n")
print(df_s_KG_fakes1000.printSchema())
print("=========================\nDataframe HuggingFace : \n")
print(df_s_HF_tt.printSchema())

Dataframe D57000 : 

root
 |-- Label: integer (nullable = true)
 |-- Descripcion: string (nullable = true)

None
Dataframe fakes1000 : 

root
 |-- Label: integer (nullable = false)
 |-- Descripcion: string (nullable = true)

None
Dataframe HuggingFace : 

root
 |-- Label: integer (nullable = true)
 |-- Descripcion: string (nullable = true)

None


In [39]:
#Unir todos los datasets
df_1_2 = df_s_KG_D57000_complete.union(df_s_KG_fakes1000)

df_1_2_3 = df_1_2.union(df_s_HF_tt)

df_1_2_3.count()

60480

In [40]:
#Ver los datos
df_1_2_3 = df_1_2_3.dropna()
df_1_2_3.groupby('Label').count().show()

+-----+-----+
|Label|count|
+-----+-----+
|    1|34637|
|    0|25167|
+-----+-----+



In [41]:
df_1_2_3.count()

59804

In [67]:
df_1_2_3 = df_1_2_3.withColumnRenamed("Label", "label").withColumnRenamed("Descripcion", "text")

In [68]:
df_1_2_3.printSchema()

root
 |-- label: integer (nullable = true)
 |-- text: string (nullable = true)



In [70]:
#dividir para validación y test

porcentaje_entrenamiento = 0.9
porcentaje_prueba = 1 - porcentaje_entrenamiento

df_entrenamiento, df_prueba = df_1_2_3.randomSplit([porcentaje_entrenamiento, porcentaje_prueba], seed=23)

In [71]:
df_entrenamiento.count()

53747

In [72]:
df_prueba.count()

6057

In [46]:
!pip install datasets



In [73]:
from datasets import DatasetDict, Dataset

# Supongamos que tienes DataFrames llamados train_df, validation_df, y test_df

# Convertir DataFrames a Datasets
train_dataset = Dataset.from_pandas(df_entrenamiento.toPandas())
validation_dataset = Dataset.from_pandas(df_prueba.toPandas())

# Crear DatasetDict
dataset_dict = DatasetDict({
    'train': train_dataset,
    'validation': validation_dataset
})

# Imprimir información sobre el DatasetDict
print(dataset_dict)

DatasetDict({
    train: Dataset({
        features: ['label', 'text'],
        num_rows: 53747
    })
    validation: Dataset({
        features: ['label', 'text'],
        num_rows: 6057
    })
})


##**Entrenar**


---



###Tokenizar

In [74]:
from transformers import AutoTokenizer

model_checkpoint = "xlm-roberta-base"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [75]:
tokenizer.vocab_size

250002

In [76]:
text = "¡Hola! Esto es un ejemplo de texto, adiós."
tokenized_text = tokenizer.encode(text)

for token in tokenized_text:
    print(token, tokenizer.decode([token]))

0 <s>
14701 ¡
113251 Hol
11 a
38 !
38554 Esto
198 es
51 un
28639 ejemplo
8 de
18946 texto
4 ,
10 a
47189 dió
7 s
5 .
2 </s>


In [77]:
encoded_text = tokenizer(text, return_tensors="pt")
encoded_text

{'input_ids': tensor([[     0,  14701, 113251,     11,     38,  38554,    198,     51,  28639,
              8,  18946,      4,     10,  47189,      7,      5,      2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [78]:
def tokenize_descripcion(examples):
    return tokenizer(examples["text"], truncation=True, max_length=32, padding="max_length")

In [80]:
from datasets import Dataset
import pandas as pd

columns = dataset_dict["train"].column_names
columns.remove("label")
encoded_dataset = dataset_dict.map(tokenize_descripcion, batched=True, remove_columns=columns)
encoded_dataset

Map:   0%|          | 0/53747 [00:00<?, ? examples/s]

Map:   0%|          | 0/6057 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['label', 'input_ids', 'attention_mask'],
        num_rows: 53747
    })
    validation: Dataset({
        features: ['label', 'input_ids', 'attention_mask'],
        num_rows: 6057
    })
})

In [84]:
encoded_dataset["train"][0]

{'label': 0,
 'input_ids': [0,
  62,
  17151,
  19639,
  36160,
  95,
  44820,
  20580,
  533,
  95333,
  88,
  28340,
  360,
  192,
  2942,
  188,
  4,
  41,
  5543,
  9859,
  7926,
  78091,
  849,
  10298,
  123317,
  133,
  10,
  220,
  83575,
  8,
  51,
  2],
 'attention_mask': [1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1,
  1]}

###Cargar Modelo Preentrenado

In [85]:
from transformers import AutoModelForSequenceClassification

num_labels = 2
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=num_labels)

Some weights of the model checkpoint at xlm-roberta-base were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.weight', 'lm_head.bias', 'lm_head.layer_norm.bias', 'lm_head.dense.weight', 'lm_head.layer_norm.weight', 'lm_head.dense.bias', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of XLMRobertaForSequenceClassification were not initialized from the model checkpoint at xlm-roberta-base and are newly initialized: ['classifier.out_proj.weight', 'classifier.o

In [86]:
outputs = model(**encoded_text)
outputs

SequenceClassifierOutput(loss=None, logits=tensor([[-0.4119,  0.0628]], grad_fn=<AddmmBackward0>), hidden_states=None, attentions=None)

###Definir métricas

In [87]:
from datasets import load_metric

metric = load_metric("accuracy")
metric

Metric(name: "accuracy", features: {'predictions': Value(dtype='int32', id=None), 'references': Value(dtype='int32', id=None)}, usage: """
Args:
    predictions (`list` of `int`): Predicted labels.
    references (`list` of `int`): Ground truth labels.
    normalize (`boolean`): If set to False, returns the number of correctly classified samples. Otherwise, returns the fraction of correctly classified samples. Defaults to True.
    sample_weight (`list` of `float`): Sample weights Defaults to None.

Returns:
    accuracy (`float` or `int`): Accuracy score. Minimum possible value is 0. Maximum possible value is 1.0, or the number of examples input, if `normalize` is set to `True`.. A higher score means higher accuracy.

Examples:

    Example 1-A simple example
        >>> accuracy_metric = datasets.load_metric("accuracy")
        >>> results = accuracy_metric.compute(references=[0, 1, 2, 0, 1, 2], predictions=[0, 1, 1, 2, 1, 0])
        >>> print(results)
        {'accuracy': 0.5}

   

In [88]:
import numpy as np

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)

###Fine tuning

In [89]:
import transformers
import accelerate

print("Versión de Transformers:", transformers.__version__)
print("Versión de Accelerate:", accelerate.__version__)

Versión de Transformers: 4.29.2
Versión de Accelerate: 0.20.1


In [90]:
from transformers import TrainingArguments

model_name = model_checkpoint.split("/")[-1]

batch_size = 16
num_train_epochs=2
num_train_samples = 10000
train_dataset = encoded_dataset["train"].shuffle(seed=23).select(range(num_train_samples))
logging_steps = len(train_dataset) // (2 * batch_size * num_train_epochs)

training_args = TrainingArguments(
    output_dir="results",
    num_train_epochs=num_train_epochs,
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    load_best_model_at_end=True,
    metric_for_best_model="accuracy",
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    logging_strategy='epoch',
    logging_steps=100,
    push_to_hub=True,
    push_to_hub_model_id=f"{model_name}-finetuned-fakenews_xml_roberta"
)



In [91]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    compute_metrics=compute_metrics,
    train_dataset=train_dataset,
    eval_dataset=encoded_dataset["validation"],
    tokenizer=tokenizer
)

For more details, please read https://huggingface.co/docs/huggingface_hub/concepts/git_vs_http.
/content/results is already a clone of https://huggingface.co/MyBad2K/xlm-roberta-base-finetuned-fakenews_xml_roberta. Make sure you pull the latest changes with `repo.git_pull()`.


In [None]:
trainer.train()

You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Epoch,Training Loss,Validation Loss


##**Desplegar**

---



In [None]:
trainer.push_to_hub()