# Busacador de noticias

In [2]:
import yake
import requests
from bs4 import BeautifulSoup
from duckduckgo_search import DDGS
from transformers import AutoTokenizer, AutoModel
import torch
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from sentence_transformers import SentenceTransformer
from os import path
from pathlib import PurePath
import concurrent.futures
from transformers import pipeline
from mistralai import Mistral
import pandas as pd
import accelerate
from sklearn.preprocessing import LabelEncoder
from datasets import Dataset
from transformers import Trainer, TrainingArguments
import numpy as np
from concurrent.futures import ProcessPoolExecutor, as_completed
from sklearn.metrics import accuracy_score, f1_score
import base64
import time
import random
import csv
import os
from google import genai
from transformers import AutoModelForSequenceClassification
from google.genai import types
from transformers import AutoModelForCausalLM, AutoTokenizer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
class Noticia:
    def __init__(self, titular: str, url: str, resumen: str):

        self.titular = titular
        self.url = url
        self.resumen = resumen
    

## Extracción de palabras clave


In [3]:

def extraer_keywords_yake(texto, idioma="es", max_keywords=5):
    extractor = yake.KeywordExtractor(lan=idioma, n=1, top=max_keywords)
    keywords = extractor.extract_keywords(texto)
    display(keywords)
    return [kw for kw, score in keywords]

## Búsqueda de noticias en base a las palabras clave

In [None]:
def buscar_en_theobjective(keywords, max_noticias=5):
    query = "site:theobjective.com " + " ".join(keywords)
    url = f"https://html.duckduckgo.com/html/?q={query}"

    headers = {
        "User-Agent": "Mozilla/5.0"
    }
    resp = requests.get(url, headers=headers)
    soup = BeautifulSoup(resp.text, "html.parser")
    resultados = []
    print(soup.prettify())
    for result in soup.select("serp__results"):
        titulo_tag = result.select_one("result__title")
        enlace_tag = result.select_one("result__a")
        snippet_tag = result.select_one("result__snippet")
        
        if not (titulo_tag and enlace_tag):
            continue

        titulo = titulo_tag.text.strip()
        enlace = enlace_tag.get("href")
        resumen = snippet_tag.text.strip() if snippet_tag else ""
        
        resultados.append({
            "titulo": titulo,
            "enlace": enlace,
            "resumen": resumen
        })
    return resultados


## Web scrapping

In [8]:
def buscar_en_theobjective_ddg(keywords, max_noticias=10):
    query = "site:theobjective.com " + " ".join(keywords)
    resultados = []
    print(query)
    with DDGS() as ddgs:
        for r in ddgs.text(query, max_results=max_noticias):
            resultados.append({
                "titulo": r["title"],
                "enlace": r["href"],
                "resumen": r["body"]
            })

    return resultados

In [4]:
def buscar(keywords):
    query = "site:theobjective.com " + " ".join(keywords)
    url = f"https://www.bing.com/search?q={query}"
    headers = {
        "User-Agent": "Mozilla/5.0"
    }
    print(f"Busqueda en: {url}")
    resp = requests.get(url, headers=headers)
    soup = BeautifulSoup(resp.text, "html.parser")
    resultados = []
    
    titulos = soup.find_all('h2')
    resumenes = soup.find_all(class_='b_caption')
    urls = []
    for i in range(0,len(titulos)):
        url = titulos[i].find('a')['href']
        urls.append(url)
    return urls





In [5]:
def extraer_titular_y_resumen(url):
    try:
        response = requests.get(url)
        response.raise_for_status()

        soup = BeautifulSoup(response.text, 'html.parser')

        # Estos selectores dependen de la estructura del sitio
        titulo = soup.find('h1')
        resumen = soup.find('p')

        return {
            'url': url,
            'titulo': titulo.get_text(strip=True) if titulo else 'No encontrado',
            'resumen': resumen.get_text(strip=True) if resumen else 'No encontrado',
            'contenido':response.text
        }

    except Exception as e:
        return {
            'url': url,
            'error': str(e)
        }
    




In [6]:
user_input = 'Donald Trump va a bajar el precio de los moviles'
keywords = extraer_keywords_yake(user_input)
urls = buscar(keywords)

resultados = {}
for url in urls:
    resultados[url] = extraer_titular_y_resumen(url) 

modelo = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
user_embeddings = modelo.encode([user_input])[0]
mejores_noticias = {}
for r in resultados.values():
    title_embedding = modelo.encode([r['titulo']])[0]
    subtitle_embedding = modelo.encode([r['resumen']])[0]
    title_score = cosine_similarity([user_embeddings], [title_embedding])[0][0]
    subtitle_score = cosine_similarity([user_embeddings], [subtitle_embedding])[0][0]
    mean_score = title_score+subtitle_score/2
    mejores_noticias[mean_score] = r['url']


valoraciones_resumen = sorted(mejores_noticias.keys(),reverse=True)
print("\nMejores noticias por similitud")
for i in range(0,5):
    print(f"\nNota {valoraciones_resumen[i]}")
    url = mejores_noticias[valoraciones_resumen[i]]
    print("\nTítulo:", resultados[url]['titulo'])


[('Trump', np.float64(0.1447773057422032)),
 ('Donald', np.float64(0.15831692877998726)),
 ('moviles', np.float64(0.15831692877998726)),
 ('bajar', np.float64(0.29736558256021506)),
 ('precio', np.float64(0.29736558256021506))]

Busqueda en: https://www.bing.com/search?q=site:theobjective.com Trump Donald moviles bajar precio

Mejores noticias por similitud

Nota 0.7006726861000061

Título: Trump defiende sus aranceles y acusa a otros países de «estafar» a EEUU durante décadas

Nota 0.6497557759284973

Título: Donald Trump dobla la apuesta: 'made in USA' y la amenaza de más aranceles

Nota 0.643012285232544

Título: Trump usa la economía como los borrachos las farolas: para abrazarse, no para iluminarse

Nota 0.5764147043228149

Título: Trump sugiere que una bajada en el precio del petróleo terminaría con la guerra en Ucrania

Nota 0.48289865255355835

Título: El Ibex 35 pierde los 13.100 puntos lastrado por los nuevos aranceles de Donald Trump


In [7]:
clase_noticia = 'div.tno-general-single__article__main__content.tno-single-content'
noticia =  resultados[mejores_noticias[valoraciones_resumen[0]]]['contenido']
soup = BeautifulSoup(noticia, 'html.parser')
# print(soup)
contenedor = soup.select_one(clase_noticia)
contenido = contenedor.get_text(separator='\n', strip=True) if contenedor else 'No encontrado'

print(contenido)

El presidente de
Estados Unidos
,
Donald Trump
, ha vuelto a sacar pecho de su política comercial asegurando que los nuevos
aranceles
anunciados por su Administración son más «generosos» que los que han aplicado durante años otros países contra Washington. Lo ha hecho desde el avión presidencial, en unas declaraciones recogidas por
Europa Press
, en las que ha insistido en que su Gobierno no está haciendo otra cosa que corregir décadas de desventajas.
«Los aranceles son mucho más generosos de lo que esos países han sido con nosotros»
, defendió Trump a bordo del
Air Force One
. «Lo que significa —añadió— que serán más amables de lo que esos países han sido con Estados Unidos durante décadas».
El mandatario estadounidense, que ha hecho de
la política proteccionista una de sus banderas desde que regresó a la Casa Blanca
, arremetió con dureza contra las potencias que mantienen relaciones comerciales con EEUU. «Nos han estafado como nunca se ha estafado a ningún país en la historia, y vam

## Generación de embeddings del input del usuario

In [None]:
user_input = 'Donald Trump va a bajar el precio de los moviles'
modelo = SentenceTransformer('jinaai/jina-embeddings-v3')
user_embeddings = modelo.encode([user_input])[0]
keywords = extraer_keywords_yake(user_input)


#noticias = buscar_en_theobjective(keywords)
noticias = buscar_en_theobjective_ddg(keywords)
mejores_noticias_titular = {}
mejores_noticias_resumen = {}

for noticia in noticias:
    new_noticia = Noticia(noticia["titulo"],noticia["enlace"],noticia["resumen"])
    sentence_embeddings = modelo.encode([noticia["titulo"]])[0]
    sim_coseno = cosine_similarity([user_embeddings], [sentence_embeddings])[0][0]
    mejores_noticias_titular[sim_coseno] = new_noticia
    
    sentence_embeddings = modelo.encode([noticia["resumen"]])[0]
    sim_coseno = cosine_similarity([user_embeddings], [sentence_embeddings])[0][0]
    mejores_noticias_resumen[sim_coseno] = new_noticia

valoraciones_titular = sorted(mejores_noticias_titular.keys())
print("Mejores noticias por similitud con el titular")
for i in range(0,2):
    print("\nTítulo:", mejores_noticias_titular[valoraciones_titular[i]].titular)
    print("Enlace:", mejores_noticias_titular[valoraciones_titular[i]].url)
    print("Resumen:", mejores_noticias_titular[valoraciones_titular[i]].resumen)

valoraciones_resumen = sorted(mejores_noticias_resumen.keys())
print("\nMejores noticias por similitud con el resumen")
for i in range(0,2):
    print("\nTítulo:", mejores_noticias_resumen[valoraciones_resumen[i]].titular)
    print("Enlace:", mejores_noticias_resumen[valoraciones_resumen[i]].url)
    print("Resumen:", mejores_noticias_resumen[valoraciones_resumen[i]].resumen)


[('Trump', np.float64(0.1447773057422032)),
 ('Donald', np.float64(0.15831692877998726)),
 ('moviles', np.float64(0.15831692877998726)),
 ('bajar', np.float64(0.29736558256021506)),
 ('precio', np.float64(0.29736558256021506))]

site:theobjective.com Trump Donald moviles bajar precio
Mejores noticias por similitud con el titular

Título: España hace guiños a los fabricantes chinos de móviles en plena ...
Enlace: https://theobjective.com/economia/telecomunicaciones/2025-03-05/espana-fabricantes-chinos-mobile-eeuu/
Resumen: El posicionamiento del Gobierno español frente a China cobra mucha más importancia ahora que Estados Unidos amenaza con elevados aranceles a Europa y que Donald Trump ha incluido al bloque...

Título: España se juega 46.000 millones de euros tras la última amenaza de ...
Enlace: https://theobjective.com/economia/2025-03-31/trump-46000-millones-espana-aranceles/
Resumen: El Ibex 35 pierde los 13.100 puntos lastrado por los nuevos aranceles de Donald Trump

Mejores noticias por similitud con el resumen

Título: Las consecuencias económicas de Trump para España - THE OBJECTIVE
Enlace: https://theobjective.com/economia/2025-02-11/gris-importa-consecuencias-trump-economia-espanola/
Resumen: Los nú

## Llamada al modelo

In [8]:
system_message = """Eres un analista de información riguroso. El usuario te enviará un mensaje con DOS textos separados:  
1. El primero es una afirmación o interpretación sobre una noticia.  
2. El segundo es la noticia completa (o un fragmento relevante).  

Tu tarea es:  
1. Comparar la afirmación (texto 1) con el contenido de la noticia (texto 2).  
2. Decidir si la afirmación es:  
   - **✅ CIERTA**: Si la noticia respalda claramente la afirmación.  
   - **❌ FALSA**: Si la noticia contradice directamente la afirmación.  
   - **🔎 NO VERIFICABLE**: Si la noticia no contiene información suficiente para validar o refutar la afirmación.  

Responde ÚNICAMENTE con una de las 3 opciones (✅ CIERTA, ❌ FALSA, 🔎 NO VERIFICABLE) y añade una explicación breve en la misma línea.  
Mantén un tono neutral y objetivo.  """

In [9]:
user_message = """[Afirmación] :  """ + user_input +""" [Noticia]: """ + contenido
messages = [
        {   
            "role":"system","content":system_message},
        {
            "role": "user", "content": user_message
        }
    ]
input_text = f"<|system|>\n{system_message}\n<|user|>\n{user_message}\n<|assistant|>"

### Modelo de hugging face


In [2]:
import torch
torch.zeros(1).cuda()

tensor([0.], device='cuda:0')

In [3]:
print(torch.cuda.is_available())

True


In [None]:
model_name = "deepseek-ai/DeepSeek-V3-Base"  # o "deepseek-ai/deepseek-coder-6.7b" para código
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",  # Usa GPU automáticamente
    torch_dtype=torch.float16  # Reduce uso de memoria (opcional)
)
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(
    **inputs,
    max_new_tokens=100,
    temperature=0.3 
)

respuesta = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(respuesta.split("<|assistant|>")[-1].strip()) 

`rope_scaling`'s factor field must be a float >= 1, got 40
`rope_scaling`'s beta_fast field must be a float, got 32
`rope_scaling`'s beta_slow field must be a float, got 1
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Fetching 163 files:   0%|          | 0/163 [00:00<?, ?it/s]

In [None]:
device = torch.device("cuda")
pipe = pipeline("text-generation", model="deepseek-ai/DeepSeek-R1", trust_remote_code=True)
pipe(messages)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Fetching 163 files:   0%|          | 0/163 [00:00<?, ?it/s]

### Modelo por API


In [None]:
api_key = "sk-d80c8a131e6f464aae72ddc7b48f10b6"
url = "https://api.deepseek.com/v1/chat/completions"

data = {
    "model": "deepseek-chat",  # Revisa los modelos disponibles en la documentación
    "messages":messages
}

headers = {
    "Authorization": f"Bearer {api_key}",
    "Content-Type": "application/json"
}
response = requests.post(url, headers=headers, json=data)
print(response.json())

* Probar Gemini
https://huggingface.co/spaces/lmarena-ai/chatbot-arena-leaderboard

In [None]:
client = genai.Client(
    api_key="AIzaSyCaPiJUBW1V2eJ5YUZgJD_RF0R9knWiR2Q",
)

model = "gemma-3-27b-it"
contents = [
    types.Content(
        role="model",
        parts=[
            types.Part.from_text(text="""Analiza el siguiente texto y determina si trata sobre un tema de índole nacional (relacionado con España) o internacional. Ten en cuenta el contexto, los lugares, instituciones, personajes o eventos mencionados. Devuelve únicamente una de estas dos etiquetas: 'Nacional' o 'Internacional'."""),
        ],
    ),
    types.Content(
        role="user",
        parts=[
            types.Part.from_text(text="""Donald trump se acuesta con putin"""),
        ],
    ),
]
generate_content_config = types.GenerateContentConfig(
    max_output_tokens=2000,
    response_mime_type="text/plain",
)

for chunk in client.models.generate_content_stream(
    model=model,
    contents=contents,
    config=generate_content_config,
):
    print(chunk.text, end="")



Internacional
None

In [None]:
api_key = "uncjhLuimnWfA7S3QJrw7iTWsjYgd2tj"
model = "mistral-large-latest"
system_promt = "Analiza el siguiente texto y determina si trata sobre un tema de índole nacional (relacionado con España) o internacional. Ten en cuenta el contexto, los lugares, instituciones, personajes o eventos mencionados. Devuelve únicamente una de estas dos etiquetas: 'Nacional' o 'Internacional'."
user_prompt ="El real madrid ha asesinado a vinicius.jr"
client = Mistral(api_key=api_key)

chat_response = client.chat.complete(
    model= model,
    messages = [
        {
            "role": "system",
            "content": system_promt,
    },
        {
            "role": "user",
            "content": user_prompt,
        },
    ]
)
print(chat_response.choices[0].message.content)

Nacional


## Prueba modelos distintos propósitos

### Divisor de afirmaciones

In [None]:

# Crear pipeline con un modelo instructivo
generator = pipeline("text-generation", model="deepseek-ai/DeepSeek-V3",trust_remote_code=True)


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
A new version of the following files was downloaded from https://huggingface.co/deepseek-ai/DeepSeek-V3:
- configuration_deepseek.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
A new version of the following files was downloaded from https://huggingface.co/deepseek-ai/DeepSeek-V3:
- modeling_deepseek.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.
Fetching 163 files:   0%|          | 0/163 [00:00<?, ?it/s]

In [None]:
tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-V3", trust_remote_code=True)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Fetching 163 files:   0%|          | 0/163 [00:00<?, ?it/s]

In [None]:

# Texto de entrada
text = """
La inteligencia artificial está transformando el mundo. Se usa en medicina, educación, transporte y finanzas.
También plantea desafíos éticos como el sesgo y la pérdida de empleos.
"""

# Prompt para dividir en afirmaciones
prompt = f"Divide el siguiente texto en afirmaciones claras, una por línea:\n\n{text}\n\nAfirmaciones:"

# Generar resultado
result = generator(prompt, max_new_tokens=200, do_sample=False)

# Mostrar salida
print(result[0]['generated_text'])

### Clasificación nacional/internacional

In [None]:

# Texto de entrada
text = """
La inteligencia artificial está transformando el mundo. Se usa en medicina, educación, transporte y finanzas.
También plantea desafíos éticos como el sesgo y la pérdida de empleos.
"""

# Prompt para dividir en afirmaciones
prompt = f"Divide el siguiente texto en afirmaciones claras, una por línea:\n\n{text}\n\nAfirmaciones:"

# Generar resultado
result = generator(prompt, max_new_tokens=200, do_sample=False)

# Mostrar salida
print(result[0]['generated_text'])

## Construcción de dataset texto

In [6]:
ruta_excel = "./FakeNewsDetectorSpanish/train.xlsx"

# Leer el archivo Excel
df1 = pd.read_excel(ruta_excel)

# Verificar que las columnas existen
if 'Text' not in df1.columns or 'Category' not in df1.columns:
    raise ValueError("El archivo debe contener las columnas 'text' y 'category'.")

# Crear el dataset solo con las columnas deseadas
df1 = df1[['Text', 'Category']].copy()
df1['label'] = df1['Category'].map({'True': 0, 'Fake': 1})

In [None]:
ruta_csv = "./archive/spanishFakeNews.csv"
df2 = pd.read_csv(ruta_csv)

df2.rename(columns={'texto':'Text','clase':'Category'}, inplace=True)
df2['label'] = df2['Category'].map({'real': 0, 'fake': 1})
ruta_csv = "./archive/testSpanishFakeNews.csv"
df3 = pd.read_csv(ruta_csv)

df3.rename(columns={'texto':'Text','clase':'Category'}, inplace=True)
df3['label'] = df2['Category'].map({'real': 0, 'fake': 1})
df2 = pd.concat([df2,df3],ignore_index=True)

In [15]:
df = pd.read_csv('news.csv',sep=';')

In [8]:
df = pd.concat([df1,df2],ignore_index=True)

#### Dataset con noticias traducidas


In [24]:
input_file = "translated_news_8.csv"
output_file = "translated_news_mod.csv"

with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8") as outfile:
    for line in infile:
        parts = line.split(",", 2)  # divide solo en las dos primeras comas
        if len(parts) == 3:
            nueva_linea = parts[0] + ";" + parts[1] + ";" + parts[2]
        else:
            nueva_linea = line  # por si acaso no hay dos comas
        outfile.write(nueva_linea)

In [25]:
input_file = "translated_news_mod.csv"
output_file = "translated_news_8.csv"
with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8") as outfile:
    for line in infile:
        partes = line.split(";")
        if len(partes) > 2:
            # Conserva los dos primeros campos con ;
            primeros_dos = partes[:2]
            resto = partes[2:]
            # Une los campos restantes con comas
            nueva_linea = ";".join(primeros_dos) + ";" + ",".join(resto)
        else:
            # Si no hay más de dos campos separados por ;, no se modifica
            nueva_linea = line
        outfile.write(nueva_linea)

In [27]:
df = pd.read_csv('translated_news.csv',sep=';')

In [28]:

df = pd.concat([df,pd.read_csv('translated_news_1.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_2.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_3.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_4.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_5.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_6.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_7.csv',sep=';')],ignore_index=True)
df = pd.concat([df,pd.read_csv('translated_news_8.csv',sep=';')],ignore_index=True)




In [38]:
df.head(3)
df.rename(columns={'Text':'label','label':'Text'},inplace=True)
df.head(3)

Unnamed: 0,label,Category,Text
0,0,0,LONDRES (Reuters) - Los legisladores británico...
1,0,0,EDINBURGH (Reuters) - Un acuerdo para mantener...
2,1,1,17 de noviembre de 2016 - Fort Russ - Antifash...


#### Limpieza dataset

In [9]:
# Asegurarte de que category es de tipo str o int
df['Category'] = df['Category'].astype(str)
df['label'] = df['label'].astype(int)
df.dropna(inplace=True)
# Convertir a Dataset de Hugging Face
dataset = Dataset.from_pandas(df)

In [17]:
df['label'] = df['label'].map({'verdadero': 0, 'falso': 1})
df['label'] = df['label'].astype(int)
df.dropna(inplace=True)
# Convertir a Dataset de Hugging Face
dataset = Dataset.from_pandas(df)
modelo_nombre = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(modelo_nombre)

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

tokenized_dataset = dataset.map(tokenize_function, batched=True)
label_encoder = LabelEncoder()
all_labels = tokenized_dataset['label']
label_encoder.fit(all_labels)

Map: 100%|██████████| 200/200 [00:00<00:00, 1931.83 examples/s]


In [20]:
modelo_nombre = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(modelo_nombre)

def tokenize_function(examples):
    return tokenizer(examples["Text"], padding="max_length", truncation=True)

tokenized_dataset = dataset.map(tokenize_function, batched=True)

Map: 100%|██████████| 1274/1274 [00:01<00:00, 998.66 examples/s]


In [26]:
label_encoder = LabelEncoder()
all_labels = tokenized_dataset['label']
label_encoder.fit(all_labels)

In [17]:
tokenized_dataset = tokenized_dataset.train_test_split(test_size=0.2)  # opcional

# Ajustar sobre todo el dataset
all_labels = tokenized_dataset['train']['Category'] + tokenized_dataset['test']['Category']
label_encoder.fit(all_labels)

# Aplicar a cada parte
tokenized_dataset = tokenized_dataset.map(lambda x: {"label": label_encoder.transform([x["Category"]])[0]})

Map: 100%|██████████| 1019/1019 [00:00<00:00, 8623.88 examples/s]
Map: 100%|██████████| 255/255 [00:00<00:00, 7992.67 examples/s]


#### Traducción de noticias

In [None]:
translator = pipeline("translation", model="facebook/nllb-200-distilled-600M",device='cpu')

Device set to use cpu


In [3]:
df = pd.read_csv("./fake_en_dataset/WELFake_Dataset.csv")  # o el dataset que tengas


In [29]:
translator('my name is Miguel',src_lang='en',tgt_lang='es')

[{'translation_text': 'es: mi nombre es miguel'}]

In [None]:
columnas = ['Text', 'Category', 'label']
df_es = pd.DataFrame(columns=columnas)

# Traduce por lotes de 10 (recomendado para no saturar la RAM)
translated = []
with open('translated_news.csv', 'w', encoding='utf-8') as f:
    # Escribir la cabecera
    f.write(','.join(df_es.columns) + '\n')
f.close()
fieldnames = ['Category','label','Text']
for index,new in df.iterrows():
    try:
        results = translator(new['text'], max_length=len(new['text']),src_lang='en',tgt_lang='es')
    except:
        continue
    linea = str(new['label']) + ',' +  str(new['label']) +','+ str(results[0]['translation_text']).replace('es:','')
    with open('translated_news.csv', 'a', newline='', encoding='utf-8') as csvfile:
        csvfile.write(linea + '\n')
    csvfile.close()

Token indices sequence length is longer than the specified maximum sequence length for this model (545 > 512). Running this sequence through the model will result in indexing errors
This is a friendly reminder - the current text generation call will exceed the model's predefined maximum length (512). Depending on the model, you may observe exceptions, performance degradation, or nothing at all.
Your input_length: 1 is bigger than 0.9 * max_length: 1. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)
Your input_length: 1 is bigger than 0.9 * max_length: 1. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)
Your input_length: 1 is bigger than 0.9 * max_length: 1. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)
Your input_length: 1 is bigger than 0.9 * max_length: 1. You might consider increasing your max_length manually, e.g. translator('...', max_length

## Modelos de análisis semántico

### Evaluación de modelo para elección

* VerificadoProfesional/SaBERT-Spanish-Fake-News
* Narrativaai/fake-news-detection-spanish


In [22]:
tokenized_dataset

Dataset({
    features: ['Text', 'Category', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 1274
})

In [59]:
from transformers import AutoModelForSequenceClassification
nombre = "Narrativaai/fake-news-detection-spanish"


In [29]:
num_labels = len(label_encoder.classes_)
model = AutoModelForSequenceClassification.from_pretrained("modelo_fake_news", num_labels=num_labels)

In [None]:
num_labels = len(label_encoder.classes_)
model = AutoModelForSequenceClassification.from_pretrained(nombre, num_labels=num_labels)


In [30]:
def compute_metrics(pred):
    preds = np.argmax(pred.predictions, axis=1)
    labels = pred.label_ids
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1": f1_score(labels, preds, average="weighted"),
    }

args = TrainingArguments(
    output_dir="./results",
    per_device_eval_batch_size=16,
)

trainer = Trainer(
    model=model,
    args=args,
    eval_dataset=tokenized_dataset,
    compute_metrics=compute_metrics,
)

eval_result = trainer.evaluate()
print(eval_result)

{'eval_loss': 1.997157096862793, 'eval_model_preparation_time': 0.0014, 'eval_accuracy': 0.5400313971742543, 'eval_f1': 0.528402773285684, 'eval_runtime': 15.2014, 'eval_samples_per_second': 83.808, 'eval_steps_per_second': 5.263}


In [1]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-classification", model="VerificadoProfesional/SaBERT-Spanish-Fake-News")


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Device set to use cpu


In [4]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-classification", model="Narrativaai/fake-news-detection-spanish")

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Device set to use cpu


In [None]:
num_labels = len(label_encoder.classes_)
model = AutoModelForSequenceClassification.from_pretrained("modelo_fake_news", num_labels=num_labels)

In [8]:
text = """
Un grupo de pastores gallegos ha descubierto en los montes de Lugo una extraña planta autóctona que, según aseguran, puede cargar teléfonos móviles con solo entrar en contacto con ellos. El hallazgo ha revolucionado a científicos de todo el mundo y ya se habla de una posible “revolución verde” en el campo de la energía renovable.
La planta, bautizada popularmente como Electra Verde, fue detectada por primera vez cuando uno de los pastores notó que su viejo móvil, sin batería desde hacía días, se encendió al quedarse apoyado accidentalmente sobre la raíz expuesta de la planta. “Pensé que era cosa de meigas”, declaró entre risas. Pero al repetir el fenómeno varias veces, decidió contactar con expertos de la Universidad de Santiago.
Aunque todavía no se ha confirmado nada oficialmente, filtraciones desde el laboratorio apuntan a que Electra Verde podría contener una combinación única de minerales y microalgas que generan corriente eléctrica mediante procesos aún no comprendidos por la ciencia.
Mientras tanto, turistas y curiosos ya se agolpan en los montes gallegos, en busca de esta nueva joya botánica que podría hacer obsoletos los cargadores eléctricos en menos de una década.
"""

In [9]:
pipe(text)

[{'label': 'FAKE', 'score': 0.999971866607666}]

### Fine-tuning modelo lingüístico

In [60]:
modelo = "VerificadoProfesional/SaBERT-Spanish-Fake-News"

In [61]:
num_labels = len(label_encoder.classes_)
model = AutoModelForSequenceClassification.from_pretrained(modelo, num_labels=num_labels)

In [62]:
import numpy as np
from sklearn.metrics import accuracy_score, f1_score

def compute_metrics(pred):
    preds = np.argmax(pred.predictions, axis=1)
    labels = pred.label_ids
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1": f1_score(labels, preds, average="weighted"),
    }


In [63]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./results",
    eval_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    load_best_model_at_end=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
    tokenizer=tokenizer,
    compute_metrics=compute_metrics,
)

trainer.train()


  trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy,F1
1,0.0808,0.127817,0.967305,0.967268
2,0.0747,0.136887,0.968363,0.968404
3,0.0369,0.08469,0.983388,0.983382


TrainOutput(global_step=7089, training_loss=0.10595419522903525, metrics={'train_runtime': 4425.3995, 'train_samples_per_second': 25.625, 'train_steps_per_second': 1.602, 'total_flos': 2.983758301099008e+16, 'train_loss': 0.10595419522903525, 'epoch': 3.0})

In [64]:
trainer.evaluate()

{'eval_loss': 0.0846896693110466,
 'eval_accuracy': 0.9833880012697069,
 'eval_f1': 0.9833821828938577,
 'eval_runtime': 109.8881,
 'eval_samples_per_second': 86.006,
 'eval_steps_per_second': 5.378,
 'epoch': 3.0}

In [65]:
trainer.save_model("modelo_fake_news")
tokenizer.save_pretrained("modelo_fake_news")

('modelo_fake_news\\tokenizer_config.json',
 'modelo_fake_news\\special_tokens_map.json',
 'modelo_fake_news\\vocab.txt',
 'modelo_fake_news\\added_tokens.json',
 'modelo_fake_news\\tokenizer.json')

In [14]:
clf = pipeline("text-classification", model="modelo_fake_news", tokenizer="modelo_fake_news")


Device set to use cuda:0


In [67]:
text = """
Un grupo de pastores gallegos ha descubierto en los montes de Lugo una extraña planta autóctona que, según aseguran, puede cargar teléfonos móviles con solo entrar en contacto con ellos. El hallazgo ha revolucionado a científicos de todo el mundo y ya se habla de una posible “revolución verde” en el campo de la energía renovable.
La planta, bautizada popularmente como Electra Verde, fue detectada por primera vez cuando uno de los pastores notó que su viejo móvil, sin batería desde hacía días, se encendió al quedarse apoyado accidentalmente sobre la raíz expuesta de la planta. “Pensé que era cosa de meigas”, declaró entre risas. Pero al repetir el fenómeno varias veces, decidió contactar con expertos de la Universidad de Santiago.
Aunque todavía no se ha confirmado nada oficialmente, filtraciones desde el laboratorio apuntan a que Electra Verde podría contener una combinación única de minerales y microalgas que generan corriente eléctrica mediante procesos aún no comprendidos por la ciencia.
Mientras tanto, turistas y curiosos ya se agolpan en los montes gallegos, en busca de esta nueva joya botánica que podría hacer obsoletos los cargadores eléctricos en menos de una década.
"""
result = clf(text)
print(result)

[{'label': 'False', 'score': 0.9900426864624023}]


In [18]:
num_labels = len(label_encoder.classes_)
model = AutoModelForSequenceClassification.from_pretrained("modelo_fake_news", num_labels=num_labels)

In [19]:
def compute_metrics(pred):
    preds = np.argmax(pred.predictions, axis=1)
    labels = pred.label_ids
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1": f1_score(labels, preds, average="weighted"),
    }

args = TrainingArguments(
    output_dir="./results",
    per_device_eval_batch_size=16,
)

trainer = Trainer(
    model=model,
    args=args,
    eval_dataset=tokenized_dataset,
    compute_metrics=compute_metrics,
)

eval_result = trainer.evaluate()
print(eval_result)

{'eval_loss': 2.1505331993103027, 'eval_model_preparation_time': 0.0015, 'eval_accuracy': 0.515, 'eval_f1': 0.44045455856479476, 'eval_runtime': 2.899, 'eval_samples_per_second': 68.99, 'eval_steps_per_second': 4.484}


## Arreglar dataset sintético

In [None]:
input_file = "verdades.csv"
output_file = "verdades_fixed.csv"
title = True

with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8") as outfile:
    for line in infile:
        if title:
            title = False
            continue
        parts = line.split(";", 1)  # divide solo en las dos primeras comas
        if len(parts) == 2:
            nueva_linea = "verdadero;" + parts[1].replace(';',':')
        else:
            nueva_linea = line  # por si acaso no hay dos comas
        outfile.write(nueva_linea)

In [3]:
input_file = "falsedades.csv"
output_file = "falsedades_fixed.csv"
title = True

with open(input_file, "r", encoding="utf-8") as infile, open(output_file, "w", encoding="utf-8") as outfile:
    for line in infile:
        if title:
            title = False
            continue
        parts = line.split(";", 1)  # divide solo en las dos primeras comas
        if len(parts) == 2:
            nueva_linea = "falso;" + parts[1].replace(';',':')
        else:
            nueva_linea = line  # por si acaso no hay dos comas
        outfile.write(nueva_linea)

In [11]:
dff = pd.read_csv("falsedades_fixed.csv",sep=';')
dfv = pd.read_csv("verdades_fixed.csv",sep=';')

In [12]:
df_all = pd.concat([dfv,dff],ignore_index=True)

In [13]:
df_all.to_csv('news.csv',index=False,sep=';')

# Probar dataset sintético

In [29]:
df = pd.read_csv('news.csv',sep=';')

In [30]:
df['label'] = df['label'].map({'verdadero':'True','falso':'False'})

In [31]:
clf = pipeline("text-classification", model="../API/modelo_fake_news", tokenizer="../API/modelo_fake_news")

Device set to use cuda:0


In [35]:
accuracy = 0
for index,row in df.iterrows():
    text = row['text']
    if (len(row['text']) > 512):
        text = text[:512]
    result = clf(text)
    if result[0]['label'] == row['label']:
        accuracy += 1 
print(f"La precisión del modelo semántico es {accuracy/df.shape[0]}")

La precisión del modelo semántico es 0.6025641025641025
