In [15]:
import requests
from bs4 import BeautifulSoup
import spacy
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [16]:
# Descargar el modelo de Spacy
nlp = spacy.load("es_core_news_sm")

url = "https://iberdrolaofertas.com/?batch=afiliacion&tsource=28&utm_source=afiliacion&utm_medium=cpl&utm_campaign=mismoprecio24h_sinsubidas"

patrones_spam = ["precio", "ahorra", "casino", "juega", "juego", "bono", "bienvenida", "tarifa", "urgente", "promoción", "promo", "obsequio", "regalo", "oferta", "gratis", "tiempo limitado", "rebajas", "contratar", "coste", "dto", "ahorro", "ahorrar", "factura", "consumo", "exclusivo"]

In [17]:
response = requests.get(url)
if response.status_code == 200:
    contenido_pagina = response.text
    soup = BeautifulSoup(contenido_pagina, 'html.parser')
    texto_pagina = soup.get_text()

    doc = nlp(texto_pagina)                                                     # Tokenizar con Spacy

    tokens = [token.text.lower() for token in doc if token.is_alpha]            # Obtener tokens y limpiarlos (quitar stopwords)
    stop_words = set(stopwords.words('spanish'))
    tokens_clean = [token for token in tokens if token not in stop_words]

    lem_tokens = [token.lemma_ for token in nlp(' '.join(tokens_clean))]        # Lemmatización con Spacy de los tokens limpios

    conteo = {}                                                                 # Conteo de lem_tokens
    for token in lem_tokens:
        if token in conteo:
            conteo[token] += 1
        else:
            conteo[token] = 1

    # Comparar patrones de spam con los lemas más frecuentes
    lemas_mas_frecuentes = [token for token, count in sorted(conteo.items(), key=lambda x: x[1], reverse=True)]
    patrones_encontrados = [patron for patron in patrones_spam if patron in lemas_mas_frecuentes[:25]]

    print(f"Número de tokens en la página: {len(tokens)}")
    print(f"¿Es spam? {'Sí' if patrones_encontrados else 'No'}")
    print(f"Tokens limpios: {tokens_clean}")
    print(f"Lemas frecuentes: {lemas_mas_frecuentes}")
    print(f"Patrones encontrados: {patrones_encontrados}")
else:
    print(f"Error al descargar la página. Código de estado: {response.status_code}")


Número de tokens en la página: 1427
¿Es spam? Sí
Tokens limpios: ['iberdrola', 'planes', 'luz', 'elige', 'ahorra', 'menú', 'planes', 'luz', 'planes', 'gas', 'calculamos', 'tarifa', 'calcular', 'tarifa', 'quieres', 'contratar', 'luz', 'gas', 'tipo', 'viviendavivienda', 'habitualvivienda', 'fin', 'semana', 'vivienda', 'luz', 'sicompañíaiberdrolaendesanaturgycepsaotra', 'vivienda', 'gas', 'sicompañíaiberdrolaendesanaturgycepsaotra', 'uso', 'vas', 'calienteagua', 'caliente', 'calefacción', 'solo', 'quedan', 'datos', 'ofrecerte', 'mejor', 'tarifa', 'adaptada', 'necesidades', 'marcando', 'casilla', 'das', 'consentimiento', 'cesión', 'datos', 'personales', 'iberdrola', 'clientes', 'consulta', 'política', 'privacidad', 'infocalcular', 'tarifa', 'llamamos', 'gratis', 'planes', 'luz', 'iberdrola', 'cómo', 'ahorrar', 'factura', 'plan', 'cambios', 'horarios', 'despreocúpate', 'subidas', 'bajadas', 'mes', 'dto', 'calcular', 'tarifa', 'mes', 'descuento', 'calcula', 'tarifa', 'quieres', 'contratar', 