In [1]:
import re
import requests
from threading import Thread
from bs4 import BeautifulSoup
from collections import Counter
import nltk
import pymongo
from pymongo import MongoClient
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
#nltk.download('stopwords')

In [2]:
cliente = MongoClient('localhost', 27017)
db = cliente['noticias']
coleccion = db['noticia']
enlaces = []
enlaces_aux = []

In [3]:
def get_links(soup):
    for link in soup.find_all("a"):
        enlace = link.get("href")
        if enlace and enlace.startswith("https://www.xataka.com.mx/") and enlace not in enlaces and enlace not in enlaces_aux:
            enlaces_aux.append(enlace)
            enlaces.append(enlace)
    return enlaces

In [4]:
def get_title(soup):
    try:
        title = soup.find('h1')
        return title.text
    except:
        return "No hay titulo"

In [5]:
def get_article_content(soup):
    try:
        articulo = soup.find("div", attrs={"class", "article-content"})
        text = articulo.get_text()
        words = text.split(".")
        text = words[0] + "." + words[1] + "."
        return text
    except:
        return 'Error en extracion de articulo'

In [6]:
def get_word_and_ranking(soup):
    try:
        articulo = soup.find("div", attrs={"class", "article-content"})
        texto = articulo.get_text()
        texto = texto.lower()
        #Obtener las stopwords en spanish
        texto = re.sub(r'[^\w\s]', '', texto)
        stopwords_es = set(stopwords.words())
        # Tokenizar el texto en palabras
        palabras = word_tokenize(texto)
        
        # Filtrar las stopwords
        palabras_sin_stopwords = [palabra for palabra in palabras if not palabra in stopwords_es]

        # Unir las palabras filtradas en un nuevo texto
        texto_sin_stopwords = ' '.join(palabras_sin_stopwords)
        texto_sin_stopwords
        
        palabras_repetidas = texto_sin_stopwords.split()
        contador = Counter(palabras_repetidas)
        comunes = contador.most_common(3)
        return comunes
    except:
        num_rows = 3  # número de filas
        num_cols = 3  # número de columnas
        error_matrix = [["Error" for j in range(num_cols)] for i in range(num_rows)]
        return error_matrix

In [7]:
def insert_mongodb(titulo, articulo, comunes, url, revisado=False):
    """Inserta en mongo la informacion encontrada en las distintas funciones

    Args:
        titulo (string): titulo de la noticia
        articulo (string): descripcion principal de que trata la noticia
        comunes (lista): arreglo de las palabras mas comunes y cuantas veces se repiten
        url (string): url de la noticia a guardar
        revisado (bool, optional): verificacion si el enlace ya fue escaneado o no. Defaults to False.
    """

    registro = {
        "titulo": titulo.strip(), "articulo": articulo.strip(), 
        "revisado": revisado,
        "palabra 1":comunes[0][0], "rank 1": comunes[0][1],
        "palabra 2":comunes[1][0], "rank 2": comunes[1][1],
        "palabra 3":comunes[2][0], "rank 3": comunes[2][1],
        "url": url.strip()
        }
    if articulo != "Error en extracion de articulo":
        operacion = coleccion.insert_one(registro)

In [8]:
def primer_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')
    

In [9]:
def segundo_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [10]:
def tercer_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [11]:
def cuarto_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [12]:
def quinto_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [13]:
def sexto_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [14]:
def septimo_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [15]:
def octavo_hilo(url):
    """Hilo de busqueda de informacion

    Args:
        url (string): url de la noticia a scanear
    """
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    enlaces = get_links(soup)
    titulo = get_title(soup).strip()
    contenido = get_article_content(soup).strip()
    palabras_rankeadas = get_word_and_ranking(soup)
    insert_mongodb(titulo, contenido, palabras_rankeadas, url, revisado=True)
    #print(f'Enlaces encontrados: {len(enlaces)}')
    #print(f'Titulo: {titulo}')
    #print(f'Contenido: \n {contenido}')
    #print(f'Palabras mas comunes: {palabras_rankeadas}')

In [16]:
url_base = 'https://www.xataka.com.mx/'
request = requests.get(url_base)
soup = BeautifulSoup(request.text)
enlaces = get_links(soup)
titulo = get_title(soup).strip()
contenido = get_article_content(soup).strip()
palabras_rankeadas = get_word_and_ranking(soup)
print(f'Enlaces encontrados: {len(enlaces)}')
print(f'Titulo: {titulo}')
print(f'Contenido: \n {contenido}')
print(f'Palabras mas comunes: {palabras_rankeadas}')
insert_mongodb(titulo, contenido, palabras_rankeadas, url_base, revisado=True)
contador = 0
try:
    for enlace in enlaces:
        enlace_1 = enlaces.pop()
        hilo_1 = Thread(target=primer_hilo(enlace_1))

        enlace_2 = enlaces.pop()
        hilo_2 = Thread(target=segundo_hilo(enlace_2))

        enlace_3 = enlaces.pop()
        hilo_3 = Thread(target=tercer_hilo(enlace_3))

        enlace_4 = enlaces.pop()
        hilo_4 = Thread(target=cuarto_hilo(enlace_4))

        enlace_5 = enlaces.pop()
        hilo_5 = Thread(target=quinto_hilo(enlace_5))
        
        enlace_6 = enlaces.pop()
        hilo_6 = Thread(target=sexto_hilo(enlace_6))

        enlace_7 = enlaces.pop()
        hilo_7 = Thread(target=septimo_hilo(enlace_7))
        
        enlace_8 = enlaces.pop()
        hilo_8 = Thread(target=octavo_hilo(enlace_8))

        contador += 1
except Exception as e:
    print("Error en la ejecucion del hilo")
    print(e)

Enlaces encontrados: 78
Titulo: Xataka México
Contenido: 
 Error en extracion de articulo
Palabras mas comunes: [['Error', 'Error', 'Error'], ['Error', 'Error', 'Error'], ['Error', 'Error', 'Error']]


KeyboardInterrupt: 

In [17]:
print(f'Numero de veces que ejecuta los hilos: {contador}')
print(f'Enlaces revisados: {len(enlaces)}')
print(f'Enlaces encontrados: {len(enlaces_aux)}')

noticias_bd = []
for noticiax in coleccion.find():
    noticias_bd.append(noticiax["url"])
print(f'Enlaces insertados que no contenian ningun error: {len(noticias_bd)}')

Numero de veces que ejecuta los hilos: 200
Enlaces revisados: 1937
Enlaces encontrados: 3544
Enlaces insertados que no contenian ningun error: 1495
