In [24]:
import requests
import time


def fetch_content(url, timeout=3, delay=0.5):
    time.sleep(delay)

    try:
        response = requests.get(url, timeout=timeout)

    except requests.ReadTimeout:
        response = requests.get(url, timeout=timeout)

    finally:
        return response.text if response.status_code == 200 else ""

In [152]:
from parsel import Selector
import requests

def scrape(fetcher=fetch_content, pages=1):
    response = fetcher("https://www.tecmundo.com.br/mobilidade-urbana-smart-cities/155000-musk-tesla-carros-totalmente-autonomos.htm")
    selector = Selector(text=response)
    
    title = selector.css("#js-article-title::text").get()
    timestamp = selector.css("#js-article-date::attr(datetime)").get()
    writer = selector.css('.tec--author__info__link::text').get().strip()
    shares_count = int(selector.css('.tec--toolbar__item::text').get().strip().split()[0], base=10)
    comments_count = int(selector.css('.tec--toolbar__item > button::text').getall()[1].strip().split()[0], base=10)
    summary = "".join(selector.css('.tec--article__body p:first-of-type *::text').getall())
    sources = selector.css('.tec--badge::text').getall()
    categories  = selector.css('#js-categories a::text').getall()
    
    for index, category in enumerate(categories):
        categories[index] = category.strip()
        
    for index, source in enumerate(sources):
        sources[index] = source.strip()
        
    sources = [source for source in sources if source not in categories]
    
    return { 
        "title": title,
        "timestamp": timestamp,
        "writer": writer,
        "shares_count": shares_count,
        "comments_count": comments_count,
        "summary": summary,
        "sources": sources,
        "categories": categories
        }

In [153]:
print(scrape())

{'title': 'Musk: Tesla está muito perto de carros totalmente autônomos', 'timestamp': '2020-07-09T11:00:01', 'writer': 'Nilton Kleina', 'shares_count': 61, 'comments_count': 26, 'summary': 'O CEO da Tesla, Elon Musk, garantiu que a montadora está muito perto de atingir o chamado nível 5 de autonomia de sistemas de piloto automático de carros. A informação foi confirmada em uma mensagem enviada pelo executivo aos participantes da Conferência Anual de Inteligência Artificial (WAIC, na sigla em inglês). O evento aconteceu em Xangai, na China, onde a montadora comemora resultados positivos de mercado.', 'sources': ['Venture Beat'], 'categories': ['Mobilidade Urbana/Smart Cities', 'Veículos autônomos', 'Tesla', 'Elon Musk']}


In [None]:
# url - link para acesso da notícia. Ex: "https://www.tecmundo.com.br/mobilidade-urbana-smart-cities/155000-musk-tesla-carros-totalmente-autonomos.htm"

# title - título da notícia. Ex: "Musk: Tesla está muito perto de carros totalmente autônomos"

# timestamp - data e hora da notícia. Ex: "2020-07-09T11:00:00"

# writer - autor da notícia. Ex: "Nilton Kleina"

# shares_count - número de compartilhamento da notícia. Ex: 61

# comments_count - número de comentários que a notícia recebeu. Ex: 26

# summary - o primeiro parágrafo da notícia. Ex:"O CEO da Tesla, Elon Musk, garantiu que a montadora está muito perto de atingir o chamado nível 5 de autonomia de sistemas de piloto automático de carros. A informação foi confirmada em uma mensagem enviada pelo executivo aos participantes da Conferência Anual de Inteligência Artificial (WAIC, na sigla em inglês). O evento aconteceu em Xangai, na China, onde a montadora comemora resultados positivos de mercado."

# sources - fontes da notícia. Ex: ["Venture Beat"]

# categories - categorias que classificam a notícia. Ex: ["Mobilidade Urbana/Smart Cities", "Veículos autônomos", "Tesla", "Elon Musk"]

