In [33]:
import requests
import parsel
import time
from datetime import datetime
import re
import json
from tech_news.database import create_news

### Requisito 1

In [3]:
def fetch(url):
    time.sleep(1)
    try:
        response = requests.get(url=url, timeout=3)
        if response.ok:
            return response.text
        else:
            return None
    except requests.exceptions.ReadTimeout:
        return None

### Requisito 2

In [4]:
def scrape_novidades(html_content):
    selector = parsel.Selector(text=html_content)
    res = selector.css('.tec--list .tec--card__title__link')
    return list(map(lambda x: x.attrib['href'], res))

In [5]:
request_text = fetch('https://www.tecmundo.com.br/novidades')

In [6]:
scrape_novidades(request_text)

['https://www.tecmundo.com.br/seguranca/232449-golpe-usando-token-falso-amazon-rouba-criptomoedas-vitimas.htm',
 'https://www.tecmundo.com.br/mercado/232464-momento-olhar-startups-nao-passou.htm',
 'https://www.tecmundo.com.br/minha-serie/232437-the-office-atrizes-serie-comentam-famoso-episodio-parkour.htm',
 'https://www.tecmundo.com.br/mercado/232458-microsoft-5-empresas-bilionarias-games-conhecer.htm',
 'https://www.tecmundo.com.br/mercado/232417-epic-games-volta-brigar-apple-devido-monopolio-ios.htm',
 'https://www.tecmundo.com.br/voxel/232477-ps4-pior-melhor-segundo-critica.htm',
 'https://www.tecmundo.com.br/voxel/232398-the-last-of-us-2-joel-esconde-detalhe-legal-flashback-ellie.htm',
 'https://www.tecmundo.com.br/minha-serie/232431-and-just-like-that-serie-agrada-fas-sex-and-the-city-critica.htm',
 'https://www.tecmundo.com.br/produto/232484-this-is-us-saiba-onde-assistir-serie-dramatica-nbc.htm',
 'https://www.tecmundo.com.br/minha-serie/232000-7-servicos-voce-assistir-doramas

### Requisito 03

In [7]:
def scrape_next_page_link(html_content):
    selector = parsel.Selector(text=html_content)
    return selector.css('.tec--list a.tec--btn::attr("href")').get()

### Requisito 4

In [8]:
def extract_count(strings_list, regex_r):
    output = 0
    for y in strings_list:
        try:
            regex = re.search(regex_r, y)
            return int(regex.groups()[0])
        except AttributeError:
            pass
    return output


def parse_json_writer(jsons_str):
    output = None
    for json_str in jsons_str:
        if json_str is None:
            return None

        try:
            deserialized_json = json.loads(json_str)
            output = deserialized_json["author"]["name"]
        except KeyError:
            pass

    return output


def extract_writer(selector):
    selectors = [
        selector.css(".tec--author__info__link::text").get(),
        selector.css(
            ".z--flex tec--timestamp tec--timestamp__item::text"
        ).get(),
        parse_json_writer(
            selector.css('script[type="application/ld+json"]::text').getall()
        ),
    ]

    for writer in selectors:
        if writer is not None:
            return str.strip(writer)

    return None


def scrape_noticia(html_content):
    selector = parsel.Selector(text=html_content)

    seletected = selector.css(".tec--toolbar__item *::text").getall()

    output = {
        "url": selector.css('link[rel="canonical"]::attr(href)').get(),
        "title": selector.css("#js-article-title::text").get(),
        "timestamp": selector.css("#js-article-date::attr(datetime)").get(),
        "writer": extract_writer(selector),
        "shares_count": extract_count(seletected, r"(\d+) Compartilharam"),
        "comments_count": extract_count(seletected, r"(\d+) Comentários"),
        "summary": "".join(
            selector.css(".tec--article__body > p:first-child ::text").getall()
        ),
        "sources": list(
            map(
                str.strip,
                selector.css(".z--mb-16 div a::text").getall(),
            )
        ),
        "categories": list(
            map(str.strip, selector.css("#js-categories a::text").getall())
        ),
    }
    return output


In [9]:
scrape_noticia(
  fetch('https://www.tecmundo.com.br/minha-serie/215285-falcao-soldado-invernal-fas-reacao-curiosa-sebastian-stan.htm')
)

{'url': 'https://www.tecmundo.com.br/minha-serie/215285-falcao-soldado-invernal-fas-reacao-curiosa-sebastian-stan.htm',
 'title': 'Falcão e o Soldado Invernal: fãs têm reação curiosa ao ver Sebastian Stan',
 'timestamp': '2021-04-09T20:00:01',
 'writer': 'Gabriel Witiuk',
 'shares_count': 0,
 'comments_count': 2,
 'summary': 'Atualmente fazendo sucesso na série Falcão e o Soldado Invernal, Sebastian Stan tem interpretado Bucky Barnes desde o primeiro filme do Capitão América. Stan contou que os fãs da Marvel sempre tentam "ativar" o lado assassino do personagem quando reconhecem o ator nas ruas.',
 'sources': ['CBR', 'MCU Exchange'],
 'categories': ['Minha Série', 'Séries', 'Elenco', 'Marvel', 'Disney+']}

### Requisito 5

In [35]:
def get_tech_news(n):
    url = 'https://www.tecmundo.com.br/novidades'
    links = []
    output = []

    while(len(links) < n):
      html_content = fetch(url)
      page_links = scrape_novidades(html_content)
      links.extend(page_links)
      url = scrape_next_page_link(html_content)

    for x in links[:n]:
      scrape = scrape_noticia(fetch(x))
      output.append(scrape)

    create_news(output)
    return output
      
get_tech_news(10)

[{'url': 'https://www.tecmundo.com.br/minha-serie/232439-demon-slayer-japao-fas-respeitam-personagens-maes.htm',
  'title': 'Demon Slayer: no Japão, fãs respeitam mais os personagens do que as mães',
  'timestamp': '2022-01-21T20:30:01',
  'writer': 'André Luis Dias Custodio',
  'shares_count': 0,
  'comments_count': 0,
  'summary': 'Uma pesquisa inusitada realizada entre fãs de anime no Japão revelou que os participantes respeitam mais os personagens de Demon Slayer do que suas próprias mães. O projeto, que contou com a colaboração de mais de 7,5 mil estudantes do Ensino Fundamental, tinha a proposta de classificar as pessoas mais populares durante o ano de 2020 e foi intitulada de “Quem é a pessoa que você mais respeita em 2020?”.',
  'sources': ['Screen Rant', 'Screen Rant', 'SoraNews'],
  'categories': ['Minha Série', 'Séries', 'Anime']},
 {'url': 'https://www.tecmundo.com.br/seguranca/232449-golpe-usando-token-falso-amazon-rouba-criptomoedas-vitimas.htm',
  'title': 'Golpe usando 