In [9]:
import urllib3
import re
from bs4 import BeautifulSoup
import os
import justext
from nlputils import lexical
from operator import itemgetter
from nltk.corpus import stopwords
import math

In [10]:
normalizer = lexical.Preprocessing()

In [None]:
#Classe reponsável por fazer a compilação de um corpus

In [47]:
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
user_agent = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'}

http = urllib3.PoolManager(10, headers=user_agent)


class Crawler:
    
    def __init__(self, corpus_path, max_files, seed_url, url_pattern):
        self.corpus_path = corpus_path
        self.max_files = max_files
        self.seed_url = seed_url
        self.url_pattern = url_pattern
        self.visited_links = {}
        self.to_be_visited = []
        
        if not os.path.exists(self.corpus_path):
            os.makedirs(self.corpus_path)
        
    def crawl(self):
        first_urls = self.get_page(self.seed_url)
        self.add_links(first_urls)
        next_link = self.get_next_link()
        
        file_counter = 1
        while next_link and file_counter < self.max_files:
            links = self.get_page(next_link)
            self.add_links(links)
            next_link = self.get_next_link()
            file_counter += 1
    
    def get_links(self, page_data):
        links = re.findall(self.url_pattern, str(page_data))
        return links            
    
    def get_page(self, url):
        print("getting page {}".format(url))
        response = http.request('GET', url)

        # store text content
        paragraphs = justext.justext(response.data, justext.get_stoplist("Portuguese"))
        with open("{}/{}.txt".format(self.corpus_path, url.replace(".", "_").replace("/","-")), "w") as output_file:
            for paragraph in paragraphs:
                if not paragraph.is_boilerplate:
                    output_file.write(paragraph.text)
        
        # get links
        links = self.get_links(response.data)
        
        return links

    def add_links(self, links):
        links = list(set(links))
        self.to_be_visited.extend([link for link in links if link not in self.visited_links])

    def get_next_link(self):
        next_link = self.to_be_visited.pop(0)
        self.visited_links[next_link] = None
        return next_link

In [48]:
crawler_tecnologia = Crawler("data/corpora/lutas", 500, "https://sportv.globo.com/site/combate/",
                             '"(https://sportv\.globo\.com/site/combate/noticia/.*?)"')
crawler_tecnologia.crawl()

getting page https://sportv.globo.com/site/combate/
getting page https://sportv.globo.com/site/combate/noticia/andrei-arlovski-acusa-augusto-sakai-de-ser-metido-e-aposta-em-disciplina-para-vencer-brasileiro.ghtml
getting page https://sportv.globo.com/site/combate/noticia/ufc-chega-a-fort-lauderdale-e-sera-o-grande-destaque-do-canal-combate-nesta-semana.ghtml
getting page https://sportv.globo.com/site/combate/noticia/irmao-de-fedor-emelianenko-machuca-o-rosto-ao-cair-de-bicicleta-e-deixa-luta-contra-klb.ghtml
getting page https://sportv.globo.com/site/combate/noticia/em-pesagem-animada-jacare-promete-esmagar-hermansson-pela-torcida-brasileira.ghtml
getting page https://sportv.globo.com/site/combate/noticia/andre-sergipano-e-escalado-para-o-contender-americano-e-vai-enfrentar-makhmud-muradov.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-dana-white-na-plateia-herbert-burns-quer-impressionar-e-fazer-do-titan-o-seu-contender.ghtml
getting page https://sportv.globo.com

getting page https://sportv.globo.com/site/combate/noticia/com-golpe-espetacular-pettis-surpreende-thompson-com-nocaute-no-ufc-nashville.ghtml
getting page https://sportv.globo.com/site/combate/noticia/israel-adesanya-vence-kelvin-gastelum-e-conquista-o-cinturao-interino-dos-medios-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/cerrone-fica-com-dois-bonus-e-cejudo-ganha-premio-de-performance-da-noite.ghtml
getting page https://sportv.globo.com/site/combate/noticia/elizeu-capoeira-finaliza-no-primeiro-round-e-emplaca-setima-vitoria-seguida-no-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/pedrita-deixa-olho-de-mccann-fechado-mas-perde-por-decisao-unanime-no-ufc-londres.ghtml
getting page https://sportv.globo.com/site/combate/noticia/poirier-vence-revanche-contra-max-holloway-e-e-campeao-interino-dos-pesos-leves-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-performance-dominante-jussier-formiga-bate-deiveson-por

getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocauteia-wilson-reis-no-primeiro-round-do-ufc-236.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-joelhadas-demolidoras-overeem-nocauteia-oleynik-no-primeiro-round-no-ufc-russia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/kamaru-usman-massacra-tyron-woodley-e-se-torna-primeiro-africano-campeao-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-golpe-espetacular-pettis-surpreende-thompson-com-nocaute-no-ufc-nashville.ghtml
getting page https://sportv.globo.com/site/combate/noticia/israel-adesanya-vence-kelvin-gastelum-e-conquista-o-cinturao-interino-dos-medios-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/cerrone-fica-com-dois-bonus-e-cejudo-ganha-

getting page https://sportv.globo.com/site/combate/noticia/henry-cejudo-atropela-tj-dillashaw-em-32-segundos-e-mantem-titulo-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocauteia-wilson-reis-no-primeiro-round-do-ufc-236.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-joelhadas-demolidoras-overeem-nocauteia-oleynik-no-primeiro-round-no-ufc-russia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/kamaru-usman-massacra-tyron-woodley-e-se-torna-primeiro-africano-campeao-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-golpe-espetacular-pettis-surpreende-thompson-com-nocaute-no-ufc-nashville.ghtml
getting page https://sportv.globo.com/site/combate/noticia/israel-adesanya-vence-kelvin-gastelum-e-conquista

getting page https://sportv.globo.com/site/combate/noticia/menifield-domina-mamute-e-vence-por-nocaute-tecnico-no-primeiro-round-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/henry-cejudo-atropela-tj-dillashaw-em-32-segundos-e-mantem-titulo-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocauteia-wilson-reis-no-primeiro-round-do-ufc-236.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-joelhadas-demolidoras-overeem-nocauteia-oleynik-no-primeiro-round-no-ufc-russia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/kamaru-usman-massacra-tyron-woodley-e-se-torna-primeiro-africano-campeao-do-ufc.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-golpe-espetacular-pettis-surpreende-t

getting page https://sportv.globo.com/site/combate/noticia/justin-gaethje-cumpre-o-prometido-e-nocauteia-edson-barboza-no-ufc-filadelfia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/menifield-domina-mamute-e-vence-por-nocaute-tecnico-no-primeiro-round-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/henry-cejudo-atropela-tj-dillashaw-em-32-segundos-e-mantem-titulo-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocauteia-wilson-reis-no-primeiro-round-do-ufc-236.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-joelhadas-demolidoras-overeem-nocauteia-oleynik-no-primeiro-round-no-ufc-russia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/kamaru-usman-massacra-tyron-woodley-e-se-to

getting page https://sportv.globo.com/site/combate/noticia/sheymon-moraes-erra-no-fim-e-e-derrotado-por-sodiq-yussuf-na-decisao-unanime-dos-juizes.ghtml
getting page https://sportv.globo.com/site/combate/noticia/justin-gaethje-cumpre-o-prometido-e-nocauteia-edson-barboza-no-ufc-filadelfia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/menifield-domina-mamute-e-vence-por-nocaute-tecnico-no-primeiro-round-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/henry-cejudo-atropela-tj-dillashaw-em-32-segundos-e-mantem-titulo-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocauteia-wilson-reis-no-primeiro-round-do-ufc-236.ghtml
getting page https://sportv.globo.com/site/combate/noticia/com-joelhadas-demolidoras-overeem-nocau

getting page https://sportv.globo.com/site/combate/noticia/apos-nocaute-avassalador-contra-golm-pavlovich-leva-bonus-por-performance-da-noite.ghtml
getting page https://sportv.globo.com/site/combate/noticia/sheymon-moraes-erra-no-fim-e-e-derrotado-por-sodiq-yussuf-na-decisao-unanime-dos-juizes.ghtml
getting page https://sportv.globo.com/site/combate/noticia/justin-gaethje-cumpre-o-prometido-e-nocauteia-edson-barboza-no-ufc-filadelfia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/menifield-domina-mamute-e-vence-por-nocaute-tecnico-no-primeiro-round-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/henry-cejudo-atropela-tj-dillashaw-em-32-segundos-e-mantem-titulo-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/demian-maia-tem-atuacao-impecavel-e-finaliza-lyman-good-com-mata-leao-no-primeiro-round.ghtml
getting page https://sportv.globo.com/site/combate/noticia/alexandre-pantoja-tem-grande-atuacao-e-nocaute

getting page https://sportv.globo.com/site/combate/noticia/stefan-struve-resiste-a-pressao-inicial-e-finaliza-marcos-pezao-e-se-aposenta-no-ufc-praga.ghtml
getting page https://sportv.globo.com/site/combate/noticia/apos-nocaute-avassalador-contra-golm-pavlovich-leva-bonus-por-performance-da-noite.ghtml
getting page https://sportv.globo.com/site/combate/noticia/sheymon-moraes-erra-no-fim-e-e-derrotado-por-sodiq-yussuf-na-decisao-unanime-dos-juizes.ghtml
getting page https://sportv.globo.com/site/combate/noticia/justin-gaethje-cumpre-o-prometido-e-nocauteia-edson-barboza-no-ufc-filadelfia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/menifield-domina-mamute-e-vence-por-nocaute-tecnico-no-primeiro-round-no-ufc-brooklyn.ghtml
getting page https://sportv.globo.com/site/combate/noticia/ariane-lipski-sofre-com-luta-agarrada-de-calderwood-e-perde-em-sua-estreia-no-ultimate.ghtml
getting page https://sportv.globo.com/site/combate/noticia/glover-leva-susto-no-inicio-mas-finali

getting page https://sportv.globo.com/site/combate/noticia/justin-gaethje-cumpre-o-prometido-e-nocauteia-edson-barboza-no-ufc-filadelfia.ghtml
getting page https://sportv.globo.com/site/combate/noticia/diego-ferreira-da-aula-de-trocacao-e-defesa-de-queda-e-derrota-ruslam-khabilov-no-ufc-praga.ghtml
getting page https://sportv.globo.com/site/combate/noticia/stefan-struve-resiste-a-pressao-inicial-e-finaliza-marcos-pezao-e-se-aposenta-no-ufc-praga.ghtml
getting page https://sportv.globo.com/site/combate/noticia/edwards-provoca-masvidal-e-os-dois-trocam-socos-nos-bastidores-apos-o-ufc-londres.ghtml
getting page https://sportv.globo.com/site/combate/noticia/jorge-masvidal-surpreende-darren-till-e-nocauteia-rival-na-luta-principal-do-ufc-londres.ghtml


In [11]:
corpora_path = 'data/corpora'
files_tecnologia = os.listdir('{}/tecnologia/'.format(corpora_path))
files_tecnologia = ['{}/tecnologia/{}'.format(corpora_path,f) for f in files_tecnologia]
files_musica = os.listdir('{}/musica/'.format(corpora_path))
files_musica = ['{}/musica/{}'.format(corpora_path,f) for f in files_musica]

In [51]:
all_sentences = []
tam = 0
for file in files_tecnologia:
    with open(file, 'r') as text_file:
        lines = text_file.readlines()
        for line in lines:
            line = normalizer.lowercase(line)
            sentences = normalizer.tokenize_sentences(line)
            sentences = [normalizer.tokenize_words(sent) for sent in sentences]
            tam +=(len(sentences))
            print(sentences)
            #print(tam)
            all_sentences.extend(sentences)

print("Number of sentences: {}".format(len(all_sentences)))
#print(all_sentences)

[['manopla', 'do', 'infinito', 'aparece', 'em', 'card', 'da', 'busca', 'e', '``', 'destrói', "''", 'metade', 'dos', 'resultados', 'do', 'googleaproveitando', 'a', 'pré-estreia', 'e', 'todo', 'o', 'hype', 'gerado', 'por', 'de', 'vingadores', ':', 'ultimato', 'nos', 'cinemas', ',', 'o', 'google', 'implementou', 'um', 'novo', 'easter', 'egg', 'ao', 'seu', 'buscador', 'que', 'permite', 'simular', 'a', 'dizimação', 'que', 'o', 'vilão', 'da', 'franquia', 'fez', 'com', 'a', 'população', '—', 'mas', 'nesse', 'caso', ',', 'com', 'os', 'resultados', 'da', 'pesquisa.funciona', 'assim', ':', 'você', 'digita', '“', 'thanos', '”', 'na', 'busca', 'do', 'google', ',', 'seja', 'no', 'computador', 'ou', 'no', 'dispositivo', 'móvel', ',', 'e', 'clica', 'em', '“', 'pesquisar', '”', '.'], ['se', 'você', 'for', 'sorteado', ',', 'conseguirá', 'ver', 'a', 'manopla', 'do', 'infinito', '—', 'já', 'com', 'as', 'seis', 'jóias', 'do', 'infinito', '—', 'no', 'card', 'de', 'informações', 'do', 'personagem.clique', '

[['bateria', 'não', 'é', 'o', 'forte', 'do', 'g1540', 'lite', ',', 'mas', 'notebook', 'entrega', 'bom', 'acabamento', 'e', 'desempenho', 'de', 'pontapróscontrasbateria', 'tem', 'péssima', 'autonomiamodelo', 'base', 'não', 'traz', 'nem', 'windowsjá', 'conhecida', 'por', 'fazer', 'notebooks', 'gamers', 'com', 'hardware', 'parrudo', ',', 'a', 'avell', 'começou', 'a', 'investir', 'em', 'modelos', 'que', 'não', 'são', 'grossos', 'e', 'pesados', '.'], ['pelo', 'contrário', ':', 'o', 'g1540', 'lite', 'tem', 'só', '1,85', 'cm', 'de', 'espessura', 'e', 'pesa', '1,9', 'kg', ',', 'embora', 'ainda', 'carregue', 'uma', 'gtx', '1060', 'por', 'dentro.custando', 'a', 'partir', 'de', 'r', '$', '7.199', 'à', 'vista', ',', 'o', 'notebook', 'fica', 'em', 'uma', 'faixa', 'de', 'preço', 'entre', 'os', 'gamers', '“', 'médios', '”', ',', 'como', 'o', 'samsung', 'odyssey', 'e', 'o', 'inspiron', 'gaming', ',', 'e', 'os', 'mais', 'caros', ',', 'como', 'a', 'linha', 'alienware', 'ou', 'outros', 'modelos', 'da', '

[['facebook', 'tem', 'mais', 'um', 'escândalo', 'de', 'privacidade', ':', 'rede', 'social', 'cedeu', 'conversas', 'do', 'messenger', 'e', 'listas', 'de', 'amigos', 'para', 'empresas', 'de', 'tecnologiasim', ',', 'o', 'facebook', 'está', 'envolvido', 'em', 'mais', 'um', 'escândalo', 'de', 'privacidade', '.'], ['uma', 'investigação', 'do', 'new', 'york', 'times', 'descobriu', 'que', 'a', 'rede', 'social', 'cedeu', 'dados', 'privados', 'para', 'centenas', 'de', 'empresas', ',', 'incluindo', 'spotify', ',', 'netflix', ',', 'amazon', ',', 'microsoft', 'e', 'apple', '—', 'e', 'isso', 'nunca', 'ficou', 'claro', 'para', 'os', 'usuários', '.'], ['essas', 'companhias', 'tinham', 'acesso', 'a', 'conversas', 'do', 'messenger', ',', 'listas', 'de', 'amigos', 'e', 'endereços', 'de', 'e-mail.netflix', 'e', 'spotify', 'tinham', 'a', 'capacidade', 'de', 'ler', 'e', 'apagar', 'mensagens', 'privadas', 'do', 'messenger', ',', 'além', 'de', 'ver', 'todos', 'os', 'participantes', 'de', 'uma', 'conversa', '.

[['a', 'última', 'atualização', 'para', 'drivers', 'do', '3d', 'vision', 'será', 'entregue', 'no', 'mês', 'que', 'vem.o', '3d', 'já', 'morreu', 'na', 'tv', ',', 'força', 'a', 'barra', 'no', 'cinema', ',', 'mas', 'acaba', 'de', 'perder', 'mais', 'uma', 'empresa', 'que', 'tinha', 'seus', 'esforços', 'no', 'mundo', 'de', 'óculos', 'especiais', ':', 'a', 'nvidia', '.'], ['a', 'marca', 'conhecida', 'por', 'criar', 'placas', 'gráficas', 'começará', 'a', 'deixar', 'de', 'oferecer', 'suporte', 'para', 'o', '3d', 'vision', ',', 'que', 'é', 'sua', 'plataforma', 'para', 'este', 'tipo', 'de', 'conteúdo.a', 'mudança', 'será', 'feita', 'nos', 'drivers', 'para', 'o', '3d', 'vision', ',', 'que', 'serão', 'atualizados', 'até', 'o', 'mês', 'que', 'vem', '(', 'para', 'a', 'versão', '418', ')', 'e', 'depois', 'ficarão', 'de', 'lado', ',', 'numa', 'gaveta', 'fria', 'e', 'triste', 'onde', 'o', '3d', 'está', 'no', 'momento', '.'], ['este', 'tipo', 'de', 'tecnologia', 'foi', 'criado', 'em', '2008', 'para', 't

[['descubra', 'qual', 'a', 'diferença', 'entre', 'modem', 'e', 'roteador', ',', 'para', 'o', 'que', 'cada', 'um', 'deles', 'serve', ',', 'e', 'se', 'usar', 'modelo', 'híbrido', 'é', 'uma', 'boaqual', 'a', 'diferença', 'entre', 'modem', 'e', 'roteador', '?'], ['muita', 'gente', 'pensa', 'que', 'esses', 'dois', 'nomes', 'se', 'referem', 'a', 'um', 'mesmo', 'aparelho', ',', 'ainda', 'mais', 'hoje', ',', 'onde', 'é', 'possível', 'encontrar', 'dispositivos', 'que', 'acumulam', 'as', 'duas', 'funções', '.'], ['a', 'verdade', ',', 'entretanto', ',', 'é', 'que', 'o', 'modem', 'e', 'o', 'roteador', 'possuem', 'características', 'totalmente', 'distintas.qual', 'a', 'diferença', 'entre', 'modem', 'e', 'roteador', '?', 'o', 'modem', 'e', 'o', 'roteador', 'são', 'dispositivos', 'parecidos', ',', 'mas', 'possuem', 'diferenças', 'de', 'função', 'bem', 'claras', '.'], ['vamos', 'conhecer', 'quais:1.', 'o', 'que', 'é', 'modem', '?', 'o', 'modem', 'é', 'o', 'dispositivo', 'que', 'leva', 'a', 'internet',

[['theranos', 'virou', 'sensação', 'ao', 'prometer', 'máquina', 'capaz', 'de', 'fazer', 'mais', 'de', '200', 'exames', 'com', 'poucas', 'gotas', 'de', 'sangue', '.'], ['mas', 'a', 'tecnologia', 'não', 'existe', 'até', 'hoje.elizabeth', 'holmes', 'chegou', 'a', 'ser', 'comparada', 'a', 'steve', 'jobs', 'e', 'a', 'bill', 'gates', '.'], ['a', 'theranos', ',', 'startup', 'que', 'ela', 'fundou', ',', 'valia', 'mais', 'de', 'us', '$', '9', 'bilhões', 'em', '2014', ',', 'tudo', 'por', 'conta', 'de', 'um', 'revolucionário', 'equipamento', 'portátil', 'que', 'prometia', 'fazer', 'mais', 'de', '200', 'tipos', 'de', 'exames', 'médicos', '.'], ['hoje', ',', 'holmes', 'é', 'um', 'exemplo', ',', 'não', 'de', 'empreendedorismo', ',', 'mas', 'do', 'que', 'não', 'fazer', 'no', 'vale', 'do', 'silício', 'ou', 'em', 'qualquer', 'outra', 'parte', 'do', 'mundo.depois', 'do', 'primeiro', 'ano', 'de', 'estudos', ',', 'elizabeth', 'holmes', 'conseguiu', 'um', 'trabalho', 'de', 'verão', 'no', 'genome', 'institu

[['veja', 'o', 'review', 'deste', 'que', 'é', ',', 'sem', 'dúvidas', ',', 'o', 'jogo', 'de', 'luta', 'mais', 'violento', 'da', 'franquia', '.'], ['prepare', 'seu', 'fatality', 'e', 'finish', 'him', '!', 'quando', 'mortal', 'kombat', 'apareceu', ',', 'pela', 'primeira', 'vez', ',', 'em', '1992', ',', 'o', 'game', 'causou', 'muita', 'polêmica', 'pela', 'violência', 'excessiva', ',', 'fazendo', 'justiça', 'ao', 'seu', 'nome', '.'], ['após', '27', 'anos', ',', 'mortal', 'kombat', '11eleva', 'o', 'seu', 'próprio', 'patamar', 'sanguinário', 'e', 'traz', 'um', 'game', 'de', 'luta', 'brutal', ',', 'mas', 'versátil', ',', 'altamente', 'customizável', 'e', 'bem', 'amigável', 'com', 'novatos', 'em', 'jogos', 'de', 'luta', '.'], ['veja', ',', 'a', 'seguir', ',', 'nosso', 'review', 'deste', 'banho', 'de', 'sangue', 'digital', 'disponível', 'para', 'ps4', ',', 'xbox', 'one', ',', 'nintendo', 'switch', 'e', 'pc', '.'], ['o', 'game', 'traz', 'legendas', 'e', 'áudio', 'em', 'português', 'do', 'brasil.m

[['fabricante', 'tenta', ',', 'mas', 'não', 'acerta', 'tanto', 'com', 'um', 'notebook', 'gamerpróstela', 'com', 'boa', 'saturação', 'e', 'tecnologia', 'antirreflexovocê', 'pode', 'embutir', 'um', 'ssd', 'e', 'mais', 'ramcontrasbateria', 'dura', 'menos', 'que', 'o', 'esperadoteclado', 'e', 'touchpad', 'poderiam', 'ter', 'mais', 'qualidadefaltou', 'trazer', 'uma', 'opção', 'com', 'ssdpara', 'entrar', 'na', 'onda', 'dos', 'notebooks', 'gamers', ',', 'a', 'samsung', 'fez', 'diferente', '.'], ['em', 'vez', 'de', 'lançar', 'um', 'trambolho', 'que', 'custa', 'os', 'olhos', 'da', 'cara', ',', 'a', 'empresa', 'apostou', 'em', 'um', 'notebook', 'mais', 'fino', 'e', 'com', 'um', 'preço', 'talvez', 'razoável', ',', 'seguindo', 'a', 'tendência', 'do', 'mercado.estou', 'falando', 'do', 'odyssey', ',', 'que', 'tem', 'cara', 'de', 'um', 'notebook', 'comum', 'com', 'luzes', 'vermelhas', ',', 'um', 'logo', 'diferentão', 'e', 'um', 'hardware', 'mais', 'parrudo', 'por', 'dentro', '.'], ['o', 'preço', 'tam

[['sempre', 'que', 'a', 'gente', 'publica', 'um', 'review', 'de', 'produto', ',', 'tem', 'um', 'grupo', 'de', 'leitores', 'para', 'criticar', 'o', 'celular', 'ou', 'até', 'o', 'autor', '.'], ['no', 'dia', 'em', 'que', 'falamos', 'bem', 'do', 'iphone', ',', 'somos', 'vendidos', 'para', 'a', 'apple', '.'], ['se', 'publicarmos', 'uma', 'análise', 'positiva', 'do', 'galaxy', 's10', 'no', 'dia', 'seguinte', ',', 'imediatamente', 'nos', 'tornamos', 'vendidos', 'para', 'a', 'samsung', '!', 'no', 'episódio', 'de', 'hoje', ',', 'vamos', 'falar', 'sobre', 'como', 'funciona', 'o', 'nosso', 'processo', 'de', 'análise', 'de', 'produtos', '.'], ['é', 'verdade', 'que', 'a', 'gente', 'ganha', 'dezenas', 'de', 'smartphones', 'para', 'falar', 'bem', 'de', 'todas', 'as', 'marcas', '?'], ['falamos', 'de', 'tudo', 'isso', 'depois', 'do', 'play', '!', 'oferecimento', ':', 'intelbrasse', 'a', 'sua', 'casa', 'tem', 'aquelas', 'zonas', 'mortas', 'de', 'wi-fi', ',', 'onde', 'o', 'sinal', 'não', 'chega', 'de', '

[['galaxy', 'a9', ':', 'quatro', 'câmeras', 'para', 'te', 'ver', 'melhor', '(', 'ou', 'não', ')', 'não', 'são', 'duas', ',', 'não', 'são', 'três', '.'], ['são', 'quatro', 'câmeras', 'na', 'traseira', '.'], ['exagero', 'ou', 'não', ',', 'essa', 'é', 'a', 'característica', 'mais', 'marcante', 'do', 'samsung', 'galaxy', 'a9', ',', 'intermediário', 'premium', 'que', 'foi', 'anunciado', 'lá', 'fora', 'em', 'outubro', 'de', '2018', ',', 'mas', 'deu', 'as', 'caras', 'no', 'brasil', 'no', 'começo', 'de', '2019.além', 'da', 'quantidade', 'de', 'olhos', ',', 'o', 'smartphone', 'tem', 'entre', 'os', 'seus', 'atributos', 'uma', 'tela', 'full', 'hd+', 'de', '6,3', 'polegadas', ',', 'processador', 'snapdragon', '660', ',', '6', 'gb', 'de', 'ram', 'e', '128', 'gb', 'para', 'armazenamento', 'interno', 'de', 'dados.por', 'tudo', 'isso', 'e', 'mais', 'um', 'pouco', 'a', 'samsung', 'sugere', 'surreais', 'r', '$', '3.199.', 'mas', 'já', 'dá', 'para', 'encontrar', 'o', 'aparelho', 'por', 'preços', 'próximo

[['a', 'intel', 'revelou', 'a', 'linha', 'core', 'i9', 'no', 'final', 'de', 'maio', '.'], ['alguns', 'dias', 'depois', ',', 'veículos', 'especializados', 'já', 'estavam', 'testando', 'um', 'dos', 'cinco', 'modelos', 'anunciados', ':', 'o', 'core', 'i9-7900x', ',', 'processador', 'com', 'dez', 'núcleos', 'e', 'preço', 'oficial', 'de', 'us', '$', '999.', 'o', 'valor', ',', 'por', 'si', 'só', ',', 'já', 'indica', 'que', 'o', 'chip', 'não', 'tem', 'medo', 'de', 'trabalho', 'pesado', '.'], ['será', 'mesmo', '?'], ['vejamos', 'o', 'que', 'dizem', 'tom', '’', 's', 'hardware', ',', 'anandtech', 'e', 'ars', 'technica.tom', '’', 's', 'hardware', ':', 'esperamos', 'mais', 'desempenhoalém', 'de', '10', 'núcleos', ',', 'o', 'core', 'i9–7900x', 'tem', '20', 'threads', ',', 'frequência', 'de', '3,3', 'ghz', 'e', 'tdp', 'de', '140', 'w.', 'a', 'arquitetura', 'implementada', 'é', 'a', 'skylake-x', ',', 'como', 'o', 'nome', 'indica', ',', 'uma', 'atualização', 'da', 'plataforma', 'skylake', 'que', 'traz

[['tecnocast', '100', '–', 'como', 'tudo', 'começouoctober', '15th', ',', '8:59pmoctober', '16th', ',', '12:50pmthiago', 'mobiloncomeçou', 'a', 'empreender', 'aos', '18', 'anos', ',', 'fazendo', 'manutenção', 'de', 'computadores', 'e', 'artes', 'gráficas', '.'], ['criou', 'o', '<', 'strong', '>', 'tecnoblog', '<', '/strong', '>', 'para', 'ser', 'uma', 'espécie', 'de', 'laboratório', ',', 'onde', 'contaria', 'as', 'suas', 'experiências', 'com', 'eletrônicos', 'e', ',', 'de', 'quebra', ',', 'poderia', 'aprender', 'sobre', 'programação', 'e', 'servidores', '.'], ['no', 'entanto', 'o', 'site', 'cresceu', 'rapidamente', ',', 'se', 'transformando', 'em', 'uma', 'empresa', 'de', 'mídia', 'digital.tecnoblogquatro', 'anos', 'depois', 'do', 'lançamento', 'do', 'tecnocast', ',', 'finalmente', 'chegamos', 'ao', 'centésimo', 'episódio', '!'], ['e', 'para', 'comemorar', ',', 'fizemos', 'um', 'programa', 'especial', 'contando', 'toda', 'a', 'história', 'do', 'tb', ',', 'desde', 'a', 'sua', 'fundação.

[['novos', 'fones', 'de', 'ouvido', 'totalmente', 'sem', 'fio', 'da', 'samsung', 'são', 'mais', 'simples', ',', 'mais', 'acessíveis', 'e', 'melhorescom', 'um', 'nome', 'bem', 'mais', 'amigável', ',', 'os', 'galaxy', 'buds', 'são', 'os', 'novos', 'fones', 'de', 'ouvido', 'totalmente', 'sem', 'fio', 'da', 'samsung', '.'], ['eles', 'herdaram', 'o', 'formato', 'do', 'gear', 'iconx', ',', 'mas', 'estão', 'mais', 'estilosos', ',', 'passaram', 'a', 'estampar', 'a', 'marca', 'da', 'akg', 'e…', 'se', 'tornaram', 'bem', 'mais', 'simples.isso', 'mesmo', ':', 'nada', 'dos', 'sensores', 'de', 'batimentos', 'cardíacos', 'da', 'primeira', 'geração', ',', 'da', 'memória', 'interna', 'de', '4', 'gb', 'para', 'músicas', 'ou', 'do', 'monitoramento', 'de', 'exercícios', 'integrado', '.'], ['os', 'galaxy', 'buds', 'só', 'fazem', 'o', 'básico', ':', 'tocam', 'música', 'por', 'bluetooth', '.'], ['em', 'compensação', ',', 'eles', 'estão', 'menos', 'caros', 'que', 'o', 'gear', 'iconx', ',', 'com', 'preço', 'su

[['veja', 'o', 'review', 'deste', 'que', 'é', ',', 'sem', 'dúvidas', ',', 'o', 'jogo', 'de', 'luta', 'mais', 'violento', 'da', 'franquia', '.'], ['prepare', 'seu', 'fatality', 'e', 'finish', 'him', '!', 'quando', 'mortal', 'kombat', 'apareceu', ',', 'pela', 'primeira', 'vez', ',', 'em', '1992', ',', 'o', 'game', 'causou', 'muita', 'polêmica', 'pela', 'violência', 'excessiva', ',', 'fazendo', 'justiça', 'ao', 'seu', 'nome', '.'], ['após', '27', 'anos', ',', 'mortal', 'kombat', '11eleva', 'o', 'seu', 'próprio', 'patamar', 'sanguinário', 'e', 'traz', 'um', 'game', 'de', 'luta', 'brutal', ',', 'mas', 'versátil', ',', 'altamente', 'customizável', 'e', 'bem', 'amigável', 'com', 'novatos', 'em', 'jogos', 'de', 'luta', '.'], ['veja', ',', 'a', 'seguir', ',', 'nosso', 'review', 'deste', 'banho', 'de', 'sangue', 'digital', 'disponível', 'para', 'ps4', ',', 'xbox', 'one', ',', 'nintendo', 'switch', 'e', 'pc', '.'], ['o', 'game', 'traz', 'legendas', 'e', 'áudio', 'em', 'português', 'do', 'brasil.m

[['depois', 'de', 'quase', 'um', 'ano', 'no', 'mercado', ',', 'nu7100', 'está', 'mais', 'barata', 'e', 'não', 'sacrifica', 'qualidade', 'de', 'imagema', 'nu7100', 'foi', 'a', 'tv', '4k', 'mais', 'simples', 'da', 'samsung', 'lançada', 'em', '2018.', 'ela', 'já', 'até', 'ganhou', 'uma', 'sucessora', 'no', 'mercado', 'brasileiro', ',', 'a', 'ru7100', ',', 'que', 'trouxe', 'novidades', 'bacanas', ',', 'como', 'a', 'conexão', 'bluetooth', 'e', 'o', 'controle', 'remoto', 'universal', ',', 'mas', 'sem', 'grandes', 'mudanças', 'na', 'qualidade', 'de', 'imagem.quase', 'um', 'ano', 'depois', 'da', 'estreia', 'no', 'brasil', ',', 'a', 'nu7100', 'está', 'bem', 'mais', 'barata', 'nas', 'lojas', '.'], ['a', 'versão', 'de', '55', 'polegadas', ',', 'lançada', 'por', 'r', '$', '4,6', 'mil', ',', 'já', 'pode', 'ser', 'encontrada', 'por', 'menos', 'de', 'r', '$', '3', 'mil', '.'], ['para', 'quem', 'prefere', 'tamanhos', 'gigantes', ',', 'a', 'queda', 'no', 'preço', 'foi', 'ainda', 'maior', ':', 'a', 'nu7

[['simples', 'e', 'robusto', ',', 'moto', 'g7', 'play', 'é', 'um', 'bom', 'intermediário', 'de', 'entrada', ',', 'mas', 'memória', 'ram', 'pode', 'ser', 'um', 'gargaloprósacabamento', 'externo', 'robustocâmeras', 'decentes', 'para', 'a', 'categoriacontrasmais', 'memória', 'ram', 'seria', 'ótimoo', 'alto-falante', 'é', 'meio', 'sei', 'láo', 'moto', 'g7', 'play', 'é', 'um', 'dos', 'quatro', 'smartphones', 'da', 'sétima', 'geração', 'de', 'intermediários', 'da', 'motorola', '.'], ['lançado', 'em', 'fevereiro', 'de', '2019', ',', 'ele', 'veio', 'para', 'ser', 'a', 'opção', 'mais', 'simples', 'e', ',', 'consequentemente', ',', 'mais', 'barata', '(', 'ou', 'menos', 'cara', ')', 'entre', 'eles', ':', 'seu', 'preço', 'oficial', 'é', 'de', 'r', '$', '999.por', 'esse', 'valor', ',', 'o', 'modelo', 'oferece', 'tela', 'hd+', 'de', '5,7', 'polegadas', ',', 'processador', 'snapdragon', '632', ',', '32', 'gb', 'para', 'armazenamento', 'de', 'dados', 'e', 'bateria', 'de', '3.000', 'mah', '.'], ['para'

[['odyssey', 'z', ':', 'o', 'melhor', 'notebook', 'gamer', 'da', 'samsung', 'escorrega', 'no', 'preçooctober', '12th', ',', '3:00pmoctober', '12th', ',', '3:37pmandré', 'fogaçao', 'fogaça', 'é', 'jornalista', 'desde', '2013', ',', 'escreve', 'sobre', 'tecnologia', 'desde', '2010', ',', 'mora', 'em', 'são', 'paulo', 'e', 'é', 'um', 'nintendista', 'enrustido', '.'], ['começou', 'a', 'curtir', 'muito', 'podcasts', 'nos', 'últimos', 'anos.computadordepois', 'de', 'falar', 'de', 'notebooks', 'que', 'trabalham', 'com', 'a', 'gtx', '1050', 'ti', ',', 'que', 'é', 'uma', 'placa', 'de', 'entrada', 'com', 'mais', 'força', 'para', 'games', 'que', 'exigem', 'um', 'pouco', 'mais', 'do', 'hardware', ',', 'que', 'está', 'no', 'acer', 'aspire', 'vx', '15', 'e', 'no', 'dell', 'inspiron', '15', 'gaming', ',', 'está', 'na', 'hora', 'de', 'subir', 'um', 'degrau', 'em', 'gpus', 'e', 'passar', 'para', 'uma', 'gtx', '1060.para', 'essa', 'tarefa', 'recebemos', 'o', 'odyssey', 'z', ',', 'que', 'é', 'o', 'notebo

[['samsung', 'style', 's51', 'pen', 'é', 'um', 'notebook', '2', 'em', '1', 'com', 'bom', 'conjunto', 'de', 'hardware', ',', 'tamanho', 'compacto', 'e', 'caneta', 's', 'pen', ',', 'mas', 'cobra', 'caro', 'por', 'tudo', 'issoprósótimo', 'desempenho', 'geralleve', 'e', 'compactocontrasa', 's', 'pen', 'é', 'pequena', 'para', 'um', 'notebookum', 'pouco', 'mais', 'de', 'autonomia', 'na', 'bateria', 'seria', 'legalanunciado', 'no', 'brasil', 'em', 'maio', 'de', '2018', ',', 'o', 'samsung', 'style', 's51', 'pen', 'é', 'um', 'notebook', 'premium', ',', 'mas', 'que', 'pode', 'se', 'passar', 'facilmente', 'por', 'um', 'modelo', 'de', 'categoria', 'intermediária', '.'], ['mérito', '—', 'ou', 'culpa', '—', 'do', 'acabamento', 'externo', 'que', 'lembra', 'plástico', 'e', 'do', 'design', 'simplificado.mas', 'não', 'se', 'deixe', 'enganar', ':', 'as', 'especificações', 'do', 'laptop', 'incluem', 'tela', 'full', 'hd', 'de', '13,3', 'polegadas', 'sensível', 'a', 'toques', ',', 'processador', 'intel', 'c

[['confira', 'os', 'sites', 'mais', 'populares', 'para', 'encontrar', 'passagens', 'aéreas', 'baratas', 'para', 'seu', 'próximo', 'destinofazer', 'uma', 'viagem', 'demanda', 'planejamento', '.'], ['com', 'tantas', 'opções', 'de', 'sites', 'que', 'oferecem', 'passagens', 'aéreas', 'a', 'preços', 'mais', 'baratos', ',', 'é', 'difícil', 'saber', 'qual', 'o', 'melhor', 'e', 'que', 'destaca', 'as', 'maiores', 'promoções', '.'], ['é', 'fato', 'que', 'é', 'necessário', 'pesquisar', 'para', 'encontrar', 'os', 'melhores', 'preços', '.'], ['então', ',', 'aí', 'vai', 'uma', 'lista', 'com', 'as', '10', 'opções', 'para', 'marcar', 'seu', 'próximo', 'voo.1', '.'], ['decolarsem', 'dúvida', 'o', 'decolar', 'é', 'o', 'mais', 'popular', 'dos', 'serviços', '.'], ['além', 'de', 'passagens', ',', 'dá', 'para', 'encontrar', 'hotéis', ',', 'pacotes', 'de', 'viagens', ',', 'aluguéis', 'de', 'carros', ',', 'seguros', 'e', 'até', 'cruzeiros', '.'], ['o', 'site', 'tem', 'um', 'recurso', 'que', 'mostra', 'a', 'ev

[['depois', 'de', 'quase', 'um', 'ano', 'no', 'mercado', ',', 'nu7100', 'está', 'mais', 'barata', 'e', 'não', 'sacrifica', 'qualidade', 'de', 'imagema', 'nu7100', 'foi', 'a', 'tv', '4k', 'mais', 'simples', 'da', 'samsung', 'lançada', 'em', '2018.', 'ela', 'já', 'até', 'ganhou', 'uma', 'sucessora', 'no', 'mercado', 'brasileiro', ',', 'a', 'ru7100', ',', 'que', 'trouxe', 'novidades', 'bacanas', ',', 'como', 'a', 'conexão', 'bluetooth', 'e', 'o', 'controle', 'remoto', 'universal', ',', 'mas', 'sem', 'grandes', 'mudanças', 'na', 'qualidade', 'de', 'imagem.quase', 'um', 'ano', 'depois', 'da', 'estreia', 'no', 'brasil', ',', 'a', 'nu7100', 'está', 'bem', 'mais', 'barata', 'nas', 'lojas', '.'], ['a', 'versão', 'de', '55', 'polegadas', ',', 'lançada', 'por', 'r', '$', '4,6', 'mil', ',', 'já', 'pode', 'ser', 'encontrada', 'por', 'menos', 'de', 'r', '$', '3', 'mil', '.'], ['para', 'quem', 'prefere', 'tamanhos', 'gigantes', ',', 'a', 'queda', 'no', 'preço', 'foi', 'ainda', 'maior', ':', 'a', 'nu7

[['o', 'facebook', 'tinha', 'tudo', 'para', 'apresentar', 'mais', 'um', 'resultado', 'financeiro', 'admirável', ':', 'o', 'faturamento', 'cresceu', '26', '%', 'no', 'primeiro', 'trimestre', 'de', '2019', ',', 'e', 'a', 'base', 'de', 'usuários', 'também', 'aumentou', '.'], ['no', 'entanto', ',', 'a', 'rede', 'social', 'teve', 'que', 'reservar', 'us', '$', '3', 'bilhões', 'para', 'uma', 'possível', 'multa', 'da', 'ftc', '(', 'comissão', 'federal', 'de', 'comércio', ')', ',', 'órgão', 'dos', 'eua', 'que', 'investiga', 'as', 'práticas', 'da', 'empresa', 'envolvendo', 'os', 'dados', 'pessoais', 'de', 'seus', 'usuários.a', 'ftc', 'investiga', 'o', 'facebook', 'desde', 'o', 'ano', 'passado', ',', 'quando', 'veio', 'à', 'tona', 'o', 'escândalo', 'cambridge', 'analytica', '.'], ['fontes', 'dizem', 'ao', 'washington', 'post', 'que', 'o', 'órgão', 'negocia', 'uma', 'multa', 'de', '“', 'bilhões', 'de', 'dólares', '”', 'com', 'a', 'rede', 'social', '—', 'a', 'maior', 'já', 'aplicada', 'a', 'uma', '

[['aplicativos', 'que', 'não', 'podem', 'ficar', 'de', 'fora', 'do', 'desktop', ',', 'ou', 'do', 'notebook', 'de', 'qualquer', 'membro', 'da', 'glorious', 'pc', 'gamer', 'master', 'racese', 'você', 'é', 'um', 'membro', 'orgulhoso', 'da', 'glorious', 'pc', 'gamer', 'master', 'race', ',', 'e', 'possui', 'um', 'desktop', 'da', 'nasa', 'ou', 'notebook', 'parrudo', 'para', 'rodar', 'todos', 'os', 'seus', 'jogos', 'no', 'máximo', ',', 'alguns', 'aplicativos', 'podem', 'te', 'ajudar', 'a', 'tirar', 'ainda', 'mais', 'proveito', 'de', 'suas', 'máquinas.8', 'programas', 'grátis', 'obrigatórios', 'em', 'um', 'pc', 'gamertodo', 'pc', 'gamer', 'que', 'se', 'preze', 'precisa', 'de', 'uma', 'série', 'de', 'programas', ',', 'para', 'permitir', 'a', 'melhor', 'experiência', 'possível', 'no', 'jogo', '.'], ['listamos', 'aqui', 'alguns', 'dos', 'mais', 'essenciais:1.', 'quantos', 'clientes', 'de', 'lojas', 'de', 'games', 'digitais', 'forem', 'necessárioseu', 'poderia', 'dedicar', 'um', 'item', 'para', 'u

[['10', 'sites', 'para', 'comprar', 'passagens', 'aéreas', 'baratasapril', '25th', ',', '9:33amapril', '25th', ',', '9:35amlucas', 'limaformado', 'em', 'jornalismo', 'pela', 'unimep', '(', 'universidade', 'metodista', 'de', 'piracicaba', ')', ',', 'é', 'tão', 'apaixonado', 'pela', 'tecnologia', 'quanto', 'pelas', 'palavras', '.'], ['ganhou', 'o', 'primeiro', 'computador', 'em', '2006.', 'desde', 'então', ',', 'nunca', 'mais', 'passou', 'uma', 'madrugada', 'inteira', 'dormindo.webfazer', 'uma', 'viagem', 'demanda', 'planejamento', '.'], ['com', 'tantas', 'opções', 'de', 'sites', 'que', 'oferecem', 'passagens', 'aéreas', 'a', 'preços', 'mais', 'baratos', ',', 'é', 'difícil', 'saber', 'qual', 'o', 'melhor', 'e', 'que', 'destaca', 'as', 'maiores', 'promoções', '.'], ['é', 'fato', 'que', 'é', 'necessário', 'pesquisar', 'para', 'encontrar', 'os', 'melhores', 'preços', '.'], ['então', ',', 'aí', 'vai', 'uma', 'lista', 'com', 'as', '10', 'opções', 'para', 'marcar', 'seu', 'próximo', 'voo.1', '

[['próscontrasa', 'espessura', 'aumentou', ',', 'mas', 'a', 'bateria', 'que', 'é', 'bom…cadê', 'a', 'bixby', 'em', 'português', 'do', 'brasil', '?', 'versão', 'menor', 'tem', 'câmera', 'e', 'hardware', 'capadonos', 'últimos', 'dois', 'anos', ',', 'a', 'samsung', 'se', 'consolidou', 'no', 'mercado', 'de', 'smartphones', 'premium', '.'], ['o', 'galaxy', 's7', 'edge', 'era', 'a', 'escolha', 'certa', 'para', 'quem', 'queria', 'câmera', 'boa', ',', 'alto', 'desempenho', 'e', 'tela', 'de', 'excelente', 'qualidade', ';', 'e', 'o', 'galaxy', 's8', 'trouxe', 'um', 'dos', 'melhores', 'visuais', 'para', 'um', 'smartphone', ',', 'reduzindo', 'as', 'bordas', 'em', 'favor', 'de', 'uma', 'tela', 'maior', ',', 'sem', 'aumentar', 'o', 'corpo', 'do', 'aparelho.o', 'que', 'fazer', 'para', 'melhorar', '?'], ['o', 'galaxy', 's9', 'toma', 'emprestado', 'os', 'acertos', 'do', 'galaxy', 's8', 'e', 'traz', 'algumas', 'novidades', ',', 'como', 'a', 'câmera', 'de', 'abertura', 'variável', ',', 'os', 'alto-falant

[['quais', 'são', 'os', 'recursos', 'novos', ',', 'quando', 'o', 'android', '7.0', 'será', 'lançado', 'e', 'quais', 'aparelhos', 'serão', 'atualizadoso', 'android', '7.0', 'nougat', 'chega', 'aos', 'smartphones', 'e', 'tablets', 'a', 'partir', 'do', 'final', 'de', '2016', ',', 'trazendo', 'mudanças', 'significativas', 'em', 'relação', 'ao', 'marshmallow.por', 'dentro', ',', 'ele', 'ganhou', 'otimizações', 'para', 'reduzir', 'o', 'consumo', 'de', 'bateria', 'e', 'dados', ',', 'bem', 'como', 'melhorias', 'no', 'desempenho', '.'], ['além', 'disso', ',', 'o', 'novo', 'doce', 'herda', 'algumas', 'funções', 'vindas', 'de', 'outros', 'fabricantes', ',', 'como', 'o', 'multitarefa', 'aprimorado', 'e', 'uma', 'interface', 'de', 'realidade', 'virtual.o', 'que', 'há', 'de', 'novo', 'no', 'android', '7.0', '?'], ['eu', 'testei', 'o', 'nougat', 'nas', 'últimas', 'semanas', 'no', 'nexus', '6p', 'e', 'conto', 'as', 'sete', 'melhores', 'novidades', 'nos', 'próximos', 'minutos.em', 'vídeo1', '.'], ['cen

[['veja', 'o', 'review', 'deste', 'que', 'é', ',', 'sem', 'dúvidas', ',', 'o', 'jogo', 'de', 'luta', 'mais', 'violento', 'da', 'franquia', '.'], ['prepare', 'seu', 'fatality', 'e', 'finish', 'him', '!', 'quando', 'mortal', 'kombat', 'apareceu', ',', 'pela', 'primeira', 'vez', ',', 'em', '1992', ',', 'o', 'game', 'causou', 'muita', 'polêmica', 'pela', 'violência', 'excessiva', ',', 'fazendo', 'justiça', 'ao', 'seu', 'nome', '.'], ['após', '27', 'anos', ',', 'mortal', 'kombat', '11eleva', 'o', 'seu', 'próprio', 'patamar', 'sanguinário', 'e', 'traz', 'um', 'game', 'de', 'luta', 'brutal', ',', 'mas', 'versátil', ',', 'altamente', 'customizável', 'e', 'bem', 'amigável', 'com', 'novatos', 'em', 'jogos', 'de', 'luta', '.'], ['veja', ',', 'a', 'seguir', ',', 'nosso', 'review', 'deste', 'banho', 'de', 'sangue', 'digital', 'disponível', 'para', 'ps4', ',', 'xbox', 'one', ',', 'nintendo', 'switch', 'e', 'pc', '.'], ['o', 'game', 'traz', 'legendas', 'e', 'áudio', 'em', 'português', 'do', 'brasil.m

In [48]:
freq = {}
for words in all_sentences:
    
    for word in words:
        if word in freq:
            freq[word] += 1
        else:
            freq[word] = 1
print(freq)

{'gaming.bateriaa': 1, '7,90/mês': 1, 'estabelecida': 1, 'rotação': 8, 'agendar': 1, '530.ambos': 1, 'seguidas': 3, 'interfaces': 2, 'lojas': 62, 'mede': 6, 'flash': 37, 'jogatina.o': 6, 'jogam': 3, 'semanas': 28, 'colabora': 2, 'afirmou.a': 1, 'acessá-las': 1, 'geras': 7, 'grelha': 7, 'elas': 95, 'fórum': 6, '7:59pmandré': 1, 'plataforma.8': 1, 'autora': 2, 'aviação': 28, 'engatilhou': 1, 'junto.': 1, 'vp': 1, 'nojenta': 1, 'parcerias.se': 1, 'receber': 18, 'echo': 5, '3.899': 1, 'word': 17, 'frente': 66, 'inclusos': 1, 'amorosos': 1, 'variabilidade': 1, 'aguda': 1, '8,6': 3, 'claros.com': 1, 'faça': 44, 'natureza': 3, 'direto': 38, 'time.no': 7, 'intermediário': 45, 'credicard': 7, 'imersiva': 2, 'vibe': 1, 'concluiu': 1, 'notificar': 1, 'diminutivo': 1, 'típica': 7, 'new': 29, 'battleprogearstreet': 1, 'amplo.as': 6, 'acabamentovamos': 1, 'esbanjar': 1, 'eles': 157, 'torcia': 1, 'próprios': 35, 'fiascos': 1, 'caíram': 7, 'fundado': 1, 'mencionada': 1, 'wind': 2, 'entregar': 20, 'pot

In [43]:
ordered_vocab_freq =[]
ordered_vocab_freq = sorted(freq.items(), key=itemgetter(1))

20
15470


In [45]:
for k, v in ordered_vocab_freq[:20]:
    print("{} => {}".format(k, v))

gaming.bateriaa => 1
7,90/mês => 1
estabelecida => 1
agendar => 1
530.ambos => 1
afirmou.a => 1
acessá-las => 1
7:59pmandré => 1
plataforma.8 => 1
engatilhou => 1
junto. => 1
vp => 1
nojenta => 1
parcerias.se => 1
3.899 => 1
inclusos => 1
amorosos => 1
variabilidade => 1
aguda => 1
claros.com => 1


In [46]:
reversed_freq = list(reversed(ordered_vocab_freq))
for k, v in reversed_freq[:20]:
    print("{} => {}".format(k, v))

, => 18694
de => 12069
o => 9472
. => 7595
a => 7584
e => 7452
que => 7318
é => 4876
para => 4549
um => 4296
com => 4012
em => 3786
do => 3771
mais => 2854
não => 2848
no => 2752
uma => 2687
da => 2400
os => 1993
mas => 1902


In [60]:
qta_words = 0
tam_words = 0
tam_sentences = 0
for words in all_sentences:
    tam_sentences += len(words)
    for word in words:
        qta_words += 1
        tam_words += len(word)
        
print("Tamanho medio das palavras: {}".format(tam_words / qta_words))
print("Tamanho medio das sentencas: {}".format(tam_sentences / len(all_sentences)))

Tamanho medio das palavras: 4.306293407011835
Tamanho medio das sentencas: 39.54417620706819
