In [1]:
import requests
import re
import os
import justext
import pickle
from bs4 import BeautifulSoup
from pprint import pprint

In [2]:
class PenumbraCrawler:

    def __init__(self, corpus_path, file_prefix, savepoint=5):
        self.base_url = 'http://www.penumbralivros.com.br/home/blog/'
        self.corpus_path = corpus_path
        self.file_prefix = file_prefix
        self.links_todo = []
        self.links_done = []
        self.savepoint = savepoint
        
        if os.path.isfile('penumbra_links.pickle'):
            (self.links_done, self.links_todo) = pickle.load(open('penumbra_links.pickle', 'rb'))
        
        if not os.path.exists(self.corpus_path):
            os.makedirs(self.corpus_path)

    def get_post_list(self, pg):
        print('Getting page {:02d}'.format(pg), end='\t\t')
        url = '{}/page/{}'.format(self.base_url, pg)
        res = requests.get(url)

        soup = BeautifulSoup(res.text, 'html.parser')
        articles = soup.findAll('article', { 'class': 'post' })
        
        for article in articles:
            self.links_todo.append(article.find('a').get('href'))
        
        print('Got {} articles links'.format(len(articles)))
        
        span = soup.find('span', { 'class': 'nav-previous' })
        if span == None:
            print('Got {} articles links'.format(len(self.links)))
            return
        
        next_pg = span.find('a').get('href').split('/')[-2]
        self.get_post_list(int(next_pg))
    
    def get_article(self, url):
        print('getting page {}'.format(url))
        res = requests.get(url)
        
        l = url.split('/')
        post_name = l[-1] if l[-1] != '' else l[-2]
        post_name = post_name.split('.html')[0].replace("-", "_")
        fl_name = '{}__{}_{}__{}'.format(self.file_prefix, l[3], l[4], post_name)

        paragraphs = justext.justext(res.text, justext.get_stoplist("Portuguese"))
        
        with open("{}/{}.txt".format(self.corpus_path, fl_name), "w") as fl:
            for p in paragraphs:
                if not p.is_boilerplate:
                    fl.write(p.text + '\n')
    
    def save_pickle(self):
        pickle.dump((self.links_done, self.links_todo), open('penumbra_links.pickle', 'wb'))
        print('pickle saved')
    
    def run(self):
        if len(self.links_todo) < 1:
            self.get_post_list(1)
            self.save_pickle()
        
        l = [ x for x in self.links_todo if x not in self.links_done ]
        
        for i in range(len(l)):
            url = l[i]
            self.get_article(url)
            self.links_done.append(url)
            
            if (i+1) % self.savepoint == 0:
                self.save_pickle()
    


In [3]:
crawler = PenumbraCrawler(
    '../data/corpora/ocultismo',
    'penumbralivros'
)
#crawler.links_todo = pickle.load(open('penumbra_links.pickle.old', 'rb'))
crawler.run()

getting page http://www.penumbralivros.com.br/2018/12/servidores-publicos-sera-que-funcionam/
pickle saved
getting page http://www.penumbralivros.com.br/2018/12/sugestoes-de-praticas-para-o-final-do-ano/
getting page http://www.penumbralivros.com.br/2018/11/arvore-da-morte-thagirion-disputadores/
getting page http://www.penumbralivros.com.br/2018/11/guia-para-o-seu-diario-magicko/
getting page http://www.penumbralivros.com.br/2018/11/a-trindade-caotica-de-peter-carroll-tambem-conhecida-como-chaomeras/
getting page http://www.penumbralivros.com.br/2018/11/visao-holistica-e-a-questao-do-dualismo/
getting page http://www.penumbralivros.com.br/2018/11/cuidado-com-as-armadilhas-que-podem-prejudicar-a-sua-magicka/
getting page http://www.penumbralivros.com.br/2018/11/ritual-do-banimento-com-hipnos/
getting page http://www.penumbralivros.com.br/2018/10/arvore-da-morte-aarab-zaraq-corvos-dispersao/
getting page http://www.penumbralivros.com.br/2018/10/como-celebrar-o-aniversario-dos-quarenta-s

getting page http://www.penumbralivros.com.br/2018/03/mantendo-uma-pratica-magica-semanal-organizada-dicas-e-experiencias/
getting page http://www.penumbralivros.com.br/2018/03/como-comecar-estudar-e-praticar-magia/
pickle saved
getting page http://www.penumbralivros.com.br/2018/03/palo-mayombe-iniciado-candomble/
getting page http://www.penumbralivros.com.br/2018/03/foco-e-disciplina-o-lado-da-magia-do-caos-que-ninguem-quer-vender-para-voce/
getting page http://www.penumbralivros.com.br/2018/03/o-que-e-caocracia-visao-politica-de-peter-carroll-em-psyber-magick/
getting page http://www.penumbralivros.com.br/2018/03/jihad-do-caos-segundo-as-ideias-avancadas-de-peter-carroll/
getting page http://www.penumbralivros.com.br/2018/03/o-mago-magia-e-as-raizes/
getting page http://www.penumbralivros.com.br/2018/03/dia-das-mulheres/
getting page http://www.penumbralivros.com.br/2018/03/magia-caos-facil-aprender-dificil-dominar/
getting page http://www.penumbralivros.com.br/2018/03/palo-mayombe-m

getting page http://www.penumbralivros.com.br/2017/09/eliphas-levi-um-mago-socialista/
getting page http://www.penumbralivros.com.br/2017/09/cores-magia-octarina/
getting page http://www.penumbralivros.com.br/2017/09/frater-optimus-mantendo-o-ocultismo-oculto/
getting page http://www.penumbralivros.com.br/2017/09/servidores-magicos-e-inteligencia-artificial/
getting page http://www.penumbralivros.com.br/2017/09/estereotipos-bruxas-boas-mas/
getting page http://www.penumbralivros.com.br/2017/09/frater-optimus-e-os-fracassos-anunciados/
pickle saved
getting page http://www.penumbralivros.com.br/2017/08/automatos-elementais/
getting page http://www.penumbralivros.com.br/2017/08/o-extase-da-danca/
getting page http://www.penumbralivros.com.br/2017/08/frater-optimus-e-os-sinais-satanicos/
getting page http://www.penumbralivros.com.br/2017/08/cores-da-magia-magia-vermelha/
getting page http://www.penumbralivros.com.br/2017/08/cacada-selvagem/
getting page http://www.penumbralivros.com.br/201

getting page http://www.penumbralivros.com.br/2017/01/besta-oito-circuitos/
getting page http://www.penumbralivros.com.br/2017/01/bode-schrodinger-paradigma-discordiano/
pickle saved
getting page http://www.penumbralivros.com.br/2017/01/aettir-3-familias-das-runas/
getting page http://www.penumbralivros.com.br/2017/01/glandula-pineal-e-o-terceiro-olho/
getting page http://www.penumbralivros.com.br/2016/12/em-qual-aeon-estamos/
getting page http://www.penumbralivros.com.br/2016/12/as-cores-da-magia-amarela/
getting page http://www.penumbralivros.com.br/2016/12/como-funcionam-os-sigilos/
getting page http://www.penumbralivros.com.br/2016/12/resenha-kalciferum-demonios-bruxas-e-vagantes/
getting page http://www.penumbralivros.com.br/2016/12/roda-ano-litha/
getting page http://www.penumbralivros.com.br/2016/12/animais-fantasticos-esfinge/
getting page http://www.penumbralivros.com.br/2016/12/entrevista-com-thomas-karlsson/
getting page http://www.penumbralivros.com.br/2016/12/cores-magia-m

getting page http://www.penumbralivros.com.br/2016/05/magicka-dinheiro-e-riqueza/
getting page http://www.penumbralivros.com.br/2016/05/alquimia-culinaria-com-chef-crowley/
getting page http://www.penumbralivros.com.br/2016/05/diabo-pai-rock/
getting page http://www.penumbralivros.com.br/2016/05/urucubaca-sexta-feira-13/
pickle saved
getting page http://www.penumbralivros.com.br/2016/05/o-sistema-iniciatico-da-dragon-rouge/
getting page http://www.penumbralivros.com.br/2016/05/o-renascer-da-magia/
getting page http://www.penumbralivros.com.br/2016/05/voudon-gnostico-de-michael-bertiaux/
getting page http://www.penumbralivros.com.br/2016/05/mulher-e-besta/
getting page http://www.penumbralivros.com.br/2016/04/shub-niggurath-vs-morte/
getting page http://www.penumbralivros.com.br/2016/04/austin-osman-spare-e-nova-sexualidade/
getting page http://www.penumbralivros.com.br/2016/04/sitra-achra-o-outro-lado/
getting page http://www.penumbralivros.com.br/2016/04/falxifer-o-ceifador/
getting p