In [1]:
import pandas as pd
import csv

import scrapy
from scrapy.item import Item, Field
from scrapy.crawler import CrawlerRunner
from scrapy.exporters import CsvItemExporter
import logging

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

In [2]:
class EditalItem(Item):
    date = Field()
    tags = Field()
    title = Field()
    cover = Field()
    summary = Field()
    pdf = Field()
    results = Field()


class QuoteAllDialect(csv.excel):
    quoting = csv.QUOTE_ALL


class QuoteAllCsvItemExporter(CsvItemExporter):
    def __init__(self, *args, **kwargs):
        kwargs.update({'dialect': QuoteAllDialect})
        super(QuoteAllCsvItemExporter, self).__init__(*args, **kwargs)

In [3]:
# Reactor restart
# from crochet import setup, wait_for
# setup()

In [4]:
class EditaisSpider(scrapy.Spider):
    name = 'secult'
    start_urls = ['http://editais.cultura.ce.gov.br/']
    custom_settings = {
        'FEEDS': {
            'editais.csv': {
                'format': 'csv',
                'overwrite': True
            }
        },
        'FEED_EXPORT_ENCODING': 'utf-8',
        'FEED_EXPORT_FIELDS': ['date', 'tags', 'title', 'cover', 'summary', 'pdf'],
        'FEED_EXPORTERS': {
            'csv': '__main__.QuoteAllCsvItemExporter',
        }

    }


    def parse(self, response):
        for edital in response.css('div.et_pb_image'):
            url = edital.xpath('a/@href').get()

            item = EditalItem()
            item['cover'] = edital.xpath('a/span/img/@src').get()

            yield scrapy.Request(url, callback=self.parse_edital, meta={'item':item})

    def parse_edital(self, response):
        item = response.meta['item']
        item['title'] = response.css('h1.entry-title::text').get()
#         item['cover'] = response.css('article img::attr("src")').get()
        item['summary'] = response.css('div.et_pb_text_inner p ::text').get()
        item['pdf'] = response.css('a.et_pb_button::attr("href")').get()
        item['results'] = response.css('h4.et_pb_module_header::text').get()
        yield item
        
            

In [5]:
# @wait_for(100)
# def run_scraper():
#     crawler = CrawlerRunner()
#     d = crawler.crawl(EditaisSpider)
#     return d

In [6]:
# Iniciando processo
# run_scraper()

process = CrawlerProcess()
process.crawl(EditaisSpider)
process.start()

2021-12-12 18:27:04 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot: scrapybot)
2021-12-12 18:27:04 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.7.0, Python 3.9.9 (main, Nov 20 2021, 21:30:06) - [GCC 11.1.0], pyOpenSSL 21.0.0 (OpenSSL 1.1.1l  24 Aug 2021), cryptography 36.0.0, Platform Linux-5.15.5-arch1-1-x86_64-with-glibc2.33
2021-12-12 18:27:04 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-12-12 18:27:04 [scrapy.crawler] INFO: Overridden settings:
{'FEED_EXPORT_ENCODING': 'utf-8',
 'FEED_EXPORT_FIELDS': ['date', 'tags', 'title', 'cover', 'summary', 'pdf']}
2021-12-12 18:27:04 [scrapy.extensions.telnet] INFO: Telnet Password: 91b696eecf073a43
2021-12-12 18:27:04 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.

2021-12-12 18:27:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2021/06/08/arte-em-rede-convocatoria-para-selecao-de-projetos-artisticos-em-formato-digital-2021-2022/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://cearatransparente.ce.gov.br/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2018/08/ceara-transparente.jpg',
 'pdf': None,
 'results': None,
 'summary': None,
 'title': None}
2021-12-12 18:27:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2021/06/28/convocatoria-publica-de-credenciamento-de-propostas-artisticas-e-culturais-para-programacao-sobrado-dr-jose-lourenco/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:08 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2021/06/08/arte-em-rede-convocatoria-para-selecao-de-projetos-artisticos-em-formato-digital-2021-202

2021-12-12 18:27:09 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2021/07/19/edital-bolsa-agentes-de-leitura-do-ceara-2021/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:09 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.ceara.gov.br/governo/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2018/08/acoes-do-governo.jpg',
 'pdf': None,
 'results': None,
 'summary': None,
 'title': None}
2021-12-12 18:27:09 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2021/07/19/edital-bolsa-agentes-de-leitura-do-ceara-2021/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2021/07/WhatsApp-Image-2021-07-19-at-16.21.02.jpeg',
 'pdf': 'https://mapacultural.secult.ce.gov.br/files/opportunity/3311/edital_bolsa_agentes_de_leitura_do_cear%C3%81_-_2021_-_com_altera%C3%A7%C3%A3o_de_cronograma_(1).pdf',
 'results': 'Etapas de Execução',
 'summary': 'O Edital Bolsas Agent

2021-12-12 18:27:11 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET http://editais.cultura.ce.gov.br/2018/03/13/convocatoria-pra-ver-a-banda/> from <GET http://editais.cultura.ce.gov.br/convocatoria-pra-ver-a-banda/>
2021-12-12 18:27:11 [scrapy.dupefilters] DEBUG: Filtered duplicate request: <GET http://editais.cultura.ce.gov.br/2018/03/13/convocatoria-pra-ver-a-banda/> - no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)
2021-12-12 18:27:11 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/06/06/formacao-e-selecao-de-jurados-e-presidentes-de-mesa-dos-festivais-regionais-ceara-junino-2018/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:11 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2018/06/06/formacao-e-selecao-de-jurados-e-presidentes-de-mesa-dos-festivais-regionais-ceara-junino-2018/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads

2021-12-12 18:27:13 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2018/06/06/chamada-de-ocupacao-artistica-do-theatro-jose-de-alencar-2018/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2018/07/TJA-sem-marca.png',
 'pdf': 'http://mapa.cultura.ce.gov.br/files/opportunity/1040/regulamento-chamada-ocupa%C3%A7%C3%A3o-tja-2018.pdf',
 'results': 'Etapas de Execução',
 'summary': 'Constitui objeto desta Chamada a seleção de propostas para '
            'ocupação dos espaços do Theatro José de Alencar e do Anexo CENA '
            'através de composição da programação e outras ações de ocupação '
            'artística-cultural.',
 'title': 'Chamada de Ocupação Artística do Theatro José de Alencar 2018'}
2021-12-12 18:27:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/07/12/edital-de-chamamento-publico-do-programa-de-ocupacao-artistica-e-cultural-do-teatro-carlos-camara/> (referer: http://edita

2021-12-12 18:27:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/premio-pontos-de-cultura-do-ceara/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:16 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/premio-pontos-de-cultura-do-ceara/>
{'cover': 'http://rede.cultura.ce.gov.br/editais/wp-content/uploads/sites/18/2017/11/Edital-Premio-Pontos-de-Cultura.png',
 'pdf': None,
 'results': None,
 'summary': 'O Prêmio Pontos de Cultura do Ceará é uma ação de reconhecimento '
            'e fomento às iniciativas da sociedade civil sediadas no estado do '
            'Ceará que foram chanceladas como “Ponto de Cultura” por meio da '
            'celebração de convênios e/ou instrumentos congêneres com a '
            'Secretaria da Cultura do Estado do Ceará e o Ministério da '
            'Cultura no âmbito do Programa Nacional de Cultura, Educação e '
            'Cidadania – Cultura Viva.',
 'title': 'Prêmio Pont

2021-12-12 18:27:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/10/08/xi-edital-mecenas-do-ceara-2018/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/05/16/edital-tesouros-vivos-da-cultura-do-estado-do-ceara-2017/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2019/10/16/xiv-edital-ceara-ciclo-carnavalesco-2020/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:21 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2018/10/08/xi-edital-mecenas-do-ceara-2018/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2018/10/Edital-Mecenas-e1542124588427.jpg',
 'pdf': 'http://mapa.cultura.ce.gov.br/files/opportunity/1265/xi_edital_mecenas_do_cear%C3%81_2018.pdf',
 'results': 'Etapas de Execuçã

2021-12-12 18:27:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2019/01/08/chamada-publica-para-credenciamento-de-pareceristas-para-o-xiii-edital-carnaval-do-ceara-2019/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/07/30/selo-de-responsabilidade-cultural-edicao-2018/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:23 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2019/01/08/chamada-publica-para-credenciamento-de-pareceristas-para-o-xiii-edital-carnaval-do-ceara-2019/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2019/01/WhatsApp-Image-2019-01-08-at-13.01.08.jpeg',
 'pdf': 'http://mapa.cultura.ce.gov.br/files/opportunity/1327/chamada-pareceristas-carnaval-2019.pdf',
 'results': 'Etapas de Execução',
 'summary': 'O Secretaria da Cultura do estado do Ceará, com fundamento nas

2021-12-12 18:27:27 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2020/02/11/edital-de-programacao-artistica-e-cultural-do-sobrado-dr-jose-lourenco-2020/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:27 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2020/02/11/edital-de-programacao-artistica-e-cultural-do-sobrado-dr-jose-lourenco-2020/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2020/02/WhatsApp-Image-2020-02-11-at-17.25.15.jpeg',
 'pdf': 'https://mapacultural.secult.ce.gov.br/files/opportunity/1626/edital_de_programacao_artistica_e_cultural_do_sobrado_dr_jose_lourenco.pdf',
 'results': 'Etapas de Execução',
 'summary': 'O Edital de Programação Artística e Cultural do Sobrado Dr. José '
            'Lourenço é uma ação de promoção e democratização do acesso de '
            'bens e serviços culturais que se insere na política de '
            'fortalecimento da rede de equip

2021-12-12 18:27:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2020/11/04/premio-fomento-cultura-e-arte-do-ceara-lei-aldir-blanc/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2020/10/07/edital-cultura-viva-2020/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:31 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2020/11/04/premio-fomento-cultura-e-arte-do-ceara-lei-aldir-blanc/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2020/12/dia-29122.jpeg',
 'pdf': 'https://mapacultural.secult.ce.gov.br/files/opportunity/2596/_pr%C3%AAmio__fomento_cultura_e_arte_do_cear%C3%A1.pdf',
 'results': 'Etapas de Execução',
 'summary': 'Cada proponente poderá inscrever apenas 01 (uma) proposta, que '
            'deve estar enquadrada em qualquer 01 (uma) das categorias de '
            'premiação:'

2021-12-12 18:27:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2018/09/28/chamada-publica-de-credenciamento-de-pareceristas/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2017/12/20/convocatoria-programa-pra-ver-a-banda-temporada-2018-1/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2021/06/30/festival-mi-2021/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:34 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2019/10/16/xiv-edital-ceara-cinema-e-video/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2021/07/WhatsApp-Image-2021-07-23-at-10.00.384.jpeg',
 'pdf': 'https://mapacultural.secult.ce.gov.br/files/opportunity/1544/xiv_edital_-_ceara_de_cinema_e_video.pdf',
 'results': 'Etapas 

2021-12-12 18:27:36 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://editais.cultura.ce.gov.br/2021/03/15/festa-do-sol-convocatoria/> (referer: http://editais.cultura.ce.gov.br/)
2021-12-12 18:27:36 [scrapy.core.scraper] DEBUG: Scraped from <200 http://editais.cultura.ce.gov.br/2021/03/15/festa-do-sol-convocatoria/>
{'cover': 'http://editais.cultura.ce.gov.br/wp-content/uploads/sites/18/2021/03/Imagem-OK-Festa-do-Sol.jpeg',
 'pdf': 'https://www.secult.ce.gov.br/wp-content/uploads/sites/43/2021/03/CONVOCATORIA-FESTA-DO-SOL-1.pdf',
 'results': 'Etapas de Execução',
 'summary': 'A Festa do Sol é resultado de ação da Lei Aldir Blanc no Ceará. '
            'Conta com a Realização da Associação Movimentos, em colaboração '
            'com a Secretaria da Cultura do Estado do Ceará (Secult); Produção '
            'Executiva da  Betha Produções e WM Cultural. Apoio: Lei Aldir '
            'Blanc, Ministério do Turismo, Secretaria Especial de Cultura, '
            'Governo Federal.',


In [7]:
df = pd.read_csv('editais.csv')
df

Unnamed: 0,date,tags,title,cover,summary,pdf
0,,,EDITAL DE CONVOCAÇÃO PARA ESCOLHA DE MEMBROS P...,http://editais.cultura.ce.gov.br/wp-content/up...,A SECRETARIA DA CULTURA DO ESTADO DO CEARÁ – S...,https://mapacultural.secult.ce.gov.br/files/op...
1,,,Chamamento Público Para Oscs De Elaboração E E...,http://editais.cultura.ce.gov.br/wp-content/up...,Constitui,https://mapacultural.secult.ce.gov.br/files/op...
2,,,Edital de Apoio ao Audiovisual Cearense – Lei ...,http://editais.cultura.ce.gov.br/wp-content/up...,O,https://mapacultural.secult.ce.gov.br/files/op...
3,,,,http://editais.cultura.ce.gov.br/wp-content/up...,,
4,,,,http://editais.cultura.ce.gov.br/wp-content/up...,,
...,...,...,...,...,...,...
79,,,XII Edital Ceará de Incentivo às Artes,http://editais.cultura.ce.gov.br/wp-content/up...,A Secretaria da Cultura do Estado do Ceará (Se...,https://mapacultural.secult.ce.gov.br/files/pr...
80,,,Festa do Sol – Convocatória,http://editais.cultura.ce.gov.br/wp-content/up...,A Festa do Sol é resultado de ação da Lei Aldi...,https://www.secult.ce.gov.br/wp-content/upload...
81,,,II Prêmio Culturas Indígenas do Ceará,http://editais.cultura.ce.gov.br/wp-content/up...,O II Prêmio Culturas Indígenas é uma ação de r...,https://mapacultural.secult.ce.gov.br/files/op...
82,,,Edital de Chamamento Público Projeto Circula C...,http://editais.cultura.ce.gov.br/wp-content/up...,Para estimular a circulação de artistas e gru...,http://mapa.cultura.ce.gov.br/files/project/14...


In [8]:
edital_sample = df.sample()
edital_sample
cover = edital_sample['cover'].values[0]

{{ cover }}