In [None]:
import json

class JsonWriterPipeline(object):

    # Função para gerar/abrir arquivo JSON
    def open_spider(self, spider):
        self.file = open('projetosCulturais.jl', 'w')

    # Fechar arquivo após escrita
    def close_spider(self, spider):
        self.file.close()

    # Inserir itens coletados da página WEB no arquivo JSON criado
    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

In [None]:
try: # Checando se Scrapy está instalado
    import scrapy
except:
    !pip install scrapy
    import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

import logging

class ProjetosCulturaisSpyder(scrapy.Spider):
    name = "ProjetosCulturais"

    start_urls = [
        #'http://versalic.cultura.gov.br/#/projetos?limit=12&offset=0&sort=PRONAC:asc'
        'https://mapacultural.secult.ce.gov.br/busca/##(event:(from:2010-01-01,to:2021-12-31),global:(enabled:(event:!t),filterEntity:event,map:(center:(lat:-3.779299923373682,lng:-38.415069580078125),zoom:9),viewMode:list))'
    ]
    
    # Configuração obrigatória de pipeline para geração de arquivo de saída
    custom_settings = {
        'LOG_LEVEL': logging.WARNING,
        'ITEM_PIPELINES': {'__main__.JsonWriterPipeline': 1}, 
        'FEED_FORMAT':'json',                                 
        'FEED_URI': 'ProjetosCulturais.json'                        
    }

    def parse(self, response):
        items = ProjetosItem()
        
        resultado = {}
        for i in response.css('article.objeto_clearfix_ng-scope'):
            items['titulo'] = get_titulo(i)
            resultado.append(items)
        
        yield resultado

In [None]:
class ProjetosItem(scrapy.Item):
    titulo = scrapy.Field()
    area  = scrapy.Field()
    segmento = scrapy.Field()
    data = scrapy.Field()
    cidade = scrapy.Field()
    valorProposta = scrapy.Field()
    valorCaptado = scrapy.Field()

In [None]:
def get_titulo(response):
    return response.css('h1 a::text').extract()

def get_identificacao(response):
    identificacao = response.css('div.texto-dou p.identifica::text')[0].extract()
    
    return identificacao

def get_ementa(response):
    # retrieve the ementa <div>
    ementa_text = response.css('div.texto-dou p.ementa::text')[0].extract()
    ementa_link = response.css('div.texto-dou p.ementa a::text')[0].extract()
    
    ementa = str(ementa_text) + ' ' + str(ementa_link) 
    
    return ementa

def get_norma_elements(response):
    # retrieve the norma <div>
    norma = response.css('div.texto-dou p.dou-paragraph')

    # declaring the list
    norma_list = []
    for i in norma:
        # retrieve only the text <p> inside the <div>
        tmp = i.css('::text').extract()
        # add each element into the norma list
        norma_list.append(tmp)

    return norma_list


In [None]:
process = CrawlerProcess(get_project_settings())

# Iniciando processo
process.crawl(ProjetosCulturaisSpyder)
process.start()

In [None]:
import pandas as pd

pd.options.display.max_colwidth = 2000
# Carregando JSON criado para visualizar saída
output = pd.read_json('DadosProjetos_01.', lines=True)
output

In [None]:
import pandas as pd

Dados_projetos = pd.read_csv('DadosProjetos_01.csv')
Dados_projetos.columns

In [None]:
Dados_projetos = Dados_projetos[['nome', 'segmento', 'area', 'data_inicio', 'UF', 'municipio','valor_captado', 'valor_projeto', 'valor_proposta', 'valor_aprovado']]
Dados_projetos

In [None]:
import os

In [None]:
try: # Checando se Scrapy está instalado
    from PyPDF4 import PdfFileReader, PdfFileWriter
except:
    !pip install PyPDF4
    from PyPDF4 import PdfFileReader, PdfFileWriter

In [None]:
import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
           'http://versalic.cultura.gov.br/#/projetos?limit=100&offset=0&sort=PRONAC:asc'
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

In [None]:

try: # Checando se Scrapy está instalado
    import scrapy
except:
    !pip install scrapy
    import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

import logging

process = CrawlerProcess(get_project_settings())




# Iniciando processo
process.crawl(QuotesSpider)
process.start()

In [17]:
import pandas as pd

dados = pd.read_csv('Dados/Dados_Projetos_1.csv')

for i in range(2, 31):
    temp = pd.read_csv('Dados/Dados_Projetos_'+str(i)+'.csv')
    dados = dados.append(temp, ignore_index = True)
    
dados.shape[0]

3000

In [18]:
dados = dados[['nome', 'segmento', 'area', 'data_inicio', 'UF', 'municipio','valor_captado', 'valor_projeto', 'valor_proposta', 'valor_aprovado']]
dados

Unnamed: 0,nome,segmento,area,data_inicio,UF,municipio,valor_captado,valor_projeto,valor_proposta,valor_aprovado
0,MISTURA PARA II - Onde os Ritmos se encontram.,Artes Integradas,Artes Integradas,2009-10-01,PA,Ananindeua,0.0,346920.00,394220.00,346920.00
1,"Infra-estrutura, o princípio de uma nova era",Artes Integradas,Artes Integradas,2009-04-19,SP,São Paulo,0.0,0.00,343565.55,0.00
2,A IMITAÇÃO DA ROSA,Teatro,Artes Cênicas,2009-07-31,RJ,Rio de Janeiro,0.0,187374.00,212940.00,187374.00
3,Rio Jazz Festival,Música Instrumental,Música,2009-09-15,PR,Jaraguá do Sul,0.0,0.00,826730.00,0.00
4,21º CONCURSO ESTADUAL DE PEÕES E PRENDAS DO RI...,Artesanato de valor cultural (origem tradicional),Patrimônio Cultural,2009-12-04,RS,Cachoeira do Sul,0.0,0.00,100030.00,0.00
...,...,...,...,...,...,...,...,...,...,...
2995,Cirurgiões da Alegria - Mostras teatrais,Teatro,Artes Cênicas,2010-01-01,SP,Limeira,104500.0,224539.00,230989.00,224539.00
2996,SOM EM SALVADOR,Música Popular Cantada,Música,2010-01-21,BA,Salvador,0.0,1948618.96,2300450.85,1948618.96
2997,Desfile de Carnaval O Galo da Madrugada,Artesanato de valor cultural (origem tradicional),Patrimônio Cultural,2009-10-27,PE,Recife,800000.0,877195.90,996445.90,877195.90
2998,Teatro Julinha Relógio na Biblioteca,Teatro,Artes Cênicas,2010-01-04,SP,Campinas,165000.0,488180.00,533687.00,488180.00


In [19]:
dados.isnull().sum().sum()

0

In [20]:
dados['valor_projeto'].sum().round(2)

1341317641.84

In [22]:
dados['data_inicio'].min()

'2009-04-01'

In [21]:
dados['data_inicio'].max()

'2018-11-29'

In [12]:
dados = pd.read_csv('Dados/Dados_Projetos_26.csv')

ParserError: Error tokenizing data. C error: Expected 2 fields in line 4, saw 11


In [23]:
!pip install requests



In [24]:
import requests

In [88]:
params = {
    'accept': 'csv'
    
}

In [135]:
response = requests.get("http://api.salic.cultura.gov.br/v1/projetos/?limit=100&offset=0", params=params)

In [136]:
response.status_code

405

In [117]:
response.json()

{'count': 100,
 '_embedded': {'projetos': [{'etapa': 'PRÉ-PRODUÇÃO (1 mês)- Contato com patrocinadores- Serviço de produção executiva- Contratação dos profissionais envolvidos no projeto- Contratação da plataforma de videochamadas para as atividades do p',
    'providencia': 'Proposta aguardando anÃ¡lise e convalidaÃ§Ã£o.',
    'area': 'Artes Cênicas',
    'enquadramento': 'Artigo 18',
    'objetivos': 'Objetivo geral: O projeto tem como objetivo realizar um espetáculo de teatro, dois ensaios abertos, um debate e dois workshops que provoquem reflexões sensíveis em torno dos dramas sociais a que estã',
    'ficha_tecnica': 'Pedro Ernesto Gandine Tancini (CPF 404.974.358-29) é produtor executivo, codiretor e ator no projeto. Como produtor executivo, ele estará responsável por criar e gerenciar os cronogramas de execução d',
    'situacao': 'Projeto em avaliação documental',
    'outras_fontes': 0.0,
    'acessibilidade': 'ESPETÁCULO DE ARTES CÊNICAS Acessibilidade física: não se aplica, 

In [118]:
import json
import pandas as  pd

def jprint(obj):
    # create a formatted string of the Python JSON object
    text = json.dumps(obj, sort_keys=True, indent=4)
    print(text)

jprint(response.json())

{
    "_embedded": {
        "projetos": [
            {
                "PRONAC": "212403",
                "UF": "SP",
                "_links": {
                    "fornecedores": "http://api.salic.cultura.gov.br/v1/fornecedores/?PRONAC=212403",
                    "incentivadores": "http://api.salic.cultura.gov.br/v1/incentivadores/?PRONAC=212403",
                    "proponente": "http://api.salic.cultura.gov.br/v1/proponentes/ad30d83896779c7497992792fc673dc9558fef2d4b7709166603dee2fc5a",
                    "self": "http://api.salic.cultura.gov.br/v1/projetos/212403"
                },
                "acessibilidade": "ESPET\u00c1CULO DE ARTES C\u00caNICAS Acessibilidade f\u00edsica: n\u00e3o se aplica, por se tratarem de atividades inteiramente online. Acessibilidade para deficientes visuais: audiodescri\u00e7\u00e3o das apresenta\u00e7\u00f5es e dos e",
                "ano_projeto": "21",
                "area": "Artes C\u00eanicas",
                "cgccpf": "***974358**"

In [123]:

df = pd.DataFrame(response.json())

KeyError: 0

In [131]:
obj = response.json()['count']


In [132]:
obj

{'count': 100,
 '_embedded': {'projetos': [{'etapa': 'PRÉ-PRODUÇÃO (1 mês)- Contato com patrocinadores- Serviço de produção executiva- Contratação dos profissionais envolvidos no projeto- Contratação da plataforma de videochamadas para as atividades do p',
    'providencia': 'Proposta aguardando anÃ¡lise e convalidaÃ§Ã£o.',
    'area': 'Artes Cênicas',
    'enquadramento': 'Artigo 18',
    'objetivos': 'Objetivo geral: O projeto tem como objetivo realizar um espetáculo de teatro, dois ensaios abertos, um debate e dois workshops que provoquem reflexões sensíveis em torno dos dramas sociais a que estã',
    'ficha_tecnica': 'Pedro Ernesto Gandine Tancini (CPF 404.974.358-29) é produtor executivo, codiretor e ator no projeto. Como produtor executivo, ele estará responsável por criar e gerenciar os cronogramas de execução d',
    'situacao': 'Projeto em avaliação documental',
    'outras_fontes': 0.0,
    'acessibilidade': 'ESPETÁCULO DE ARTES CÊNICAS Acessibilidade física: não se aplica, 