# Trabalho 1 - Mineração de Dados - CK0223
Nome: Matheus Andrade Navarro de Oliveira
Matrícula: 411605

Neste trabalho, iremos consumir a [api do portal Salic](http://api.salic.cultura.gov.br/doc/) para montar nosso dataset. Tal dataset terá informações de projetos culturais envolvendo a lei Rouanet.

In [140]:
import pandas as pd
import requests
import glob
import os

## Consumindo a API e juntando os dados das paginações
A api possui um sistema de paginação em sua listagem e atualmente possui mais de 100 mil projetos disponíveis para busca.
Vamos limitar nosso dataset para 100 mil projetos. Nesse caso, com o limite máximo de 100 projetos por requisição, vamos consumir até a página 1000.

Iremos realizar os seguintes passos:
- Realizar as requisições gradativamente, adaptando os parâmetros de listagem (_limit_ e _offset_);
- Armazenar o resultado das requisições em arquivos temporários .csv;
- Mesclar todos os arquivos em um só contendo todo o dataset e em seguida apagar os arquivos temporários.

### Consumindo a api e armazenando os projetos em arquivos temporários

In [141]:
limit = 100
offset = 0

for i in range(1000):
  salic_get_projects_url = f'http://api.salic.cultura.gov.br/v1/projetos?format=csv&limit={limit}&offset={offset}'
  req = requests.get(salic_get_projects_url)

  csv_file = open(f'projetos-temp{i+1}.csv', 'wb')
  csv_file.write(req.content)
  csv_file.close()

  offset = (i + 1) * limit

### Mesclando os arquivos em um só

In [146]:
filenames = glob.glob('*-temp[0-9]*.{}'.format('csv'))
print(f'Arquivos: {len(filenames)}')
print(filenames)

Arquivos: 50
['projetos-temp10.csv', 'projetos-temp31.csv', 'projetos-temp50.csv', 'projetos-temp9.csv', 'projetos-temp37.csv', 'projetos-temp44.csv', 'projetos-temp42.csv', 'projetos-temp7.csv', 'projetos-temp34.csv', 'projetos-temp39.csv', 'projetos-temp12.csv', 'projetos-temp28.csv', 'projetos-temp46.csv', 'projetos-temp25.csv', 'projetos-temp33.csv', 'projetos-temp11.csv', 'projetos-temp26.csv', 'projetos-temp32.csv', 'projetos-temp29.csv', 'projetos-temp18.csv', 'projetos-temp23.csv', 'projetos-temp21.csv', 'projetos-temp35.csv', 'projetos-temp16.csv', 'projetos-temp49.csv', 'projetos-temp13.csv', 'projetos-temp40.csv', 'projetos-temp3.csv', 'projetos-temp20.csv', 'projetos-temp38.csv', 'projetos-temp24.csv', 'projetos-temp19.csv', 'projetos-temp41.csv', 'projetos-temp30.csv', 'projetos-temp22.csv', 'projetos-temp48.csv', 'projetos-temp45.csv', 'projetos-temp47.csv', 'projetos-temp17.csv', 'projetos-temp15.csv', 'projetos-temp36.csv', 'projetos-temp1.csv', 'projetos-temp4.csv', 'p

In [147]:
merged_csv = pd.concat([pd.read_csv(f) for f in filenames ])
merged_csv.to_csv('projetos.csv', index=False, encoding='utf-8-sig')

### Removendo os arquivos temporários

In [148]:
for filename in filenames:
  os.remove(filename)

## O Dataset

In [149]:
data = pd.read_csv('projetos.csv')

print(f'Linhas: {data.shape[0]}')
data.head()

Linhas: 5000


Unnamed: 0,etapa,providencia,area,enquadramento,objetivos,ficha_tecnica,situacao,outras_fontes,acessibilidade,sinopse,...,data_termino,UF,impacto_ambiental,democratizacao,valor_projeto,proponente,ano_projeto,data_inicio,valor_captado,valor_proposta
0,ETAPA 1 – PRÉ-PRODUÇÃO Tempo estimado: 08 mese...,"DILIGÊNCIA RESPONDIDA PELO PROPONENTE, ESPERAN...",Audiovisual,Artigo 18,Geral: Realizar ações de exaltação da cultura ...,Tania Regina da Silva (Diretora de produção) P...,Autorizada a captação residual dos recursos,0.0,MOSTRA DE CINEMA (DIFUSÃO) Acessibilidade físi...,A mostra pode ser entendida como uma iniciativ...,...,2022-12-31,ES,,O projeto proporcionará a participação de esco...,1451113.72,EVA COMUNICAÇÃO LTDA,21,2022-01-01,453322.63,792337.0
1,Pré-produção – 9 MESES DESENVOLVIMENTO: Contra...,Abertura de conta bancária de livre movimentaç...,Audiovisual,Artigo 18,OBJETIVO GERAL - Realizar um curta-metragem de...,CRIATRAMA (Proponente e responsável pelo Geren...,Autorizada a captação total dos recursos,75000.0,- Através de recursos de acessibilidade para d...,"Será que os movimentos das estrelas, cometas e...",...,2023-11-30,PR,,* Os exemplares do curta-metragem não possuirã...,199195.5,CRIATRAMA MULTICULTURAL,21,2022-02-01,0.0,199195.5
2,1- PRÉ-PRODUÇÃO – 70 dias Captação de recursos...,Abertura de conta bancária de livre movimentaç...,Audiovisual,Artigo 18,OBJETIVO GERAL Produção de um filme média-metr...,Proponente e coordenador do Projeto: Silvio Ro...,Autorizada a captação total dos recursos,0.0,Obedecendo a instrução normativa de 2019 e gar...,"O filme documentário, de média metragem, de at...",...,2022-02-04,SP,,"O filme não será comercializado, a proposta nã...",199144.0,SILVIO ROGERIO FERNANDES,21,2021-11-01,0.0,199144.0
3,Pré-produção – 1 mês● Continuidade das ativida...,Abertura de conta bancária de livre movimentaç...,Audiovisual,Artigo 26,OBJETIVO GERAL: Desenvover 1 (um) aplicativo d...,Lucas Simonini - Coordenação Geral e responsáv...,Autorizada a captação total dos recursos,0.0,Aplicativo Acessibilidade Física: Não Se aplic...,Não se aplica.,...,2022-09-30,SP,,"APLICATIVO O aplicativo ExploraSP, disponível...",199267.2,Simonini Software Ltda,21,2021-09-01,0.0,199267.2
4,"PRÉ PRODUÇÃO - 10 dias Pesquisa, contratação d...",Prorrogação aprovada e publicada no Diário Ofi...,Audiovisual,Artigo 18,Objetivos Gerais · Pesquisa e Produção...,LEANDRO VERZINI - Diretor Geral Técnico em Adm...,Autorizada a captação total dos recursos,0.0,A fim de também proporcionar a oportunidade pa...,A abertura do vídeo se dará com o depoimento d...,...,2022-10-01,SP,,· Doação de 200 (duzentas) unidades de...,199900.14,LEANDRO S. VERZINI PRODUCOES CINEMATOGRAFICAS,21,2021-11-01,0.0,199900.14
