Skip to content
No description, website, or topics provided.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
analyzing
find_data
Método de catalogação de URLs com base no Common Crawl.pdf
README.md

README.md

Método de catalogação de portais de dados abertos a partir de URLs indexadas no Common Crawl

Este trabalho objetivou desenvolver um método de catalogação de URLs de portais de dados abertos governamentais a partir da base de dados do [Common Crawl] (https://commoncrawl.org) que é um projeto livre e aberto para indexação de dados de toda a internet. Foram empregadas técnicas de data science e web scraping, considerando os conceitos e princípios de dados abertos governamentais, Lei de Acesso à Informação brasileira, plataformas de dados abertos e um trabalho seminal onde se desenvolveu uma forma de identificar algumas destas plataformas. Como resultado obtido, foi possível observar a distribuição geográfica dos portais de dados identificados e a especificação da plataforma utilizada. A contribuição deste trabalho se deu com um método que poderá ser reproduzido em grande escala e executado repetidamente, de modo a servir de base para construção de um repositório central e atualizável com endereços virtuais (URLs) dos portais de dados abertos em utilização.

Objetivo geral:

  • O objetivo deste trabalho foi desenvolver um método de catalogação de portais de dados abertos a partir de URLs indexadas no Common Crawl.

Objetivos específicos:

  • Desenvolver um método de acesso aos dados do Common Crawl;
  • Desenvolver um método que implemente e use as assinaturas de identificação das quatro plataformas de dados abertos consideradas;
  • Modelar um banco de dados para a catalogação;
  • Definir um modelo para automatizar o processo para funcionar em larga escala e repetidamente usando como parâmetros as URLs que tenham o sufixo .gov ou sinônimos do mesmo utilizados em outros idiomas/culturas.

Instruções:

Para este trabalho foi utilizado o anaconda3-5.2.0

Para a instalação das bibliotecas utilizadas utilizei este tutorial

Este projeto esta dividido em duas partes

A primeira esta no diretório find_data e é onde é realizado o download e rastreio de URLs com a sigla .gov na base de dados do Common Crawl.

Para rodar a primeira parte após o download do projeto vá entre via terminal no diretório find_data lá deve ter o arquivo start.py se estiver digite o comando: python start.py.
Para a execução do programa é necessário criar um banco de dados e uma tabela, os detalhes da tabela, os detalhes estão no trabalho escrito, onde o link se encontra no fim deste README.

A segunda parte esta no diretório analyzing e para executar estes scripts é necessário o uso do Jupyter Notebook, que se você instalou o anaconda já veio com ele.

Para mais detalhes sobre o projeto favor leia o trabalho escrito.

You can’t perform that action at this time.