Projeto conecta

Hackathon Sebrae 22/09/2019 - Equipe Cavaleiros Tropicanos

Este repositório contém

Instalação e configuração do ambiente

O sistema foi desenvolvido no MacOS Mojave, no entanto deve ser possível também a instalação das ferramentas em outros sistemas operacionais, em especial no Linux.

O projeto foi desenvolvido em Python 3.7.4 e Nodejs 10.6.3, os quais devem estar previamente instalados.

Recomenda-se o uso do virtualenv para isolar as dependências do ambiente Python.

Para instalar as dependências do Python, basta navegar até o diretório raiz do projeto (/hackathon_sebrae):

pip install -r all_requirements.txt

Alguns pacotes python dependem da instalação de dependências no Sistema Operacional nativo.

Para a parte do nodejs, em /hackathon_sebrae/scraper, digitar:

$ yarn install

Programas desenvolvidos

Todos os programas foram desenvolvidos para uso na linha de comando, não há interface gráfica (poderia existir no futuro). Os programas ou scripts em python são executados utilizando python nome_do_programa.py. Uma mensagem simples de argumentos esperados é saída. Vamos descrevê-los um a um brevemente.

O web scraper executado em nodejs também pode ser chamado a partir de um script wrapper em Python.

Diretório Raiz

`enrich_with_icms.py`

Usage: enrich_with_icms.py dataset_filepath active_txt cancelled_txt output_directory Parâmetros:

dataset_filepath: Caminho para dataset de entrada no formato .csv (fornecido pelo SEBRAE) active_txt: Caminho para arquivo .txt de registros ativos no ICMS cancelled_txt: Caminho para arquivo .txt de registros cancelados no ICMS output_directory: Diretório de saída

Enrique o dataset original do sebrae com duas colunas extras, Situação no ICMS e Data de Cancelamento (se foi cancelado). Depende dos arquivos disponiblizados em:

https://www.fazenda.pr.gov.br/modules/conteudo/conteudo.php?conteudo=109

`scrapper_wrapper.py`

Usage: scraper_wrapper.py dataset output_directory [batch_mode] Recebe um dataset de entrada em arquivo .csv, no formato fornecido pelo SEBRAE nesta competição, e aciona o web scraper Puppeteer para buscar os primeiros links fornecidos pelo Duckduckgo, salvando cada resultado em .json no diretório fornecido. A função batch_mode ainda não foi habilitada (trabalhos futuros)

`cei_requester.py`

Usage: cei_requester.py input_dataset output_directory Consome API da Receita para consultar informação de CEIS para os CNPJs da base de entrada.

`cnep_requester.py`

Consome API da Receita para consultar informação de CNEP para os CNPJs da base de entrada. Usage: cnep_requester.py input_dataset output_directory

`json_reader.py`

Ainda não utilizado (trabalhos futuros).

Diretório `scraper`

Não é necessário acessá-lo diretamente, aqui há diferentes versões do web scraper que utiliza a ferramenta Puppeteer do Google.

Diretório `databases`

Bases originais fornecidas pelo SEBRAE.

Diretório `enriched_databases`

Bases enriquecidas com o uso do script enrich_with_icms.py.

Diretório `captch_solving`

`preprocess_captcha.py`

Usage: preprocess_captcha.py image.jpg Realiza a segmentação de uma imagem captcha no site do governo do Paraná para posterior conversão em texto. Ferramenta base para automatização por web scraping da coleta de informações.

Diretório `training_set`

Imagens do captcha coletadas para realizar o desenvolvimento do algoritmo de segmentação da imagem. Poderá ser utilizado no desenvolvimento de um algoritmo de aprendizagem supervisionada.

Outros

Os demais arquivos neste diretório são versões experimentais do algoritmo de segmentação.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto conecta

Hackathon Sebrae 22/09/2019 - Equipe Cavaleiros Tropicanos

Instalação e configuração do ambiente

Programas desenvolvidos

Diretório Raiz

`enrich_with_icms.py`

`scrapper_wrapper.py`

`cei_requester.py`

`cnep_requester.py`

`json_reader.py`

Diretório `scraper`

Diretório `databases`

Diretório `enriched_databases`

Diretório `captch_solving`

`preprocess_captcha.py`

Diretório `training_set`

Outros

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
captcha_solving		captcha_solving
contribuintes_ativos_icms_pr		contribuintes_ativos_icms_pr
enriched_databases		enriched_databases
scraper		scraper
.gitignore		.gitignore
README.md		README.md
all_requirements.txt		all_requirements.txt
cei_requester.py		cei_requester.py
cnep_requester.py		cnep_requester.py
enrich_with_icms.py		enrich_with_icms.py
init.py		init.py
json_config.py		json_config.py
json_reader.py		json_reader.py
requirements.txt		requirements.txt
scraper_wrapper.py		scraper_wrapper.py

paolorechia/hackathon_sebrae

Folders and files

Latest commit

History

Repository files navigation

Projeto conecta

Hackathon Sebrae 22/09/2019 - Equipe Cavaleiros Tropicanos

Instalação e configuração do ambiente

Programas desenvolvidos

Diretório Raiz

enrich_with_icms.py

scrapper_wrapper.py

cei_requester.py

cnep_requester.py

json_reader.py

Diretório scraper

Diretório databases

Diretório enriched_databases

Diretório captch_solving

preprocess_captcha.py

Diretório training_set

Outros

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

`enrich_with_icms.py`

`scrapper_wrapper.py`

`cei_requester.py`

`cnep_requester.py`

`json_reader.py`

Diretório `scraper`

Diretório `databases`

Diretório `enriched_databases`

Diretório `captch_solving`

`preprocess_captcha.py`

Diretório `training_set`

Packages