Skip to content

datasets-br/cbo

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 

dataset-cbo

A Classificação Brasileira de Ocupações (CBO), instituída pela portaria ministerial nº. 397 de 2002, tem por finalidade a identificação das ocupações no mercado de trabalho, para fins classificatórios junto aos registros administrativos e domiciliares.

Ela se encontra disponível apenas em formato PDF, atualmente (2016) em www.mtecbo.gov.br/cbosite (no link "downloads").

O objetivo deste projeto é traduzir o PDF para um banco de dados aberto padronizado, que a princípio corresponde a um arquivo simples de planilha formato CSV com três colunas, relativas a

  • código CBO: coluna codigo;
  • termo associado ao código: coluna termo;
  • tipo ou status do termo: "sinônimo", "classificação" ou "ocupação"; coluna tipo.

O resultado deste projeto poderá ser oferecido como dataset dentro do "ecosistema" Data Packaged Core Datasets brasileiro. A proposta de local datasets foi lançada nesta discussão Country-specific data package register, e esta seria uma das primeiras contribuições dentro da proposta.

Utilização das listas

Para apenas consultar termos e códigos oficiais canônicos, basta clicar aqui em data/lista_canonicos.csv para visualizar todas as ocupações:

  • Para download: clique em "raw" (pode ser com o botão direito) para baixar a planilha.
  • Para buscas: ao lado do ícone de lupa (com mensagem "seach this file"), digitar trechos do termo procurado.

Para utilização em bancos de dados e terminologias, usar data/lista.csv, que é a lista completa, onde foram mantidos os sinônimos.

Preparação

Procedimentos utilizados na preparação dos dados deste projeto. Todos os mataterais-fonte estão sendo mantidos na pasta dumps.

cd dumps

## COPIA:
wget -c --output-document=CBO2002_Liv1.pdf www.mtecbo.gov.br/cbosite/pages/download?tipoDownload=1
wget -c http://portalfat.mte.gov.br/wp-content/uploads/2016/02/CBO2002_LISTA.pdf

## CONVERSAO PRINCIPAL:
pdftotext -layout CBO2002_LISTA.pdf
cat CBO2002_LISTA.txt | grep -E "^[0-9]{4,}" | tr -s ',' ';' > tmp.txt
echo -e "codigo,termo,tipo" | cat - tmp.txt | sed  -r 's:     +:,:g' > ../data/lista.csv
rm tmp.txt # opcional, usar diff  para para conferir se não corrompeu no processo

## LISTA DERIVADA, sem sinônimos (só termos canônicos)
awk -F ","  \
 'BEGIN {print "codigo,termo"}  $3~/[Oo]cupa[ç][aã]o/ {print $1 "," $2}' \
 data/lista.csv > data/lista_canonicos.csv

O primeiro wget é apenas para a preservação do inteiro teor das definições CBO, que são fornecidas em PDF e portanto difíceis de serem extraídas na forma de lista. O nome de arquivo é o oficial, obtido via navegador.

Com o segundo wget se obtém uma listagem oficial (mte.gov.br) da lista desejada – resta auditorar com outros recursos, como a lista de códigos apresentados no inteiro teor.

A opção -layout foi adotada por se mostrar mais adequada que a default (-raw), recuperando linha a linha já num formato próximo ao de planilha. O grep garante a exclusão de cabeçalhos e rodapés, o tr evita eventuais ambiguidades com o separador CSV, e o comando sed faz o trabalho principal de conversão de formato, garantindo por fim uma lista estruturada.

Para a geração da lista canônica, sem sinônimos, foi utilizado um filtro simples awk, eliminando a coluna tipo e mantendo apenas as linhas do tipo "ocupação".

NOTA: com o comando cat tmp.txt | grep ";" pode-se conferir os casos onde houve alguma adulteração, e com diff tmp.txt CBO2002_LISTA.txt pode-se conferir se as demais hipóteses de trabalho foram adequadas.

Licença

No Brasil o texto de Lei (incluindo anexos e figuras) e seus complementos, são dados de domínio público.

About

Brazilian datasets for CBO - Classificação Brasileira de Ocupações

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published