Prenomes, incluindo primeiros nomes, de habitantes do Brasil
Switch branches/tags
Nothing to show
Clone or download
Latest commit efa834c Nov 13, 2017
Permalink
Failed to load latest commit information.
data revisao Nov 13, 2017
src apoio semanticos Nov 6, 2017
README.md revisao Nov 13, 2017
datapackage.json apoio semanticos Nov 6, 2017

README.md

Prenomes dos brasileiros

No Brasil, de acordo com o Censo Demográfico 2010, existem cerca de 200 milhões de habitantes com mais de 130 mil nomes diferentes... E estamos falando só da diversidade de primeiros nomes das pessoas que habitam o território brasileiro, como Maria, Marco, Carlos ou Joana.

O IBGE é órgão do governo federal responsável pelo censo e pelo levantamento destes nomes, tendo também disponibilizado uma ótima interface de consulta, https://censo2010.ibge.gov.br/nomes.

Os dados brutos, com contabilizações de frequência de nomes a cada censo das últimas sete décadas, podem ser baixados no arquivo nomes-censos-ibge.csv deste repositório, ou visualiados de forma mais amigável no datapackage viewer.

Estes e outros dados ajudam a avaliar o perfil estatístico dos nomes de cidadãos brasileiros. O presente repositório é também um complemento da iniciativa "observatório de nomes", que faz parte do Observatório de dados da Wikiversity.

Prenomes e primeiros-nomes no Brasil

Primeiro-nome é a primeira palavra do nome completo de uma pessoa — o nome oficial registrado no CPF, RG ou atestado de nascimento.

Alguns nomes, tais como Ana Claudia, Fernando Henrique ou Maria das Dores, possuem mais de uma palavra, de maneira que o conceito mais rigoroso de "nome da frente", que vem antes do sobrenome, é designado prenome.

No Brasil o registro de prenomes está vinculado ao registro oficial dos nomes completos. Como a lingua oficial é o Português do Brasil (pt-BR), com seu alfabeto limitado a 26 letras (e respectivas variações de vogais acentuadas e cedilha), não há possibilidade de se fazer uso de outros símbolos.

Um nome japonês, por exemplo, não pode fazer uso de caracteres do Katakana. A sonoridade e escrita estrangeiras devem ser adaptadas à sonoridade e escrita brasileiras durante a transcrição de nomes estrangeiros.

Perfil estatístico e popularidade

Cultural e historicamente no Brasil também há um perfil de nomes adotados com mais frequência pelos habitantes do Brasil.

Por exemplo as estatísticas mostram uma evidente dominânncia de alguns "nomes bíblicos", por influência histórica da igreja, até os dias de hoje. Em seguida, principalmente a partir do surgimento dos meios de comunucação em massa, na década de 1970 em diante, nomes de astros e personagens da televisão ou mesmo do futebol, passaram a exercer momentaneamente influência (nota-se correlação) no perfil estatístico.

Aplicações dos datasets

Dados brutos reais sobre os nomes subsidiam as decisões dos pais no batismo dos seus filhos, incentivando o uso de nomes menos frequentes e ao mesmo tempo conhecidos, garantindo ao futuro cidadão maior chance de uso do nome sem necessidade de apelidos. Essa seria a aplicação mais geral e subjetiva dos dados.

Tecnicamente existem diversas outras aplicações:

  • apoio aos algoritmos e dicionários de corretores ortográficos;

  • apoio aos algortimos de reconhecimento de entidades nomeadas brasileiras: para reconhecer trechos de um texto que representam o nome de uma pessoa, uma rua ou uma cidade.

  • ... diversas outras ...

mesmo sendo menos conhecidas, as aplicações técnicas são de grande relevância e justificam a manutenção do presente dataset de prenomes.