Skip to content

Commit

Permalink
rascunho de tratamento de valores non-sense
Browse files Browse the repository at this point in the history
  • Loading branch information
dhersz committed Apr 3, 2024
1 parent 69563ac commit 2a3aae0
Show file tree
Hide file tree
Showing 3 changed files with 10 additions and 1 deletion.
3 changes: 3 additions & 0 deletions R/padronizar_bairros.R
Original file line number Diff line number Diff line change
Expand Up @@ -47,6 +47,9 @@ padronizar_bairros <- function(bairros) {
"\\.\\.+" = ".", # remover pontos repetidos
"\\.([^ ])" = "\\. \\1", # garantir que haja espaco depois do ponto

# valores non-sense
r"{^(.)\1{1,}$}" = "", # fiquei na duvida se ja tirava repetindo "soh" duas vezes ou se precisava de mais, mas dois ja parece o suficiente. esses sao os que aparecem: "00" "XX" "CC" "RR" "PP" "NN" "FF" "II" "11" "HH" "22" "KK" "44" "SS" "AA" "--" (total de 157 observacoes em 2 milhoes, sendo a maioria "00")

# localidades
"\\bRES(I?D)?\\b\\.?" = "RESIDENCIAL",
"\\bJ(D(I?M)?|A?RD)\\b\\.?" = "JARDIM",
Expand Down
5 changes: 4 additions & 1 deletion R/padronizar_complementos.R
Original file line number Diff line number Diff line change
Expand Up @@ -51,7 +51,10 @@ padronizar_complementos <- function(complementos) {
r"{\.([^ ])}" = "\\. \\1", # garantir que haja espaco depois do ponto
r"{ (-|\.) }" = " ",

# "LT-04-BL-07-APTO-110" maravilha tb
# valores non-sense
r"{^([^\d])\1{1,}$}" = "",
r"{^(\d)\1{3,}$}" = "", # assumindo que qualquer numero que apareca 4 ou mais vezes repetido eh um erro de digitacao
r"{^00+$}" = "0", # faz sentido manter o "0"? soh "0" aparece 1950 vezes em 2 MI de observacoes. "00" aparece 1086. "000" 194.

r"{\bQD?-?(\d+)-?LT?-?(\d+)-?CS?-?(\d+)\b}" = "QUADRA \\1 LOTE \\2 CASA \\3",
r"{\bQD?-?(\d+)-?CS?-?(\d+)-?LT?-?(\d+)\b}" = "QUADRA \\1 LOTE \\3 CASA \\2",
Expand Down
3 changes: 3 additions & 0 deletions R/padronizar_logradouros.R
Original file line number Diff line number Diff line change
Expand Up @@ -52,6 +52,9 @@ padronizar_logradouros <- function(logradouros) {
" \\." = "\\.", # garantir que não haja um espaco antes dos pontos
" ," = ",", # garantir que não haja um espaco antes dos pontos

# valores non-sense
r"{^(.)\1{1,}$}" = "",

# tipos de logradouro
"^RU?\\b(\\.|,)?" = "RUA", # R. AZUL -> RUA AZUL
"^(RUA|RODOVIA|ROD(\\.|,)?) (RUA|RU?)\\b(\\.|,)?" = "RUA", # RUA R. AZUL -> RUA AZUL
Expand Down

0 comments on commit 2a3aae0

Please sign in to comment.