# Recodificação de Variáveis

É comum que durante uma análise exploratória dos dados, o auditor se depare com a necessidade de corrigir valores inconsistentes em campos da base de dados que está a examinar.

Por exemplo, pode ser que num campo relativo ao sexo de dos funcionários os valores da variável estejam grafados como: `Masculino`, `Masc`, `M`, `Masc.`, `masc.`, etc. As mesmas variações também podem existir para o sexo feminino. Assim, faz-se necessário corrigir os valores para que se possa prosseguir com a análise dos dados.

A este procedimento de correção dos valores de um campo estamos chamando de `recodificação de variáveis`. 

A seguir ilustraremos como realizar este procedimento utilizando o conjunto de dados `RH.csv`.

In [4]:
setwd('C:\\Users\\Marcos\\Documents\\GitHub\\Usando-R-em-Auditoria\\dados')
rh <- read.csv2('RH.csv', as.is=TRUE)
str(rh)
head(rh)

'data.frame':	5000 obs. of  10 variables:
 $ Sexo            : chr  "Masculino" "Masculino" "Feminino" "Feminino" ...
 $ Estado.Civil    : chr  "Casado" "Viúvo" "Casado" "Casado" ...
 $ Anos.de.estudo  : int  14 19 18 16 15 18 18 12 14 12 ...
 $ Formação        : chr  "Sócio-econômicas" "Sócio-econômicas" "Sócio-econômicas" "Sócio-econômicas" ...
 $ Tempo.de.empresa: int  19 31 28 20 15 23 27 20 11 16 ...
 $ Unidade         : chr  "Curitiba" "São Paulo" "Rio de Janeiro" "Rio de Janeiro" ...
 $ Departamento    : chr  "Produção" "Vendas" "Financeiro" "Vendas" ...
 $ Cargo           : chr  "Assistente" "Assistente" "Assi " "Assistente" ...
 $ Salário         : num  16.7 29.1 21.8 22.6 16.7 ...
 $ Bônus           : num  28.02 41.24 16.88 13.5 8.44 ...


Sexo,Estado.Civil,Anos.de.estudo,Formação,Tempo.de.empresa,Unidade,Departamento,Cargo,Salário,Bônus
Masculino,Casado,14,Sócio-econômicas,19,Curitiba,Produção,Assistente,16.67,28.02
Masculino,Viúvo,19,Sócio-econômicas,31,São Paulo,Vendas,Assistente,29.13,41.24
Feminino,Casado,18,Sócio-econômicas,28,Rio de Janeiro,Financeiro,Assi,21.8,16.88
Feminino,Casado,16,Sócio-econômicas,20,Rio de Janeiro,Vendas,Assistente,22.61,13.5
Masculino,Solteiro,15,Sócio-econômicas,15,Curitiba,Vendas,Auxiliar,16.67,8.44
Masculino,Casado,18,Sócio-econômicas,23,São Paulo,Pessoal,Assistente,8.34,86.88


Vejamos quais valores distintos o campo `Cargo` possui:

In [5]:
unique(rh$Cargo)

O resultado da execução da função `unique()` no campo `Cargo` nos informa os valores distintos existentes no campo. É possível verificar a existência de inconsistências nos nomes de alguns cargos. Por exemplo, o cargo de `Assistente` grafado como `Assi `. Importante notar a existência de um caractere branco no nome. Também é possível ver a existência de células sem valores. A correção dessas inconsistência pode ser feita da seguinte forma:

In [6]:
rh$Cargo[rh$Cargo == 'Assi '] <- 'Assistente'
unique(rh$Cargo)

In [7]:
rh$Cargo[rh$Cargo == 'Auxi '] <- 'Auxiliar'
unique(rh$Cargo)

In [8]:
rh$Cargo[rh$Cargo == 'Gere '] <- 'Gerente'
unique(rh$Cargo)

In [10]:
rh$Cargo[rh$Cargo == ' '] <- NA
unique(rh$Cargo)

Procedimento análogo poderia ser feito para outros campos da base de dados que tenham este tipo de problema.

Existem outras formas de se realizar este procedimento, usando a função `ifelse()` ou a função `replace()` ou ainda a função `recode()` do pacote `car`.

**Marcos F Silva**