# Aplicação de modelo analítico com R

### Código para carregar e visualizar os dados de DADOS_RH.CSV.

In [None]:
dados=read.table("DADOS_RH.csv",header = T,sep=",")

In [None]:
# Vamos avaliar os dados

str(dados) # exibindo a estrutura dos dados

summary(dados) # mostrando os valores mínimo, média, máximo e minimum, mean, maximum and quartis

'data.frame':	2000 obs. of  6 variables:
 $ S            : num  0.38 0.8 0.11 0.72 0.37 0.41 0.1 0.92 0.89 0.42 ...
 $ UAP          : num  0.53 0.86 0.88 0.87 0.52 0.5 0.77 0.85 1 0.53 ...
 $ NP           : int  2 5 7 5 2 2 6 5 5 2 ...
 $ MHM          : int  157 262 272 223 159 153 247 259 224 142 ...
 $ TDT          : int  3 6 4 5 3 3 4 5 5 3 ...
 $ Recem_nascido: int  0 0 0 0 0 0 0 0 0 0 ...


       S             UAP              NP             MHM             TDT       
 Min.   :0.09   Min.   :0.450   Min.   :2.000   Min.   :126.0   Min.   :2.000  
 1st Qu.:0.11   1st Qu.:0.520   1st Qu.:2.000   1st Qu.:146.0   1st Qu.:3.000  
 Median :0.41   Median :0.790   Median :4.000   Median :225.0   Median :4.000  
 Mean   :0.44   Mean   :0.721   Mean   :3.877   Mean   :207.9   Mean   :3.878  
 3rd Qu.:0.73   3rd Qu.:0.900   3rd Qu.:6.000   3rd Qu.:262.0   3rd Qu.:5.000  
 Max.   :0.92   Max.   :1.000   Max.   :7.000   Max.   :310.0   Max.   :6.000  
 Recem_nascido   
 Min.   :0.0000  
 1st Qu.:0.0000  
 Median :0.0000  
 Mean   :0.0525  
 3rd Qu.:0.0000  
 Max.   :1.0000  

### Aplicando a função scale() para padronizar as variáveis. 

In [None]:
# Normalizando dados

testdados=dados # Para segurança, vamos criar um dataset extra.

testdados # Vamos ver os dados antes da normalização

testdados = scale(testdados) # A função scale normaliza as variáveis dos dados

testdados

S,UAP,NP,MHM,TDT,Recem_nascido
<dbl>,<dbl>,<int>,<int>,<int>,<int>
0.38,0.53,2,157,3,0
0.80,0.86,5,262,6,0
0.11,0.88,7,272,4,0
0.72,0.87,5,223,5,0
0.37,0.52,2,159,3,0
0.41,0.50,2,153,3,0
0.10,0.77,6,247,4,0
0.92,0.85,5,259,5,0
0.89,1.00,5,224,5,0
0.42,0.53,2,142,3,0


S,UAP,NP,MHM,TDT,Recem_nascido
-0.22647261,-0.9673386,-1.03270343,-0.8301389,-0.9019539,-0.2353322
1.36002554,0.7038481,0.61786146,0.8818575,2.1798931,-0.2353322
-1.24636428,0.8051322,1.71823805,1.0449048,0.1253284,-0.2353322
1.05783542,0.7544902,0.61786146,0.2459731,1.1526108,-0.2353322
-0.26424638,-1.0179806,-1.03270343,-0.7975295,-0.9019539,-0.2353322
-0.11315131,-1.1192647,-1.03270343,-0.8953578,-0.9019539,-0.2353322
-1.28413805,0.2480699,1.16804975,0.6372866,0.1253284,-0.2353322
1.81331073,0.6532061,0.61786146,0.8329433,1.1526108,-0.2353322
1.69998943,1.4128365,0.61786146,0.2622779,1.1526108,-0.2353322
-0.07537755,-0.9673386,-1.03270343,-1.0747098,-0.9019539,-0.2353322


### Computando as distâncias entre as variáveis padronizadas e agrupando em “clusters” hierárquicos.

In [None]:
d = dist(testdados, method = "euclidean") # Computando a distância entre as variáveis normalizadas

hcward = hclust(d, method="ward.D") # Gerando um agrupando hierárquico através das distâncias entre as variáveis. O método escolhido é o  “ward.D”

### Criando uma nova coluna com os agrupamentos dos indivíduos com posterior visualização do agrupamento e a base de dados “dados”. 

In [None]:
dados$groups = cutree(hcward,k=4) # atribui o valor hierárquico aos grupos

hcward

dados


Call:
hclust(d = d, method = "ward.D")

Cluster method   : ward.D 
Distance         : euclidean 
Number of objects: 2000 


S,UAP,NP,MHM,TDT,Recem_nascido,groups
<dbl>,<dbl>,<int>,<int>,<int>,<int>,<int>
0.38,0.53,2,157,3,0,1
0.80,0.86,5,262,6,0,2
0.11,0.88,7,272,4,0,3
0.72,0.87,5,223,5,0,2
0.37,0.52,2,159,3,0,1
0.41,0.50,2,153,3,0,1
0.10,0.77,6,247,4,0,3
0.92,0.85,5,259,5,0,2
0.89,1.00,5,224,5,0,2
0.42,0.53,2,142,3,0,1


### Agregando entradas de dados através de suas médias.

In [None]:
aggdados = aggregate(.~ groups, data=dados, FUN=mean) # Agrega a média dos valores por grupos

In [None]:
# Entendendo a proporção de cada variável em cada grupo

proptemp=aggregate(S~ groups, data=dados, FUN=length) # Computando o número de observações em cada grupo usando a variável satisfação (S) como referência

aggdados$proporcao=(proptemp$S)/sum(proptemp$S) # Dividindo a proporção pelo número total de observações para ter uma taxa

aggdados=aggdados[order(aggdados$proporcao,decreasing=T),] # Ordenando valores do maior para o menor

aggdados

Unnamed: 0_level_0,groups,S,UAP,NP,MHM,TDT,Recem_nascido,proporcao
Unnamed: 0_level_1,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,1,0.4082346,0.5106936,2.0,143.5044,3.0,0,0.3965
2,2,0.7355272,0.8732588,4.476038,237.7732,4.811502,0,0.313
3,3,0.1028571,0.8715126,6.237395,276.7353,4.115546,0,0.238
4,4,0.4455238,0.7195238,3.780952,204.3524,3.866667,1,0.0525


Após alguns testes, o empregador notou que o fato de uma pessoa ter tido um recém nascido nos últimos 12 meses não influencia essa avaliação e, por isso, pediram para que fosse removida essa variável da avaliação.

### Refazendo o processo inicial de normalização e escalonamento dos dados sem recém nascidos como uma variável importante.

In [None]:
testdados=dados[,1:5] # Criando um novo dataset sem recém nascidos

dados[,1:5] #visualização de colunas específicas. Bom para testes antes de remover colunas

testdados = scale(testdados) # Normalização dos novos dados

d = dist(testdados, method = "euclidean") # cálculo das distâncias entre as variáveis para desvio padrão

hcward = hclust(d, method="ward.D") # Agrupamento hierárquico

dados$groups = cutree(hcward,k=4) # Criando segmentos

dados

aggdados = aggregate(.~ groups, data=dados, FUN=mean) # Agregando os valores novamente

proptemp=aggregate(S~ groups, data=dados, FUN=length)  # Computando observações por grupo.

aggdados$proporcao=(proptemp$S)/sum(proptemp$S) # Criando proporção

aggdados=aggdados[order(aggdados$proporcao,decreasing=T),] #Vamos agrupar nossos itens de forma decrescente.

 

# Visualização dos dados

aggdados

S,UAP,NP,MHM,TDT
<dbl>,<dbl>,<int>,<int>,<int>
0.38,0.53,2,157,3
0.80,0.86,5,262,6
0.11,0.88,7,272,4
0.72,0.87,5,223,5
0.37,0.52,2,159,3
0.41,0.50,2,153,3
0.10,0.77,6,247,4
0.92,0.85,5,259,5
0.89,1.00,5,224,5
0.42,0.53,2,142,3


S,UAP,NP,MHM,TDT,Recem_nascido,groups
<dbl>,<dbl>,<int>,<int>,<int>,<int>,<int>
0.38,0.53,2,157,3,0,1
0.80,0.86,5,262,6,0,2
0.11,0.88,7,272,4,0,3
0.72,0.87,5,223,5,0,2
0.37,0.52,2,159,3,0,1
0.41,0.50,2,153,3,0,1
0.10,0.77,6,247,4,0,3
0.92,0.85,5,259,5,0,2
0.89,1.00,5,224,5,0,2
0.42,0.53,2,142,3,0,1


Unnamed: 0_level_0,groups,S,UAP,NP,MHM,TDT,Recem_nascido,proporcao
Unnamed: 0_level_1,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,1,0.4083871,0.5105615,2.0,143.5735,3.0,0.0525687,0.4185
3,3,0.1033399,0.8718182,6.201581,276.3004,4.100791,0.04743083,0.253
2,2,0.8184082,0.9225306,4.604082,247.3918,5.206122,0.05102041,0.245
4,4,0.5076647,0.7276048,4.107784,207.3473,3.706587,0.07185629,0.0835


### Salvando os resultados em arquivo externo .csv.

In [None]:
# Criando um novo arquivo e salvando nosso resultado em .CSV

write.csv(aggdados, "RH_Analise_resultado.csv", row.names=FALSE)