# **CASE: PERFIL DE IMÓVEIS RESIDENCIAIS**

---

### Leitura da base de dados

In [None]:
dados <- read.table(file   = "Imoveis.txt",
                    sep    = "\t",
                    header = TRUE)

### Visualização da base de dados

In [None]:
View(dados)

### Análise de unicidade

*Verificação de quais registros estão duplicados em uma variável*

In [None]:
duplicated(dados$ID_IMOVEL)

*Contabilização da quantidade de duplicados*

In [None]:
sum(duplicated(dados$ID_IMOVEL))

### Análise univariada: variáveis qualitativas *(exemplos)*

*Tabela de frequências absolutas, incluindo missings*

In [None]:
  table(dados$INCIDENCIA_LUZ, useNA = "ifany")

*Tabela de frequências relativas, incluindo missings*

In [None]:
  prop.table(table(dados$INCIDENCIA_LUZ, useNA = "ifany"))

*Arredondando as frequências na tabela anterior*

In [None]:
  round(prop.table(table(dados$INCIDENCIA_LUZ, useNA = "ifany")), 2) * 100

*Ordenando categorias em uma variável qualitativa ordinal*

In [None]:
  dados$INCIDENCIA_LUZ <- factor(dados$INCIDENCIA_LUZ,
                                 levels = c("Nenhuma", "Pouca", "Muita"))

*Gráfico de barras (básico)*

In [None]:
  tab_abs <- table(dados$INCIDENCIA_LUZ, useNA = "ifany")
  barplot(height = tab_abs)

*Gráfico de barras (formatado)*

In [None]:
  tab_abs  <- table(dados$INCIDENCIA_LUZ, useNA = "ifany")
  p <- barplot(height = sort(tab_abs, decreasing = TRUE),
               main   = "Gráfico de barras",
               col    = "darkturquoise",
               ylim   = c(0, 250))
  text(x = p,
       y = sort(tab_abs, decreasing = TRUE) + 10,
       labels = sort(tab_abs, decreasing = TRUE))

*Gráfico de setores (básico)*

In [None]:
  tab_abs <- table(dados$INCIDENCIA_LUZ, useNA = "ifany")
  pie(x = tab_abs)

*Gráfico de setores (formatado)*

In [None]:
  tab_abs  <- table(dados$INCIDENCIA_LUZ,
                    useNA = "ifany")
  tab_perc <- 100 * round(prop.table(table(dados$INCIDENCIA_LUZ,
                                           useNA = "ifany")), 2)
  pie(x      = tab_abs,
      main   = "Gráfico de setores",
      col    = c("lightsalmon", "darkslategray2", "darkseagreen2"),
      labels = paste0(tab_abs, " (", tab_perc, "%)"))
  legend(x      = "topright",
         legend = names(tab_abs),
         cex    = 0.8,
         fill   = c("lightsalmon", "darkslategray2", "darkseagreen2"))

### Análise univariada: variáveis quantitativas *(exemplos)*

*Mínimo, máximo, quartis, mediana, média e qtde. de missings*

In [None]:
  summary(dados$METRAGEM)

*Moda*

In [None]:
  names(sort(-table(dados$METRAGEM)))[1]

*Percentis*

In [None]:
  quantile(x     = dados$METRAGEM,
           probs = c(0.01, 0.80, 0.99),
           na.rm = TRUE)

*Variância e desvio padrão*

In [None]:
  var(dados$METRAGEM, na.rm = TRUE)
  sd(dados$METRAGEM, na.rm = TRUE)

*Coeficiente de variação*

In [None]:
  sd(dados$METRAGEM, na.rm = TRUE) / mean(dados$METRAGEM, na.rm = TRUE)

*Amplitude*

In [None]:
  max(dados$METRAGEM, na.rm = TRUE) - min(dados$METRAGEM, na.rm = TRUE)

*Amplitude percentílica*

In [None]:
  as.numeric(quantile(dados$METRAGEM, probs = 0.99, na.rm = TRUE) -
               quantile(dados$METRAGEM, probs = 0.01, na.rm = TRUE))

*Intervalo interquartil*

In [None]:
  as.numeric(quantile(dados$METRAGEM, probs = 0.75, na.rm = TRUE) -
               quantile(dados$METRAGEM, probs = 0.25, na.rm = TRUE))

*Histograma (básico)*

In [None]:
  hist(x = dados$METRAGEM)

*Histograma (formatado)*

In [None]:
  hist(x      = dados$METRAGEM,
       main   = "Histograma",
       xlab   = "Metragem (em m2)",
       ylab   = "Frequência",
       col    = "darkturquoise",
       border = "white")

*Boxplot (básico)*

In [None]:
  boxplot(x = dados$METRAGEM)

*Boxplot (formatado)*

In [None]:
  boxplot(x    = dados$METRAGEM,
          main = "Boxplot",
          xlab = "Metragem (em m2)",
          ylab = "Frequência",
          col  = "darkturquoise")

### Análise bivariada/trivariada: qualitativas vs. qualitativas *(exemplos)*

*Tabela de frequências absolutas de dupla entrada*

In [None]:
  table(dados$INCIDENCIA_LUZ,
        dados$TIPO_IMOVEL,
        useNA = "ifany")

*Tabela de frequências relativas de dupla entrada, somando 100% em cada linha*

In [None]:
  prop.table(table(dados$INCIDENCIA_LUZ,
                   dados$TIPO_IMOVEL,
                   useNA = "ifany"), 1)

*Tabela de frequências relativas de dupla entrada, somando 100% em cada coluna*

In [None]:
  prop.table(table(dados$INCIDENCIA_LUZ,
                   dados$TIPO_IMOVEL,
                   useNA = "ifany"), 2)

*Gráfico de barras empilhadas (básico)*

In [None]:
  tab_perc <- prop.table(table(dados$INCIDENCIA_LUZ,
                               dados$TIPO_IMOVEL,
                               useNA = "ifany"), 1)
  plot(tab_perc)

  tab_perc <- prop.table(table(dados$TIPO_IMOVEL,
                               dados$INCIDENCIA_LUZ,
                               useNA = "ifany"), 1)
  plot(tab_perc)

*Gráfico de barras empilhadas (formatado)*

In [None]:
  tab_perc <- prop.table(table(dados$INCIDENCIA_LUZ,
                               dados$TIPO_IMOVEL,
                               useNA = "ifany"), 2) * 100
  barplot(height = tab_perc,
          col    = c("turquoise", "turquoise2", "turquoise4"),
          main   = "Gráfico de barras empilhadas",
          xlab   = "Tipo de imóvel",
          ylab   = "Frequência (%)")
  legend(x      = "bottomright",
         legend = row.names(tab_perc),
         cex    = 0.8,
         fill   = c("turquoise", "turquoise2", "turquoise4"))

  tab_perc <- prop.table(table(dados$TIPO_IMOVEL,
                               dados$INCIDENCIA_LUZ,
                               useNA = "ifany"), 2) * 100
  barplot(height = tab_perc,
          col    = c("turquoise4", "turquoise2"),
          main   = "Gráfico de barras empilhadas",
          xlab   = "Incidência de luz solar",
          ylab   = "Frequência (%)")
  legend(x      = "bottomright",
         legend = row.names(tab_perc),
         cex    = 0.8,
         fill   = c("turquoise4", "turquoise2"))

*Tabela de frequências absolutas de tripla entrada*

In [None]:
  table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Apartamento"],
        dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Apartamento"],
        useNA = "ifany")
  table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Casa"],
        dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Casa"],
        useNA = "ifany")

*Tabela de frequências relativas de tripla entrada, somando 100% em cada linha*

In [None]:
  prop.table(table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Apartamento"],
                   dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Apartamento"],
                   useNA = "ifany"), 1)
  prop.table(table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Casa"],
                   dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Casa"],
                   useNA = "ifany"), 1)

*Tabela de frequências relativas de tripla entrada, somando 100% em cada coluna*

In [None]:
  prop.table(table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Apartamento"],
                   dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Apartamento"],
                   useNA = "ifany"), 2)
  prop.table(table(dados$INCIDENCIA_LUZ[dados$TIPO_IMOVEL == "Casa"],
                   dados$FLUXO_VEICULOS[dados$TIPO_IMOVEL == "Casa"],
                   useNA = "ifany"), 2)

### Análise bivariada/trivariada: quantitativas vs. quantitativas *(exemplos)*

*Gráfico de dispersão (básico)*

In [None]:
  plot(dados$METRAGEM, dados$VALOR_VENDA)

*Gráfico de dispersão (formatado)*

In [None]:
  options(scipen = 999) # comando para omitir notação científica na exibição de valores grandes
  plot(dados$VALOR_VENDA ~ dados$METRAGEM,
       col  = "darkturquoise",
       pch  = 19,
       main = "Gráfico de dispersão: valor versus metragem",
       xlab = "Metragem (em m2)",
       ylab = "Valor (em R$)")

*Gráfico de dispersão (formatado e com transparência nos pontos)*

In [None]:
  options(scipen = 999)
  library(scales)
  plot(dados$VALOR_VENDA ~ dados$METRAGEM,
       col  = alpha("darkturquoise", 0.4),
       pch  = 19,
       main = "Gráfico de dispersão: valor versus metragem",
       xlab = "Metragem (em m2)",
       ylab = "Valor (em R$)")

### Análise bivariada/trivariada: qualitativas vs. quantitativas *(exemplos)*

*Principais medidas resumo com quebra por variável qualitativa*

In [None]:
  summary(dados$METRAGEM[dados$TIPO_IMOVEL == "Apartamento"])
  summary(dados$METRAGEM[dados$TIPO_IMOVEL == "Casa"])

*Percentis com quebra por variável qualitativa*

In [None]:
  print("Apartamento")
  quantile(x     = dados$METRAGEM[dados$TIPO_IMOVEL == "Apartamento"],
           probs = c(0.01, 0.99),
           na.rm = TRUE)
  print("Casa")
  quantile(x     = dados$METRAGEM[dados$TIPO_IMOVEL == "Casa"],
           probs = c(0.01, 0.99),
           na.rm = TRUE)

*Histograma com quebra por variável qualitativa (básico)*

In [None]:
  par(mfrow = c(2,1))
  hist(x = dados$METRAGEM[dados$TIPO_IMOVEL == "Apartamento"])
  hist(x = dados$METRAGEM[dados$TIPO_IMOVEL == "Casa"])

*Histograma com quebra por variável qualitativa (formatado)*

In [None]:
  par(mfrow = c(2,1))
  hist(x      = dados$METRAGEM[dados$TIPO_IMOVEL == "Apartamento"],
       main   = "Histograma: apartamentos",
       xlab   = "Metragem (em m2)",
       ylab   = "Frequencia",
       xlim = c(0,400),
       breaks = 10,
       col    = "darkturquoise",
       border = "white")
  hist(x      = dados$METRAGEM[dados$TIPO_IMOVEL == "Casa"],
       main   = "Histograma: casas",
       xlab   = "Metragem (em m2)",
       ylab   = "Frequencia",
       xlim = c(0,400),
       breaks = 10,
       col    = "darkturquoise",
       border = "white")

*Boxplot com quebra por variável qualitativa (básico)*

In [None]:
  par(mfrow = c(1,1))
  boxplot(formula = dados$METRAGEM ~ dados$TIPO_IMOVEL)

*Boxplot com quebra por variável qualitativa (formatado)*

In [None]:
  boxplot(formula = dados$METRAGEM ~ dados$TIPO_IMOVEL,
          main    = "Boxplot",
          xlab    = "Tipo de imóvel",
          ylab    = "Metragem (em m2)",
          col     = "darkturquoise")

*Gráfico de dispersão com terceira dimensão qualitativa (básico)*

In [None]:
  options(scipen = 999)
  plot(dados$VALOR_VENDA ~ dados$METRAGEM,
       col  = ifelse(dados$TIPO_IMOVEL == "Apartamento", "darkturquoise", "lightsalmon"))

*Gráfico de dispersão com terceira dimensão qualitativa (formatado e com transparência nos pontos)*

In [None]:
  options(scipen = 999)
  library(scales)
  plot(dados$VALOR_VENDA ~ dados$METRAGEM,
       col  = ifelse(dados$TIPO_IMOVEL == "Apartamento", alpha("darkturquoise", 0.4), alpha("lightsalmon", 0.4)),
       pch  = 19,
       main = "Gráfico de dispersão com terceira dimensão qualitativa",
       xlab = "Metragem (em m2)",
       ylab = "Valor (em R$)")

### **ITENS DE EXERCÍCIO**

### Item (a)

In [None]:
table(dados$BAIRRO_IMOVEL)
prop.table(table(dados$BAIRRO_IMOVEL))

In [None]:
table(dados$BAIRRO_IMOVEL, dados$TIPO_IMOVEL)
round(prop.table(table(dados$BAIRRO, dados$TIPO_IMOVEL), 2), 2)

### Item (b)

In [None]:
summary(dados$VAGAS_GARAGEM)
table(dados$VAGAS_GARAGEM)

In [None]:
table(dados$VAGAS_GARAGEM, dados$BAIRRO_IMOVEL)
round(prop.table(table(dados$VAGAS_GARAGEM, dados$BAIRRO_IMOVEL), 2), 2)

In [None]:
table(dados$VAGAS_GARAGEM, dados$TIPO_IMOVEL)
round(prop.table(table(dados$VAGAS_GARAGEM, dados$TIPO_IMOVEL), 2), 2)

### Item (c)

In [None]:
boxplot(dados$METRAGEM ~ dados$VAGAS_GARAGEM,
        main = "Metragem versus vagas de garagem",
        xlab = "Vagas de garagem",
        ylab = "Metragem (em m2)",
        col  = "darkturquoise")

### Item (d)

In [None]:
hist(dados$COMERCIOS_RAIO_1KM,
     main = "Distribuicao da qtde. de estabelecimentos em ate 1km",
     xlab = "Qtde. de estabelec.",
     ylab = "Frequencia",
     col  = "darkturquoise",
     border = "white")

In [None]:
par(mfrow = c(2,2))
hist(dados$COMERCIOS_RAIO_1KM[dados$BAIRRO_IMOVEL == "Jardim Sol"],
     main = "Qtde. de estabelec.: Jardim Sol",
     xlab = "Qtde. de estabelecimentos",
     ylab = "Frequencia",
     xlim = c(0,40),
     col  = "darkturquoise",
     border = "white")
hist(dados$COMERCIOS_RAIO_1KM[dados$BAIRRO_IMOVEL == "Recanto Mar"],
     main = "Qtde. de estabelec.: Recanto Mar",
     xlab = "Qtde. de estabelecimentos",
     ylab = "Frequencia",
     xlim = c(0,40),
     col  = "darkturquoise",
     border = "white")
hist(dados$COMERCIOS_RAIO_1KM[dados$BAIRRO_IMOVEL == "Santa Rosa"],
     main = "Qtde. de estabelec.: Santa Rosa",
     xlab = "Qtde. de estabelecimentos",
     ylab = "Frequencia",
     xlim = c(0,40),
     col  = "darkturquoise",
     border = "white")
hist(dados$COMERCIOS_RAIO_1KM[dados$BAIRRO_IMOVEL == "Vila Verde"],
     main = "Qtde. de estabelec.: Vila Verde",
     xlab = "Qtde. de estabelecimentos",
     ylab = "Frequencia",
     xlim = c(0,40),
     col  = "darkturquoise",
     border = "white")

### Item (e)

In [None]:
table(dados$INCIDENCIA_LUZ, dados$BAIRRO_IMOVEL)
round(prop.table(table(dados$INCIDENCIA_LUZ, dados$BAIRRO_IMOVEL), 2), 2)

In [None]:
par(mfrow = c(1,1))
tab_perc <- prop.table(table(dados$INCIDENCIA_LUZ,
                             dados$BAIRRO_IMOVEL,
                             useNA = "ifany"), 2) * 100
barplot(height = tab_perc,
        col    = c("turquoise", "turquoise2", "turquoise4"),
        main   = "Incidencia de luz solar versus bairro",
        xlab   = "Bairro",
        ylab   = "Frequencia (%)")
legend(x      = "bottomright",
       legend = row.names(tab_perc),
       cex    = 0.8,
       fill   = c("turquoise", "turquoise2", "turquoise4"))

### Item (f)

In [None]:
options(scipen = 999)
hist(dados$VALOR_VENDA,
     main = "Distribuicao de precos dos imoveis",
     xlab = "Preco do imovel, em R$",
     ylab = "Frequencia",
     col  = "darkturquoise",
     border = "white")

### Item (g)

In [None]:
options(scipen = 999)
boxplot(dados$VALOR_VENDA ~ dados$BAIRRO_IMOVEL,
     main = "Distribuicao de precos dos imoveis, por bairro",
     xlab = "Bairro",
     ylab = "Preco do imovel, em R$",
     col  = "darkturquoise")

### Item (h)

In [None]:
options(scipen = 999)
library(scales)

plot(dados$VALOR_VENDA ~ dados$COMERCIOS_RAIO_1KM,
     main = "Precos dos imoveis versus qtde. de estabelec. comerciais",
     xlab = "Qtde. de estabelecimentos",
     ylab = "Preco do imovel, em R$",
     col  = alpha("darkturquoise", 0.4),
     pch = 19)