# Teste Qui.Quadrado na relação de Imovéis e Status

O objetivo deste projeto rápido é verificar se há uma relação entre os tipos de imóveis e seus respectivos status, tratando de variáveis categóricas, utilizando o teste Qui.Quadrado para alcançar o objetivo da pergunta de Negócio.

Espera-se responder as seguintes perguntas:

1. Há relação estatística entre o tipo de imóvel e o status?
2. Removendo o tipo "Apartamento", há relação estatísticas entre o tipo de Imóvel e o status?

In [1]:
# Configurações de saídas
options(scipen = 9999, digits = 2)
options(repos = 'http://cran.rstudio.com/')
options(repr.width = 20, repr.height = 10)

In [2]:
# Carregando o dataset
df <- read.csv('/content/dados.csv')

In [3]:
# Visualizando as primeiras linhah
head(df)

Unnamed: 0_level_0,Preco,Tamanho,CEP,Tipo_Imovel,Status_Imovel,Status_Aluguel,Cidade
Unnamed: 0_level_1,<int>,<int>,<chr>,<chr>,<chr>,<chr>,<chr>
1,899950,37505,NW3 1RX,Apartamento,Antigo,Alugado,Natal
2,330000,37475,W3 6DR,Casa com Quintal,Antigo,Vazio,Natal
3,230000,37270,SW6 2RX,Apartamento,Antigo,Alugado,Natal
4,178000,37596,CR0 9LQ,Cobertura,Antigo,Vazio,Fortaleza
5,180000,37396,SE27 9AW,Casa com Quintal,Antigo,Vazio,Natal
6,130000,37293,SW15 1HJ,Apartamento,Antigo,Alugado,Natal


In [4]:
# Visualizando os tipos de dados
str(df)

'data.frame':	7700 obs. of  7 variables:
 $ Preco         : int  899950 330000 230000 178000 180000 130000 299950 85000 280000 160000 ...
 $ Tamanho       : int  37505 37475 37270 37596 37396 37293 37575 37329 37476 37474 ...
 $ CEP           : chr  "NW3 1RX" "W3 6DR" "SW6 2RX" "CR0 9LQ" ...
 $ Tipo_Imovel   : chr  "Apartamento" "Casa com Quintal" "Apartamento" "Cobertura" ...
 $ Status_Imovel : chr  "Antigo" "Antigo" "Antigo" "Antigo" ...
 $ Status_Aluguel: chr  "Alugado" "Vazio" "Alugado" "Vazio" ...
 $ Cidade        : chr  "Natal" "Natal" "Natal" "Fortaleza" ...


In [5]:
# Verificando os valores ausentes
sum(is.na(df))

In [11]:
# Separando as variáveis de interesse
x <- df$Tipo_Imovel
y <- df$Status_Imovel
table(x,y)

                  y
x                  Antigo Novo
  Apartamento        2901  990
  Casa com Quintal    357    7
  Casa sem Quintal    961   19
  Cobertura          1752   43
  Outro               656   14

### Teste Qui.quad

Usado para comparar duas variáveis categóricas, se elas estão relacionadas e se impactam no dataset. Ele compara proporções, isto é, possíveis divergências entre as frequências observadas e esperadas para um certo evento.

- H0: As frequências observadas não são diferentes das frequências esperadas. Não existe diferença entre as frequências (contagens) dos grupos.Portanto, não há associação entre os grupos
- H1:  As  frequências  observadas  são  diferentes  das  frequências esperadas,  portanto  existe  diferença  entre  as  frequências.Portanto,  há  associação  entre os grupos.
- 5% Nível de significância

In [19]:
# Realizando o teste
chisq.test(table(x,y))


	Pearson's Chi-squared test

data:  table(x, y)
X-squared = 869, df = 4, p-value <0.0000000000000002


Como p-value < 0.05, então rejeita-se H0 e aceita H1, logo, há associação entre os grupos.

In [16]:
# Removendo o tipo de imóvel "apartamento"
df1 <- subset(df, Tipo_Imovel != "Apartamento")
x1 <- df1$Tipo_Imovel
y1 <- df1$Status_Imovel
table(df1$Tipo_Imovel)


Casa com Quintal Casa sem Quintal        Cobertura            Outro 
             364              980             1795              670 

In [18]:
# Realizando novamente o teste
chisq.test(table(x1,y1))


	Pearson's Chi-squared test

data:  table(x1, y1)
X-squared = 0.8, df = 3, p-value = 0.9


Portanto, nota-se que o tipo "Apartamento" influência na relação entre os grupos. Neste teste p-value > 0.05, logo, não temos evidências estatísticas para rejeitar H0. Portanto, não há associação entre os grupos, quando removemos o tipo "Apartamento".