# Análise exploratória dos dados 

A  House Rocket  é uma empresa do mercado imobiliário, atuando na compra e revenda de imóveis usados. Nesse contexto, o CEO da empresa busca realizar suas tomadas de decisões por meio de insights retirados de uma base de dados externa que contém informações acerca dos imóveis da região, como preço, número de quartos, banheiros e etc. 

Para isso O CEO da empresa necesita das repostas das seguintes perguntas:


1. Quantas casas estão disponíveis para compra?
2. Quantos atributos as casas possuem?
3. Quais são os atributos das casas?
4. Qual a casa mais cara ( casa com o maior valor de venda )?
5. Qual a casa com o maior número de quartos?
6. Qual a soma total de quartos do conjunto de dados?
7. Quantas casas possuem 2 banheiros?
8. Qual o preço médio de todas as casas no conjunto de dados?
9. Qual o preço médio de casas com 2 banheiros?
10. Qual o preço mínimo entre as casas com 3 quartos?
11. Quantas casas possuem mais de 300 metros quadrados na sala
de estar?
12. Quantas casas tem mais de 2 andares?
13. Quantas casas tem vista para o mar?
14. Das casas com vista para o mar, quantas tem 3 quartos?
15. Das casas com mais de 300 metros quadrados de sala de estar,
quantas tem mais de 2 banheiros?



### Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np

In [2]:
#Notificação científica
np.set_printoptions(suppress=True)
pd.set_option('display.float_format', '{:.2f}'.format)

### Carregando o dataset

In [3]:
df = pd.read_csv(r'dataset\kc_house_data.csv')

In [4]:
#Imprimindo os 5 primeiros caracteres
df.head(5)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.51,-122.26,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.72,-122.32,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.74,-122.23,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.52,-122.39,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.62,-122.05,1800,7503


### Respondendo as perguntas acerca do dataset

#### 1. Quantas casas estão disponíveis para compra?

In [9]:
# solução: cada id representa um imóvel
num_casa_unique = df['id'].nunique()
print(f"O número de casas disponíveis para venda é {num_casa_unique}")

O número de casas disponíveis para venda é 21436


#### 2. Quantos atributos as casas possuem?


In [13]:
# Para ter o número de atributos da casa , basta contar o número de colunas, excluindo as colunas id e date
print(f"A casa possui {df.shape[1] -2} atributos. ")

A casa possui 19 atributos. 


#### 3. Quais são os atributos das casas?


In [17]:
#Retornando os nomes dos atributos
df.drop(['id', 'date'] , axis = 'columns').columns

Index(['price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors',
       'waterfront', 'view', 'condition', 'grade', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long',
       'sqft_living15', 'sqft_lot15'],
      dtype='object')

#### 4. Qual a casa mais cara ( casa com o maior valor de venda )?


In [24]:
# O preço da casa é indicado pelo atributo price, então basta ordenador as casas pelo seu preço
casa_valiosa = df.sort_values(by = 'price' , ascending = False).loc[0,'id'] # retornando o ID da casa mais valiosa
print(f"a casa mais valiosa é {casa_valiosa}")

a casa mais valiosa é 7129300520


#### 5. Qual a casa com o maior número de quartos?

In [32]:
casa_mais_quartos = df.sort_values(by = 'bedrooms' , ascending = False).iloc[0, 0] 
print(f"a casa com um maior número de quartos é {casa_mais_quartos}")

a casa com um maior número de quartos é 2402100895


#### 6. Qual a soma total de quartos do conjunto de dados?

In [33]:
# Para calcular o núemro de quartos total, basta realizar uma soma de todos os quartos
print(f"O número total de quartos do nosso conjunto de dados é {df['bedrooms'].sum()}")

O número total de quartos do nosso conjunto de dados é 72854


#### 7. Quantas casas possuem 2 banheiros?

In [36]:
# Primeiro precisamos saber o número de casas que possuem mais de um banheiro 
filtro = df['bathrooms'] == 2 # Filtrando o número de casa com mais de dois quartos

print(f"O número de casas com  dois  banheiros é  {df[filtro].shape[0]}")

O número de casas com  dois  banheiros é  1930


#### 8. Qual o preço médio de todas as casas no conjunto de dados?

In [36]:
# Calculando o preço médio
print(f'O preço médio das casas é ${df["price"].mean() :.2f}')

O preço médio das casas é $540088.14



#### 9. Qual o preço médio de casas com 2 banheiros?

In [37]:
filtro = df['bathrooms'] == 2 # Filtrando o número de casa com mais de dois quartos


print(f"O preço médio das casas com dois banheiros é ${ df[filtro].loc[: ,'price'].mean() :.2f}")

O preço médio das casas com dois banheiros é $457889.72


#### 10. Qual o preço mínimo entre as casas com 3 quartos?

In [41]:
price_min = df[df['bedrooms'] == 3].sort_values(by = 'price', ascending = True).iloc[0,2]
print(f"O preço mínimo para uma casa com três quartos é ${price_min :.2f}")

O preço mínimo para uma casa com três quartos é $82000.00



#### 11. Quantas casas possuem mais de 300 metros quadrados na sala de estar?

In [42]:
# O atributo sqft_living15 indica o número de metros quadrados da sala de estar 
print(f"O número de casas que possuem mais de 300 m2 na sala de estar  é {df[df['sqft_living15'] > 300.0].shape[0]}")

O número de casas que possuem mais de 300 m2 na sala de estar  é 21613


#### 12. Quantas casas tem mais de 2 andares?

In [43]:
# Flowrs indica o número de pisos na casa 
print(f"O número de casas que possuem mais de 3 andares é {df[df['floors'] > 2].shape[0]}")

O número de casas que possuem mais de 3 andares é 782


#### 13. Quantas casas tem vista para o mar?

In [97]:
print(f"O número de casas que possuem vista para o mar é {df[df['waterfront'] == 1].shape[0]}")

O número de casas que possuem vista para o mar é 163


#### 14. Das casas com vista para o mar, quantas tem 3 quartos?


In [54]:
print(f"O número de casas que possuem vista para o mar e 3 quartos é {df.loc[(df['waterfront'] == 1) & (df['bedrooms'] == 3), 'id' ].shape[0]}")

O número de casas que possuem vista para o mar e 3 quartos é 64


#### 15. Das casas com mais de 300 metros quadrados de sala de estar, quantas tem mais de 2 banheiros?

In [55]:
print(f"O número de casas que possuem sala de estar com + 300 m2 e 2 banheiros é {df[(df['sqft_living15'] > 300.0) & (df['bathrooms'] > 2.0) ].shape[0]}")

O número de casas que possuem sala de estar com + 300 m2 e 2 banheiros é 11242


### Concluido