<a href="https://colab.research.google.com/github/ninacchagas/projeto_coderhouse_parte_1/blob/main/ProjetoDSParteI_Chagas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto de Data Science Parte I - Mariana Chagas

Este notebook corresponde à primeira parte do projeto do curso de Data Science da Coderhouse.

Instruções:

1ª Entrega

Você deverá entregar o avanço do seu projeto final. Criará um notebook que deverá ter, em primeira instância, um resumo (250/500 palavras) de acordo com o dataset escolhido no desafio “Visualizações em Python”. Além disso, devem ser estabelecidas as perguntas e hipóteses de interesse sobre o dataset escolhido. Finalmente, você deverá gerar visualizações (univariadas, bivariadas ou multivariadas) junto com resumos numéricos acompanhados das respectivas interpretações, que permitam responder à questão-problema.

Consigna

- Gerar perguntas ou hipóteses de interesse sobre o dataset escolhido para o projeto final.

- Criar gráficos que usem pelo menos três variáveis e fazer um diagnóstico do que eles estão nos dizendo.

- Vincular os gráficos e análises numéricas feitas até o momento com as perguntas de interesse.

- Identificar valores ausentes.


Formato

- Entregar um arquivo no formato .ipynb. Deve ter o nome “ProjetoDSParteI+Sobrenome.ipynb”.


Sugestões

- Preparar o código e testar os resultados com subconjuntos do conjunto original.


Aspectos a incluir:

- O código deve ser feito em um notebook e deve estar testado.


## Dataset escolhido: Melbourne Housing Snapshot
O dataset escolhido para este projeto é o Melbourne Housing Snapshot, que apresenta uma “fotografia” dos preços de imóveis na cidade de Melbourne, Austrália. Como o próprio nome sugere, trata-se de um conjunto de dados que traz informações detalhadas sobre diversas propriedades residenciais vendidas na cidade. Vale destacar que os dados não são atuais e estão disponíveis apenas para fins educacionais, podendo ser acessados através do Kaggle: https://www.kaggle.com/datasets/dansbecker/melbourne-housing-snapshot.

O dataset inclui uma variedade de variáveis relevantes para o mercado imobiliário, como: subúrbio, endereço, quantidade de cômodos, tipo de imóvel (casa, apartamento, etc.), preço, método de venda, vendedor, data da venda, distância até o centro da cidade, código postal, quantidade de quartos, banheiros, vagas de garagem, tamanho do terreno, área construída, ano de construção, área de jurisdição, latitude, longitude, nome da região e contagem de propriedades.

Algumas dessas informações podem não ter uma correspondência direta com o mercado imobiliário brasileiro, mas, mesmo assim, oferecem uma excelente oportunidade para análises exploratórias e modelagens futuras. Escolhi trabalhar com esse dataset principalmente pelo seu valor didático e pela sua aplicabilidade em futuros estudos de Machine Learning, área que o curso aborda em etapas posteriores.

Para este projeto inicial, focarei em um subconjunto de variáveis que considero mais relevantes para entender os fatores que influenciam o valor dos imóveis. As variáveis selecionadas são: quantidade de cômodos, tipo de imóvel, preço, quantidade de quartos, quantidade de banheiros, vagas na garagem e nome da região.

O objetivo principal da análise é investigar a relação entre o valor da propriedade e essas variáveis, com ênfase nas categorias descritivas. Perguntas que pretendo responder incluem: “Como a quantidade de quartos impacta no preço?”, “Há diferença de preço entre os tipos de imóvel?”, “O número de cômodos tem uma correlação clara com o valor final da propriedade?”
Com isso, busco construir uma análise que possa, por exemplo, ajudar uma imobiliária fictícia a encontrar o imóvel ideal para diferentes perfis de clientes.
 ______________________________________________________________________
Perguntas de interesse:
1.	Qual é a relação entre preço, quantidade de cômodos e tipo de imóvel?
2.	Qual a relação ente região, tipo e preço do imóvel?
3.	Qual o comportamento temporal de preço por região e tipo de imóvel?


### Carregando bibliotecas e base de dados

In [108]:
# Importando bibliotecas
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import datetime

In [109]:
# Download latest version
path = kagglehub.dataset_download("dansbecker/melbourne-housing-snapshot")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/melbourne-housing-snapshot


In [110]:
# Carregando a base de dados

df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/melb_data.csv')
df.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


In [111]:
# Verificando colunas do Dataset

df.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [112]:
colunas = ['Rooms', 'Type', 'Date', 'Price', 'Bedroom2', 'Bathroom', 'Car', 'Regionname']

df = df[colunas]
df.head()

Unnamed: 0,Rooms,Type,Date,Price,Bedroom2,Bathroom,Car,Regionname
0,2,h,3/12/2016,1480000.0,2.0,1.0,1.0,Northern Metropolitan
1,2,h,4/02/2016,1035000.0,2.0,1.0,0.0,Northern Metropolitan
2,3,h,4/03/2017,1465000.0,3.0,2.0,0.0,Northern Metropolitan
3,3,h,4/03/2017,850000.0,3.0,2.0,1.0,Northern Metropolitan
4,4,h,4/06/2016,1600000.0,3.0,1.0,2.0,Northern Metropolitan


In [113]:
# Realizando trativas nos dados

colunas_traduzido = ['comodos', 'tipo', 'data_de_venda', 'preco', 'quartos', 'banheiro', 'garagem', 'nome_da_regiao']
df.columns = colunas_traduzido
df.head()

Unnamed: 0,comodos,tipo,data_de_venda,preco,quartos,banheiro,garagem,nome_da_regiao
0,2,h,3/12/2016,1480000.0,2.0,1.0,1.0,Northern Metropolitan
1,2,h,4/02/2016,1035000.0,2.0,1.0,0.0,Northern Metropolitan
2,3,h,4/03/2017,1465000.0,3.0,2.0,0.0,Northern Metropolitan
3,3,h,4/03/2017,850000.0,3.0,2.0,1.0,Northern Metropolitan
4,4,h,4/06/2016,1600000.0,3.0,1.0,2.0,Northern Metropolitan


In [114]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   comodos         13580 non-null  int64  
 1   tipo            13580 non-null  object 
 2   data_de_venda   13580 non-null  object 
 3   preco           13580 non-null  float64
 4   quartos         13580 non-null  float64
 5   banheiro        13580 non-null  float64
 6   garagem         13518 non-null  float64
 7   nome_da_regiao  13580 non-null  object 
dtypes: float64(4), int64(1), object(3)
memory usage: 848.9+ KB


In [115]:
df['tipo'].value_counts()

Unnamed: 0_level_0,count
tipo,Unnamed: 1_level_1
h,9449
u,3017
t,1114


In [116]:
df['tipo'] = df['tipo'].map({
    'h': 'Casa de Campo',
    'u': 'Apartamento',
    't': 'Casa de Cidade'
})

In [117]:
df['nome_da_regiao'].value_counts()

Unnamed: 0_level_0,count
nome_da_regiao,Unnamed: 1_level_1
Southern Metropolitan,4695
Northern Metropolitan,3890
Western Metropolitan,2948
Eastern Metropolitan,1471
South-Eastern Metropolitan,450
Eastern Victoria,53
Northern Victoria,41
Western Victoria,32


In [118]:
df['quartos'].value_counts()

Unnamed: 0_level_0,count
quartos,Unnamed: 1_level_1
3.0,5896
2.0,3737
4.0,2601
1.0,691
5.0,556
6.0,63
0.0,16
7.0,10
8.0,5
9.0,3


In [119]:
df.describe()

Unnamed: 0,comodos,preco,quartos,banheiro,garagem
count,13580.0,13580.0,13580.0,13580.0,13518.0
mean,2.937997,1075684.0,2.914728,1.534242,1.610075
std,0.955748,639310.7,0.965921,0.691712,0.962634
min,1.0,85000.0,0.0,0.0,0.0
25%,2.0,650000.0,2.0,1.0,1.0
50%,3.0,903000.0,3.0,1.0,2.0
75%,3.0,1330000.0,3.0,2.0,2.0
max,10.0,9000000.0,20.0,8.0,10.0


### Realizando cálculos

In [124]:
df['data_de_venda'] = pd.to_datetime(df['data_de_venda'], dayfirst=True)
df['anomes'] = df['data_de_venda'].dt.strftime('%Y-%m')

media_quartos_por_tipo = df.groupby(['anomes', 'tipo'])['preco'].mean().round(2).reset_index()

print(media_quartos_por_tipo)

     anomes            tipo       preco
0   2016-01     Apartamento   813000.00
1   2016-01   Casa de Campo  1205000.00
2   2016-02     Apartamento   539200.00
3   2016-02   Casa de Campo  1054796.88
4   2016-02  Casa de Cidade   808000.00
5   2016-04     Apartamento   552403.57
6   2016-04   Casa de Campo  1160086.36
7   2016-04  Casa de Cidade   816232.14
8   2016-05     Apartamento   572363.26
9   2016-05   Casa de Campo  1252945.54
10  2016-05  Casa de Cidade   860234.67
11  2016-06     Apartamento   601858.12
12  2016-06   Casa de Campo  1256691.53
13  2016-06  Casa de Cidade   908146.55
14  2016-07     Apartamento   560552.00
15  2016-07   Casa de Campo  1119036.52
16  2016-07  Casa de Cidade   848714.29
17  2016-08     Apartamento   568006.78
18  2016-08   Casa de Campo  1317419.13
19  2016-08  Casa de Cidade   847237.29
20  2016-09     Apartamento   595272.44
21  2016-09   Casa de Campo  1325125.96
22  2016-09  Casa de Cidade   911748.91
23  2016-10     Apartamento   605244.78


In [125]:
media_precos_regiao = df.groupby(['nome_da_regiao', 'tipo'])['preco'].mean().round(2).reset_index()

print(media_precos_regiao)

                nome_da_regiao            tipo       preco
0         Eastern Metropolitan     Apartamento   649314.44
1         Eastern Metropolitan   Casa de Campo  1197450.46
2         Eastern Metropolitan  Casa de Cidade   869619.92
3             Eastern Victoria     Apartamento   461333.33
4             Eastern Victoria   Casa de Campo   714299.64
5        Northern Metropolitan     Apartamento   544403.77
6        Northern Metropolitan   Casa de Campo  1021221.87
7        Northern Metropolitan  Casa de Cidade   749608.31
8            Northern Victoria   Casa de Campo   594829.27
9   South-Eastern Metropolitan     Apartamento   583364.86
10  South-Eastern Metropolitan   Casa de Campo   955949.62
11  South-Eastern Metropolitan  Casa de Cidade   913270.00
12       Southern Metropolitan     Apartamento   664860.01
13       Southern Metropolitan   Casa de Campo  1802241.08
14       Southern Metropolitan  Casa de Cidade  1205404.47
15        Western Metropolitan     Apartamento   488414.

In [126]:
preco_por_numero_comodos = df.groupby(['comodos', 'tipo'])['preco'].mean().round(2).reset_index()

In [127]:
print(preco_por_numero_comodos.index)

RangeIndex(start=0, stop=20, step=1)


### Gráficos e respostas às hipóteses levantadas

In [128]:
# Criar o gráfico de barras
fig = px.bar(
    preco_por_numero_comodos,
    x='comodos',
    y='preco',
    color='tipo',
    barmode='group',
    title='Relação entre Preço, Quantidade de Cômodos e Tipo de Imóvel'
)

fig.show()


De acordo com o gráfico acima, podemos chegar as seguintes conslusões:
1. Não temos residências com nove cômodos;
2. Casas de cidade possuem até cinco cômodos, e seu valor é, em geral, ascendente;
3. Casas com muitos cômodos não são muito comuns, e em consequência, não deve atrair um grande número de clientes - podemos observar este comportamento em casas de campo, onde conforme o número de cômodos ultrapassa os sete, o valor decai.

In [129]:
# Criar o gráfico de barras
fig = px.bar(
    media_precos_regiao,
    x='nome_da_regiao',
    y='preco',
    color='tipo',
    title='Relação entre região, tipo e preço de Imóvel'
)

fig.show()


De acordo com o gráfico acima, podemos chegar as seguintes conslusões:

1. As casas de campo são maioria em todas as regiões estudadas;
2. Não temos casa de cidade a venda em nenhum lugar da região de Victoria, e apenas em Eastern Victoria temos apartamentos a venda, e mesmo assim, estes são minoria;
3. O preço médio das casas em Southern Metropolitan é o maior de todos.

In [132]:
# Criar o gráfico de barras
fig = px.line(
    media_quartos_por_tipo,
    x='anomes',
    y='preco',
    color='tipo',
    title='Relação entre região, tipo e preço de Imóvel'
)

fig.show()


De acordo com o gráfico acima, podemos chegar as seguintes conslusões:

1. Apartamentos são os imóveis de menor preço, e o seu comportamento de venda é praticamente linear;
2. Casas de campo lideram como residências mais procuradas;
3. Em julho de 2017 notamos uma queda nas vendas de todos os tipos de residência.

### Verificando valores nulos no DF

In [135]:
df.isna().any()

Unnamed: 0,0
comodos,False
tipo,False
data_de_venda,False
preco,False
quartos,False
banheiro,False
garagem,True
nome_da_regiao,False
anomes,False


In [136]:
# Preenchendo valores nulos de garagem

df['garagem'].fillna(0, inplace=True)


A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.





In [137]:
df.isna().any()

Unnamed: 0,0
comodos,False
tipo,False
data_de_venda,False
preco,False
quartos,False
banheiro,False
garagem,False
nome_da_regiao,False
anomes,False
