In [193]:
import pandas as pd
import plotly.express as px

In [194]:
base_original = pd.read_parquet('../data/processed/base_casa.parquet')

In [195]:
base_original.columns

Index(['tipo_imovel', 'nome', 'preco', 'metragem', 'quarto', 'banheiro',
       'garagem', 'ID_CASA', 'bairro_teste'],
      dtype='object')

In [196]:
base_original.head()

Unnamed: 0,tipo_imovel,nome,preco,metragem,quarto,banheiro,garagem,ID_CASA,bairro_teste
0,Apartamento,"Apartamento com 2 Quartos à Venda, 65m²",310000.0,65,2,2,1,2699716579,Jardim Botânico
2,Apartamento,"Apartamento com 2 Quartos à Venda, 71m²",403500.0,71,2,2,2,2690493538,Bonfim Paulista
3,Apartamento,"Apartamento com 2 Quartos à Venda, 54m²",290000.0,54,2,2,1,2667652105,Nova Aliança
4,Apartamento,"Apartamento com 2 Quartos à Venda, 45m²",166420.0,45,2,1,1,2682840782,Conjunto Habitacional Jardim Das Palmeiras
5,Apartamento,"Apartamento com 2 Quartos à Venda, 64m²",370000.0,64,2,2,2,2688027260,Vila Ana Maria


In [197]:
base_original.duplicated().any()

True

In [198]:
base_original.shape

(19936, 9)

In [199]:
base_original.drop_duplicates(inplace=True)

In [200]:
base_original.shape

(15390, 9)

In [201]:
tipo_imovel = 'Apartamento'

# Preço Médio

In [202]:
base_original.groupby('bairro_teste') \
    .agg(
        preco_medio=('preco', 'median')
    ).reset_index()

Unnamed: 0,bairro_teste,preco_medio
0,Adelino Simioni,292000.0
1,Adão Do Carmo Leonel,290000.0
2,Alamedas Do Botânico,666500.0
3,Alphaville,2450000.0
4,Alta Vista,1200000.0
...,...,...
248,Vila Tamandaré,415000.0
249,Vila Tibério,360000.0
250,Vila Viginia,649999.0
251,Vila Virginia,230000.0


# Total de ímovel por bairro

In [203]:
base_original['bairro_teste'].value_counts().reset_index()

Unnamed: 0,bairro_teste,count
0,Centro,793
1,Jardim Botânico,754
2,Campos Eliseos,697
3,Nova Aliança,664
4,Ribeirânia,504
...,...,...
248,Flamboyant,1
249,Condominio San Remo I,1
250,Jardim Regatas,1
251,Condominio Quinta Da Alvorada,1


# Análise de preço por bairro

In [204]:
bairro = 'Sumarezinho'

In [225]:
base_bairro = base_original.query(f'bairro_teste == "{bairro}" and tipo_imovel == "{tipo_imovel}" ')

In [226]:
base_bairro.describe()

Unnamed: 0,preco,metragem,quarto,banheiro,garagem,ID_CASA
count,118.0,118.0,118.0,118.0,118.0,118.0
mean,245524.661017,59.186441,2.127119,1.398305,1.042373,2630640000.0
std,72993.168146,15.749616,0.359168,0.508724,0.378799,50705660.0
min,117000.0,44.0,2.0,1.0,0.0,2435754000.0
25%,195500.0,47.0,2.0,1.0,1.0,2599532000.0
50%,230000.0,56.0,2.0,1.0,1.0,2640957000.0
75%,270000.0,64.0,2.0,2.0,1.0,2669504000.0
max,590000.0,123.0,4.0,3.0,4.0,2698511000.0


In [227]:
print('Média: ', base_bairro['preco'].mean())
print('Mediana: ', base_bairro['preco'].median())
print('Móda: ', base_bairro['preco'].mode())
print('Preço Minimo', base_bairro['preco'].min())
print('Preco Máximo', base_bairro['preco'].max())

Média:  245524.66101694916
Mediana:  230000.0
Móda:  0    170000.0
Name: preco, dtype: float64
Preço Minimo 117000.0
Preco Máximo 590000.0


In [228]:
fig = px.histogram(base_bairro, x='preco', nbins=50)
fig.update_layout(bargap=0.1) 
fig.show()

In [229]:
base_bairro.select_dtypes(include=['int32', 'float']).corr()

Unnamed: 0,preco,metragem,quarto,banheiro,garagem
preco,1.0,0.54366,0.361851,0.61139,0.393858
metragem,0.54366,1.0,0.586551,0.562429,0.375448
quarto,0.361851,0.586551,1.0,0.422183,0.085714
banheiro,0.61139,0.562429,0.422183,1.0,0.222141
garagem,0.393858,0.375448,0.085714,0.222141,1.0


In [230]:
fig = px.scatter(base_bairro, x='metragem', y='preco', trendline='ols')
fig.show()