In [1]:
import pandas as pd
import plotly.express as px
import numpy as np

In [2]:
base_original = pd.read_parquet('../data/processed/base_casa.parquet')

In [3]:
base_original.columns

Index(['tipo_imovel', 'nome', 'preco', 'metragem', 'quarto', 'banheiro',
       'garagem', 'ID_CASA', 'bairro_teste'],
      dtype='object')

In [4]:
base_original.head()

Unnamed: 0,tipo_imovel,nome,preco,metragem,quarto,banheiro,garagem,ID_CASA,bairro_teste
0,Apartamento,"Apartamento com 2 Quartos à Venda, 65m²",310000.0,65,2,2,1,2699716579,Jardim Botânico
2,Apartamento,"Apartamento com 2 Quartos à Venda, 71m²",403500.0,71,2,2,2,2690493538,Bonfim Paulista
3,Apartamento,"Apartamento com 2 Quartos à Venda, 54m²",290000.0,54,2,2,1,2667652105,Nova Aliança
4,Apartamento,"Apartamento com 2 Quartos à Venda, 45m²",166420.0,45,2,1,1,2682840782,Conjunto Habitacional Jardim Das Palmeiras
5,Apartamento,"Apartamento com 2 Quartos à Venda, 64m²",370000.0,64,2,2,2,2688027260,Vila Ana Maria


In [5]:
base_original.duplicated().any()

True

In [6]:
base_original.shape

(19936, 9)

In [7]:
base_original.drop_duplicates(inplace=True)

In [8]:
base_original.shape

(15390, 9)

In [9]:
tipo_imovel = 'Apartamento'
base_original = base_original.query(f'tipo_imovel == "{tipo_imovel}"')
base_original

Unnamed: 0,tipo_imovel,nome,preco,metragem,quarto,banheiro,garagem,ID_CASA,bairro_teste
0,Apartamento,"Apartamento com 2 Quartos à Venda, 65m²",310000.0,65,2,2,1,2699716579,Jardim Botânico
2,Apartamento,"Apartamento com 2 Quartos à Venda, 71m²",403500.0,71,2,2,2,2690493538,Bonfim Paulista
3,Apartamento,"Apartamento com 2 Quartos à Venda, 54m²",290000.0,54,2,2,1,2667652105,Nova Aliança
4,Apartamento,"Apartamento com 2 Quartos à Venda, 45m²",166420.0,45,2,1,1,2682840782,Conjunto Habitacional Jardim Das Palmeiras
5,Apartamento,"Apartamento com 2 Quartos à Venda, 64m²",370000.0,64,2,2,2,2688027260,Vila Ana Maria
...,...,...,...,...,...,...,...,...,...
9967,Apartamento,"Apartamento com 3 Quartos à Venda, 81m²",540000.0,81,3,2,2,2696267182,Vila Do Golf
9968,Apartamento,"Apartamento com Quarto à Venda, 61m²",280000.0,61,1,1,1,2476716299,Centro
9969,Apartamento,"Apartamento com 3 Quartos à Venda, 83m²",375000.0,83,3,3,2,2693112449,Jardim São Luiz
9970,Apartamento,"Apartamento com 2 Quartos à Venda, 48m²",175000.0,48,2,1,1,2572455642,Lagoinha


- Metro mais caro

In [20]:
base_original['preco_por_metro'] = base_original['preco'] / base_original['metragem']

In [21]:
base_original

Unnamed: 0,tipo_imovel,nome,preco,metragem,quarto,banheiro,garagem,ID_CASA,bairro_teste,preco_por_metro
0,Apartamento,"Apartamento com 2 Quartos à Venda, 65m²",310000.0,65,2,2,1,2699716579,Jardim Botânico,4769.230769
2,Apartamento,"Apartamento com 2 Quartos à Venda, 71m²",403500.0,71,2,2,2,2690493538,Bonfim Paulista,5683.098592
3,Apartamento,"Apartamento com 2 Quartos à Venda, 54m²",290000.0,54,2,2,1,2667652105,Nova Aliança,5370.370370
4,Apartamento,"Apartamento com 2 Quartos à Venda, 45m²",166420.0,45,2,1,1,2682840782,Conjunto Habitacional Jardim Das Palmeiras,3698.222222
5,Apartamento,"Apartamento com 2 Quartos à Venda, 64m²",370000.0,64,2,2,2,2688027260,Vila Ana Maria,5781.250000
...,...,...,...,...,...,...,...,...,...,...
9946,Casa,"Casa com 3 Quartos à Venda, 144m²",399000.0,144,3,2,4,2622227362,Parque Residencial Cândido Portinari,2770.833333
9947,Casa,"Casa com 3 Quartos à Venda, 100m²",265000.0,100,3,2,4,2672360578,Dom Bernardo Jose Mielle,2650.000000
9948,Casa,"Casa com 2 Quartos à Venda, 81m²",185000.0,81,2,1,1,2615919718,Jardim Maria Das Graças,2283.950617
9949,Casa,"Casa com 3 Quartos à Venda, 222m²",430000.0,222,3,2,2,2631657528,Parque Ribeirão Preto,1936.936937


In [9]:
base_original.to_parquet('../data/processed/base_casa_v2.parquet')

In [11]:
base_original.groupby('bairro_teste') \
    .agg(
        preco_por_metro_bairro=('preco_por_metro', 'max')
    ).reset_index().sort_values(by='preco_por_metro_bairro', ascending=False)

Unnamed: 0,bairro_teste,preco_por_metro_bairro
9,Centro,44500.000000
94,Jardim Zara,24000.000000
145,Vila Amélia,22835.820896
102,Parque Dos Bandeirantes,21200.000000
58,Jardim Jose Wilson Toni,18000.000000
...,...,...
77,Jardim Piratininga,2881.355932
31,Jardim Angelo Jurca,2826.086957
64,Jardim Marchesi,2674.418605
112,Planalto Verde Vi,2650.000000


- Análise de preço por bairro

In [45]:
base_original.groupby('bairro_teste') \
    .agg(
        preco_medio=('preco', 'mean'),
        preco_max=('preco', 'max'),
    ).reset_index().sort_values(by='preco_max', ascending=False)

Unnamed: 0,bairro_teste,preco_medio,preco_max
34,Jardim Botânico,7.443894e+05,8000000.0
6,Bonfim Paulista,5.892700e+05,7451000.0
69,Jardim Olhos D Agua,1.042924e+06,7200000.0
48,Jardim Ilhas Do Sul,2.473534e+06,7123670.0
135,Residencial Morro Do Ipê,2.426780e+06,4300000.0
...,...,...,...
92,Jardim Valentina Figueiredo,1.400000e+05,140000.0
22,Engenheiro Carlos De Lacerda Chaves,1.310000e+05,131000.0
31,Jardim Angelo Jurca,1.290000e+05,130000.0
64,Jardim Marchesi,1.150000e+05,115000.0


# Preço Médio selecionando quantidade de quartos

In [12]:
base_original.query('quarto == 2').groupby(['bairro_teste', 'quarto']) \
    .agg(
        preco_medio=('preco', 'median'),
        preco_maximo=('preco', 'max'),
    ).reset_index()

Unnamed: 0,bairro_teste,quarto,preco_medio,preco_maximo
0,Adelino Simioni,2,222000.0,280000.0
1,Alamedas Do Botânico,2,666500.0,677000.0
2,Alto Da Boa Vista,2,274000.0,700000.0
3,Alto Do Ipiranga,2,226200.0,271000.0
4,Antonio Marincek,2,192500.0,255000.0
...,...,...,...,...
146,Vila Pompeia,2,150000.0,244000.0
147,Vila Seixas,2,320000.0,550000.0
148,Vila Tamandaré,2,250000.0,250000.0
149,Vila Tibério,2,315000.0,430000.0


# Preço Médio selecionando quantidade de banheiros

In [13]:
base_original.query('banheiro == 2').groupby(['bairro_teste', 'banheiro']) \
    .agg(
        preco_medio=('preco', 'median'),
        preco_maximo=('preco', 'max'),
    ).reset_index()

Unnamed: 0,bairro_teste,banheiro,preco_medio,preco_maximo
0,Alamedas Do Botânico,2,666500.0,677000.0
1,Alto Da Boa Vista,2,350000.0,700000.0
2,Alto Do Ipiranga,2,280000.0,325000.0
3,Bonfim Paulista,2,391500.0,630000.0
4,Bosque Das Juritis,2,550000.0,1700000.0
...,...,...,...,...
92,Vila Monte Alegre,2,299000.0,410000.0
93,Vila Seixas,2,319500.0,512000.0
94,Vila Tamandaré,2,230000.0,250000.0
95,Vila Tibério,2,390000.0,636000.0


# Preço Médio selecionando quantidade de garagem

In [14]:
base_original.query('garagem == 2').groupby(['bairro_teste', 'garagem']) \
    .agg(
        preco_medio=('preco', 'median'),
        preco_maximo=('preco', 'max'),
    ).reset_index()

Unnamed: 0,bairro_teste,garagem,preco_medio,preco_maximo
0,Alamedas Do Botânico,2,671500.0,677000.0
1,Alto Da Boa Vista,2,412500.0,925000.0
2,Alto Do Ipiranga,2,227500.0,240000.0
3,Bonfim Paulista,2,575000.0,1627000.0
4,Bosque Das Juritis,2,765000.0,2200000.0
...,...,...,...,...
82,Vila Monte Alegre,2,390000.0,410000.0
83,Vila Seixas,2,482500.0,750000.0
84,Vila Tibério,2,390000.0,636000.0
85,Vila Virginia,2,185000.0,329000.0


# Total de ímovel por bairro

In [15]:
base_original['bairro_teste'].value_counts().reset_index()

Unnamed: 0,bairro_teste,count
0,Jardim Botânico,739
1,Centro,736
2,Nova Aliança,661
3,Jardim Irajá,353
4,Jardim Paulista,315
...,...,...
154,Jardim Do Trevo,1
155,Jardim Juliana,1
156,Jardim Valentina Figueiredo,1
157,Zona Sul,1


# Análise de preço Selecionando bairro

In [16]:
bairro = 'Sumarezinho'

In [17]:
base_bairro = base_original.query(f'bairro_teste == "{bairro}" and tipo_imovel == "{tipo_imovel}" ')

In [18]:
base_bairro.describe()

Unnamed: 0,preco,metragem,quarto,banheiro,garagem,ID_CASA,preco_por_metro
count,118.0,118.0,118.0,118.0,118.0,118.0,118.0
mean,245524.661017,59.186441,2.127119,1.398305,1.042373,2630640000.0,4216.740586
std,72993.168146,15.749616,0.359168,0.508724,0.378799,50705660.0,956.877587
min,117000.0,44.0,2.0,1.0,0.0,2435754000.0,1923.076923
25%,195500.0,47.0,2.0,1.0,1.0,2599532000.0,3617.021277
50%,230000.0,56.0,2.0,1.0,1.0,2640957000.0,4144.780585
75%,270000.0,64.0,2.0,2.0,1.0,2669504000.0,4670.794548
max,590000.0,123.0,4.0,3.0,4.0,2698511000.0,6461.538462


In [19]:
print('Média: ', base_bairro['preco'].mean())
print('Mediana: ', base_bairro['preco'].median())
print('Móda: ', base_bairro['preco'].mode())
print('Preço Minimo', base_bairro['preco'].min())
print('Preco Máximo', base_bairro['preco'].max())

Média:  245524.66101694916
Mediana:  230000.0
Móda:  0    170000.0
Name: preco, dtype: float64
Preço Minimo 117000.0
Preco Máximo 590000.0


In [20]:
fig = px.histogram(base_bairro, x='preco', nbins=50)
fig.update_layout(bargap=0.1) 
fig.show()

In [21]:
base_bairro.select_dtypes(include=['int32', 'float']).corr()

Unnamed: 0,preco,metragem,quarto,banheiro,garagem,preco_por_metro
preco,1.0,0.54366,0.361851,0.61139,0.393858,0.636756
metragem,0.54366,1.0,0.586551,0.562429,0.375448,-0.270981
quarto,0.361851,0.586551,1.0,0.422183,0.085714,-0.093085
banheiro,0.61139,0.562429,0.422183,1.0,0.222141,0.167583
garagem,0.393858,0.375448,0.085714,0.222141,1.0,0.124551
preco_por_metro,0.636756,-0.270981,-0.093085,0.167583,0.124551,1.0


In [22]:
fig = px.scatter(base_bairro, x='metragem', y='preco', trendline='ols')
fig.show()

- Média de preço por metro por faixa Metragem

In [23]:
n = base_bairro.shape[0]
k = 1 + (10/3) * np.log10(n)
k = int(k)
faixas_metragem = pd.cut(base_bairro['metragem'], bins=k, include_lowest=True, right=False)
base_bairro.loc[:, 'faixa_metragem'] = faixas_metragem





A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [24]:
resultado = base_bairro.groupby('faixa_metragem', observed=True).agg(
    media_por_faixa_metragem=('preco', 'mean'),
    preco_maximo_metragem=('preco', 'max'),
).reset_index().sort_values(by='media_por_faixa_metragem', ascending=False)
resultado


Unnamed: 0,faixa_metragem,media_por_faixa_metragem,preco_maximo_metragem
6,"[111.714, 123.079)",460375.0,590000.0
1,"[55.286, 66.571)",291404.0,420000.0
4,"[89.143, 100.429)",286250.0,310000.0
2,"[66.571, 77.857)",271200.0,360000.0
3,"[77.857, 89.143)",256666.666667,300000.0
5,"[100.429, 111.714)",222500.0,245000.0
0,"[44.0, 55.286)",201847.457627,340000.0


- Média de preço por quantidade banheiro

In [25]:
base_bairro.columns

Index(['tipo_imovel', 'nome', 'preco', 'metragem', 'quarto', 'banheiro',
       'garagem', 'ID_CASA', 'bairro_teste', 'preco_por_metro',
       'faixa_metragem'],
      dtype='object')

In [26]:
base_bairro.groupby('banheiro') \
    .agg(
        media_de_preco_por_banheiro=('preco', 'mean'),
        preco_maximo_banheiro=('preco', 'max')
    ).reset_index().sort_values(by='media_de_preco_por_banheiro', ascending=False)

Unnamed: 0,banheiro,media_de_preco_por_banheiro,preco_maximo_banheiro
2,3,590000.0,590000.0
1,2,289242.444444,420000.0
0,1,213416.666667,410000.0


- Média de preço por quartos

In [27]:
base_bairro.groupby('quarto') \
    .agg(
        media_de_preco_por_quarto=('preco', 'mean'),
        preco_maximo_quarto=('preco', 'max'),
    ).reset_index().sort_values(by='media_de_preco_por_quarto', ascending=False)

Unnamed: 0,quarto,media_de_preco_por_quarto,preco_maximo_quarto
1,3,337907.692308,590000.0
0,2,234414.519231,420000.0
2,4,200000.0,200000.0


- Média de preço garagem

In [28]:
base_bairro.groupby('garagem') \
    .agg(
        media_de_preco_por_garagem=('preco', 'mean'),
        preco_maximo_garagem=('preco','max')

    ).reset_index().sort_values(by='media_de_preco_por_garagem', ascending=False)

Unnamed: 0,garagem,media_de_preco_por_garagem,preco_maximo_garagem
2,2,433000.0,590000.0
3,4,330750.0,330750.0
1,1,236886.880734,410000.0
0,0,218496.666667,328490.0


# 	- Identificar Outliers

In [29]:
def remove_outliers(df):
  
  num_cols = df.select_dtypes(include=[np.number]).columns
  for col in num_cols:
      Q1 = df[col].quantile(0.25)
      Q3 = df[col].quantile(0.75)
      IQR = Q3 - Q1
      lower_bound = Q1 - 1.5 * IQR
      upper_bound = Q3 + 1.5 * IQR
      df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]
  return df

In [30]:
df_outliers = remove_outliers(base_original)
df_outliers

Unnamed: 0,tipo_imovel,nome,preco,metragem,quarto,banheiro,garagem,ID_CASA,bairro_teste,preco_por_metro
0,Apartamento,"Apartamento com 2 Quartos à Venda, 65m²",310000.0,65,2,2,1,2699716579,Jardim Botânico,4769.230769
2,Apartamento,"Apartamento com 2 Quartos à Venda, 71m²",403500.0,71,2,2,2,2690493538,Bonfim Paulista,5683.098592
3,Apartamento,"Apartamento com 2 Quartos à Venda, 54m²",290000.0,54,2,2,1,2667652105,Nova Aliança,5370.370370
4,Apartamento,"Apartamento com 2 Quartos à Venda, 45m²",166420.0,45,2,1,1,2682840782,Conjunto Habitacional Jardim Das Palmeiras,3698.222222
5,Apartamento,"Apartamento com 2 Quartos à Venda, 64m²",370000.0,64,2,2,2,2688027260,Vila Ana Maria,5781.250000
...,...,...,...,...,...,...,...,...,...,...
9965,Apartamento,"Apartamento com 3 Quartos à Venda, 128m²",400000.0,128,3,3,1,2629905962,Centro,3125.000000
9967,Apartamento,"Apartamento com 3 Quartos à Venda, 81m²",540000.0,81,3,2,2,2696267182,Vila Do Golf,6666.666667
9969,Apartamento,"Apartamento com 3 Quartos à Venda, 83m²",375000.0,83,3,3,2,2693112449,Jardim São Luiz,4518.072289
9970,Apartamento,"Apartamento com 2 Quartos à Venda, 48m²",175000.0,48,2,1,1,2572455642,Lagoinha,3645.833333


In [36]:
df_outliers['bairro_teste'].value_counts().reset_index().nlargest(10, columns=['count'])

Unnamed: 0,bairro_teste,count
0,Centro,529
1,Nova Aliança,520
2,Jardim Botânico,441
3,Jardim Paulista,285
4,Jardim Irajá,248
5,Ribeirânia,196
6,Campos Eliseos,176
7,Jardim Palma Travassos,172
8,Ipiranga,162
9,Parque Industrial Lagoinha,146


- Preço por metro

In [44]:
df_outliers.groupby('bairro_teste').agg(
    preco_max=('preco', 'max'),
    preco_por_metro_max=('preco_por_metro', 'max'),
    preco_por_metro_media=('preco_por_metro', 'median')
).reset_index().nlargest(10, columns=['preco_max'])

Unnamed: 0,bairro_teste,preco_max,preco_por_metro_max,preco_por_metro_media
7,Bosque Das Juritis,975000.0,8918.918919,7063.295435
67,Jardim Olhos D Agua,972000.0,8840.57971,8133.049868
82,Jardim Saint Gerard,965001.0,6892.864286,6892.864286
6,Bonfim Paulista,960000.0,8253.968254,4833.245243
96,Nova Aliança,955000.0,8623.709677,5793.029595
34,Jardim Canadá,954000.0,8875.0,6940.47619
32,Jardim Botânico,950000.0,8936.170213,5760.869565
49,Jardim Irajá,900000.0,8750.0,4866.642959
134,Santa Cruz Do José Jacques,880000.0,8728.813559,5070.422535
65,Jardim Nova Aliança Sul,870000.0,8867.821429,5846.153846


In [40]:
df_outliers.groupby('bairro_teste').agg(
    preco_por_metro_max=('preco_por_metro', 'max'),
    preco_por_metro_media=('preco_por_metro', 'median')
).reset_index().nsmallest(10, columns=['preco_por_metro_max'])

Unnamed: 0,bairro_teste,preco_por_metro_max,preco_por_metro_media
93,Jose Figueira,2326.086957,2326.086957
110,Planalto Verde Vi,2650.0,2650.0
62,Jardim Marchesi,2674.418605,2442.978533
29,Jardim Angelo Jurca,2826.086957,2804.347826
75,Jardim Piratininga,2881.355932,2881.355932
59,Jardim Juliana,3000.0,3000.0
20,Engenheiro Carlos De Lacerda Chaves,3046.511628,3046.511628
143,Vila Elisa,3080.0,2859.444444
111,Portal Do Alto,3153.846154,3153.846154
45,Jardim Herculano Fernandes,3163.265306,3000.0


In [None]:
df_outliers.groupby('bairro_teste').agg(
    preco_por_metro_max=('preco_por_metro', 'max'),
    preco_por_metro_media=('preco_por_metro', 'median')
).reset_index()