# Web Scraping Student
## For: Michel Souza Santana
> Date start: 01/02/2022

* The purpose of this is to record the process of learning the WebScraping technique and make it available to anyone who wants to make use of it for their own development.

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import collections

In [6]:
df = pd.read_csv('/home/kali/Documentos/PROJETOS_ESTUDO/Imobiliario-BC-Regiao/imobiliario.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
0,0,Itajaí,Praia dos Amores,SC,Apartamento,203.53,4,4,1,2,7200000.0
1,1,Itajaí,Praia Brava,SC,Apartamento,185.12,3,3,1,3,5926273.63
2,2,Itajaí,Praia Brava,SC,Apartamento,210.0,4,4,1,4,6089548.34
3,3,Balneário Camboriú,Centro,SC,Apartamento,317.1,4,2,1,2,3300000.0
4,4,Balneário Camboriú,Centro,SC,Apartamento,185.63,3,3,4,4,6950000.0


In [7]:
df.drop(columns=['Unnamed: 0'], inplace=True)

In [8]:
df.shape

(483, 10)

In [9]:
df.isnull().sum()

cidade         0
bairro         0
estado         0
tipo_imovel    0
m2             0
quartos        0
suites         0
banheiros      0
vagas          0
preco          0
dtype: int64

In [10]:
df.duplicated().sum()

18

In [11]:
df = df.drop_duplicates()
df.shape

(465, 10)

In [12]:
df.head()

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
0,Itajaí,Praia dos Amores,SC,Apartamento,203.53,4,4,1,2,7200000.0
1,Itajaí,Praia Brava,SC,Apartamento,185.12,3,3,1,3,5926273.63
2,Itajaí,Praia Brava,SC,Apartamento,210.0,4,4,1,4,6089548.34
3,Balneário Camboriú,Centro,SC,Apartamento,317.1,4,2,1,2,3300000.0
4,Balneário Camboriú,Centro,SC,Apartamento,185.63,3,3,4,4,6950000.0


In [13]:
df.loc[df['tipo_imovel'] == 'Sítio']

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
316,Camboriú,Bairro Rio Pequeno,SC,Sítio,28650.74,3,1,3,2,4000000.0


In [14]:
df.drop([300], inplace=True)

In [15]:
df_m2 = pd.DataFrame.sort_values(df, by=['m2'], ascending=False).head(10)
df_m2

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
316,Camboriú,Bairro Rio Pequeno,SC,Sítio,28650.74,3,1,3,2,4000000.0
399,Balneário Camboriú,Barra,SC,Casa,753.0,5,5,8,5,8500000.0
404,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,600.0,6,6,6,4,21400000.0
52,Itajaí,Praia Brava,SC,Apartamento,548.14,4,4,1,3,8209224.83
311,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,475.0,6,6,8,6,24900000.0
5,Balneário Camboriú,Praia do Estaleiro,SC,Casa,458.0,5,4,1,4,20000000.0
435,Itapema,Meia Praia,SC,Cobertura,427.44,5,5,5,4,14541000.0
75,Itapema,Meia Praia,SC,Apartamento,427.44,5,5,1,4,14860000.0
469,Balneário Camboriú,Frente Mar,SC,Apartamento,380.0,4,3,5,2,6300000.0
56,Camboriú,Centro,SC,Casa,370.0,3,3,3,3,3750000.0


In [16]:
corr = df[['m2', 'quartos', 'suites', 'banheiros', 'preco']]

In [17]:
corr.corr()

Unnamed: 0,m2,quartos,suites,banheiros,preco
m2,1.0,0.021373,-0.038568,0.03926,0.052794
quartos,0.021373,1.0,0.779356,0.275429,0.629791
suites,-0.038568,0.779356,1.0,0.344135,0.622361
banheiros,0.03926,0.275429,0.344135,1.0,0.321744
preco,0.052794,0.629791,0.622361,0.321744,1.0


In [18]:
df.describe()

Unnamed: 0,m2,quartos,suites,banheiros,vagas,preco
count,464.0,464.0,464.0,464.0,464.0,464.0
mean,225.319763,3.3125,2.900862,2.377155,2.625,3530252.0
std,1324.846269,0.807213,1.178863,1.567073,1.044113,2905202.0
min,55.0,1.0,1.0,1.0,1.0,0.0
25%,122.62,3.0,2.0,1.0,2.0,1780000.0
50%,146.0,3.0,3.0,2.0,3.0,2755500.0
75%,185.2475,4.0,4.0,4.0,3.0,4510500.0
max,28650.74,6.0,6.0,8.0,8.0,24900000.0


In [19]:
collections.Counter(df['preco'] == 0)

Counter({False: 463, True: 1})

In [20]:
df.loc[df['preco'] == 0, 'preco'] = None

In [21]:
df.isnull().sum()

cidade         0
bairro         0
estado         0
tipo_imovel    0
m2             0
quartos        0
suites         0
banheiros      0
vagas          0
preco          1
dtype: int64

In [22]:
df = df.dropna()

In [23]:
df.describe()

Unnamed: 0,m2,quartos,suites,banheiros,vagas,preco
count,463.0,463.0,463.0,463.0,463.0,463.0
mean,225.386868,3.311015,2.898488,2.37365,2.62419,3537877.0
std,1326.278521,0.807452,1.179028,1.566947,1.045097,2903693.0
min,55.0,1.0,1.0,1.0,1.0,550000.0
25%,122.54,3.0,2.0,1.0,2.0,1781927.0
50%,146.0,3.0,3.0,2.0,3.0,2761000.0
75%,185.06,4.0,4.0,4.0,3.0,4521000.0
max,28650.74,6.0,6.0,8.0,8.0,24900000.0


In [24]:
df_preco = df.sort_values(by=('preco'), ascending=False).head(10)
df_preco

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
311,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,475.0,6,6,8,6,24900000.0
404,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,600.0,6,6,6,4,21400000.0
5,Balneário Camboriú,Praia do Estaleiro,SC,Casa,458.0,5,4,1,4,20000000.0
75,Itapema,Meia Praia,SC,Apartamento,427.44,5,5,1,4,14860000.0
115,Balneário Camboriú,Centro,SC,Apartamento,287.34,4,4,1,5,14750000.0
435,Itapema,Meia Praia,SC,Cobertura,427.44,5,5,5,4,14541000.0
177,Balneário Camboriú,Centro,SC,Apartamento,361.2,4,4,1,3,13046103.0
229,Itajaí,Praia Brava,SC,Apartamento,350.0,5,5,5,5,12800000.0
403,Itajaí,Praia Brava,SC,Apartamento,350.0,5,5,5,5,12500000.0
256,Balneário Camboriú,Centro,SC,Apartamento,230.86,4,4,4,4,11750000.0


In [25]:
df_merge = df_preco.merge(df_m2)

In [26]:
df_merge

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
0,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,475.0,6,6,8,6,24900000.0
1,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,600.0,6,6,6,4,21400000.0
2,Balneário Camboriú,Praia do Estaleiro,SC,Casa,458.0,5,4,1,4,20000000.0
3,Itapema,Meia Praia,SC,Apartamento,427.44,5,5,1,4,14860000.0
4,Itapema,Meia Praia,SC,Cobertura,427.44,5,5,5,4,14541000.0


In [27]:
df_agrupado = df.groupby(['cidade'])['preco'].mean().to_frame().sort_values(by=['preco'], ascending=False).reset_index()
df_agrupado

Unnamed: 0,cidade,preco
0,Itapema,8268200.0
1,Itajaí,4227048.0
2,Balneário Camboriú,3584330.0
3,Camboriú,1082120.0


In [28]:
df['cidade'].unique()

array([' Itajaí ', ' Balneário Camboriú ', ' Camboriú ', ' Itapema '],
      dtype=object)

In [29]:
df_itapema = df.loc[df['cidade'] == ' Itapema '].sort_values(by=['preco'], ascending=False).head(10)
df_itapema

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
75,Itapema,Meia Praia,SC,Apartamento,427.44,5,5,1,4,14860000.0
435,Itapema,Meia Praia,SC,Cobertura,427.44,5,5,5,4,14541000.0
76,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,1,3,4150000.0
73,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,1,3,3940000.0
436,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,4,3,3850000.0


In [30]:
df_bc = df.loc[df['cidade'] == ' Balneário Camboriú '].sort_values(by=['preco'], ascending=False).head(10)
df_bc

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
311,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,475.0,6,6,8,6,24900000.0
404,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,600.0,6,6,6,4,21400000.0
5,Balneário Camboriú,Praia do Estaleiro,SC,Casa,458.0,5,4,1,4,20000000.0
115,Balneário Camboriú,Centro,SC,Apartamento,287.34,4,4,1,5,14750000.0
177,Balneário Camboriú,Centro,SC,Apartamento,361.2,4,4,1,3,13046103.0
256,Balneário Camboriú,Centro,SC,Apartamento,230.86,4,4,4,4,11750000.0
348,Balneário Camboriú,Barra Sul,SC,Apartamento,226.61,4,4,5,2,10895000.0
13,Balneário Camboriú,Centro,SC,Apartamento,238.0,4,4,1,4,10500000.0
325,Balneário Camboriú,Frente Mar Barra Sul,SC,Apartamento,237.0,4,4,4,4,10300000.0
324,Balneário Camboriú,Frente Mar Barra Sul,SC,Apartamento,238.0,4,4,4,4,10300000.0


In [31]:
df_itajai = df.loc[df['cidade'] == ' Itajaí '].sort_values(by=['preco'], ascending=False).head(10)
df_itajai

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
229,Itajaí,Praia Brava,SC,Apartamento,350.0,5,5,5,5,12800000.0
403,Itajaí,Praia Brava,SC,Apartamento,350.0,5,5,5,5,12500000.0
266,Itajaí,Praia Brava,SC,Apartamento,226.07,4,4,1,4,9325179.16
326,Itajaí,Praia Brava,SC,Apartamento,268.0,4,4,4,4,9300000.0
265,Itajaí,Praia Brava,SC,Apartamento,226.07,4,4,1,4,9222179.78
166,Itajaí,Praia Brava,SC,Apartamento,226.0,4,4,1,4,8400000.0
52,Itajaí,Praia Brava,SC,Apartamento,548.14,4,4,1,3,8209224.83
328,Itajaí,Praia Brava,SC,Apartamento,207.0,4,4,4,4,7400000.0
0,Itajaí,Praia dos Amores,SC,Apartamento,203.53,4,4,1,2,7200000.0
51,Itajaí,Praia Brava,SC,Apartamento,361.58,4,4,1,4,7091211.98


In [32]:
df_camboriu = df.loc[df['cidade'] == ' Camboriú '].sort_values(by=['preco'], ascending=False).head(10)
df_camboriu

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
316,Camboriú,Bairro Rio Pequeno,SC,Sítio,28650.74,3,1,3,2,4000000.0
56,Camboriú,Centro,SC,Casa,370.0,3,3,3,3,3750000.0
454,Camboriú,Santa Regina,SC,Casa,233.02,3,3,3,5,2500000.0
329,Camboriú,Centro,SC,Sobrado,180.0,3,1,3,3,1400000.0
351,Camboriú,São Francisco de Assis,SC,Apartamento,116.0,3,1,1,2,1000000.0
350,Camboriú,São Francisco de Assis,SC,Apartamento,120.0,3,1,1,2,1000000.0
112,Camboriú,Tabuleiro,SC,Apartamento,98.84,2,2,1,1,999631.44
106,Camboriú,Tabuleiro,SC,Apartamento,96.93,3,1,1,2,969367.79
113,Camboriú,Tabuleiro,SC,Apartamento,93.87,2,2,1,1,951639.17
104,Camboriú,Tabuleiro,SC,Apartamento,93.94,3,1,1,2,931767.12


In [33]:
df_top = pd.concat([df_itapema, df_bc, df_itajai, df_camboriu], axis=0, join='inner')

In [34]:
df_top

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
75,Itapema,Meia Praia,SC,Apartamento,427.44,5,5,1,4,14860000.0
435,Itapema,Meia Praia,SC,Cobertura,427.44,5,5,5,4,14541000.0
76,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,1,3,4150000.0
73,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,1,3,3940000.0
436,Itapema,Meia Praia,SC,Apartamento,213.72,4,4,4,3,3850000.0
311,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,475.0,6,6,8,6,24900000.0
404,Balneário Camboriú,Frente Mar Barra Sul,SC,Cobertura,600.0,6,6,6,4,21400000.0
5,Balneário Camboriú,Praia do Estaleiro,SC,Casa,458.0,5,4,1,4,20000000.0
115,Balneário Camboriú,Centro,SC,Apartamento,287.34,4,4,1,5,14750000.0
177,Balneário Camboriú,Centro,SC,Apartamento,361.2,4,4,1,3,13046103.0


In [35]:
m_m2 = float(df_top['m2'].mean())
m_quartos = float(df_top['quartos'].mean())
m_vagas = float(df_top['vagas'].mean())
m_preco = float(df_top['preco'].mean())
print(f'Média de m2 {m_m2:.2f}')
print(f'Média de quartos {m_quartos:.2f}')
print(f'Média de vagas {m_vagas:.2f}')
print(f'Média de preco {m_preco:.2f}')

Média de m2 1081.94
Média de quartos 3.91
Média de vagas 3.40
Média de preco 8518065.84


In [36]:
df_melhor_custo = df_top.loc[df_top['preco'] <= (m_preco + 2000000)]
df_melhor_custo = df_melhor_custo.loc[df_melhor_custo['preco'] >= (m_preco - 2000000)]
df_melhor_custo

Unnamed: 0,cidade,bairro,estado,tipo_imovel,m2,quartos,suites,banheiros,vagas,preco
13,Balneário Camboriú,Centro,SC,Apartamento,238.0,4,4,1,4,10500000.0
325,Balneário Camboriú,Frente Mar Barra Sul,SC,Apartamento,237.0,4,4,4,4,10300000.0
324,Balneário Camboriú,Frente Mar Barra Sul,SC,Apartamento,238.0,4,4,4,4,10300000.0
266,Itajaí,Praia Brava,SC,Apartamento,226.07,4,4,1,4,9325179.16
326,Itajaí,Praia Brava,SC,Apartamento,268.0,4,4,4,4,9300000.0
265,Itajaí,Praia Brava,SC,Apartamento,226.07,4,4,1,4,9222179.78
166,Itajaí,Praia Brava,SC,Apartamento,226.0,4,4,1,4,8400000.0
52,Itajaí,Praia Brava,SC,Apartamento,548.14,4,4,1,3,8209224.83
328,Itajaí,Praia Brava,SC,Apartamento,207.0,4,4,4,4,7400000.0
0,Itajaí,Praia dos Amores,SC,Apartamento,203.53,4,4,1,2,7200000.0
