## Análise de dados de vendas de Imóveis

### Carregando *packages*

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### Carregando base de dados

In [2]:
df = pd.read_csv("dados_vendas_imoveis.csv")
df.head()

Unnamed: 0,Rua,Bairro,Cidade,Metragem,Quartos,Banheiros,Vagas,Valor,Valor_anuncio,Tipo_anuncio,...,V003,V004,V005,V006,V007,V008,V009,V010,V011,V012
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000,7000000.0,,...,2.66,2.04,3158.96,22210644.93,5570.65,25770816.97,2096.19,13029851.56,3930.35,17241576.74
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,496,4,4,4,R$ 3.700.000,3700000.0,,...,3.13,1.96,7600.44,36778930.17,7890.53,35886906.64,4149.0,26760682.9,6063.92,27502674.9
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000,380000.0,,...,3.47,3.06,805.13,769188.78,1011.75,757433.42,518.77,426672.78,858.51,414378.88
3,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000,540000.0,,...,3.0,1.99,2338.05,7826370.15,2447.89,7925839.76,1543.29,4646566.16,1909.04,5050712.69
4,Rua Graham Bell,Santo Amaro,São Paulo,440,4,4,6,R$ 1.980.000,1980000.0,,...,3.51,2.31,1026.36,272168.67,1143.96,167733.64,735.67,367088.08,1086.94,159622.46


### Explorando a base de dados

In [3]:
#Lista de variáveis
df.columns

Index(['Rua', 'Bairro', 'Cidade', 'Metragem', 'Quartos', 'Banheiros', 'Vagas',
       'Valor', 'Valor_anuncio', 'Tipo_anuncio', 'Valor_mm', 'Valor_m2', 'rua',
       'cep', 'latitude', 'longitude', 'Point', 'setor_censo', 'Cod_setor',
       'Cod_Grandes Regiï¿½es', 'Nome_Grande_Regiao', 'Cod_UF', 'Nome_da_UF ',
       'Cod_meso', 'Nome_da_meso', 'Cod_micro', 'Nome_da_micro', 'Cod_RM',
       'Nome_da_RM', 'Cod_municipio', 'Nome_do_municipio', 'Cod_distrito',
       'Nome_do_distrito', 'Cod_subdistrito', 'Nome_do_subdistrito',
       'Cod_bairro', 'Nome_do_bairro', 'Situacao_setor', 'Tipo_setor', 'V001',
       'V002', 'V003', 'V004', 'V005', 'V006', 'V007', 'V008', 'V009', 'V010',
       'V011', 'V012'],
      dtype='object')

In [4]:
#Filtrando base de dados por variáveis de interesse
df2 = df.iloc[:, 0:8]
df2.head()

Unnamed: 0,Rua,Bairro,Cidade,Metragem,Quartos,Banheiros,Vagas,Valor
0,"Avenida Itacira, 255",Planalto Paulista,São Paulo,1000,4,8,6,R$ 7.000.000
1,"Rua Aurelia Perez Alvarez, 42",Jardim dos Estados,São Paulo,496,4,4,4,R$ 3.700.000
2,Rua Alba Valdez,Jardim Reimberg,São Paulo,125,4,3,2,R$ 380.000
3,"Rua Tobias Barreto, 195",Mooca,São Paulo,100,3,2,2,R$ 540.000
4,Rua Graham Bell,Santo Amaro,São Paulo,440,4,4,6,R$ 1.980.000


In [5]:
#Data types de cada variável
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5605 entries, 0 to 5604
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Rua        5605 non-null   object
 1   Bairro     5597 non-null   object
 2   Cidade     5605 non-null   object
 3   Metragem   5605 non-null   int64 
 4   Quartos    5605 non-null   int64 
 5   Banheiros  5605 non-null   int64 
 6   Vagas      5605 non-null   int64 
 7   Valor      5605 non-null   object
dtypes: int64(4), object(4)
memory usage: 350.4+ KB


In [6]:
#Verificando missings
df2.isna().sum()

Rua          0
Bairro       8
Cidade       0
Metragem     0
Quartos      0
Banheiros    0
Vagas        0
Valor        0
dtype: int64

In [7]:
#Número de valores únicos de cada variável
df2.nunique()

Rua          2914
Bairro        591
Cidade          1
Metragem      744
Quartos        11
Banheiros      13
Vagas          21
Valor         775
dtype: int64

### Média da metragem de cada um dos bairros ordenada pelo número de anúncios

In [8]:
df2.groupby('Bairro') \
   .agg({'Bairro': 'count', 'Metragem':'mean'}) \
   .rename(columns = {'Bairro': 'Nº de anúncios', 'Metragem': 'Metragem média'}) \
   .sort_values(by = 'Nº de anúncios', ascending = False)[:10]

Unnamed: 0_level_0,Nº de anúncios,Metragem média
Bairro,Unnamed: 1_level_1,Unnamed: 2_level_1
Alto de Pinheiros,206,431.150485
Jardim Guedala,176,635.107955
Brooklin Paulista,143,302.426573
Vila Mariana,142,234.422535
Planalto Paulista,141,324.312057
Pacaembu,138,500.108696
Jardim Paulista,131,452.732824
Vila Madalena,122,315.631148
Campo Belo,98,280.316327
Sumaré,97,340.43299


### Tratando missing-Descobrindo as rua sem nome de bairros

In [9]:
rua_sem_bairro = list(df2.loc[df2['Bairro'].isna(), 'Rua'])
rua_sem_bairro

['Rua Vergueiro',
 'Rua Alvorada do Sul, 3773',
 'Rua Professor Eduardo Monteiro, 3773',
 'Avenida Comendador Adibo Ares, 3773',
 'Rua Alvorada do Sul, 3773',
 'Rua Professor Eduardo Monteiro, 3773',
 'Rua Professor Lúcio Martins Rodrigues, 3773',
 'Rua Pacobá, 3773']

In [10]:
#Filtrando o nome das ruas
rua_sem_bairro = list(map(lambda s: s.split(',')[0], rua_sem_bairro))
rua_sem_bairro

['Rua Vergueiro',
 'Rua Alvorada do Sul',
 'Rua Professor Eduardo Monteiro',
 'Avenida Comendador Adibo Ares',
 'Rua Alvorada do Sul',
 'Rua Professor Eduardo Monteiro',
 'Rua Professor Lúcio Martins Rodrigues',
 'Rua Pacobá']

In [11]:
#Descobrindo o nome do bairro correspondente a rua
bairro_correspondente = []
for rua in rua_sem_bairro:
    bairro = df2.loc[df2['Rua'] == rua, 'Bairro'].unique()
    if len(bairro) > 0:
        bairro_correspondente.append(bairro[0])
bairro_correspondente

['Vila Firmiano Pinto',
 'Jardim Guedala',
 'Jardim Leonor',
 'Morumbi',
 'Jardim Guedala',
 'Jardim Leonor',
 'Jardim Panorama']