# Relatorio - Media de valor dos imoveis por Bairro

In [1]:
import pandas as pd

In [4]:
dados = pd.read_csv('dados/imoveis_residenciais_sem_nulos.csv', sep = ';')
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m²,Tipo agregado
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,42.5,Apartamento
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,70.0,Casa
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.0,Apartamento
5,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,0.0,0.0,29.33,Casa
6,Casa de Condomínio,Ramos,2,2,0,65,1000.0,0.0,0.0,15.38,Casa
7,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
8,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
9,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0,50.0,Apartamento


In [5]:
# Faço a seleção de bairros manualmente de bairros que eu quero calulcar o valor médio
bairros = ['Barra da Tijuca', 'Copacabana', 'Ipanema', 'Leblon', 'Botafogo', 'Flamengo', 'Tijuca']
bairros

['Barra da Tijuca',
 'Copacabana',
 'Ipanema',
 'Leblon',
 'Botafogo',
 'Flamengo',
 'Tijuca']

In [6]:
# Faço um isin para que a gente possa ver qual faz parte da seleção
selecao = dados['Bairro'].isin(bairros)
selecao

0         True
1        False
2        False
3        False
4        False
         ...  
21821    False
21822    False
21823    False
21824    False
21825     True
Name: Bairro, Length: 21826, dtype: bool

In [7]:
# Jogo a seleção dentro de dados, para que ela possa criar um DF com as seleções
dados = dados[selecao]

In [8]:
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m²,Tipo agregado
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,42.50,Apartamento
5,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,0.0,0.0,29.33,Casa
9,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0,50.00,Apartamento
10,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,0.0,66.67,Apartamento
11,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0,53.50,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
21816,Apartamento,Leblon,3,0,1,80,3000.0,1010.0,249.0,37.50,Apartamento
21817,Apartamento,Ipanema,3,1,2,150,15000.0,1400.0,600.0,100.00,Apartamento
21818,Apartamento,Tijuca,1,0,0,28,1000.0,360.0,25.0,35.71,Apartamento
21820,Casa de Condomínio,Barra da Tijuca,5,3,4,450,15000.0,1711.0,2332.0,33.33,Casa


In [15]:
# Puxo o drop_duplicates para ver quais são os bairros no nosso novo dataframe, e ver se esta certo a seleção
dados['Bairro'].drop_duplicates()

0          Copacabana
5     Barra da Tijuca
15             Tijuca
19            Ipanema
23           Botafogo
27             Leblon
78           Flamengo
Name: Bairro, dtype: object

In [16]:
# Junto os bairros por groupby, que juntara todos os 'Barra da tijuca', 'Flamengo'... em apenas um
grupo_bairro = dados.groupby('Bairro')
grupo_bairro

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B144B69550>

In [17]:
# Com todos eles agrupados, podemos puxar apenas o valor dos bairros, e calcular a media de cada bairro
grupo_bairro['Valor'].mean()

Bairro
Barra da Tijuca    7069.552938
Botafogo           8791.828179
Copacabana         4126.677005
Flamengo           4113.526611
Ipanema            9352.001134
Leblon             8746.344992
Tijuca             2043.520000
Name: Valor, dtype: float64

In [19]:
# Arredondaremos para ficar algo mais apresentavel
(grupo_bairro[['Valor', 'Condominio']].mean()).round(2)

Unnamed: 0_level_0,Valor,Condominio
Bairro,Unnamed: 1_level_1,Unnamed: 2_level_1
Barra da Tijuca,7069.55,3591.01
Botafogo,8791.83,976.28
Copacabana,4126.68,1148.68
Flamengo,4113.53,1102.15
Ipanema,9352.0,2244.44
Leblon,8746.34,2107.18
Tijuca,2043.52,711.69


## Outra forma por laço de fazer a questão acima,apesas da de cima ser mais facil e rapido, é sempre bom praticar outros modos

In [26]:
'''você pode imaginar o 
for chave, valor in grupo_bairro:    
print(chave)
Se for utilizado apenas uma variável no for só pode ser acessado o valor:
for valor in grupo_bairro:
    // Erro, pois a chave não é passada
    print(chave)
'''
for bairro, dados in grupo_bairro:
    print('{} -> {}'.format(bairro, dados['Valor'].mean()))

Barra da Tijuca -> 7069.552938130986
Botafogo -> 8791.828178694159
Copacabana -> 4126.677004538578
Flamengo -> 4113.526610644258
Ipanema -> 9352.001133786847
Leblon -> 8746.344992050874
Tijuca -> 2043.52
