# Relatório de Análise VII

Neste sétimo relatório, vamos obter estatísticas descritivas de nossa base de dados. Esta tarefa será uma preparação para identificarmos os dados discrepantes de nossa base para uma posterior remoção.

## Estatísticas Descritivas

In [1]:
# Importa o pandas com o apelido pd
import pandas as pd

# Importa o módulo os
import os

# Muda para o diretório com os dados
os.chdir('dados')

# Importa o CSV com os dados de imóveis residenciais
imoveis = pd.read_csv('imoveis-residenciais.csv', sep=';')

# Exibe as cinco primeiras linhas do dataframe
imoveis.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor Bruto,Tipo Agregado
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2260.0,Apartamento
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0,7000.0,Casa
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1210.0,Apartamento
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,1030.0,Apartamento
4,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,1618.0,Apartamento


In [2]:
# Obtém o valor médio dos aluguéis
imoveis['Valor'].mean()

5046.172821405663

Para o conjunto de dados disponível, a média dos valores dos aluguéis é de **R$ 5.046,17**. Desejamos, porém, obter o valor médio do aluguel para cada um dos tipos de imóveis. Para obter esta informação, precisamos fazer agrupamentos no dataframe:

In [3]:
imoveis.groupby('Tipo')['Valor'].mean()

Tipo
Apartamento            4805.295740
Casa                   6793.454922
Casa de Condomínio    11952.061245
Casa de Vila           1574.369478
Quitinete              1246.840909
Name: Valor, dtype: float64

In [9]:
# Obtém uma série com os bairros em que os imóveis estão localizados
imoveis['Bairro'].drop_duplicates()

0             Copacabana
1        Jardim Botânico
2                 Centro
3           Higienópolis
4               Cachambi
              ...       
13855          Bancários
15277         Cavalcanti
15280       Rio da Prata
15412      Cidade Jardim
16428        Coelho Neto
Name: Bairro, Length: 152, dtype: object

In [10]:
bairros = ['Barra da Tijuca', 'Copacabana', 'Ipanema', 'Botafogo', 'Flamengo', 'Leblon', 'Tijuca']
bairros

['Barra da Tijuca',
 'Copacabana',
 'Ipanema',
 'Botafogo',
 'Flamengo',
 'Leblon',
 'Tijuca']

In [11]:
# Filtro para selecionar somente os imóveis que estão na lista com os bairros de interesse
filtro = imoveis['Bairro'].isin(bairros)

# Filtra o dataframe
imoveis = imoveis[filtro]

# Exibe os bairros distintos da coluna `Bairro`
imoveis['Bairro'].drop_duplicates()

0          Copacabana
5     Barra da Tijuca
15             Tijuca
19            Ipanema
23           Botafogo
27             Leblon
78           Flamengo
Name: Bairro, dtype: object

In [12]:
# Obtém o valor médio do aluguel para cada bairro
imoveis.groupby('Bairro')['Valor'].mean().round(2)

Bairro
Barra da Tijuca    7069.55
Botafogo           8791.83
Copacabana         4126.68
Flamengo           4113.53
Ipanema            9352.00
Leblon             8746.34
Tijuca             2043.52
Name: Valor, dtype: float64

In [13]:
# Obtém um conjunto de medidas acerca da variável aluguel
imoveis.groupby('Bairro')['Valor'].agg(['count', 'min', 'mean', 'median', 'max'])

Unnamed: 0_level_0,count,min,mean,median,max
Bairro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barra da Tijuca,3863,800.0,7069.552938,4500.0,600000.0
Botafogo,873,700.0,8791.828179,3000.0,4500000.0
Copacabana,2644,100.0,4126.677005,3000.0,35000.0
Flamengo,714,800.0,4113.526611,2900.0,35000.0
Ipanema,1764,1200.0,9352.001134,7000.0,90000.0
Leblon,1258,100.0,8746.344992,7000.0,100000.0
Tijuca,1100,750.0,2043.52,1800.0,45000.0


In [11]:
# Obtém um resumo mais completo acerca dos valores da variável `Valor`
imoveis.groupby('Bairro')['Valor'].describe().round(2)

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Bairro,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Barra da Tijuca,3863.0,7069.55,11874.15,800.0,2500.0,4500.0,8500.0,600000.0
Botafogo,873.0,8791.83,152202.41,700.0,2200.0,3000.0,4350.0,4500000.0
Copacabana,2644.0,4126.68,3611.41,100.0,2000.0,3000.0,4800.0,35000.0
Flamengo,714.0,4113.53,3839.13,800.0,1900.0,2900.0,4975.0,35000.0
Ipanema,1764.0,9352.0,8219.72,1200.0,4500.0,7000.0,11000.0,90000.0
Leblon,1258.0,8746.34,7004.04,100.0,4500.0,7000.0,10500.0,100000.0
Tijuca,1100.0,2043.52,1664.34,750.0,1500.0,1800.0,2300.0,45000.0


In [14]:
# Exporta o dataframe para análises posteriores
imoveis.to_csv('imoveis-residenciais.csv', sep=';', index=False)