# Análise e tratamento de dados

## Data loading

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('../datasets/aluguel.csv',sep=';')

## Data exploration

In [3]:
dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [4]:
dados.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [5]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [6]:
dados.shape

(32960, 9)

In [7]:
dados.columns

Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')

**Quantidade de registros e atributos**

In [8]:
print('A base de dados possui {} registros de imóveis com {} atributos.'.format(dados.shape[0], dados.shape[1]))

A base de dados possui 32960 registros de imóveis com 9 atributos.


**Tipos de dados**

In [9]:
# formatando para dataframe
tipo_de_dados = pd.DataFrame(dados.dtypes, columns=['Tipos de dados'])
tipo_de_dados.columns.name='Variáveis'
tipo_de_dados

Variáveis,Tipos de dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


**Tipos de imóveis**

In [10]:
tipo_de_imovel = dados['Tipo']
tipo_de_imovel

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [11]:
# excluindo duplicatas
tipo_de_imovel = dados.Tipo.drop_duplicates()

In [12]:
# formatando para dataframe
tipo_de_imovel = pd.DataFrame(tipo_de_imovel)
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
7,Casa de Condomínio
16,Prédio Inteiro
17,Flat
29,Loja/Salão
80,Galpão/Depósito/Armazém
83,Casa Comercial


In [13]:
# alterar o index para o tamanho da series

# index atual
tipo_de_imovel.index

Index([    0,     1,     2,     3,     7,    16,    17,    29,    80,    83,
         117,   159,   207,   347,   589,  2157,  3354,  4379,  4721,  6983,
        9687, 23614],
      dtype='int64')

In [14]:
# quantidade de registros da series
tipo_de_imovel.shape[0]

22

In [15]:
# alterando o index
tipo_de_imovel.index = range(tipo_de_imovel.shape[0])
tipo_de_imovel.index

RangeIndex(start=0, stop=22, step=1)

In [16]:
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


In [17]:
# alterando o nome da coluna
tipo_de_imovel.columns.name = 'Id'
tipo_de_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


**Dados de imóveis residenciais**

In [18]:
# lista com os tipos para seleção de imóveis residenciais
list(dados.Tipo.drop_duplicates())

['Quitinete',
 'Casa',
 'Conjunto Comercial/Sala',
 'Apartamento',
 'Casa de Condomínio',
 'Prédio Inteiro',
 'Flat',
 'Loja/Salão',
 'Galpão/Depósito/Armazém',
 'Casa Comercial',
 'Casa de Vila',
 'Terreno Padrão',
 'Box/Garagem',
 'Loft',
 'Loja Shopping/ Ct Comercial',
 'Chácara',
 'Loteamento/Condomínio',
 'Sítio',
 'Pousada/Chalé',
 'Studio',
 'Hotel',
 'Indústria']

In [19]:
residencial = ['Quitinete',
 'Casa',
 'Apartamento',
 'Casa de Condomínio',
 'Casa de Vila']

residencial

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [20]:
dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [21]:
# filtrando dados residenciais
dados['Tipo'].isin(residencial).head()

0     True
1     True
2    False
3     True
4     True
Name: Tipo, dtype: bool

In [22]:
# armazenando filtro em variavel
selecao = dados['Tipo'].isin(residencial)
selecao

0         True
1         True
2        False
3         True
4         True
         ...  
32955     True
32956     True
32957     True
32958     True
32959    False
Name: Tipo, Length: 32960, dtype: bool

In [23]:
# armazenando somente dados residenciais
imoveis_residenciais = dados[selecao]
imoveis_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
32953,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [25]:
# conferindo seleção
list(imoveis_residenciais['Tipo'].drop_duplicates())

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [26]:
# quantidade de registros
imoveis_residenciais.Tipo.shape

(22580,)

In [27]:
# alterando indice para registros atuais
imoveis_residenciais.index = range(imoveis_residenciais.Tipo.shape[0])
imoveis_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [70]:
# exportando dataset para csv
# imoveis_residenciais.to_csv('../datasets/alguel_imoveis_residenciais.csv', sep=';', index=False)

In [28]:
# explorando NAs
imoveis_residenciais.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [29]:
# Valor

# registros com atributo Valor ausentes
imoveis_residenciais[imoveis_residenciais['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0


In [30]:
# removendo NAs do atributo Valor
imoveis_residenciais.dropna(subset=['Valor'], inplace=True)
imoveis_residenciais['Valor'].isnull().sum()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  imoveis_residenciais.dropna(subset=['Valor'], inplace=True)


0

In [32]:
# Condominio
imoveis_residenciais[imoveis_residenciais['Condominio'].isna()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
7,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
...,...,...,...,...,...,...,...,...,...
22510,Casa,Campo Grande,1,0,0,50,600.0,,
22516,Casa de Vila,Pavuna,2,0,0,55,600.0,,
22535,Casa,Recreio dos Bandeirantes,4,2,2,352,6500.0,,
22547,Casa,Bento Ribeiro,2,1,0,60,1400.0,,


In [33]:
# filtrando apartamentos com condominios com valores nulos
selecao = (imoveis_residenciais['Tipo'] == 'Apartamento') & (imoveis_residenciais['Condominio'].isnull())

In [34]:
imoveis_residenciais[selecao]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
8,Apartamento,Centro,1,0,0,36,1200.0,,
83,Apartamento,Praça Seca,2,0,0,80,1000.0,,
117,Apartamento,Rocha Miranda,2,1,0,50,1100.0,,
133,Apartamento,Barra da Tijuca,1,1,1,65,2350.0,,
...,...,...,...,...,...,...,...,...,...
22328,Apartamento,Copacabana,3,0,0,130,4600.0,,
22356,Apartamento,Guadalupe,1,0,0,40,550.0,,
22373,Apartamento,Bonsucesso,1,0,0,60,1000.0,,
22403,Apartamento,Flamengo,2,0,0,59,3500.0,,


745

In [79]:
residenciais = dados_residencial[~selecao].fillna({'Condominio': 0, 'IPTU': 0})
residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
5,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [80]:
residenciais.info()

<class 'pandas.core.frame.DataFrame'>
Index: 21826 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        21826 non-null  object 
 1   Bairro      21826 non-null  object 
 2   Quartos     21826 non-null  int64  
 3   Vagas       21826 non-null  int64  
 4   Suites      21826 non-null  int64  
 5   Area        21826 non-null  int64  
 6   Valor       21826 non-null  float64
 7   Condominio  21826 non-null  float64
 8   IPTU        21826 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.7+ MB


In [37]:
# frq apart

selecao = dados_residencial['Tipo'] == "Apartamento"
n1 = dados_residencial[selecao].shape[0]
n1

# dados_residencial.query('Tipo == "Apartamento"').shape[0] 


19532

In [39]:
# frq casa, casa de condominio e casa de vila
selecao = (dados_residencial.Tipo == 'Casa') | (dados_residencial.Tipo == 'Casa de Condomínio') | (dados_residencial.Tipo == 'Casa de Vila')
n2 = dados_residencial[selecao].shape[0]
n2

# dados_residencial.query('(Tipo == "Casa") | (Tipo == "Casa de Condomínio") | (Tipo == "Casa de Vila")').shape[0]

2212

In [46]:
# freq 60 100
selecao = (dados_residencial['Area'] >= 60) & (dados_residencial['Area'] <= 100)
n3 = dados_residencial[selecao].shape[0]
n3

# dados_residencial.query('(Area >= 60) & (Area <= 100)').shape[0]

8719

In [51]:
# freq 4 qrts menor que 2k
selecao = (dados_residencial['Quartos'] >= 4) & (dados_residencial['Valor'] < 2000)
n4 = dados_residencial[selecao].shape[0]
n4
# dados_residencial.query('(Quartos >=4) & (Valor<2000)').shape[0]

41

In [53]:
print(f"""
Nº de imóveis classificados com tipo 'Apartamento' = {n1}
Nº de imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila' = {n2}
Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites = {n3}
Nº de imóveis que possuem pelo menos 4 quartos e aluguel menor que R$ 2.000,00 = {n4}
"""
)


Nº de imóveis classificados com tipo 'Apartamento' = 19532
Nº de imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila' = 2212
Nº de imóveis com área entre 60 e 100 metros quadrados, incluindo os limites = 8719
Nº de imóveis que possuem pelo menos 4 quartos e aluguel menor que R$ 2.000,00 = 41



## data insights

- Quantos registros possuem a base da dados?
- Quais os tipos de dados da base de dados?
- Que variáveis possuem os registros?
- Quais são os tipos de imóveis?
- Quais são os registros de imóveis residenciais?
- Selecione somente os imóveis classificados com tipo 'Apartamento'.
- Selecione os imóveis classificados com tipos 'Casa', 'Casa de Condomínio' e 'Casa de Vila'.
- Selecione os imóveis com área entre 60 e 100 metros quadrados, incluindo os limites.
- Selecione os imóveis que tenham pelo menos 4 quartos e aluguel menor que R$ 2.000,00