# Análise de Dados Imobiliários

Este repositório contém uma solução para um desafio envolvendo análise de dados e é organizado de maneira detalhada e acessível, podendo ser entendida por quem é iniciante na linguagem Python, principalmente se tiver familiaridade com a biblioteca Pandas.

**Desafio:** Analisar, usando Python, os dados de uma empresa de imóveis e fazer o devido tratamento de dados, principalmente para os inúmeros valores nulos. O foco da análise são os imóveis residenciais, um subconjunto da base de dados original.

Estão disponibilizados neste repositório os seguintes arquivos: a base de dados, que contém informações de aproximadamente 33.000 imóveis; e a solução detalhada, em que estão explicações de como foram desenvolvidas ideias.

## Sumário

1. Bibliotecas usadas
2. Passo a passo do código
    * 2.1 Importar a base de dados
    * 2.2 Visualizar a base de dados
        * 2.2.1 Mostrar os tipos de dados
        * 2.2.2 Mostrar os tipos de imóveis
        * 2.2.3 Identificar os imóveis residenciais
    * 2.3 Tratar os dados
        * 2.3.1 Analisar as células vazias
    * 2.4 Analisar os dados
        * 2.4.1 Analisar Graficamente
3. Conclusões e comentários

## 1. Bibliotecas usadas 

As principais bibliotecas usadas: [Pandas](https://pandas.pydata.org/), pois estamos trabalhando com base de dados e sua manipulação e [Matplotlib Pyplot](https://matplotlib.org/3.5.3/api/_as_gen/matplotlib.pyplot.html), para fazer a construção de gráficos. Não é necesssário instalar nenhum deles, o Jupyter já as tem naturalmente.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

## 2. Passo a passo do código 


Vamos começar organizando o passo a passo do código, ou seja, a lógica de programação. Dessa maneira, temos:

* Passo 1: Importar a base de dados
* Passo 2: Visualizar a base de dados
    * 2.1 Mostrar os tipos de dados
    * 2.2 Mostrar os tipos de imóveis
    * 2.3 Identificar os imóveis residenciais
* Passo 3: Tratar os dados
    * 3.1 Analisar as células vazias
* Passo 4: Analisar os dados
    * 4.1 Analisar Graficamente

### 2.1 Importando a base de dados 
Importamos o arquivo, que está localizado na mesma pasta que está esse Jupyter Notebook, adicionando no comando que o separador de itens é o ponto e vírgula.

In [2]:
dados = pd.read_csv('Base de dados de imóveis.csv', sep = ';')

### 2.2 Visualizando a base de dados
Nessa etapa, vamos imprimir a tabela para entendermos como estão organizados os dados, quais informações estão disponíveis e ter um direcionamento para o tratamento de dados. Perceba que, ao importar uma tabela para o Python, usando o Pandas, ela se torna um Data Frame.

In [3]:
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [4]:
type(dados)

pandas.core.frame.DataFrame

In [5]:
dados.shape

(32960, 9)

In [6]:
print('A base de dados apresenta {} registros de imóveis e {} colunas com informações sobre os mesmos.'.format(dados.shape[0], dados.shape[1]))

A base de dados apresenta 32960 registros de imóveis e 9 colunas com informações sobre os mesmos.


#### 2.2.1 Mostrando os tipos de dados

Vamos começar usando a função "dados.info()", que retornar a quantidade de valores não nulos e o tipo de variável em cada coluna, com foco na segunda coluna.

In [7]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [8]:
dados.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [9]:
tipos_de_dados = pd.DataFrame(dados.dtypes, columns = ['Tipos de Dados'])
tipos_de_dados.columns.name = 'Variáveis'
tipos_de_dados

Variáveis,Tipos de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


#### 2.2.2 Mostrando os tipos de imóveis

Há diferentes maneiras de mostrar os tipos de imóveis da base de dados, vamos mostrar uma que deixa a tabela organizada.

In [10]:
dados['Tipo']

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [11]:
dados.Tipo

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [12]:
tipo_de_imovel = dados['Tipo']

In [13]:
type(tipo_de_imovel)

pandas.core.series.Series

In [14]:
tipo_de_imovel.drop_duplicates()

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [15]:
tipo_de_imovel

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [16]:
tipo_de_imovel.drop_duplicates(inplace = True)
tipo_de_imovel

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [17]:
tipo_de_imovel = pd.DataFrame(tipo_de_imovel)
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
7,Casa de Condomínio
16,Prédio Inteiro
17,Flat
29,Loja/Salão
80,Galpão/Depósito/Armazém
83,Casa Comercial


In [18]:
tipo_de_imovel.index

Int64Index([    0,     1,     2,     3,     7,    16,    17,    29,    80,
               83,   117,   159,   207,   347,   589,  2157,  3354,  4379,
             4721,  6983,  9687, 23614],
           dtype='int64')

In [19]:
print(f'Há {tipo_de_imovel.shape[0]} tipos de imóveis.')

Há 22 tipos de imóveis.


In [20]:
range(tipo_de_imovel.shape[0])

range(0, 22)

In [21]:
tipo_de_imovel.index = range(tipo_de_imovel.shape[0])

In [22]:
tipo_de_imovel.index

RangeIndex(start=0, stop=22, step=1)

In [23]:
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


In [24]:
tipo_de_imovel.columns.name = 'Id'
tipo_de_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


#### 2.2.3 Identificando os imóveis residenciais

Nessa seção, vou começar organizando uma tabela apenas com os imóveis residenciais, ou seja, observando a tabela "tipo_de_imovel", vamos selecionar apenas os que são dos tipos Quitinete, Casa, Apartamento, Casa de Condomínio e Casa de Vila. 

In [25]:
list(dados['Tipo'].drop_duplicates())

['Quitinete',
 'Casa',
 'Conjunto Comercial/Sala',
 'Apartamento',
 'Casa de Condomínio',
 'Prédio Inteiro',
 'Flat',
 'Loja/Salão',
 'Galpão/Depósito/Armazém',
 'Casa Comercial',
 'Casa de Vila',
 'Terreno Padrão',
 'Box/Garagem',
 'Loft',
 'Loja Shopping/ Ct Comercial',
 'Chácara',
 'Loteamento/Condomínio',
 'Sítio',
 'Pousada/Chalé',
 'Studio',
 'Hotel',
 'Indústria']

In [26]:
residencial = ['Quitinete',
 'Casa',
 'Apartamento',
 'Casa de Condomínio',
 'Casa de Vila']

In [27]:
selecao = dados['Tipo'].isin(residencial)
selecao

0         True
1         True
2        False
3         True
4         True
         ...  
32955     True
32956     True
32957     True
32958     True
32959    False
Name: Tipo, Length: 32960, dtype: bool

In [28]:
dados_residencial = dados[selecao]
dados_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
32953,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [29]:
list(dados_residencial['Tipo'].drop_duplicates())

['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [30]:
print(f'Temos {dados_residencial.shape[0]} imóveis residenciais, dentre os {dados.shape[0]} imóveis totais.')

Temos 22580 imóveis residenciais, dentre os 32960 imóveis totais.


In [31]:
dados_residencial.index = range(dados_residencial.shape[0])
dados_residencial

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [32]:
dados_residencial.to_csv('Base de dados de imóveis residenciais.csv', sep = ';')

### 2.3 Tratando os dados  

Voltamos a usar a função ".info()", agora com o foco nos números não nulos. Outras funções importantes são: ".isnull()" que reconstroí a tabela com valores boleanos, ou seja, "True" para os dados nulos e "False" para os não nulos e, sua antítese, ".notnull()".

In [33]:
dados_residencial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22580 entries, 0 to 22579
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        22580 non-null  object 
 1   Bairro      22580 non-null  object 
 2   Quartos     22580 non-null  int64  
 3   Vagas       22580 non-null  int64  
 4   Suites      22580 non-null  int64  
 5   Area        22580 non-null  int64  
 6   Valor       22571 non-null  float64
 7   Condominio  20765 non-null  float64
 8   IPTU        15795 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 1.6+ MB


In [34]:
dados_residencial.isnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,True
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True
4,False,False,False,False,False,False,False,True,True
...,...,...,...,...,...,...,...,...,...
22575,False,False,False,False,False,False,False,False,False
22576,False,False,False,False,False,False,False,False,False
22577,False,False,False,False,False,False,False,False,False
22578,False,False,False,False,False,False,False,False,False


In [35]:
dados_residencial.notnull()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,False,False
2,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,False
4,True,True,True,True,True,True,True,False,False
...,...,...,...,...,...,...,...,...,...
22575,True,True,True,True,True,True,True,True,True
22576,True,True,True,True,True,True,True,True,True
22577,True,True,True,True,True,True,True,True,True
22578,True,True,True,True,True,True,True,True,True


In [36]:
dados_residencial[dados_residencial['Valor'].isnull()]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
58,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
1492,Apartamento,Leme,2,0,0,75,,878.0,
1683,Casa,Campo Grande,3,4,3,363,,,
2012,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2034,Apartamento,Copacabana,2,0,0,72,,850.0,
4941,Casa,Campo Grande,3,2,1,100,,,
8568,Apartamento,Leme,2,0,1,75,,878.0,
8947,Apartamento,Glória,3,0,1,135,,910.0,228.0
9149,Apartamento,Gávea,3,1,1,105,,880.0,221.0
