# Notebook destinado ao tratamento de dados e identificação de outliers do dataset "Aluguel_csv", utilizando apenas PANDAS e MATPLOTLIB.

-----------------------------------------------------------------------------------------------------------------------------

## Sobre a base de dados:

### O referido dataset contém informações de imóveis localizados na cidade do Rio de Janeiro, com dados sobre:

* Tipo de imóvel: Apartamento, Casa, Casa de Condominio, Indústria, Terreno, Quitinete, Casa de Vila, entre outros.
* Bairro
* Número de quartos
* Vagas de Garagem
* Suítes
* Área útil
* Valor do aluguel do imóvel
* Valor do Condomínio
* IPTU

-----------------------------------------------------------------------------------------------------------------------------

#### Neste Notebook, levaremos em consideração apenas imóveis residenciais dos tipos:

* Quitinete
* Casa
* Apartamento
* Casa de Condomínio
* Casa de Vila

#### Os demais tipos de imóvel serão desconsiderados.

-----------------------------------------------------------------------------------------------------------------------------

#### PARTE I:

> Verificar todos os tipos de imóveis disponíveis no dataset;

> Selecionar todos os imóveis cujo tipo satisfaça a condição "ser imóvel residencial";

> Criar um novo dataset que contenha somente informações sobre imóveis residenciais.

-----------------------------------------------------------------------------------------------------------------------------

In [1]:
# Importação de bibliotecas:

import pandas as pd

In [2]:
# Importação do dataset:

dados = pd.read_csv('data/aluguel.csv', sep = ';')
dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [3]:
# Informações gerais sobre o dataset:

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [6]:
# Tipos de dados disponíveis no dataframe: formatando a apresentação

tipos_dados = pd.DataFrame(dados.dtypes, columns = ['Tipos de dados'])
tipos_dados.columns.name = 'Variáveis'
tipos_dados

Variáveis,Tipos de dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [10]:
# Criando uma variável para os tipos de imóvel disponíveis no dataset:

tipo_imovel = dados['Tipo']
tipo_imovel

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [11]:
# Visualizando quais são todos os tipos diferentes de imóveis disponíveis no dataset:

tipo_imovel.drop_duplicates(inplace = True)
tipo_imovel

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [17]:
# Tipos de imóvel disponíveis no dataframe: formatando a apresentação.

tipo_imovel = pd.DataFrame(tipo_imovel)
tipo_imovel.columns.name = 'Id'
tipo_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
7,Casa de Condomínio
16,Prédio Inteiro
17,Flat
29,Loja/Salão
80,Galpão/Depósito/Armazém
83,Casa Comercial


In [16]:
# Quero alterar os índices. Quantos elementos tem 'tipo_imovel'?

tipo_imovel.shape

(22, 1)

In [18]:
# Alterando os índices:

tipo_imovel.index = range(22)
tipo_imovel

Id,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


In [19]:
# Escolha dos tipos de imóveis relevantes para este projeto, isto é, imóveis residenciais:

tipo_residencial = ['Quitinete', 'Casa', 'Apartamento', 'Casa de Condomínio', 'Casa de Vila']

In [20]:
# Selecionando, dentro do dataset original, quais são os imóveis que atendem ao requisito (tipo_residencial):

selecao = dados['Tipo'].isin(tipo_residencial)
selecao

# Entendendo o resultado: Todos os itens marcados como TRUE satisfazem a condição, ou seja, são imóveis residenciais.

0         True
1         True
2        False
3         True
4         True
         ...  
32955     True
32956     True
32957     True
32958     True
32959    False
Name: Tipo, Length: 32960, dtype: bool

In [29]:
# Criando um novo dataframe, somente com imóveis residenciais:

dados_residenciais = dados[selecao]
dados_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
32953,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [23]:
# Confirmando quais são os tipos de imóveis existentes no novo dataframe:

dados_residenciais['Tipo'].drop_duplicates()

0               Quitinete
1                    Casa
3             Apartamento
7      Casa de Condomínio
117          Casa de Vila
Name: Tipo, dtype: object

In [30]:
# Inserindo novos índices no novo dataset:

dados_residenciais.index = range(22580)
dados_residenciais

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
3,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
4,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
...,...,...,...,...,...,...,...,...,...
22575,Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
22576,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
22577,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
22578,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [32]:
# Exportando o novo dataset:

dados_residenciais.to_csv('data/Aluguel_residencial.csv', sep = ';', index = False)

-----------------------------------------------------------------------------------------------------------------------------

#### PARTE II:

> Quantos são os imóveis classificados como tipo 'Apartamento'?

> Quantos são os imóveis do tipo 'Casa', 'Casa de condomínio', 'Casa de Vila'?

> Quantos são os imóveis com área entre 60 e 100m2, inclusive?

> Quantos são os imóveis que tenham, pelo menos, 4 quartos e aluguel menor que R$2000?

-----------------------------------------------------------------------------------------------------------------------------

In [37]:
# Seleção dos imóveis do tipo 'Apartamento':

selecao = dados_residenciais['Tipo'] == 'Apartamento'
q1 = dados_residenciais[selecao].shape
q1

(19532, 9)

In [38]:
# Seleção dos imóveis do tipo 'Casa', 'Casa de Condomínio', 'Casa de Vila':

selecao = (dados_residenciais['Tipo'] == 'Casa') | (dados_residenciais['Tipo'] == 'Casa de Condomínio') | (dados_residenciais['Tipo'] == 'Casa de Vila')
q2 = dados_residenciais[selecao].shape
q2

(2212, 9)

In [44]:
# Seleção dos imóveis com área entre 60 e 100m2, inclusive:

selecao = (dados_residenciais['Area'] >= 60) & (dados_residenciais['Area'] <= 100)
q3 = dados_residenciais[selecao].shape
q3

(8719, 9)

In [45]:
# Selecionar os imóveis que tenham, pelo menos, 4 quartos e aluguel menor que R$2000:

selecao = (dados_residenciais['Quartos'] >= 4) & (dados_residenciais['Valor'] < 2000)
q4 = dados_residenciais[selecao].shape
q4

(41, 9)

In [46]:
# Apresentação do resultado:

print(f'Existem {q1} imóveis do tipo Apartamento disponíveis.')
print(f'Existem {q2} imóveis dos tipos Casa, Casa de Condomínio ou Casa de Vila disponíveis.')
print(f'Existem {q3} imóveis com área entre 60 e 100 metros quadrados disponíveis.')
print(f'Existem {q4} imóveis com, pelo menos, 4 quartos e aluguel inferior a R$2000 disponíveis.')

Existem (19532, 9) imóveis do tipo Apartamento disponíveis.
Existem (2212, 9) imóveis dos tipos Casa, Casa de Condomínio ou Casa de Vila disponíveis.
Existem (8719, 9) imóveis com área entre 60 e 100 metros quadrados disponíveis.
Existem (41, 9) imóveis com, pelo menos, 4 quartos e aluguel inferior a R$2000 disponíveis.
