# Projeto 01: Análise dos Aluguéis do Rio de Janeiro com Python
Usando Python para analisar os dados de um dataset fictício dos alugueis do Rio de Janeiro

## Objetivos: 
Este dataset faz parte do treinamento de Pandas da Alura e o objetivo desse projeto é expandir o conhecimento adquirido no treinamento para além das funções básicas, utilizando outros recursos e outras formas de explorar esse dataset e promover uma análise sobre os dados.

### Explorando o dataset

In [17]:
# Registrando a versão do Python
versao =!python -V
print('Versão: ', versao)

Versão:  ['Python 3.8.8']


In [18]:
# Importando bibliotecas
import pandas as pd

In [19]:
# Importando dataset
df = pd.read_csv('dataset/aluguel.csv', sep=';')

#### Dicionário das variáveis

<b>Tipo :</b>Tipo do imóvel</br>
<b>Bairro: </b>Bairro onde está localizado</br>
<b>Quartos: </b>Quantidade de quartos do imóvel</br>
<b>Vagas: </b>Quantidade de vagas do imóvel</br>
<b>Suítes: </b>Quantidade de suítes do ímovel</br>
<b>Área: </b>Área do imóvel</br>
<b>Valor: </b>Valor do Aluguel do imóvel</br>
<b>Condomínio: </b>Valor do condomínio dos imóveis que possuem</br>
<b>IPTU: </b>Valor do IPTU do imóvel</br>
<b>Valor por m²: </b>Valor do m² do imóvel. Variável será criada </br>

In [20]:
# Visualizando os 5 primeiros registros do dataset
df.head(5)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [21]:
# Número de linhas e colunas inciais
df.shape

(32960, 9)

## Limpeza e Transformação

In [22]:
# Inserindo um nome para a coluna 
df.columns.name='ID'
df.head(5)

ID,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [23]:
# Informações dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [24]:
# Definindo uma função para visualizar o total de nulos e seu percentual
def nulos(df):
    total = df.isnull().sum() 
    percent = df.isnull().sum()/df.isnull().count()
    missing_data = pd.concat([total, percent], axis=1, sort=False, keys=['total', 'percent'])
    missing_data[missing_data['percent']!=0]
    return missing_data

In [25]:
nulos(df)

Unnamed: 0_level_0,total,percent
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
Tipo,0,0.0
Bairro,0,0.0
Quartos,0,0.0
Vagas,0,0.0
Suites,0,0.0
Area,0,0.0
Valor,17,0.000516
Condominio,4093,0.124181
IPTU,10237,0.310589


### Tratando a variável VALOR

In [26]:
df[df['Valor'].isnull()].shape[0]

17

In [27]:
# Removendo missing values
A = df.shape[0]
df.dropna(subset = ['Valor'], inplace = True)
B = df.shape[0]
A - B

17

In [29]:
# Verificando se ainda há registro nulo para valor
df[df['Valor'].isnull()].shape[0]

0

### Tratando a variável CONDOMÍNIO

In [37]:
df[df['Condominio'].isnull()].shape[0]

3344

In [38]:
# Selecionando os registros dos apartamentos sem valor de condominio
selecao1 = (df['Tipo'] == 'Apartamento') & (df['Condominio'].isnull())

In [39]:
# Removendo registros
A = df.shape[0]
df = df[~selecao1] # colocamos o '~' na frente da seleção para que ele inverta a seleção 
B = df.shape[0]
A - B

0

In [40]:
# Verificando quantos registros nulos ficarão após a remoção
df[df['Condominio'].isnull()].shape[0]

3344

### Tratando as variáveis CONDOMÍNIO e IPTU

In [41]:
# Para os registros que permanecerem com valor nulo, vamos atribuir o valor 0
df = df.fillna({'Condominio': 0, 'IPTU': 0})
df

ID,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,0.0,0.0
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,0.0


In [None]:
# Chamando a função de nulo para verif