# Conhecendo a base de dados

A base de dados a ser explorada será a de imóveis para aluguel no RJ. O CSV está disponível no Teams na aba "Arquivos" do canal Geral, pasta "Material de Aula".

Baixe o arquivo "aluguel.csv" do teams e faça upload aqui no Colab através da aba ao lado "Arquivos", ícone "Fazer upload".
Lembre-se que os arquivos enviados e gerados pelo Colab são apagados quando a sessão em uso expira!

## Importando os dados


In [None]:
import pandas as pd

In [None]:
arq = '/content/aluguel.csv'
dados = pd.read_csv(arq, sep=';')
dados

In [None]:
dados.head(10)

In [None]:
dados.tail()

In [None]:
type(dados)

## Características gerais da base de dados

Nesta seção, estudaremos o formato e composição da tabela de dados (DataFrame).
Mostraremos as dimensões da tabela (DataFrame) assim como a forma de selecionar os atributos do DF e verificar seus valores

In [None]:
dados.shape

In [None]:
dados.columns

In [None]:
dados.info()

In [None]:
dados['Tipo']

In [None]:
dados['Tipo'].unique()

In [None]:
dados[['Quartos', 'Valor']]

# Análise exploratória de dados

Nesta seção, responderemos algumas perguntas para que possamos adquirir conhecimentos sobre o dados que nossa base contém.

## Qual o valor médio de aluguel por tipo de imóvel?

In [None]:
dados.head()

In [None]:
dados.describe()

In [None]:
dados.groupby('Tipo').mean(numeric_only=True)

In [None]:
dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

In [None]:
df_preco_tipo = dados.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

df_preco_tipo.plot(kind='barh', figsize=(7, 5), color ='purple');

## Removendo os imóveis comerciais

Nossa imobiliária trabalha apenas com imóveis residenciais, então, removeremos os tipos não residenciais.

In [None]:
dados.Tipo.unique()

In [None]:
imoveis_residenciais = ['Quitinete', 'Casa', 'Apartamento','Casa de Condomínio','Flat', 'Casa de Vila','Terreno Padrão', 'Loft', 'Chácara', 'Loteamento/Condomínio',
       'Sítio', 'Studio']


In [None]:
df_residenciais = dados.query('@imoveis_residenciais in Tipo')

In [None]:
df_residenciais.head()

In [None]:
df_residenciais.Tipo.unique()

In [None]:
df_preco_tipo = df_residenciais.groupby('Tipo')[['Valor']].mean().sort_values('Valor')

df_preco_tipo.plot(kind='barh', figsize=(7, 5), color ='purple');

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

In [None]:
df_residenciais.Tipo.unique()

In [None]:
df_residenciais.Tipo.value_counts(normalize=True)

In [None]:
df_proporcao = df_residenciais.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')
df_proporcao['proportion'] = df_proporcao['proportion']*100
df_proporcao

In [None]:
df_percentual_tipo = df_residenciais.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

df_percentual_tipo.plot(kind='bar', figsize=(7, 5), color ='green',
                        xlabel = 'Tipos', ylabel = 'Percentual');

### **Selecionando apenas os imóveis do tipo apartamento**

Como 84% dos imóveis são apartamentos, faz sentindo restringir nosso escopo para apenas apartamentos

In [None]:
df_residenciais.query('Tipo == "Apartamento"')

In [None]:
df_apto = df_residenciais.query('Tipo == "Apartamento"')
df_apto.head()

# Pré-processamento

## Lidando com amostras duplicadas

In [None]:
df_apto.duplicated()

In [None]:
df_apto[df_apto.duplicated()]

In [None]:
df_apto = df_apto.drop_duplicates()
df_apto.head()

In [None]:
df_apto.shape

## Lidando com dados nulos

In [None]:
df_apto.isnull()

In [None]:
df_apto.isnull().sum()

Deletar apenas os apartamentos sem valor

In [None]:
df_apto = df_apto.dropna(subset=['Valor'])
df_apto.isnull().sum()

In [None]:
df_apto.fillna(0)

Os demais apartamentos, vou considerar que os valores de IPTU e Condomninio já estão inclusos no Valor, por isso, quero preencher estes valores com zero (0)

In [None]:
df_apto = df_apto.fillna(0)

In [None]:
df_apto.isnull().sum()

## Removendo registros

Por algum motivo, a imobiliária não trabalha com Apartamentos no Centro sem vagas garagem. Precisamos, portanto, remover estas amostras.

In [None]:
df_apto.query('Vagas == 0 & Bairro == "Centro"')

In [None]:
df_apto.query('Vagas == 0  & Bairro == "Centro"').index

In [None]:
indices_a_remover = df_apto.query('Vagas == 0 & Bairro == "Centro"').index

In [None]:
df_apto.drop(indices_a_remover, axis=0, inplace=True)

In [None]:
df_apto.query('Vagas == 0  & Bairro == "Centro"')

In [None]:
df_apto.head()

In [None]:
df_apto.Tipo.unique()

In [None]:
df_apto.drop('Tipo', axis=1, inplace=True)

In [None]:
df_apto.head()

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



In [None]:
df_apto['Quartos'] == 1

In [None]:
selecao1 = df_apto['Quartos'] == 1
df_apto[selecao1]

In [None]:
selecao2 = df_apto['Valor'] < 1200
df_apto[selecao2]

In [None]:
selecao_final = (selecao1) & (selecao2)
df_apto[selecao_final]

In [None]:
df_1 = df_apto[selecao_final]

### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

In [None]:
selecao = (df_apto['Quartos'] >= 2) & (df_apto['Valor'] < 3000) & (df_apto['Area'] > 70)
df_apto[selecao]

In [None]:
df_2 = df_apto[selecao]

## Salvando os dados das nossas duas consultas

In [None]:
df_1.to_csv('apartamentos-1.csv')

In [None]:
pd.read_csv('apartamentos-1.csv')

In [None]:
df_2.to_csv('apartamentos-2.csv', index=False)

In [None]:
pd.read_csv('apartamentos-2.csv')

In [None]:
df_apto.to_csv('apartamentos.csv', index=False, sep=';')

In [None]:
pd.read_csv('apartamentos.csv')

In [None]:
pd.read_csv('apartamentos.csv', sep=';')

# Manipulando os dados

## Criando colunas numéricas

In [None]:
df_apto.head()

In [None]:
df_apto['valor_por_ano'] = (df_apto['Valor'] + df_apto['Condominio']) * 12 + df_apto['IPTU']
df_apto.head()

In [None]:
df_apto['valor_medio_por_mes'] = df_apto['valor_por_ano'] / 12
df_apto.head()

## Criando colunas categóricas

In [None]:
df_apto['Possui_suite'] = df_apto['Suites'].apply(lambda x: "Sim" if x > 0 else "Não")
df_apto.head()

In [None]:
dados.to_csv('apartamentos.csv', index=False, sep=";")