# Conhecendo a base de dados

## Importando os dados


In [None]:
import pandas as pd

In [None]:
bd = pd.read_csv('data/aluguel.csv' , sep = ';')
bd.head(10) #mostra as 10 primeiras linhas

In [None]:
bd.tail(10) #mostra as 10 ultimas linhas


In [None]:
type(bd) #mostra o tipo do objeto

In [None]:
bd.shape #mostra a quantidade de linhas e colunas

In [None]:
bd.columns #mostra o nome das colunas

In [None]:
bd.info() #mostra informações sobre o dataframe

## Características gerais da base de dados

In [None]:
# a = bd['Tipo'] #mostra a coluna tipo
# a.unique() #mostra os valores unicos da coluna tipo

# Análise exploratória de dados

## Qual o valor médio de aluguel por tipo de imóvel?

In [None]:
bd['Valor'].mean() #mostra a media dos valores da coluna valor

In [None]:
bd.groupby('Tipo').mean(numeric_only=True) #mostra a media dos valores agrupados por tipo

In [None]:
bd.groupby('Tipo')[['Valor']].mean().sort_values('Valor')


In [None]:
df_preco_tipo = bd.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color ='purple');

## Removendo os imóveis comerciais

In [None]:
bd.Tipo.unique() #mostra os valores unicos da coluna tipo

In [None]:
imoveis_residenciais = ['Quitinete' , 'Casa' , 'Apartamento' , 'Casa de Condomínio' , 'Flat' , 'Casa de Vila' , 'Loft' , 'Studio']
                                            

In [None]:
df = bd.query('@imoveis_residenciais in Tipo') #Seleciona da minha base de dados apenas 
                                        #os imovéis comerciais presentes na minha lista imoveis_comerciais


In [None]:
df.Tipo.unique() #mostra os valores unicos da coluna tipo

In [None]:
df_preco_tipo = df.groupby('Tipo')[['Valor']].mean().sort_values('Valor')
df_preco_tipo.plot(kind='barh', figsize=(14, 10), color ='purple');

## Qual o percentual de cada tipo de imóvel na nossa base de dados?

In [None]:
df.Tipo.value_counts(normalize=True)

In [None]:
df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo') #to_frame transforma uma Series em dataframe

In [None]:
df_percentual_tipo = df.Tipo.value_counts(normalize=True).to_frame().sort_values('Tipo')

df_percentual_tipo.plot(kind='bar', figsize=(14, 10), color ='green', xlabel='Tipos' , ylabel='Percentual' , title='Percentual de imóveis por tipo');

### **Selecionando apenas os imóveis do tipo apartamento**

In [None]:
df.query('Tipo == "Apartamento"')

In [None]:
df = df.query('Tipo == "Apartamento"')
df.head(10)

# Tratando e filtrando os dados

## Lidando com dados nulos

In [None]:
df.isnull() # mostra os valores nulos

In [None]:
df.isnull().sum() #mostra a quantidade de valores nulos

In [None]:
df = df.fillna(0)


In [None]:
df.isnull().sum()  

## Removendo registros

In [None]:
df.query('Valor == 0 | Condominio == 0')

In [None]:
df.query('Valor == 0 | Condominio == 0').index #mostra os indices dos valores nulos

In [None]:
registros_a_remover = df.query('Valor == 0 | Condominio == 0').index #mostra os indices dos valores nulos

In [None]:
df.drop(registros_a_remover, axis=0 , inplace=True) #remove os valores nulos

In [None]:
df.query('Valor == 0 | Condominio == 0')

In [None]:
# Dados que existe apenas o tipo Apartamento na Coluna Tipo, podemos tirar também a coluna Tipo 
# Lembrando que o parâmetro axis no método drop se refere a 0=linha , 1=coluna. Como quero excluir a Coluna Tipo, usarei axis=1
# Inplace=True para que a alteração seja feita no próprio DataFrame, sem a necessidade de criar um novo DataFrame ou atribuir ao dataframe antigo.

df.drop('Tipo', axis=1, inplace=True)


In [None]:
df.head(10)

## Filtros

### **1. Apartamentos que possuem `1 quarto` e `aluguel menor que 1200`**



In [None]:
df_query_1 = df.query('Quartos == 1 & Valor < 1200')

df_query_1

In [None]:
# Salvando DataFrame em um arquivo CSV

df_query_1.to_csv('aluguel_menor_1200.csv', sep=';', index=False)

In [None]:
# Visualizando Dataframe novo

df_query_1 = pd.read_csv('aluguel_menor_1200.csv', sep=';')
df_query_1.head(10)

### **2. `Apartamentos` que possuem pelo menos `2 quartos`, `aluguel menor que 3000` e `area maior que 70`**

In [None]:
df_query_2 = df.query('Quartos >= 2 & Valor < 3000 & Area > 70')
df_query_2

In [None]:
# Salvando Dados de apartamentos com 2 quartos ou mais, aluguel menor que 3000 e área maior que 70m²

df_query_2.to_csv('aluguel_menor_3000_maior_70.csv', sep=';', index=False)

## Salvando os dados

In [None]:
df.to_csv('dados_apartamentos.csv')

In [None]:
pd.read_csv('dados_apartamentos.csv')

In [None]:
df.to_csv('dados_apartamentos.csv' , index=False)

In [None]:
pd.read_csv('dados_apartamentos.csv')

In [None]:
df.to_csv('dados_apartamentos.csv' , index=False , sep=';')

In [None]:
pd.read_csv('dados_apartamentos.csv' , sep=';')

# Manipulando os dados

## Criando colunas numéricas

In [None]:
import pandas
dados = pd.read_csv('./data/aluguel.csv' , sep = ';')
dados.head(10)


In [108]:
dados['Valor_por_mes'] = dados['Valor'] + dados['Condominio']

dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_mes
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2200.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,9220.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1190.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,,1030.0


In [112]:
dados['Valor_por_ano'] = ( dados['Valor_por_mes'] * 12) + dados['IPTU']

dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_mes,Valor_por_ano
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2200.0,26460.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,9220.0,111751.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1190.0,14300.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,,1030.0,


## Criando colunas categóricas

In [113]:
dados['Descricao'] = dados['Tipo'] + ' em ' + dados['Bairro'] + ' com ' + \
                                        dados['Quartos'].astype(str) + ' quarto(s) ' + \
                                        ' e ' + dados['Vagas'].astype(str) + ' vaga(s) de garagem.'
dados.head()

# o método astype() é utilizado para converter o tipo de uma coluna. No caso, estamos convertendo a coluna Quartos e Vagas para string.

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_mes,Valor_por_ano,Descricao
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2200.0,26460.0,Quitinete em Copacabana com 1 quarto(s) e 0 v...
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,,,,Casa em Jardim Botânico com 2 quarto(s) e 0 v...
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,9220.0,111751.0,Conjunto Comercial/Sala em Barra da Tijuca com...
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1190.0,14300.0,Apartamento em Centro com 1 quarto(s) e 0 vag...
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,,1030.0,,Apartamento em Higienópolis com 1 quarto(s) e...


In [117]:
dados['Possui_suite'] = dados['Suites'].apply(lambda x: "Sim" if x > 0 else "Não")

dados.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor_por_mes,Valor_por_ano,Descricao,Possui_suite
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0,2200.0,26460.0,Quitinete em Copacabana com 1 quarto(s) e 0 v...,Não
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,,,,Casa em Jardim Botânico com 2 quarto(s) e 0 v...,Sim
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0,9220.0,111751.0,Conjunto Comercial/Sala em Barra da Tijuca com...,Não
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,1190.0,14300.0,Apartamento em Centro com 1 quarto(s) e 0 vag...,Não
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,,1030.0,,Apartamento em Higienópolis com 1 quarto(s) e...,Não


In [119]:
dados.to_csv('./data/dados_completos_dev.csv', index=False, sep=';')
