# Introdução

Este trabalho consiste na apresentação de análise exploratória dos dados de casas para alugar no Brasil, por meio de um jupyter-notebook, sob a perspectiva de iniciantes na ciência de dados, engenheiros de dados e a comunidade em modo geral, no contexto de análise e mineração de dados.

O conjunto de dados em analise é o [Brazilian houses to Rent](https://www.kaggle.com/rubenssjr/brasilian-houses-to-rent), publicado pelo [Rubens Junior](https://www.kaggle.com/rubenssjr). O _dataset_ possuí 13 colunas, sendo:

- city: Cidade onde está localizada o imóvel
- area: Área em m² do imóvel
- rooms: Quantidade de quartos
- bathroom: Quantidade de banheiros
- parking spaces: Quantidade de garagens
- floor: Andar da casa
- animal: Se permite ou não animal doméstico
- furniture: Se o imóvel está ou não mobiliado
- hoa (R\$): Valor da taxa de condomínio
- rent amount (R\$): Valor do aluguel
- property tax (R\$): Valor do IPTU
- fire insurance (R\$): Valor do seguro de incêncio
- total (R\$): Valor total de aluguel do imóvel

---


## Perguntas
1. Qual as cidades que concentram a maior quantidade de casas?
1. Qual a média de area e aluguel por cidade?
1. Como estão distribuidos os valores imbutidos no aluguem por cidade?
1. Onde se concetram os imoveis com maior valor de aluguel?
1. Como estão distribuidos os imoveis por valor de aluguel, área e que podem ou não ter animais de estimação?

# Codificação

In [None]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [None]:
df = pd.read_csv('../input/brasilian-houses-to-rent/houses_to_rent_v2.csv')
figs = []

In [None]:
df.head()

In [None]:
df.info()

O dataset possuí 13 colunas (features), nas quais possuem 10.692 registros.

In [None]:
df.describe()

In [None]:
temp = df[['city', 'animal', 'area']].groupby(['city', 'animal'], as_index=False).count().sort_values(by=['area'], ascending=False)

fig = go.Figure()

animals = ['acept', 'not acept']

for x in animals:
    fig.add_trace(go.Bar(
        x=temp['city'].loc[temp['animal'] == x], y=temp['area'].loc[temp['animal'] == x], 
        text=temp['area'].loc[temp['animal'] == x], textposition='auto', name=x,
    ))

fig.update_layout(title='Quantidade de casas por cidade separadas por permitir ou não animal de extimação', barmode='stack')
figs.append(fig)

In [None]:
temp = df[['city', 'furniture', 'area']].groupby(['city', 'furniture'], as_index=False).count().sort_values(by=['area'], ascending=False)

fig = go.Figure()

furniture = ['furnished', 'not furnished']

for x in furniture:
    fig.add_trace(go.Bar(
        x=temp['city'].loc[temp['furniture'] == x], y=temp['area'].loc[temp['furniture'] == x], 
        text=temp['area'].loc[temp['furniture'] == x], textposition='auto', name=x,
    ))

fig.update_layout(title='Quantidade de casas mobiliadas por cidade', barmode='stack')
figs.append(fig)

In [None]:
temp = df[['city', 'area', 'total (R$)']].groupby('city', as_index=False).mean().sort_values(by='area', ascending=False)

fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'domain'}]])
fig.add_trace(go.Pie(labels=temp['city'], values=temp['area']), row=1, col=1)
fig.add_trace(go.Pie(labels=temp['city'], values=temp['total (R$)']), row=1, col=2)

fig.update_traces(textinfo='value')
fig.update_layout(title='Média de área e valor do aluguel por cidade')

figs.append(fig)

In [None]:
temp = df[['city', 'hoa (R$)', 'rent amount (R$)', 'property tax (R$)', 'fire insurance (R$)', 'total (R$)']].groupby('city', as_index=False).mean().sort_values(by='total (R$)', ascending=False)

taxes = ['hoa (R$)', 'rent amount (R$)', 'property tax (R$)', 'fire insurance (R$)']

fig = go.Figure()

for tax in taxes:
    fig.add_trace(go.Bar(x=temp['city'], y=temp[tax], name=tax))
    
fig.update_layout(title='Distribuição das taxas dos alugueis por cidade', barmode='stack', )
figs.append(fig)

In [None]:
df[['area', 'rooms', 'bathroom', 'parking spaces']]

In [None]:
fig = go.Figure()

fig.add_trace(go.Heatmap(x=['rooms', 'bathroom'],
    z=df[['rooms', 'bathroom']].groupby('rooms', as_index=False).mean().sort_values(by='rooms')))

fig.update_layout(title='Relação da quantidade de quartos e banheiros dos imóveis')

figs.append(fig)

In [None]:
fig = go.Figure()

fig.add_trace(go.Box(y=df['area']))

figs.append(fig)

In [None]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=df['area'].loc[df['animal'] == 'acept'], y=df['total (R$)'].loc[df['animal'] == 'acept'], mode='markers', name='Animal Acept'))
fig.add_trace(go.Scatter(x=df['area'].loc[df['animal'] == 'not acept'], y=df['total (R$)'].loc[df['animal'] == 'not acept'], mode='markers', name='Animal Not Acept'))

fig.update_layout(title='Distribuição dos imóveis por área e valor de aluguel que aceitam ou não animais de estimação', xaxis_title='Area', yaxis_title='Valor (R$)')

figs.append(fig)

## Análise exploratória

In [None]:
figs[0].show()

O dataset possuí apenas registros de 5 cidades: São Paulo, Rio de Janeiro, Porto Alegre, Belo Horizonte e Campinas.
O gráfico acima mostra que a maioria dos registros são da cidade de São Paulo, onde 23% dos imoveis não permitem animais domésticos

In [None]:
figs[1].show()

A maioria dos imóveis não estão mobiliados, São Paulo por exemplo 72% dos imóveis não possuem mobilia.

In [None]:
figs[2].show()

Belo Horizonte possuí a maior média de área dos imóveis que estão no _dataset_, assim como a maior média no valor dos alugueis.

In [None]:
figs[3].show()

A maior taxa que está no valor total do aluguel, em média, é a do valor que o proprietário recebe (72% em São Paulo), em seguida é o valor do condomínio (18%), IPTU e por fim o seguro de incêndio.
Belo Horizonte apresenta a maior média das taxas de condomínio entre as cidades (36%).

In [None]:
figs[4].show()

Quanto mais quartos a casa possuir mais banheiros possuirá, porém a quantidade não é proporcional.

In [None]:
figs[5].show()

Este é, ou era para ser, um gráfico de Box Plot. O gráfico está bastante achatado devido a quantidade de outliers presente no _dataset_.

In [None]:
figs[6].show()

O gráfico apresenta a distribuiçao de imóveis por área e o seu valor de alguel, sendo separados por aceitarem ou não animais de estimação.
O gráfico anterior, boxplot, mostrava que há outliers que influenciam na análise. Este gráfico mostra também aonde estão os outliers, sendo os pontos mais distantes do centro.

### Perguntas futuras:
1. Os imóveis que possuem mobilia disponível são os mais caros?