# Relatório de Análise V - Criação e exclusão de variáveis

## Criando Novas Variáveis

**Tarefa**: Adicionar variáveis relacionadas com o preço bruto (valor+condominio+iptu), valor por metro$^2$ e preço bruto por metro$^2$

In [None]:
import pandas as pd

In [None]:
dados = pd.read_csv('aluguel_residencial.csv', sep = ';')

In [None]:
#o .pop efetua a alteração sem a necessidade do parametro inplace
dados.pop('Valor m2')
dados.pop('Tipo Agregado')

In [None]:
dados.head()

In [None]:
dados.shape[1]

In [None]:
dados['Preço Bruto'] = dados['Valor'] + dados['Condominio'] + dados['IPTU']

In [None]:
dados['Valor m2'] = dados['Valor'] / dados['Area']

In [None]:
dados['Preço Bruto m2'] = dados['Preço Bruto'] / dados['Area']

In [None]:
dados['Valor m2'] = dados['Valor m2'].round(2)

In [None]:
dados['Preço Bruto m2'] = dados['Preço Bruto m2'].round(2)

In [None]:
dados.head()

**Tarefa**: Criar uma varíavel que defina se o imóvel é casa ou apartamento

In [None]:
dados['Tipo'].unique()

In [None]:
# utilizando função lambda para generalizar ou classificar uma informação
casa = ['Quitinete', 'Casa de Condominio', 'Casa', 'Casa']
dados['Classe'] = dados['Tipo'].apply(lambda x: 'Casa' if x in casa else 'Apartamento')

In [None]:
dados.head(10)

## Excluindo Variáveis

**Tarefa**: O IPTU é informado para alguns imóveis e para outros não, fazendo com que o valor bruto não seja confiável. Assim, seria interessante excluir as variáveis que são obtidas com contribuição do IPTU.

In [None]:
#criar um dataframe auxiliar para testar e depois fazer as modificacoes no principal
#se fizer dados_aux = dados, a variável dados_aux vai apontar
#para o mesmo endereço de memória de dados, por isso utilizar .copy()
dados_aux = dados.copy()

In [None]:
#formas de excluir colunas no dataframe
del dados_aux['Preço Bruto']

In [None]:
dados_aux.head(10)

In [None]:
dados_aux.pop('Preço Bruto m2')

In [None]:
dados_aux.head(10)

In [None]:
dados_aux.drop(['Valor m2', 'Classe'], axis = 1)

In [None]:
dados_aux.head(10)

In [None]:
dados_aux.drop(['Valor m2', 'Classe'], axis = 1, inplace = True)
dados_aux.head(10)

# Relatório de Análise VI - Agrupamentos e estatística básica

## Criando Agrupamentos

In [None]:
#import pandas as pd

In [None]:
dados = pd.read_csv('aluguel_residencial.csv', sep = ';')

In [None]:
dados.head(10)

#### https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats

**Tarefa**: Valor médio de aluguel por bairros específicos

In [None]:
#retorna a quantidade de elementos únicos em cada coluna
dados.nunique()

In [None]:
dados['Tipo'].unique()

In [None]:
dados['Valor'].mean()

In [None]:
dados['Valor'].hist(bins=20)

In [None]:
dados[['Valor']].boxplot()

In [None]:
bairros = ['Barra da Tijuca', 'Copacabana', 'Ipanema', 'Leblon', 'Botafogo', 'Flamengo', 'Tijuca']

In [None]:
selecao = dados['Bairro'].isin(bairros)
dados[selecao]

In [None]:
#executa uma espécie de clusterização
grupo_bairro = dados.groupby('Bairro')

In [None]:
type(grupo_bairro)

In [None]:
#o pandas fez a separação dos imoveis por bairros, gerando um dicionário
grupo_bairro.groups

In [None]:
grupo_bairro.groups['Flamengo']

In [None]:
for bairro, data in grupo_bairro:
    print('{} -> {}'.format(bairro, data.Valor.mean()))

In [None]:
grupo_bairro[['Valor']].mean().round(2)

In [None]:
dados.head()

In [None]:
grupo_bairro[['Valor', 'Condominio']].mean().round(2)

## Estatísticas Descritivas

In [None]:
grupo_bairro['Valor'].describe()

In [None]:
#a função aggregate já prevê a função describe.
grupo_bairro['Valor'].aggregate(['min', 'max'])

In [None]:
grupo_bairro['Valor'].aggregate(['min', 'max']).rename(columns={'min': 'Minimo', 'max': 'Maximo'})

**E se fosse para todos os bairros? Ainda seria fácil de verificar via dataframe resultante?**

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.rc('figure', figsize = (20, 10))

In [None]:
dados = dados[selecao]

In [None]:
grupo_bairro = dados.groupby('Bairro')
#grupo_bairro.groupby(dados['Bairro'])

In [None]:
fig = grupo_bairro['Valor'].mean().plot.bar(color = 'black')

In [None]:
fig = grupo_bairro['Valor'].std().plot.bar(color = 'red', )
fig.set_ylabel('Valor do Aluguel')
fig.set_title('Valor Médio do Aluguel Por Bairro', {'fontsize':22})

In [None]:
dados

In [None]:
pd.crosstab(dados['Tipo'], dados['Bairro'])

In [None]:
pd.crosstab(dados['Tipo'], dados['Bairro'], normalize = True)*100

In [None]:
#no momento do cruzamento, se um doz valores for 0, crosstab atribui o NaN (Not a Number)
pd.crosstab(dados['Tipo'], dados['Bairro'], aggfunc='mean', values=dados['Valor'])

In [None]:
pd.crosstab(dados['Tipo'], dados['Bairro'], aggfunc='mean', values=dados['Quartos'])

In [None]:
pd.crosstab(dados['Tipo'], dados['Bairro'], aggfunc='max', values=dados['Valor'])