Sejam bem-vindos ao meu projeto de portfólio de negócio da empresa fictícia Northwest Real Estate Agency.

1. O Problema do Negócio

Nesse projeto de negócio irei analisar um banco de dados real. Este banco de dados público, foi  disponibilizado pelo website de competições de Data Science, o Kaggle.
A empresa Northwest Real Estate Agency tem como objetivo realizar a compra e venda de imóveis na cidade de Seattle. Para isso a empresa necessita de uma análise precisa de todas as informações e assim poder obter o lucro desejado na compra e venda de imóveis.


### Importação de bibliotecas

In [1]:
# Bibliotecas importadas
import numpy          as np
import pandas         as pd
import streamlit      as st
import seaborn        as sns

from IPython.display  import HTML
from datetime         import datetime

### Funções para otimização

In [None]:
# Funções para otimização
def jupyter_settings():
    #%matplotlib inline
    #%pylab inline
    #plt.style.use( 'bmh' )
    #plt.rcParams['figure.figsize'] = [ 6, 12]
    #plt.rcParams['font.size'] = 24
    display( HTML( '') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = 30
    pd.set_option('display.float_format', '{:.2f}'.format)
    pd.set_option( 'display.expand_frame_repr', False )
    sns.set_theme(rc={'figure.figsize': (10, 5)})
    
jupyter_settings()

# Carregamento dos dados
def get_data(data):
    data = pd.read_csv(path)
    return data

# Conversão da coluna 'date' para o formato de data padrão
def set_date(data):
    data['date'] = pd.to_datetime(data['date'], format=('%Y-%m-%d'))
    return data

# Estatística Descritiva
def statistcs(data):
    num_attributes = data.select_dtypes(include=['int64', 'float64'])
    # Tendencia Central - Media e Median
    ct1 = pd.DataFrame(num_attributes.apply(np.mean)).T
    ct2 = pd.DataFrame(num_attributes.apply(np.median)).T
    # Despersão - Desvio Padrão, Mínimo, Máximo, Range, Skew, Kurtosis
    d1 = pd.DataFrame(num_attributes.apply(np.std)).T
    d2 = pd.DataFrame(num_attributes.apply(min)).T
    d3 = pd.DataFrame(num_attributes.apply(max)).T
    d4 = pd.DataFrame(num_attributes.apply(lambda x: x.max() - x.min())).T
    d5 = pd.DataFrame(num_attributes.apply(lambda x: x.skew())).T
    d6 = pd.DataFrame(num_attributes.apply(lambda x: x.kurtosis())).T

    m = pd.concat([d2, d3, d4,ct1, ct2, d1, d5, d6]).T.reset_index()

    m.columns = ['attributes', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurtosis']
    print(m)
    return data

### Extração e carregamento


In [None]:
# Extração e carregamento da base de dados
path = 'csv_files/kc_house_data.csv'
data = get_data(path)

### Denominação dos conteúdos das colunas


In [None]:
# Conferência do tipo de dado das colunas
data.info()

Atributos   Definição

id  -  Identificação única para cada imóvel

date  -  Data da venda do imóvel

price  -  Preço que o imóvel foi vendido

bedrooms  - Número de quartos

bathrooms  - Número de banheiros

sqft_living -  Tamanho (em pés quadrado) do espaço interior (área construída)

sqft_lot  - Tamanho (em pés quadrado) do terreno onde o imóvel está situado

sqft_basement - Tamanho (em pés quadrado) do espaço interior que se encontra abaixo do nível do solo

sqft_above  - Tamanho (em pés quadrado) do espaço interior que se encontra acima do nível do solo.

floors  -  Número de pisos do imóvel

waterfront  - Indica a presença ou não de vista para água

view   - Um índice de 0 a 4 de quão boa é a visão do imóvel

condition -  Um índice de 1 a 5 que indica a condição do imóvel

grade  -  Um índice de 1 a 13 que indica a qualidade da construção e o design do imóvel.

yr_built  -  Ano de construção do imóvel

yr_renovated -  Ano de reforma do imóvel

zipcode  - Código Postal do logradouro do imóvel

lat   - Latitude

long   - Longitude

sqft_livining15 - Tamanho (em pés quadrado) do espaço interno de habitação para os 15 vizinhos mais próximo

sqft_lot15 - Tamanho (em pés quadrado) dos terrenos dos 15 vizinhos mais próximo

### Análise dos tipos de dados das colunas

In [None]:
# Checagem dos valores
data.describe()

### Limpeza e conferência da base de dados

In [None]:
# Conferência de dados faltantes
data.isnull().sum()

# Checagem e confirmação de imóveis duplicados
data.loc[data['id'].duplicated()]

# Confirmação de que o mesmo imóvel foi vendido em 2014-09-16 e no ano seguinte foi vendido novamente, na data de 2015-04-22.
data.loc[data['id'] == 1000102]

# Separação e comparação dos valores venais da primeira e da segunda venda do mesmo imóvel
data_dup = data['id'].duplicated()
data_dup1 = data.loc[data_dup, 'id'].tolist()

# Exportação da lista de duplicados para uma planilha csv.
data.loc[data['id'].isin(data_dup1), :].to_csv(r'export/duplicated.csv')

# Checagem do imóvel da base de dados que possui 33 quartos
data['bedrooms'].sort_values().unique()

# Numa rápida comparação com outros imóveis, selecionei as colunas de preço, quantidade de banheiros e área construída.
# Portanto é válido afirmar que os 33 quartos é de fato um erro de digitação.
# Sendo assim o valor será acertado para 3, que é a média dos seus respectivos similares.
print(data.loc[data['bedrooms'] == 33][['id', 'price', 'bathrooms', 'sqft_living', 'bedrooms']])

check1 = data['price'].isin(range(600000, 700000))
check2 = data['bathrooms'].isin(range(1, 5))
check3 = data['sqft_living'].isin(range(1600, 1700))
data.loc[check1 & check2 & check3, ['bedrooms']].mean()

# Execução da correção
data.loc[data['bedrooms'] == 33, 'bedrooms'] = 3
data['bedrooms'].sort_values().unique()

# Checagem do imóveis cadastrados com 0 quartos
data.loc[data['bedrooms'] == 0][['id', 'price', 'bathrooms', 'sqft_living', 'sqft_lot', 'bedrooms']]
data.loc[data['bedrooms'] == 0].nunique()

# Premissa, deve-se assumir que estes imóveis estão cadastrados corretamente e não devem ser imóveis do tipo residencial e sim cômodos comerciais.
data['bathrooms'].sort_values().unique()
data.loc[data['bathrooms'] == 0].sort_values('price')

# Premissa, deve-se assumir que estes imóveis estão cadastrados corretamente e não devem ser imóveis do tipo residencial.

# Checagem OK, sem valores 'outlier'
data['sqft_living'].sort_values().unique()

# Checagem OK, sem valores 'outlier'
data['sqft_lot'].sort_values().unique()

# Checagem OK, sem valores 'outlier'
data['sqft_above'].sort_values().unique()

# Checagem OK, sem valores 'outlier'
data['sqft_basement'].sort_values().unique()

# Aqui pode-se aferir que 60% dos imóveis do banco de dados não possuem porão. Daí o valor 0 no tamanho
data.loc[data['sqft_basement'] == 0, 'id'].nunique() / data.loc[:, 'id'].nunique()

# Checagem OK, sem valores 'outlier'
data['yr_built'].sort_values().unique()

# Checagem OK, sem valores 'outlier'
data['yr_renovated'].sort_values().unique()
data['yr_renovated'].value_counts()

# A quantidade de imóveis reformados no banco de dados é bem pequena. São 4,3% do total, aproximadamente.
20699 / 21613
data

### Transformações e manipulação dos dados

In [None]:
# Alteração da coluna 'date' para o formato padrão de data (pandas date time)
set_date(data)
statistcs(data)

In [None]:
# Alteração da coluna 'date' para o formato padrão de data (pandas date time)
set_date(data)

# Criação de novas colunas para realizar a separação da data por ano e mês
data['year'] = data['date'].dt.year
data['month'] = data['date'].dt.month

# Criação da coluna de estação do ano, para efeitos de classificação de preços
# Seasons = spring, summer, autumn, and winter
data['season'] = data['month'].apply(lambda x: 'summer' if (x > 5) & (x < 8)
                                            else 'spring'if (x > 2) & (x < 5)
                                            else 'autumn' if (x > 8) & (x < 12)
                                            else 'winter')


# Conversão das colunas que estão nas medidas pé quadrado (square foot) para a medida em metro quadrado (m²)
data['living_m2'] = data['sqft_living'] / 10.764
data['lot_m2'] = data['sqft_lot'] / 10.764
data['above_m2'] = data['sqft_above'] / 10.764

# Criação de uma coluna para identificar a idade do imóvel
data['age'] = datetime.now().year - data['yr_built']

# Criação de uma coluna para anotar se o imóvel foi reformado ou não
data['renovated'] = data['yr_renovated'].apply(lambda x: 'no' if x == 0 else 'yes')

# Alteração dos valores da coluna 'waterfront' de '0' para 'No' e de 1 para 'Yes' 
data['waterfront'].replace({1: 'yes', 0: 'no'}, inplace=True)

# Criação da coluna do preço pela área construída por metro quadrado
data['price_m2'] = data['price'] / ((data['living_m2']) + (data['lot_m2']) + (data['above_m2']))

data.head(10)


### Análise Exploratória dos Dados

#### Checagem e validação de hipóteses

In [None]:
# H1: Imóveis com nível de condição maior ou igual a 3 são 20% mais caras, na média.
# X Falsa:
# Os imóveis da categoria 3, 4 e 5 custam 153.22% a mais na média geral
plot_1 = data[['condition', 'price']]
ax = sns.barplot(data= plot_1, x= 'condition', y= 'price')
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'Condição', ylabel= 'Preço', title= 'H1');
print(data[['condition', 'price']].groupby('condition').mean())
(((542012.58 + 521200.39 + 612418.09) - (334431.67 + 327287.15)) / (334431.67 + 327287.15)) * 100

In [None]:
# H2: Imóveis com até 50 anos que foram reformados são 20% mais caros do que os não reformados, na média?
# X Falsa:
# Considerando o preço médio, ao invés de 20% mais caros, os imóveis com até 50 de idade reformados são 69.33% mais caros.

plot_2 = data.loc[(data['age'] <= 50), ['renovated', 'price', 'yr_renovated']].groupby('renovated').mean()
ax = sns.barplot( data= plot_2, x= 'yr_renovated', y= 'price' )
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'Imóveis', ylabel= 'Preço', title= 'H2',
      xticklabels= ["Não Reformados", "Reformados"]);
print(((963860.67 - 569190.11) / 569190.11) * 100)

In [None]:
# H3: Imóveis que possuem vista para água, são 30% mais caros, na média.
# X Falsa:
# Considerando o preço médio, ao invés de 30%, os imóveis com vista para a água custam 212.63% a mais na média
plot_3 = data[['waterfront', 'price']].groupby('waterfront').mean().reset_index()
ax = sns.barplot( data= plot_3, x= 'waterfront', y= 'price' );
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'De Frente para Água', ylabel= 'Preço', title= 'H3',
       xticklabels= ["Não", "Sim"]);
((1661876.02 - 531563.60) / 531563.60) * 100

In [None]:
# H4: Imóveis com data de construção menor que 1955, são 50% mais baratos, na média.
# X Falsa:
# Considerando o preço médio, imóveis com data de construção menor que 1955, possuem preços 1,09% mais baratos.
print(data.loc[data['yr_built'] < 1955, ['price']].mean())
print(data.loc[data['yr_built'] > 1955, ['price']].mean())
((542917.16 - 537050.91) / 537050.91) * 100

In [None]:
# H5: Os imóveis das últimas décadas são mais valiosos?
# ✔️ Verdadeira:
# A avaliação dos imóveis construídos nas últimas três décadas encontra-se em média cerca de 19% acima da avaliação dos imóveis
# construídos entre 1900 e 1959, enquanto que há um crescimento médio de 4,7% por década entre as décadas de 1940 e 1990.
df1 = data.copy()
df1['decade'] = df1['yr_built'].apply( lambda x: int((x / 10))  * 10)
df1[['decade', 'grade']].groupby('decade').mean().reset_index()
ax = sns.barplot( data= df1, x= 'decade', y= 'grade')
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'Década', ylabel= 'Grade', title= 'H5');

In [None]:
# # H6: O valor mediano do imóveis variam 20% de acordo com a estação do ano?
# X Falsa:
# Considerando a maior variação no preço mediano, o maio percentual de aumento encontrado foi do inverno para a primavera, onde a mediana foi 8.13% maior.
plot_6 = data[['season', 'price']].groupby('season').median().reset_index()
ax = sns.barplot(data=plot_6, x='season', y='price')
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'Estação do Ano', ylabel= 'Preço', title= 'H6',
       xticklabels= ["Outono", "Primavera", "Verão", "Inverno"])
((465000 - 430000) / 430000) * 100

### Recomendações de compra

Para responder as questões de negócio, utilizou-se pensamento analítico e análise de dados.
Quais são os imóveis que a Northwest Real Estate Agency deveria comprar e por qual preço ?


Os imóveis foram agrupados por região ( zipcode ) e dentro de cada região, encontrei a mediana dos preços por área construída.
Irei sugerir a compra dos imóveis que possuem preço abaixo da mediana da região, estejam em boas condições de conservação maior ou igual a 3, que tenham um ou mais banheiros e quartos e, também, devem ter uma grade de classificação maior ou igual a 7.
Todos os imóveis que estão dentro destes filtros de compra serão separados em uma lista.
Dentro desta lista separei os dois imóveis prioritários para aquisição, já que os mesmos possuem 'Vista para a Água'.


In [None]:
df1 = data.copy()
median_price = df1[['zipcode', 'price']].groupby('zipcode').median().reset_index()
df2 = pd.merge(median_price, df1, on= 'zipcode', how= 'inner')
df2 = df2.rename(columns= {'price_y' : 'price', 'price_x' : 'median_price'})


for x in range(len(df2)):
    if ((df2.loc[x, 'price'] < df2.loc[x, 'median_price']) & (df2.loc[x, 'condition'] >= 3)
        & (df2.loc[x, 'bedrooms'] >= 1) & (df2.loc[x, 'bathrooms'] >= 1)
        & (df2.loc[x, 'grade'] >= 7)):
        df2.loc[x, 'purchase'] = 'recommended'

    else:
        df2.loc[x, 'purchase'] = 'rejected'


buy_list = df2.loc[df2['purchase'] == 'recommended']
buy_list_prior = buy_list.loc[buy_list['waterfront'] == 'yes']
print(buy_list_prior[['id','median_price', 'price', 'purchase']])
buy_list[['id', 'purchase', 'waterfront', 'condition', 'grade', 'price']].sort_values('price')
df2 = buy_list
df2

### Recomendações de venda

In [None]:
df3 = data.copy()
df3 = df2[df2['purchase'] == 'recommended']
df4 = df3[['season', 'zipcode', 'price']].groupby(['zipcode', 'season']).median().reset_index()
df5 = df4.rename(columns= {'price' : 'price_med_season', 'season' : 'season_med'})
df6 = pd.merge(df4, df5, on= 'zipcode', how= 'inner')

for x, row in df6.iterrows():
    if (row['price_med_season'] > row['price']):
        df6.loc[x, 'sale'] = row['price'] * 1.05

    else:
        df6.loc[x, 'sale'] = row['price'] * 1.15


ax = sns.barplot(data= df6, x= 'season', y= 'sale')
ax.bar_label(ax.containers[0])
ax.set(xlabel= 'Estação do Ano', ylabel= 'Preço', title= 'Melhor estação do ano para vender os imóveis',
       xticklabels= ["Outono", "Primavera", "Verão", "Inverno"]);

### Resultado do Negócio após a venda

In [None]:
df6['profit'] = df6['sale'] - df6['price']
print(df6['profit'].sum())
df6

### Projeção total de lucros de até $52.597.123,00 levando em consideração os melhores cenários de compra e venda, acima expostos.