## 0.0. IMPORTS

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from IPython.display import Image
from IPython.core.display import HTML


### 0.1. Helper Functions 

In [4]:
def jupyter_settings():
    %matplotlib inline
    %pylab inline
    plt.style.use( 'bmh' )
    plt.rcParams['figure.figsize'] = [25, 12]
    plt.rcParams['font.size'] = 24
    display( HTML( '<style>.container { width:100% !important; }</style>') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    sns.set()

In [5]:
jupyter_settings()


%pylab is deprecated, use %matplotlib inline and import the required libraries.
Populating the interactive namespace from numpy and matplotlib


### 0.2. Loading data

In [6]:
data = pd.read_csv('kc_house_data.csv')

## 1.0.  DESCRICAO DOS DADOS

In [9]:
df1 = data.copy()

### 1.1. Data Dimensions

In [10]:
print( 'Number of Rows: {}'.format( df1.shape[0] ) )
print( 'Number of Cols: {}'.format( df1.shape[1] ) )

Number of Rows: 21613
Number of Cols: 21


### 1.2. Data Types


In [12]:
#to datetime
df1['date'] = pd.to_datetime( df1['date'] )


## 2.0. FEATURE ENGINEERING

## 3.0. FILTRAGEM DE VARIÁVEIS


## 4.0. ANALISE EXPLORATORIA DOS DADOS

## 5.0. DATA PREPARATION

## 6.0. ...


In [25]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib import gridspec
pd.set_option('display.float_format', lambda x: '%.2f' % x)



def get_data(path):
    data = pd.read_csv(path)
    return data


def create_attributes(data):
    num_attributes = data.select_dtypes(['int64', 'float64'])

    #central tendency - mean, median
    mean = pd.DataFrame(num_attributes.apply(np.mean, axis=0))
    median = pd.DataFrame(num_attributes.apply(np.median, axis=0))

    #dispersion - std, min, max
    std = pd.DataFrame(num_attributes.apply(np.std, axis=0))
    min_ = pd.DataFrame(num_attributes.apply(np.min, axis=0))
    max_ = pd.DataFrame(num_attributes.apply(np.max, axis=0))

    attributes = pd.concat([max_, min_, mean, median, std], axis=1).reset_index()
    attributes.columns=['attributes', 'maximum', 'minimum', 'mean', 'median', 'std']


    attributes = attributes.drop([0,7,13,14,15,16,17,18,19])
    return attributes 

def season_of_date(data):
    data['date']=pd.to_datetime(data['date'], format ='%Y-%m-%d')
    data['month']=pd.to_datetime(data['date']).dt.month

    data['season'] = data['month'].apply(lambda x: 'spring' if (x>2) & (x<6) else
                                    'summer' if (x>5) & (x<9) else
                                    'fall' if (x>8) & (x<12) else
                                    'winter')
    return data





def print_hypotesis(data):
    
    #H1: Imóveis que possuem vista para água, são 30% mais caros, na média.

    df1 = data[['price', 'waterfront']].groupby('waterfront').mean().reset_index()

    difference = (1661876.02 - 531558.54)/531558.54*100
    print('Imóveis com vista para a água são {:0.2f}% mais caros, em média\n'.format(difference))

    #H2: Imóveis com data de construção menor que 1955, são 50% mais baratos, na média.


    df3 = data[['price', 'yr_built']].groupby('yr_built').mean().reset_index()

    #selecionando yr_built< 1955
    df4 = df3.loc[df3['yr_built']<1955]

    #selecionando yr_built>= 1955

    df5 = df3.loc[df3['yr_built']>=1955]

    yr_menor= df4['price'].mean(axis=0)
    yr_maior = df5['price'].mean(axis=0)
    yr_difference = (yr_maior - yr_menor)/yr_menor*100

    print('Imóveis com data de construção menor que 1955 são {:0.2f}% mais baratos, na média\n'.format(-yr_difference))


    #H3: Imóveis sem porão possuem sqrt_lot, são 50% maiores do que com porão.

    df1 = data.loc[data['sqft_basement']>0, ['sqft_lot', 'sqft_basement']]
    df2 = data.loc[data['sqft_basement']==0, ['sqft_lot', 'sqft_basement']]

    sqft_maior = df1['sqft_lot'].mean(axis=0)
    sqft_menor = df2['sqft_lot'].mean(axis=0)
    difference = (sqft_maior - sqft_menor)/sqft_menor*100

    print('Imóveis sem porão possuem {:0.2f}% mais espaço no terreno que com porão, na média\n'.format(-difference))

    #H4: O crescimento do preço dos imóveis YoY ( Year over Year ) é de 10%

    data['year'] = pd.to_datetime(data['date']).dt.year




    df = data[['price', 'yr_built']].groupby('yr_built').mean().reset_index()


    for i in range(len(df)-1):
        df.loc[i,'yoy'] = (df.loc[i+1, 'price'] - df.loc[i, 'price'])/df.loc[i, 'price']
        df.loc[i,'yr_built_yoy'] = df.loc[i+1, 'yr_built']


    yoy_growth = df['yoy'].mean(axis=0)*100

    print("O crescimento YoY é de {:0.2f}%\n".format(yoy_growth))

    df = data.loc[data['bathrooms']==3, ['yr_built','price']]
    df['month_year'] = pd.to_datetime(data['date']).dt.strftime('%Y-%m')
    df = df[['price', 'month_year']].groupby('month_year').mean().reset_index()
    for i in range(len(df)-1):
        df.loc[i,'mom'] = (df.loc[i+1, 'price'] - df.loc[i, 'price'])/df.loc[i, 'price']
        df.loc[i,'yr_built_mom'] = df.loc[i+1, 'month_year']

    mom_growth = df['mom'].mean(axis=0)*100
    print("O crescimento MoM para imóveis com 3 banheiros é de {:0.2f}%".format(yoy_growth))

#Extract

data = get_data('kc_house_data.csv')

#Transform

#removing outliers
#bedrooms = 33
data = data.drop(15870)

attributes = create_attributes(data)

#print(attributes)
data = season_of_date(data)

print_hypotesis(data)





Imóveis com vista para a água são 212.64% mais caros, em média

Imóveis com data de construção menor que 1955 são 4.47% mais baratos, na média

Imóveis sem porão possuem 18.40% mais espaço no terreno que com porão, na média

O crescimento YoY é de 1.07%

O crescimento MoM para imóveis com 3 banheiros é de 1.07%


H6: A cada quarto a mais, o preço do imóvel é 10% maior
    
H7: No período de verão, o valor do imóvel é 10% maior que no inverno (julho a agosto)
    
H8: 
    
H9: 
    
H10: 

H1: Imóveis que possuem vista para água, são 30% mais caros, na média.

H2: Imóveis com data de construção menor que 1955, são 50% mais baratos, na média.

H3: Imóveis sem porão possuem sqrt_lot, são 50% maiores do que com porão.

H4: O crescimento do preço dos imóveis YoY ( Year over Year ) é de 10%

H5: Imóveis com 3 banheiros tem um crescimento MoM ( Month over Month ) de 15%

In [18]:
data.dtypes

id                        int64
date             datetime64[ns]
price                   float64
bedrooms                  int64
bathrooms               float64
sqft_living               int64
sqft_lot                  int64
floors                  float64
waterfront                int64
view                      int64
condition                 int64
grade                     int64
sqft_above                int64
sqft_basement             int64
yr_built                  int64
yr_renovated              int64
zipcode                   int64
lat                     float64
long                    float64
sqft_living15             int64
sqft_lot15                int64
year                      int64
dtype: object

In [None]:
fig = plt.figure(figsize=(14,12))
specs = gridspec.GridSpec(ncols=1,nrows=2, figure=fig)

ax1 = fig.add_subplot(specs[0,:])
ax2 = fig.add_subplot(specs[1,:])

df = data[['price', 'season']].groupby('season').mean().reset_index()
sns.barplot(x='season', y='price', data = df, ax = ax1)
sns.barplot(x='waterfront', y='price', data = data, ax = ax2, orient='h')



