# Prevendo Preços de Casas

## Carregando Pacotes

In [1]:
from sklearn.preprocessing import MinMaxScaler, LabelBinarizer
from sklearn.model_selection import train_test_split
from keras.models import Sequential, Model
from keras.layers import Dense, Conv2D, BatchNormalization, MaxPool2D, Activation, Dropout, Flatten, Input
from keras.optimizers import Adam
from keras import backend as K
from keras.layers import concatenate
import pandas as pd
import numpy as np
import glob
import cv2
import locale
import os

Using TensorFlow backend.


In [2]:
K.image_data_format()

'channels_last'

## Carregando Dataset (Atributos e imagens)

In [29]:
# Criação dos labels das colunas e carregando dataset
cols = ['bedrooms', 'bathrooms', 'area', 'zipcode', 'price']
df = pd.read_csv("/home/matheusjerico/Documentos/DSA/05. MachineLearning/Cap-12-IntroduçãoDeepLearning/Houses_dataset/HousesInfo.txt", sep = " ", header=None, names=cols)

# Determinando os zip code unicos e quantos tem de cada
zipcodes = df['zipcode'].value_counts().keys().tolist()
counts = df['zipcode'].value_counts().tolist()

# Loop para cada zip code e sua respectiva quantidade
for (zipcode, count) in zip(zipcodes, counts):
    # remover zipcodes que possuem menos de 25 counts
    if count < 25:
        idxs = df[df['zipcode'] == zipcode].index
        df.drop(idxs, inplace=True)

# Carregando imagens
inputPath = "/home/matheusjerico/Documentos/DSA/05. MachineLearning/Cap-12-IntroduçãoDeepLearning/Houses_dataset"
images= []

for i in df.index.values:
    # Achar as 4 imagens de cada casa, e garantir estar sempre na mesma ordem
    basePath = os.path.sep.join([inputPath,"{}_*".format(i+1)])
    housePaths=sorted(list(glob.glob(basePath)))
    
    # inicializa a list e preenche com a nova imagem que contem 4 imagens
    inputImages = []
    outputImage = np.zeros((64, 64, 3), dtype='uint8')

    for housePath in housePaths:
        # carregue a imagem de entrada, redimensione-a para 32 32 e, em seguida,
        # atualiza a lista de imagens de entrada
        image = cv2.imread(housePath)
        image = cv2.resize(image, (32,32))
        inputImages.append(image)
    
    # telha as quatro imagens de entrada na imagem de saída como o primeiro
    # imagem vai no canto superior direito, a segunda imagem no
    # canto superior esquerdo, a terceira imagem no canto inferior direito,
    # e a imagem final no canto inferior esquerdo
    outputImage[0:32, 0:32] = inputImages[0]
    outputImage[0:32, 32:64] = inputImages[1]
    outputImage[32:64, 32:64] = inputImages[2]
    outputImage[32:64, 0:32] = inputImages[3]
                           
    # adicione a imagem lado a lado ao nosso conjunto de imagens a rede será treinado em
    images.append(outputImage)

images = np.array(images)
images = images / 255.0

## Construindo o Dataset de treino e teste

In [30]:
# Construindo o dataset de treino e teste
split = train_test_split(df, images, test_size=0.25, random_state=42)
(trainAttrX, testAttrX, trainImagesX, testImagesX) = split

In [31]:
trainAttrX.head(3)

Unnamed: 0,bedrooms,bathrooms,area,zipcode,price
148,5,3.5,4245,92677,1895000.0
337,2,2.0,1176,92276,135000.0
444,3,3.0,2800,93510,630000.0


## Regularizando a variável target

In [32]:
maxprice = trainAttrX['price'].max()
y_train = trainAttrX['price'] / maxprice
y_test = testAttrX['price'] / maxprice

## Manipulando os atributos das casas

- Pré Processamento

In [33]:
# Colunas de valores continuos do dataset
continuos = ['bedrooms','bathrooms','area']

# Escalonando os dados em MinMax no range [0,1]
cs = MinMaxScaler()
trainContinuos = cs.fit_transform(trainAttrX[continuos])
testContinuos = cs.transform(testAttrX[continuos])

# One-hot code para variáveis categóricas
zipBinarizer = LabelBinarizer().fit(df['zipcode'])
trainCategorical = zipBinarizer.transform(trainAttrX['zipcode'])
testCategorical = zipBinarizer.transform(testAttrX['zipcode'])

# Reconstruindo dataset com de treino e teste com as variáveis categoricas e continuas
trainAttrX = np.hstack([trainCategorical, trainContinuos])
testAttrX = np.hstack([testCategorical, testContinuos])


## Criando o modelo


In [34]:
# Criando o modelo para MLP e CNN

# Criando MLP
model_mlp = Sequential()
model_mlp.add(Dense(8, input_dim=trainAttrX.shape[1], activation='relu'))
model_mlp.add(Dense(4, activation='relu'))
    
# Criando CNN
# Assumindo que o beckend é TensorFlow
filters=(16, 32, 64)
inputShape = (64, 64, 3)
chanDim = -1

# Definindo model input
inputs = Input(shape=inputShape)

# Loop para cada filtro
for (i, f) in enumerate(filters):
    
    # primeira camada tem que setar o 'input'
    if i==0:
        x = inputs
    
    # CONV => RELU => BATCH => MAXPOOLING
    x = Conv2D(f,(3,3), padding='same')(x)
    x = Activation('relu')(x)
    x = BatchNormalization(axis=chanDim)(x)
    x = MaxPool2D(pool_size=(2,2))(x)

# achar o volume, então FC => RELU => BN => DROPOUT
x = Flatten()(x)
x = Dense(16)(x)
x = Activation("relu")(x)
x = BatchNormalization(axis=chanDim)(x)
x = Dropout(0.5)(x)

# aplica outra camada FC, esta para corresponder ao número de nós saindo do MLP
x = Dense(4)(x)
x = Activation('relu')(x)

model_cnn = Model(inputs, x)


# Combinando os modelos
combinedInput = concatenate([model_mlp.output, model_cnn.output])

# Ultima layers deve ter 1 node linear
x = Dense(4, activation="relu")(combinedInput)
x = Dense(1, activation="linear")(x)


# nosso modelo final aceita dados categóricos / numéricos no MLP
# input e images na entrada CNN, produzindo um único valor (o preço previsto da casa)
model = Model(inputs=[model_mlp.input, model_cnn.input], outputs=x)

## Compilando e Fit no modelo


In [35]:
# Parametro de otimização
opt = Adam(lr=0.001, decay=0.001/200)

# Compilando
model.compile(loss='mean_absolute_percentage_error', optimizer=opt)

# Fit
model.fit([trainAttrX, trainImagesX], y_train, 
          validation_data=([testAttrX, testImagesX], y_test),
          epochs=200, batch_size=8)

Train on 271 samples, validate on 91 samples
Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoch 35/200
Epoch 36/200
Epoch 37/200
Epoch 38/200
Epoch 39/200
Epoch 40/200
Epoch 41/200
Epoch 42/200
Epoch 43/200
Epoch 44/200
Epoch 45/200
Epoch 46/200
Epoch 47/200
Epoch 48/200
Epoch 49/200
Epoch 50/200
Epoch 51/200
Epoch 52/200
Epoch 53/200
Epoch 54/200
Epoch 55/200
Epoch 56/200
Epoch 57/200
Epoch 58/200
Epoch 59/200
Epoch 60/200
Epoch 61/200
Epoch 62/200
Epoch 63/200
Epoch 64/200
Epoch 65/200
Epoch 66/200
Epoch 67/200
Epoch 68/200
Epoch 69/200
Epoch 70/200
Epoch 71/200
Epoch 72/200
Epoch 73/200
Epoch 74/200
Ep

Epoch 79/200
Epoch 80/200
Epoch 81/200
Epoch 82/200
Epoch 83/200
Epoch 84/200
Epoch 85/200
Epoch 86/200
Epoch 87/200
Epoch 88/200
Epoch 89/200
Epoch 90/200
Epoch 91/200
Epoch 92/200
Epoch 93/200
Epoch 94/200
Epoch 95/200
Epoch 96/200
Epoch 97/200
Epoch 98/200
Epoch 99/200
Epoch 100/200
Epoch 101/200
Epoch 102/200
Epoch 103/200
Epoch 104/200
Epoch 105/200
Epoch 106/200
Epoch 107/200
Epoch 108/200
Epoch 109/200
Epoch 110/200
Epoch 111/200
Epoch 112/200
Epoch 113/200
Epoch 114/200
Epoch 115/200
Epoch 116/200
Epoch 117/200
Epoch 118/200
Epoch 119/200
Epoch 120/200
Epoch 121/200
Epoch 122/200
Epoch 123/200
Epoch 124/200
Epoch 125/200
Epoch 126/200
Epoch 127/200
Epoch 128/200
Epoch 129/200
Epoch 130/200
Epoch 131/200
Epoch 132/200
Epoch 133/200
Epoch 134/200
Epoch 135/200
Epoch 136/200
Epoch 137/200
Epoch 138/200
Epoch 139/200
Epoch 140/200
Epoch 141/200
Epoch 142/200
Epoch 143/200
Epoch 144/200
Epoch 145/200
Epoch 146/200
Epoch 147/200
Epoch 148/200
Epoch 149/200
Epoch 150/200
Epoch 151/200

Epoch 157/200
Epoch 158/200
Epoch 159/200
Epoch 160/200
Epoch 161/200
Epoch 162/200
Epoch 163/200
Epoch 164/200
Epoch 165/200
Epoch 166/200
Epoch 167/200
Epoch 168/200
Epoch 169/200
Epoch 170/200
Epoch 171/200
Epoch 172/200
Epoch 173/200
Epoch 174/200
Epoch 175/200
Epoch 176/200
Epoch 177/200
Epoch 178/200
Epoch 179/200
Epoch 180/200
Epoch 181/200
Epoch 182/200
Epoch 183/200
Epoch 184/200
Epoch 185/200
Epoch 186/200
Epoch 187/200
Epoch 188/200
Epoch 189/200
Epoch 190/200
Epoch 191/200
Epoch 192/200
Epoch 193/200
Epoch 194/200
Epoch 195/200
Epoch 196/200
Epoch 197/200
Epoch 198/200
Epoch 199/200
Epoch 200/200


<keras.callbacks.History at 0x7fe1b866c6d8>

## Avaliando o modelo


In [36]:
# Prevendo
preds = model.predict([testAttrX, testImagesX])

# Diferença entre predição e valor real
diff = preds.flatten() - y_test
percentDiff = (diff / y_test) * 100
absPercentDiff = np.abs(percentDiff)

# Media e desvio padrão
mean = np.mean(absPercentDiff)
std = np.std(absPercentDiff)

# Mostrar estatísticas do modelo
locale.setlocale(locale.LC_ALL, "en_US.UTF-8")
print("[INFO] avg. house price: {}, std house price: {}".format(
    locale.currency(df["price"].mean(), grouping=True),
    locale.currency(df["price"].std(), grouping=True)))
print("[INFO] mean: {:.2f}%, std: {:.2f}%".format(mean, std))

[INFO] avg. house price: $533,388.27, std house price: $493,403.08
[INFO] mean: 79.99%, std: 244.43%
