## Integrantes
Ana Cristina Araujo Oliveira | RM: 99816

Bruna Oliveira Pedroso de Jesus | RM: 99518

Lucas Matheus da Silva | RM: 550466

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# Carregar o dataset
data = pd.read_csv('https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/sao-paulo-properties-april-2019.csv')

# Filtrar apenas os apartamentos à venda
data_filtered = data[data["Negotiation Type"] == "sale"]

# Selecionar as colunas relevantes para o modelo
cols = ["Price", "Condo", "Size", "Rooms", "Toilets", "Suites", "Parking", "Elevator", "Furnished", "Swimming Pool", "New", "District", "Property Type"]
data_filtered = data_filtered[cols]

# Codificar variáveis categóricas
data_filtered = pd.get_dummies(data_filtered, columns=["District", "Property Type"])

# Separar os dados de entrada (features) e de saída (preços)
X = data_filtered.drop("Price", axis=1)
y = data_filtered["Price"]

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Regressão Linear
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Random Forest
random_forest_model = RandomForestRegressor(random_state=42)
random_forest_model.fit(X_train, y_train)

# Fazer previsões nos dados de teste
linear_predictions = linear_model.predict(X_test)
random_forest_predictions = random_forest_model.predict(X_test)

# Calcular o Mean Absolute Error (MAE)
linear_mae = mean_absolute_error(y_test, linear_predictions)
random_forest_mae = mean_absolute_error(y_test, random_forest_predictions)

print("Linear Regression MAE:", linear_mae)
print("Random Forest MAE:", random_forest_mae)


Linear Regression MAE: 176357.24659314976
Random Forest MAE: 119820.6238102274


In [None]:
# Calcular o R2 score
linear_r2 = r2_score(y_test, linear_predictions)
random_forest_r2 = r2_score(y_test, random_forest_predictions)

# Calcular o MAE
linear_mae = mean_absolute_error(y_test, linear_predictions)
random_forest_mae = mean_absolute_error(y_test, random_forest_predictions)

# Calcular o MSE
linear_mse = mean_squared_error(y_test, linear_predictions)
random_forest_mse = mean_squared_error(y_test, random_forest_predictions)

print("Linear Regression")
print("R2 Score:", linear_r2)
print("MAE:", linear_mae)
print("MSE:", linear_mse)

print("\nRandom Forest")
print("R2 Score:", random_forest_r2)
print("MAE:", random_forest_mae)
print("MSE:", random_forest_mse)


Linear Regression
R2 Score: 0.7509905200529082
MAE: 176357.24659314976
MSE: 129984520033.65747

Random Forest
R2 Score: 0.8473779209248691
MAE: 119820.6238102274
MSE: 79669688476.65959


In [None]:
# Fazer previsões usando regressão linear
linear_predictions = linear_model.predict(X_test)

# Converter as previsões em um array
linear_predictions = linear_predictions.flatten()

# Redefinir o índice dos arrays y_test e linear_predictions
y_test = pd.Series(y_test).reset_index(drop=True)
linear_predictions = pd.Series(linear_predictions).reset_index(drop=True)

# Exibir algumas previsões e os valores reais correspondentes
print("Regressão Linear")
for i in range(len(y_test)):
    print("Previsão:", linear_predictions[i], "\tValor Real:", y_test[i])




Regressão Linear
Previsão: 359769.80124698975 	Valor Real: 329000
Previsão: 392235.63189205783 	Valor Real: 320000
Previsão: 192396.94818048092 	Valor Real: 230000
Previsão: 1322129.4040924725 	Valor Real: 910000
Previsão: 756448.3287318132 	Valor Real: 775000
Previsão: 720254.7194949636 	Valor Real: 649950
Previsão: 237196.46119944262 	Valor Real: 300000
Previsão: 304547.94240432756 	Valor Real: 229000
Previsão: 633616.9169394826 	Valor Real: 882000
Previsão: 1216795.8020115152 	Valor Real: 990000
Previsão: 194904.95096337656 	Valor Real: 190800
Previsão: 308993.9879238482 	Valor Real: 320000
Previsão: 2305485.1576315346 	Valor Real: 3200000
Previsão: 26265.26694123668 	Valor Real: 187000
Previsão: 458091.29698669305 	Valor Real: 400000
Previsão: 245156.36350738537 	Valor Real: 350000
Previsão: 207581.30206846923 	Valor Real: 209000
Previsão: 997433.5420947687 	Valor Real: 1200000
Previsão: 468849.1606489016 	Valor Real: 599000
Previsão: 1383248.310545994 	Valor Real: 1126300
Previsão

In [None]:

# Fazer previsões usando random forest
random_forest_predictions = random_forest_model.predict(X_test)

# Redefinir o índice do array random_forest_predictions
random_forest_predictions = pd.Series(random_forest_predictions).reset_index(drop=True)

# Exibir algumas previsões e os valores reais correspondentes
print("\nRandom Forest")
for i in range(len(y_test)):
    print("Previsão:", random_forest_predictions[i], "\tValor Real:", y_test[i])



Random Forest
Previsão: 327233.1066666667 	Valor Real: 329000
Previsão: 521943.32333333336 	Valor Real: 320000
Previsão: 203299.87 	Valor Real: 230000
Previsão: 1232747.5 	Valor Real: 910000
Previsão: 764376.0580952379 	Valor Real: 775000
Previsão: 723863.95 	Valor Real: 649950
Previsão: 328124.0 	Valor Real: 300000
Previsão: 228760.4 	Valor Real: 229000
Previsão: 687017.09 	Valor Real: 882000
Previsão: 1326533.0 	Valor Real: 990000
Previsão: 187669.99633699632 	Valor Real: 190800
Previsão: 297240.4733333333 	Valor Real: 320000
Previsão: 2247510.0 	Valor Real: 3200000
Previsão: 139492.2156190476 	Valor Real: 187000
Previsão: 435480.53 	Valor Real: 400000
Previsão: 323526.9 	Valor Real: 350000
Previsão: 200947.02333333335 	Valor Real: 209000
Previsão: 915986.14 	Valor Real: 1200000
Previsão: 444736.19000000006 	Valor Real: 599000
Previsão: 741789.0 	Valor Real: 1126300
Previsão: 257586.58 	Valor Real: 346218
Previsão: 230658.65 	Valor Real: 245000
Previsão: 153505.3 	Valor Real: 147900

In [None]:
# Carregar o dataset
data = pd.read_csv("propriedades.csv")

# Filtrar apenas os apartamentos à venda e armazena na variavel "data_filtered"
data_filtered = data[data["Negotiation Type"] == "sale"]

# Selecionar as colunas relevantes para o modelo
cols = ["Price", "Condo", "Size", "Rooms", "Toilets", "Suites", "Parking", "Elevator", "Furnished", "Swimming Pool", "New", "District", "Property Type"]
data_filtered = data_filtered[cols]
data

# Codificar variáveis categóricas
encoder = LabelEncoder()
data_filtered["District"] = encoder.fit_transform(data_filtered["District"])
data_filtered["Property Type"] = encoder.fit_transform(data_filtered["Property Type"])

# Separar os dados de entrada (características) e saída (preço)
X = data_filtered.drop("Price", axis=1).values
y = data_filtered["Price"].values

# Normalizar os dados de entrada
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
model = keras.Sequential([
    keras.layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    keras.layers.Dense(32, activation='relu'),
    keras.layers.Dense(1)
])

model.compile(optimizer='adam', loss='mean_squared_error')
model.fit(X_train, y_train, epochs=300, batch_size=32, verbose=1)


Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

<keras.callbacks.History at 0x7fe36c6d3f10>

In [None]:
loss = model.evaluate(X_test, y_test)
print("Loss:", loss)



Loss: 162616213504.0


In [None]:
# Fazer previsões usando os dados de teste
y_pred = model.predict(X_test)

# Exibir algumas previsões e os valores reais correspondentes
for i in range(20):
    print("Previsão:", y_pred[i][0], "\tValor Real:", y_test[i])

Previsão: 300852.47 	Valor Real: 329000
Previsão: 490053.94 	Valor Real: 320000
Previsão: 223801.44 	Valor Real: 230000
Previsão: 1155518.1 	Valor Real: 910000
Previsão: 762793.7 	Valor Real: 775000
Previsão: 843865.9 	Valor Real: 649950
Previsão: 151225.52 	Valor Real: 300000
Previsão: 370717.3 	Valor Real: 229000
Previsão: 665312.4 	Valor Real: 882000
Previsão: 1312682.1 	Valor Real: 990000
Previsão: 265017.78 	Valor Real: 190800
Previsão: 462936.22 	Valor Real: 320000
Previsão: 1738092.4 	Valor Real: 3200000
Previsão: 116455.16 	Valor Real: 187000
Previsão: 370379.0 	Valor Real: 400000
Previsão: 200921.4 	Valor Real: 350000
Previsão: 221204.03 	Valor Real: 209000
Previsão: 711530.4 	Valor Real: 1200000
Previsão: 356527.06 	Valor Real: 599000
Previsão: 710109.6 	Valor Real: 1126300


In [None]:
# Calcular a métrica de desempenho - Erro médio quadrático (Mean Squared Error)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular a métrica de desempenho - Coeficiente de determinação (R-squared)
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)


Mean Squared Error: 162616209184.38318
R-squared: 0.6884784613622782


In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow import keras
from sklearn.metrics import r2_score

data = pd.read_csv('https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/sao-paulo-properties-april-2019.csv')

# Filter only apartments for sale and store in the variable "data_filtered"
data_filtered = data[data["Negotiation Type"] == "sale"]

# Select relevant columns for the model
cols = ["Price", "Condo", "Size", "Rooms", "Toilets", "Suites", "Parking", "Elevator", "Furnished", "Swimming Pool", "New", "District", "Property Type"]
data_filtered = data_filtered[cols]
encoder = LabelEncoder()
data_filtered["District"] = encoder.fit_transform(data_filtered["District"])
data_filtered["Property Type"] = encoder.fit_transform(data_filtered["Property Type"])

# Separate input (features) and output (price) data
X = data_filtered.drop("Price", axis=1).values
y = data_filtered["Price"].values

# Normalize input data
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Define and train MLP model
model = keras.Sequential([
    keras.layers.Dense(100, activation='relu', input_shape=(X_train.shape[1],)),
    keras.layers.Dense(50, activation='relu'),
    keras.layers.Dense(1)
])
model.compile(optimizer='adam', loss='mean_absolute_error')  # Alteração na função de perda
model.fit(X_train, y_train, epochs=300, batch_size=32, verbose=1)

# Make predictions using test data
y_pred = model.predict(X_test)

# Calculate performance metric - Mean Absolute Error (MAE)
mae = mean_absolute_error(y_test, y_pred)  # Alteração na métrica utilizada
print("Mean Absolute Error:", mae)


Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

In [None]:
loss = model.evaluate(X_test, y_test)
print("Loss:", loss)

Loss: 168282.140625


In [None]:
# Fazer previsões usando os dados de teste
y_pred = model.predict(X_test)

# Exibir algumas previsões e os valores reais correspondentes
for i in range(30):
    print("Previsão:", y_pred[i][0], "\tValor Real:", y_test[i])

Previsão: 369083.0 	Valor Real: 329000
Previsão: 499416.75 	Valor Real: 320000
Previsão: 190437.47 	Valor Real: 230000
Previsão: 1042129.0 	Valor Real: 910000
Previsão: 695848.5 	Valor Real: 775000
Previsão: 759652.4 	Valor Real: 649950
Previsão: 313011.2 	Valor Real: 300000
Previsão: 242427.25 	Valor Real: 229000
Previsão: 525592.06 	Valor Real: 882000
Previsão: 1253519.9 	Valor Real: 990000
Previsão: 203295.47 	Valor Real: 190800
Previsão: 301739.38 	Valor Real: 320000
Previsão: 1742929.5 	Valor Real: 3200000
Previsão: 155713.16 	Valor Real: 187000
Previsão: 424046.3 	Valor Real: 400000
Previsão: 341146.56 	Valor Real: 350000
Previsão: 198560.33 	Valor Real: 209000
Previsão: 845775.6 	Valor Real: 1200000
Previsão: 404603.38 	Valor Real: 599000
Previsão: 645863.1 	Valor Real: 1126300
Previsão: 356096.3 	Valor Real: 346218
Previsão: 250843.25 	Valor Real: 245000
Previsão: 97490.06 	Valor Real: 147900
Previsão: 231784.56 	Valor Real: 310000
Previsão: 237354.98 	Valor Real: 280000
Previs

In [None]:
from keras import regularizers

# Carregar o dataset
data = pd.read_csv("https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/sao-paulo-properties-april-2019.csv")

# Filtrar apenas os apartamentos à venda e armazena na variavel "data_filtered"
data_filtered = data[data["Negotiation Type"] == "sale"]

# Selecionar as colunas relevantes para o modelo
cols = ["Price", "Condo", "Size", "Rooms", "Toilets", "Suites", "Parking", "Elevator", "Furnished", "Swimming Pool", "New", "District", "Property Type"]
data_filtered = data_filtered[cols]

In [None]:
# Codificar variáveis categóricas
encoder = LabelEncoder()
data_filtered["District"] = encoder.fit_transform(data_filtered["District"])
data_filtered["Property Type"] = encoder.fit_transform(data_filtered["Property Type"])

# Separar os dados de entrada (características) e saída (preço)
X = data_filtered.drop("Price", axis=1).values
y = data_filtered["Price"].values

# Normalizar os dados de entrada
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

# Dividir os dados em conjuntos de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

In [None]:
model = keras.Sequential([
    keras.layers.Dense(128, activation='relu', kernel_regularizer=regularizers.l2(0.01), input_shape=(X_train.shape[1],)),
    keras.layers.Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.01)),
    keras.layers.Dense(32, activation='relu', kernel_regularizer=regularizers.l2(0.01)),
    keras.layers.Dense(1)
])

optimizer = keras.optimizers.Adam(learning_rate=0.001)

model.compile(optimizer=optimizer, loss='mean_squared_error')
model.fit(X_train, y_train, epochs=500, batch_size=32, verbose=1)


Epoch 1/500
  1/181 [..............................] - ETA: 2:41 - loss: 628346519552.0000

In [None]:
import pandas as pd

# Dados para o arquivo CSV
dados = {
    'Price': [2200000, 827999, 243800, 530000, 6500000],
    'Condo': [0, 599, 180, 322, 4272],
    'Size': [284, 69, 48, 18, 220],
    'Rooms': [4, 3, 2, 1, 3],
    'Toilets': [5, 2, 1, 1, 5],
    'Suites': [2, 1, 1, 0, 3],
    'Parking': [4, 2, 1, 1, 3],
    'Elevator': [1, 1, 1, 0, 1],
    'Furnished': [0, 0, 0, 0, 0],
    'Swimming Pool': [1, 1, 0, 0, 0],
    'New': [0, 0, 0, 0, 0],
    'District': ["Santo Amaro/São Paulo", 
                 "Pari/São Paulo",
                 "Artur Alvim/São Paulo", 
                 "Pinheiros/São Paulo",
                 "Vila Nova Conceição/São Paulo"],
    'Negotiation Type': ["sale", "sale", "sale", "sale", "sale"],
    'Property Type': ["apartment", "apartment", "apartment", "apartment", "apartment"],
    'Latitude': [-23.63153, -23.52955, -23.54984, -23.56002, -23.59286],
    'Longitude': [-46.69287, -46.61015, -46.47833, -46.67254, -46.66803]
}

# Criação do DataFrame
df = pd.DataFrame(dados)
df.head(5)

Unnamed: 0,Price,Condo,Size,Rooms,Toilets,Suites,Parking,Elevator,Furnished,Swimming Pool,New,District,Negotiation Type,Property Type,Latitude,Longitude
0,2200000,0,284,4,5,2,4,1,0,1,0,Santo Amaro/São Paulo,sale,apartment,-23.63153,-46.69287
1,827999,599,69,3,2,1,2,1,0,1,0,Pari/São Paulo,sale,apartment,-23.52955,-46.61015
2,243800,180,48,2,1,1,1,1,0,0,0,Artur Alvim/São Paulo,sale,apartment,-23.54984,-46.47833
3,530000,322,18,1,1,0,1,0,0,0,0,Pinheiros/São Paulo,sale,apartment,-23.56002,-46.67254
4,6500000,4272,220,3,5,3,3,1,0,0,0,Vila Nova Conceição/São Paulo,sale,apartment,-23.59286,-46.66803


In [None]:
model = keras.Sequential([
    keras.layers.Dense(64, activation='relu', input_shape=(X_train.shape[1],)),
    keras.layers.Dense(32, activation='relu'),
    keras.layers.Dense(1)
])

model.compile(optimizer='adam', loss='mean_squared_error')
model.fit(X_train, y_train, epochs=300, batch_size=32, verbose=1)


Epoch 1/300
Epoch 2/300
Epoch 3/300
Epoch 4/300
Epoch 5/300
Epoch 6/300
Epoch 7/300
Epoch 8/300
Epoch 9/300
Epoch 10/300
Epoch 11/300
Epoch 12/300
Epoch 13/300
Epoch 14/300
Epoch 15/300
Epoch 16/300
Epoch 17/300
Epoch 18/300
Epoch 19/300
Epoch 20/300
Epoch 21/300
Epoch 22/300
Epoch 23/300
Epoch 24/300
Epoch 25/300
Epoch 26/300
Epoch 27/300
Epoch 28/300
Epoch 29/300
Epoch 30/300
Epoch 31/300
Epoch 32/300
Epoch 33/300
Epoch 34/300
Epoch 35/300
Epoch 36/300
Epoch 37/300
Epoch 38/300
Epoch 39/300
Epoch 40/300
Epoch 41/300
Epoch 42/300
Epoch 43/300
Epoch 44/300
Epoch 45/300
Epoch 46/300
Epoch 47/300
Epoch 48/300
Epoch 49/300
Epoch 50/300
Epoch 51/300
Epoch 52/300
Epoch 53/300
Epoch 54/300
Epoch 55/300
Epoch 56/300
Epoch 57/300
Epoch 58/300
Epoch 59/300
Epoch 60/300
Epoch 61/300
Epoch 62/300
Epoch 63/300
Epoch 64/300
Epoch 65/300
Epoch 66/300
Epoch 67/300
Epoch 68/300
Epoch 69/300
Epoch 70/300
Epoch 71/300
Epoch 72/300
Epoch 73/300
Epoch 74/300
Epoch 75/300
Epoch 76/300
Epoch 77/300
Epoch 78

<keras.callbacks.History at 0x7fe37e7fb640>

In [None]:
loss = model.evaluate(X_test, y_test)
print("Loss:", loss)

Loss: 684264062976.0


In [None]:
# Fazer previsões usando os dados de teste
y_pred = model.predict(X_test)

# Exibir algumas previsões e os valores reais correspondentes
for i in range(20):
    print("Previsão:", y_pred[i][0], "\tValor Real:", y_test[i])

Previsão: 405.36322 	Valor Real: 827999


IndexError: ignored

In [None]:
# Calcular a métrica de desempenho - Erro médio quadrático (Mean Squared Error)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Calcular a métrica de desempenho - Coeficiente de determinação (R-squared)
r2 = r2_score(y_test, y_pred)
print("R-squared:", r2)

Mean Squared Error: 684911227638.391
R-squared: nan


