Para comparar com os resultados do artigo foi necessário fazer a média tanto do RMSE quanto do coeficiente de determinação, pois eles estavam divididos por regiões.


O coeficiente de determinação é uma medida estatística que avalia a proporção da variância da variável dependente que é explicada pelas variáveis independentes em um modelo de regressão.

Um R² alto sugere que parte da variância dos dados é explicada pelo modelo, porém não indica causalidade, apenas correlação. Um R² baixo indica que o modelo não está detectando a relação entre as variáveis.

O RMSE (Root Mean Square Error) é a raiz quadrada da média dos erros quadráticos (diferenças ao quadrado entre as previsões e os valores reais). Isso garante que o RMSE está na mesma unidade que os valores da variável dependente.

Como os erros são elevados ao quadrado o RMSE é mais sensível a outliers, significando que erros grandes aumentam o valor do RMSE, ou seja, os outliers causam maior atenção na métrica do modelo do que os erros de valores baixos.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Dividindo os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Treinamento do modelo de Regressão Linear Múltipla
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred_linear = linear_model.predict(X_test)

# Avaliação do modelo de Regressão Linear Múltipla
rmse_linear = np.sqrt(mean_squared_error(y_test, y_pred_linear))
r2_linear = r2_score(y_test, y_pred_linear)

# Resultados
print("Resultados da Regressão Linear Múltipla:")
print(f"RMSE: {rmse_linear}")
print(f"R²: {r2_linear}")


Resultados da Regressão Linear Múltipla:
RMSE: 8.57703316536862
R²: 0.5600810475775289


O primeiro modelo testado foi com o uso de regressão linear simples com uma divisão dos dados de treino e teste em 70%-30% e como métrica de avaliação os valores de RMSE e R²(Coeficiente de determinação), assim como o utilizado no artigo de comparação da questão.

No primeiro modelo não foi realizado qualquer pré processamento dos dados. Após a aplicação os resultados obtidos foram de RMSE:8,57 e R²: 0,56.

Os dados dos artigos apresentaram os valores de RMSE:8,042 e R²:0,396.

O primeiro modelo apresentou um valor RMSE bem próximo ao do artigo, porém no modelo aplicado o R² apresentou um melhor ajuste dos dados ao modelo em termos de variância explicada.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Dividindo os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Treinamento do modelo de Regressão Linear Múltipla
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred_linear = linear_model.predict(X_test)

# Avaliação do modelo de Regressão Linear Múltipla
rmse_linear = np.sqrt(mean_squared_error(y_test, y_pred_linear))
r2_linear = r2_score(y_test, y_pred_linear)

# Resultados
print("Resultados da Regressão Linear Múltipla com Normalização:")
print(f"RMSE: {rmse_linear}")
print(f"R²: {r2_linear}")


Resultados da Regressão Linear Múltipla com Normalização:
RMSE: 8.577033165368846
R²: 0.5600810475775057


A aplicação da normalização dos dados não apresentou resultados diferentes ao primeiro modelo sem normalização.

A normalização geralmente é aplicada para evitar viés entre os dados de entrada, pois possuem unidades de medidas diferentes, sendo alguns dados de entrada com valores altos e outros com baixos valores, o que acaba por causar uma maior influência dos dados de maiores valores em detrimento aos de baixos valores.

Porém no modelo em questão não foi observada tal situação.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Definindo o número de folds para validação cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Criando o modelo de Regressão Linear Múltipla
linear_model = LinearRegression()

# Aplicando a validação cruzada com KFold (métrica: RMSE negativa)
rmse_scores = -cross_val_score(linear_model, X_scaled, y, cv=kf, scoring='neg_root_mean_squared_error')

# Aplicando a validação cruzada com KFold para o coeficiente de determinação R²
r2_scores = cross_val_score(linear_model, X_scaled, y, cv=kf, scoring='r2')

# Exibindo os resultados
print("Validação Cruzada com KFold (5 folds):")
print(f"RMSE Médio: {np.mean(rmse_scores)}")
print(f"RMSE Desvio Padrão: {np.std(rmse_scores)}")
print(f"R² Médio: {np.mean(r2_scores)}")
print(f"R² Desvio Padrão: {np.std(r2_scores)}")


Validação Cruzada com KFold (5 folds):
RMSE Médio: 8.795887495288861
RMSE Desvio Padrão: 1.3157038136391592
R² Médio: 0.569326961195446
R² Desvio Padrão: 0.09144352526115428


Em um terceiro momento foi aplicado além da normalização dos dados a validação cruzada com o uso do k-fold. Essa técnica é utilizada para realizar o treinamento do modelo e tem como objetivo mitigar sobreajuste, avaliar de forma mais abrangente o desenvolvimento do modelo e melhoria na generalização dos dados.

Nesse modelo, os dados são divididos em subconjuntos K de tamanhos aproximadamente iguais. Durante a fase de treinamento e teste, um dos Kfolds é armazenado para teste e os outros usados para treinamento. Esses testes ocorrem de forma recursiva e todos os kfolds são utilizados como teste.

O resultado é apresentado com o uso da média e desvio padrão para apresentar uma estimativa do desempenho do modelo.

Observando as métricas de saída, a validação cruzada apresentou um valor médio próximo aos outros modelos e ao modelo do artigo.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
import numpy as np

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Aplicando PCA para manter 95% da variância
pca = PCA(n_components=0.95)
X_pca = pca.fit_transform(X_scaled)

# Exibir a variância explicada por cada componente
print(f"Variância explicada por cada componente: {pca.explained_variance_ratio_}")
print(f"Número de componentes selecionados: {pca.n_components_}")

# Definindo o número de folds para validação cruzada
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Criando o modelo de Regressão Linear Múltipla
linear_model = LinearRegression()

# Aplicando a validação cruzada com KFold (métrica: RMSE negativa)
rmse_scores = -cross_val_score(linear_model, X_pca, y, cv=kf, scoring='neg_root_mean_squared_error')

# Aplicando a validação cruzada com KFold para o coeficiente de determinação R²
r2_scores = cross_val_score(linear_model, X_pca, y, cv=kf, scoring='r2')

# Exibindo os resultados
print("Validação Cruzada com KFold (5 folds) após PCA:")
print(f"RMSE Médio: {np.mean(rmse_scores)}")
print(f"RMSE Desvio Padrão: {np.std(rmse_scores)}")
print(f"R² Médio: {np.mean(r2_scores)}")
print(f"R² Desvio Padrão: {np.std(r2_scores)}")


Variância explicada por cada componente: [0.36742321 0.28164928 0.20145538 0.09221749 0.04246124]
Número de componentes selecionados: 5
Validação Cruzada com KFold (5 folds) após PCA:
RMSE Médio: 8.849548838797208
RMSE Desvio Padrão: 1.3654358043988348
R² Médio: 0.56474522612371
R² Desvio Padrão: 0.09099666469095057


O objetivo principal do PCA é reduzir a dimensionalidade de conjuntos de dados, preservando o máximo possível de variância.

Ele transforma um conjunto de variáveis possivelmente correlacionadas em um conjunto menor de variáveis não correlacionadas chamadas componentes principais.

Essa técnica é utilizada para manter a maior parte da variância dos dados originiais, assim, os primeiro componentes principais são os responsáveis pelas maiores partes da variância e isso permite diminuir o tamanho dos dados e manter uma elevada variância.

A aplicação do PCA + Kfold + Normalização dos dados também não apresentaram valoers significativamente relevantes se comparados aos outros modelos e ao modelo do artigo em questão.



|Modelos| RMSE |R²|
|-------|------|------|
|Regressão Linear (Yeh et.al)|8,042|0,396|
|Regressão Linear Múltipla |8.577|0.560|
|Resultados da Regressão Linear Múltipla com Normalização|8.577|0.560|
|Validação Cruzada com KFold (5 folds)|8.796 ± 1.315|0.569 ± 0.0914|
|Validação Cruzada com KFold (5 folds) após PCA|8.849 ± 1.365|0.565 ± 0.0909|

MLP

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Dividindo os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

#Definindo a quantidade de neurônios da camada oculta: Regra Kolgomorov
nno = 2 * len(X[0]) +1

# Definindo o modelo MLP com TensorFlow (Keras)
model = tf.keras.Sequential([
    tf.keras.layers.Dense(nno, activation='relu', input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dense(1)  # Camada de saída com 1 neurônio para regressão
])

# Compilando o modelo (utilizando otimizador Adam e erro quadrático médio como perda)
model.compile(optimizer='adam', loss='mean_squared_error')

# Treinamento do modelo MLP
model.fit(X_train, y_train, epochs=100, batch_size=10, verbose=1)

# Fazendo previsões no conjunto de teste
y_pred_mlp = model.predict(X_test)

# Avaliação do modelo MLP
rmse_mlp = np.sqrt(mean_squared_error(y_test, y_pred_mlp))
r2_mlp = r2_score(y_test, y_pred_mlp)

# Resultados
print("Resultados do MLP com TensorFlow:")
print(f"RMSE: {rmse_mlp}")
print(f"R²: {r2_mlp}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - loss: 1158384.7500
Epoch 2/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 679749.3125
Epoch 3/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 441034.5938
Epoch 4/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 278532.7500 
Epoch 5/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 198331.2500 
Epoch 6/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 114301.1719 
Epoch 7/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 60934.4297   
Epoch 8/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 30133.3398  
Epoch 9/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 1ms/step - loss: 14630.4785 
Epoch 10/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━

Foi realizada a aplicação de um MLP, com uma camada oculta e o cálculo dos neurônios feitos através da regra de Kolgomorov. Na aplicação do modelo foram utilizadas as funções de ativação Sigmoid e Relu para aplicação da não linearidade no modelo, porém a Relu apresentou resultado mais significante.

Em relação aos otimizadores, foram utilizados o Adam e sgd para análise, porém o Adam apresentou melhor resultado que o sgd.

Como resultado, essa MLP apresentaram os seguintes resultados: RMSE: 11,448 e R²:0.216.

Esses resultados foram bem abaixo se comparado aos modelos de regressão linear e ao modelo de Redes Neurais usados no artigo, que foi de: RMSE:7,116 e R²:0,542.



In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:,1:7].values
y = data.iloc[:,7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Dividindo os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Definindo a quantidade de neurônios da camada oculta: Regra de Kolmogorov
nno = 2 * len(X[0]) + 1

# Definindo o modelo MLP com TensorFlow (Keras)
model = tf.keras.Sequential([
    tf.keras.layers.Dense(nno, activation='relu', input_shape=(X_train.shape[1],)),
    tf.keras.layers.Dense(1)  # Camada de saída com 1 neurônio para regressão
])

# Compilando o modelo (utilizando otimizador Adam e erro quadrático médio como perda)
model.compile(optimizer='adam', loss='mean_squared_error')

# Treinamento do modelo MLP
model.fit(X_train, y_train, epochs=100, batch_size=10, verbose=1)

# Fazendo previsões no conjunto de teste
y_pred_mlp = model.predict(X_test)

# Avaliação do modelo MLP
rmse_mlp = np.sqrt(mean_squared_error(y_test, y_pred_mlp))
r2_mlp = r2_score(y_test, y_pred_mlp)

# Resultados
print("Resultados do MLP com TensorFlow:")
print(f"RMSE: {rmse_mlp}")
print(f"R²: {r2_mlp}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Epoch 1/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 3ms/step - loss: 1667.8473
Epoch 2/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 1616.5642
Epoch 3/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1655.7496
Epoch 4/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 1628.6500
Epoch 5/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1535.4125
Epoch 6/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1639.2302
Epoch 7/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1566.5857
Epoch 8/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - loss: 1475.5367
Epoch 9/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - loss: 1472.8804
Epoch 10/100
[1m29/29[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s

Assim como no modelo Linear, na segunda aplicação foi realizada a normalização dos dados de entrada.

Os resultados obtidos apresentaram valores melhores se comparados ao primeiro MLP, com RMSE:9.669 e R²:0.441. Porém ainda aquém do modelo de (Yeh et al.,2018).

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:, 1:7].values
y = data.iloc[:, 7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Definindo a quantidade de neurônios da camada oculta: Regra de Kolmogorov
nno = 2 * len(X[0]) + 1

# Configurando a validação cruzada com KFold
kf = KFold(n_splits=5, shuffle=True, random_state=42)  # 5 dobras
rmse_list = []
r2_list = []

for train_index, test_index in kf.split(X_scaled):
    X_train, X_test = X_scaled[train_index], X_scaled[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Definindo o modelo MLP com TensorFlow (Keras)
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(nno, activation='relu', input_shape=(X_train.shape[1],)),
        tf.keras.layers.Dense(1)  # Camada de saída com 1 neurônio para regressão
    ])

    # Compilando o modelo
    model.compile(optimizer='adam', loss='mean_squared_error')

    # Treinamento do modelo MLP
    model.fit(X_train, y_train, epochs=100, batch_size=10, verbose=0)  # verbose=0 para não mostrar o progresso

    # Fazendo previsões no conjunto de teste
    y_pred_mlp = model.predict(X_test)

    # Avaliação do modelo MLP
    rmse_mlp = np.sqrt(mean_squared_error(y_test, y_pred_mlp))
    r2_mlp = r2_score(y_test, y_pred_mlp)

    rmse_list.append(rmse_mlp)
    r2_list.append(r2_mlp)

# Resultados finais
print("Resultados do MLP com validação cruzada:")
print(f"RMSE médio: {np.mean(rmse_list)} ± {np.std(rmse_list)}")
print(f"R² médio: {np.mean(r2_list)} ± {np.std(r2_list)}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step
Resultados do MLP com validação cruzada:
RMSE médio: 9.346958291785024 ± 1.4773406389212402
R² médio: 0.514962268941291 ± 0.10109541133994614


O terceiro teste foi realizada com a aplicação da validação cruzada com 5 Kfolds.

As métricas apresentadas geraram valores relativamente melhores do que os apresentados após apenas a normalização.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.model_selection import KFold
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA

# Carregando os dados do arquivo Excel
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:, 1:7].values
y = data.iloc[:, 7].values

# Aplicando a normalização nas variáveis independentes (X)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Aplicando PCA com 95% de retenção de variância
pca = PCA(n_components=0.95)  # Mantém 95% da variância
X_pca = pca.fit_transform(X_scaled)

# Definindo a quantidade de neurônios da camada oculta: Regra de Kolmogorov
nno = 2 * X_pca.shape[1] + 1  # Usando a nova dimensionalidade após PCA

# Configurando a validação cruzada com KFold
kf = KFold(n_splits=5, shuffle=True, random_state=42)  # 5 dobras
rmse_list = []
r2_list = []

for train_index, test_index in kf.split(X_pca):
    X_train, X_test = X_pca[train_index], X_pca[test_index]
    y_train, y_test = y[train_index], y[test_index]

    # Definindo o modelo MLP com TensorFlow (Keras)
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(nno, activation='relu', input_shape=(X_train.shape[1],)),
        tf.keras.layers.Dense(1)  # Camada de saída com 1 neurônio para regressão
    ])

    # Compilando o modelo
    model.compile(optimizer='adam', loss='mean_squared_error')

    # Treinamento do modelo MLP
    model.fit(X_train, y_train, epochs=100, batch_size=10, verbose=0)  # verbose=0 para não mostrar o progresso

    # Fazendo previsões no conjunto de teste
    y_pred_mlp = model.predict(X_test)

    # Avaliação do modelo MLP
    rmse_mlp = np.sqrt(mean_squared_error(y_test, y_pred_mlp))
    r2_mlp = r2_score(y_test, y_pred_mlp)

    rmse_list.append(rmse_mlp)
    r2_list.append(r2_mlp)

# Resultados finais
print("Resultados do MLP com validação cruzada e PCA:")
print(f"RMSE médio: {np.mean(rmse_list)} ± {np.std(rmse_list)}")
print(f"R² médio: {np.mean(r2_list)} ± {np.std(r2_list)}")


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 15ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


[1m3/3[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step
Resultados do MLP com validação cruzada e PCA:
RMSE médio: 8.826770275837486 ± 1.3840779880922134
R² médio: 0.5665140135714315 ± 0.09451398552956905


Após isso, foi aplicada a técnica de PCA + Validação cruzada.

Esse resultado apresentou valores melhores se comparados aos outros modelos de MLP e mais aproximados ao do artigo base de comparação.

|Modelos| RMSE | R² |
|-------|------|----|
|MLP|11.448|0.216|
|MLP com Normalização|9.669|0.441|
|MLP com validação cruzada|9.347 ± 1.477|0.515 ± 0.101|
|MLP com validação cruzada e PCA|8.826 ± 1.384|0.566 ± 0.094|


SVR

O SVR tem por objetivo encontrar um hiperplano que melhor separe os dados em um espaço de alta dimensão.  


In [None]:
# Importação das bibliotecas necessárias
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd
import numpy as np

# Carregando os dados
file_path = '/content/Real estate valuation data set.xlsx'
data = pd.read_excel(file_path)

# Separando as variáveis independentes (X) da dependente (Y)
X = data.iloc[:, 1:7].values
y = data.iloc[:, 7].values

# Normalizando os dados
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Dividindo os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42)

# Definindo o modelo SVR
model = SVR()

# Definindo a grade de hiperparâmetros, incluindo diferentes kernels
param_grid = {
    'C': [0.1, 1, 10, 100],
    'epsilon': [0.01, 0.1, 0.5, 1],
    'gamma': ['scale', 'auto', 0.001, 0.01, 0.1],
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid']
}

# Realizando a busca em grade com validação cruzada
grid_search = GridSearchCV(estimator=model, param_grid=param_grid,
                           scoring='neg_mean_squared_error', cv=5, verbose=1)

# Ajustando o modelo
grid_search.fit(X_train, y_train)

# Obtendo os melhores parâmetros e o melhor modelo
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Fazendo previsões com o melhor modelo
y_pred_svr = best_model.predict(X_test)

# Avaliação do modelo
rmse_svr = np.sqrt(mean_squared_error(y_test, y_pred_svr))
r2_svr = r2_score(y_test, y_pred_svr)

# Resultados
print("Melhores parâmetros encontrados:")
print(best_params)
print("Resultados do SVR com melhores parâmetros:")
print(f"RMSE: {rmse_svr}")
print(f"R²: {r2_svr}")


Fitting 5 folds for each of 320 candidates, totalling 1600 fits
Melhores parâmetros encontrados:
{'C': 100, 'epsilon': 1, 'gamma': 'scale', 'kernel': 'rbf'}
Resultados do SVR com melhores parâmetros:
RMSE: 6.946440690358901
R²: 0.711448618648256


Para o modelo SVR foi aplicada a normalização dos dados e uma busca em grade para detectar o melhor hiperparâmetro do modelo.

Os hiperparâmetros utilizados foram

**Kernel**:['linear', 'poly', 'rbf', 'sigmoid'].

Usado para transformar os dados em um espaço de características de alta dimensão. Isso permite que o modelo capture relações não lineares entre as variáveis.

**C**: [0.1, 1, 10, 100].

Controla a penalização das instâncias que ficam fora da margem de tolerância. Um valor alto de C significa menos tolerância a erros, enquanto um valor baixo significa mais margem de tolerância.

**Epsilon (ε)**: [0.01, 0.1, 0.5, 1].

Define a faixa de erro onde as previsões são consideradas aceitáveis. As previsões que caem dentro dessa faixa não contribuem para a função de custo.

**Gamma (𝛾)**: ['scale', 'auto', 0.001, 0.01, 0.1].

O valor de 𝛾 determina a distância em que um ponto de dados influencia os outros. Um valor de 𝛾 mais alto significa que a influência de um ponto de dados se restringe a uma área menor (mais local), enquanto um valor de
𝛾 mais baixo significa que a influência é mais ampla (mais global).



|Modelos| RMSE |R²|
|-------|------|------|
|Regressão Linear (Yeh et al.,2018)|8,042|0,396|
|Regressão Linear Múltipla |8.577|0.560|
|Regressão Linear Múltipla com Normalização|8.577|0.560|
|Regressão Linear Validação Cruzada com KFold|8.796 ± 1.315|0.569 ± 0.0914|
|Regressão Linear Validação Cruzada após PCA|8.849 ± 1.365|0.565 ± 0.0909|
|MLP(Yeh er al.,2018)|7.116|0.542|
|MLP|11.448|0.216|
|MLP com Normalização|9.669|0.441|
|MLP com validação cruzada|9.347 ± 1.477|0.515 ± 0.101|
|MLP com validação cruzada e PCA|8.826 ± 1.384|0.566 ± 0.094|
|SVR|6.94|0.711|


Observando todos os modelos aplicados foi possível notar que o modelo SVR apresentou os melhores resultados,até mesmo que os empregados pelo artigo de comparação.

O modelo apresentou um RMSE no valor de 6,94 e um coeficiente de determinação de 0.711. Assim o modelo teve uma melhoria nas duas métricas se comparados a todos os outros valores.

Para alcançar esse resultado foi utilizado um pré processamento de normalização dos dados de entrada e os seguintes valores de hiperparâmetros:
{'C': 100, 'epsilon': 1, 'gamma': 'scale', 'kernel': 'rbf'}