# Análise e Modelagem de Preços de Imóveis

## Carregamento dos Dados

In [None]:
import pandas as pd

# Carregando o dataset
data = pd.read_csv('/mnt/data/gtp_analysis.csv')
data.head()

## Pré-processamento dos Dados

In [None]:

# Removendo as colunas 'nome' e 'link'
data_cleaned = data.drop(columns=['nome', 'link'])

# Codificando a coluna 'bairro' usando one-hot encoding
data_encoded = pd.get_dummies(data_cleaned, columns=['bairro'], drop_first=True)

# Separando as variáveis independentes e dependente
X = data_encoded.drop(columns='preco')
y = data_encoded['preco']

# Dividindo os dados em conjuntos de treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Modelagem com Regressão Linear

In [None]:

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Inicializando e treinando o modelo de Regressão Linear
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

# Predizendo os preços no conjunto de teste
y_pred = linear_model.predict(X_test)

# Calculando métricas de avaliação
mse = mean_squared_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

mse, rmse, mae, r2


## Engenharia de Características

In [None]:

# Criando interações entre características
X_train['area_per_quarto'] = X_train['area'] / (X_train['quartos'] + 1)
X_train['area_per_banheiro'] = X_train['area'] / (X_train['banheiros'] + 1)
X_train['quartos_banheiros'] = X_train['quartos'] * X_train['banheiros']

X_test['area_per_quarto'] = X_test['area'] / (X_test['quartos'] + 1)
X_test['area_per_banheiro'] = X_test['area'] / (X_test['banheiros'] + 1)
X_test['quartos_banheiros'] = X_test['quartos'] * X_test['banheiros']

# Criando características polinomiais
X_train['area_squared'] = X_train['area'] ** 2
X_train['quartos_squared'] = X_train['quartos'] ** 2

X_test['area_squared'] = X_test['area'] ** 2
X_test['quartos_squared'] = X_test['quartos'] ** 2


## Modelagem com Floresta Aleatória

In [None]:

from sklearn.ensemble import RandomForestRegressor

# Inicializando o modelo de Floresta Aleatória
random_forest_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Treinando o modelo
random_forest_model.fit(X_train, y_train)

# Predizendo os preços no conjunto de teste
y_pred_rf = random_forest_model.predict(X_test)

# Calculando métricas de avaliação
mse_rf = mean_squared_error(y_test, y_pred_rf)
rmse_rf = mean_squared_error(y_test, y_pred_rf, squared=False)
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

mse_rf, rmse_rf, mae_rf, r2_rf
