In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


# Gerar um dataset fictício com 1000 exemplos
np.random.seed(42)

n_samples = 1000
area_lote = np.random.randint(1500, 10000, n_samples)
ano_construcao = np.random.randint(1950, 2023, n_samples)
area_primeiro_andar = np.random.randint(600, 2500, n_samples)
area_segundo_andar = np.random.randint(0, 1500, n_samples)  # Pode ser zero se for térrea
num_banheiros = np.random.randint(1, 4, n_samples)
num_quartos = np.random.randint(1, 6, n_samples)
num_total_quartos = num_quartos  # Assumindo que banheiros não contam

# Definir um preço base
preco_venda = (
    300 * area_primeiro_andar +
    250 * area_segundo_andar +
    5 * area_lote +
    10000 * num_banheiros +
    15000 * num_quartos +
    1000 * (ano_construcao - 1950)
)

# Criar DataFrame
df = pd.DataFrame({
    'Área do lote (pés²)': area_lote,
    'Ano de construção': ano_construcao,
    'Área do primeiro andar (pés²)': area_primeiro_andar,
    'Área do segundo andar (pés²)': area_segundo_andar,
    'Número de banheiros': num_banheiros,
    'Número de quartos': num_quartos,
    'Número total de quartos': num_total_quartos,
    'Preço de venda (reais)': preco_venda
})

df.head()


Unnamed: 0,Área do lote (pés²),Ano de construção,Área do primeiro andar (pés²),Área do segundo andar (pés²),Número de banheiros,Número de quartos,Número total de quartos,Preço de venda (reais)
0,8770,1973,831,1324,2,5,5,742150
1,2360,1979,1388,601,2,3,3,672450
2,6890,2008,1907,102,1,4,4,760050
3,6691,1963,1314,987,2,4,4,767405
4,7234,1958,1358,1273,1,2,2,809820


In [None]:
X = df.drop(columns=['Preço de venda (reais)'])
y = df['Preço de venda (reais)']

In [None]:
#Separando dados de treino e de teste
#utilizamos 80% dos dados para treino e o restante (20%) para teste.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [141]:
reg = LinearRegression()
reg.fit(X_train, y_train)
y_pred = reg.predict(X_test)

In [147]:
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)
resultados = pd.DataFrame({
    "Métrica": ["MAE", "MSE", "RMSE", "R²"],
    "Valor": [mae, mse, rmse, r2]
})
resultados

Unnamed: 0,Métrica,Valor
0,MAE,1.955777e-10
1,MSE,9.757819999999999e-20
2,RMSE,3.123751e-10
3,R²,1.0


In [160]:
# Separando as variáveis independentes (X) e a variável dependente (y)
X = df.drop(columns=['Preço de venda (reais)'])
y = df['Preço de venda (reais)']

# Dividindo os dados em conjunto de treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=42)

# Criando o modelo de regressão linear
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = modelo.predict(X_test)

# Avaliação do modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Exibir resultados
resultados = pd.DataFrame({
    "Métrica": ["MAE", "MSE", "RMSE", "R²"],
    "Valor": [mae, mse, rmse, r2]
})

resultados


Unnamed: 0,Métrica,Valor
0,MAE,41933.24
1,MSE,2380665000.0
2,RMSE,48792.06
3,R²,0.9511067


O R² está dando 1 pois os dados foram gerados artificialmente ou seja o modelo decorou o padrão e aplicou nos dados futuros. Para consertar isso temos que adicionar ruido ao preço

In [159]:
preco_venda = (
    300 * area_primeiro_andar +
    250 * area_segundo_andar +
    5 * area_lote +
    10000 * num_banheiros +
    15000 * num_quartos +
    1000 * (ano_construcao - 1950)+
    np.random.normal(0, 50000, n_samples)

)

In [161]:
# Separando as variáveis independentes (X) e a variável dependente (y)
X = df.drop(columns=['Preço de venda (reais)'])
y = df['Preço de venda (reais)']

# Dividindo os dados em conjunto de treino (80%) e teste (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=42)

# Criando o modelo de regressão linear
modelo = LinearRegression()

# Treinando o modelo
modelo.fit(X_train, y_train)

# Fazendo previsões no conjunto de teste
y_pred = modelo.predict(X_test)

# Avaliação do modelo
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Exibir resultados
resultados = pd.DataFrame({
    "Métrica": ["MAE", "MSE", "RMSE", "R²"],
    "Valor": [mae, mse, rmse, r2]
})

resultados


Unnamed: 0,Métrica,Valor
0,MAE,41933.24
1,MSE,2380665000.0
2,RMSE,48792.06
3,R²,0.9511067


Com o ruido ja podemos ver um R alto mas que podemos confiar que não é overfiting dito isso vamos gerar 5 preços

In [164]:
print(f'5 valores de preço: \n{y_pred[:5]}')

5 valores de preço: 
[ 744044.24922494  727871.01717338  724472.93054437 1083880.50047805
  614700.61907673]
