Modelo de Regressao, para prever valor das casas

Importando os dados analisando

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("dados_sobre_casas.csv")

# Atualiza o status dos pedidos na lista
df.head(5)

Devemos analisar se nosso dados possui valores nulos

In [None]:
# Se possuir algum campo nulo, removemos a linha nula ou substituimos pela mediana ou media para nao afetar o desvio padrao
# trocar o nulo por 0 pode afetar o calculo do treinamento
df.info()

In [None]:
sns.displot(df.valor_casa, kde=True, aspect=2)

In [None]:
df.valor_casa.describe().astype(str)

In [None]:
sns.displot(df.salario_medio_moradores_regiao, kde=True, aspect=2)

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(10, 4))
sns.histplot(df.quantidade_media_comodos_regiao, kde=True, ax=axes[0])
sns.boxplot(df.quantidade_media_comodos_regiao, ax=axes[1])

In [None]:
df.quantidade_media_comodos_regiao.describe()

In [None]:
sns.scatterplot(data=df, x="salario_medio_moradores_regiao", y="valor_casa")

In [None]:
sns.scatterplot(
    data=df,
    x="salario_medio_moradores_regiao",
    y="valor_casa",
    hue="quantidade_media_comodos_regiao",
)

In [None]:
sns.scatterplot(
    data=df,
    x="salario_medio_moradores_regiao",
    y="valor_casa",
    hue="idade_media_casas_regiao",
)

In [None]:
sns.scatterplot(data=df, x="idade_media_casas_regiao", y="valor_casa")

In [None]:
correlacao = df.corr()

sns.heatmap(correlacao, annot=True, cmap="coolwarm")

Treinando um modelo de regressão

In [None]:
# removendo o valor da casa da entrada, pois ela é a saida
X = df.drop(columns=["valor_casa"])  # x é a entrada
# saida é somente o valor da casa (o que eu quero prever)
y = df.valor_casa  # y é a saida

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.15, random_state=78
)

X_train

In [None]:
from sklearn.linear_model import LinearRegression

regression_model_1 = LinearRegression()
regression_model_1.fit(X_train.values, y_train)

regression_model_1.intercept_  # coeficiente linear da regressao

In [None]:
regression_model_1.coef_  # coeficiente angular, um para cada entrada

In [None]:
X_train.head(1)

In [None]:
y_train.head(1)

In [None]:
import locale

novo_input = X_train.iloc[0]
prediction = regression_model_1.predict([novo_input])

locale.setlocale(locale.LC_ALL, "")
locale.currency(prediction[0], grouping=True)

In [None]:
# Erro
1533816 - 1332180

Usando um modelo regressor diferente

In [None]:
from sklearn.ensemble import RandomForestRegressor

regression_model_2 = RandomForestRegressor()
regression_model_2.fit(X_train, y_train)

regression_model_2.predict([novo_input])

In [None]:
1533816 - 1488014

In [None]:
from sklearn.metrics import (
    r2_score,
    mean_absolute_error,
    mean_squared_error,
    mean_absolute_percentage_error,
    root_mean_squared_error,
)

predicoes_teste_1 = regression_model_1.predict(X_test)
predicoes_teste_2 = regression_model_2.predict(X_test)

print(r2_score(y_test, predicoes_teste_1))
print(r2_score(y_test, predicoes_teste_2))

In [None]:
print(mean_absolute_error(y_test, predicoes_teste_1))
print(mean_absolute_error(y_test, predicoes_teste_2))

In [None]:
print(mean_squared_error(y_test, predicoes_teste_1))
print(mean_squared_error(y_test, predicoes_teste_2))

In [None]:
print(root_mean_squared_error(y_test, predicoes_teste_1))
print(root_mean_squared_error(y_test, predicoes_teste_2))

In [None]:
print(mean_absolute_percentage_error(y_test, predicoes_teste_1))
print(mean_absolute_percentage_error(y_test, predicoes_teste_2))

In [None]:
pd.set_option("display.float_format", lambda x: "%.3f" % x)

pd.DataFrame(
    zip(y_test.values, predicoes_teste_1, predicoes_teste_2),
    columns=["real", "modelo_1", "modelo_2"],
)