# Modelo de machine learning - Previsão de imóveis SP

**Regressão linear**

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objs as go
#py.init_notebook_mode(connected=True)

In [None]:
sns.set_palette("Accent")
sns.set_style("darkgrid")

In [None]:
df = pd.read_csv("sao-paulo-properties-april-2019.csv")
df

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.columns = ["Preco",
             "Condomínio",
             "Tamanho",
             "Quartos",
             "Sanitários",
             "Suites",
             "Estacionamento",
             "Elevador",
             "Mobiliado",
             "Piscina",
             "Novo",
             "Distrito",
             "Negociação",
             "Propriedade",
             "Latitude",
             "Longitude"]

df.head()

In [None]:
df["Negociação"].value_counts()

In [None]:
df.head()

In [None]:
df.tail()

# Estátistica

In [None]:
df.describe()

In [None]:
df.describe().round(2)

In [None]:
df.corr().round(4)

# Análise exploratória de dados

In [None]:
plt.figure(figsize = (8, 6))
ax = sns.countplot(x="Negociação", data=df)

In [None]:
fig, ax = plt.subplots(figsize=(20, 6))

ax.set_title('Preço dos imoveis', fontsize=20)
ax.set_ylabel('Valor', fontsize=16)
ax.set_xlabel('Preço', fontsize=16)
ax = df['Preco'].plot(fontsize=14)

In [None]:
ax = sns.boxplot(data=df["Preco"], orient = "h", width=0.3)
ax.figure.set_size_inches(20, 8)
ax.set_title('Preço dos Imóveis', fontsize=20)
ax.set_xlabel('Reais', fontsize=16)
ax

In [None]:
plt.figure(figsize = (40,40))

ax = sns.barplot(x='Preco', y='Distrito', data= df,
                palette = 'plasma')

ax.set_title('Média Preço por Distrito', fontsize = 45)

In [None]:
ax = sns.distplot(df["Preco"])
ax.figure.set_size_inches(12, 6)
ax.set_title('Preço dos imóveis')
ax.set_ylabel('Imóvel total')
ax

In [None]:
plt.figure(figsize = (18, 8))

ax = sns.distplot(df["Condomínio"])
ax.set_title('Total do condomínio e valor')
ax.set_ylabel('Valor do condomínio ')
ax.set_xlabel("Preço")
ax

In [None]:
plt.figure(figsize = (18, 8))

ax = sns.distplot(df["Tamanho"])
ax.set_title('Tamanho dos imóvel em (m2)')
ax.set_ylabel('Tamanho em m2')
ax.set_xlabel("Valor R$")
ax

In [None]:
plt.figure(figsize = (18, 8))

ax = sns.distplot(df["Novo"])
ax.set_title('Novos empredimento em SP')
ax.set_ylabel('Tamanho em m2')
ax.set_xlabel("Valor R$")
ax

In [None]:
plt.figure(figsize = (18, 8))

ax = sns.distplot(df["Suites"])
ax.set_title('Total de suites')
ax.set_ylabel('Preço')
ax.set_xlabel("Valor R$")
ax

In [None]:
plt.figure(figsize=(18, 8))

ax = sns.scatterplot(x="Preco", y="Condomínio", hue = 'Negociação', data=df)
ax.set_title('Condomínio x Preco')
ax.set_ylabel('Condomínio')
ax.set_xlabel('Preco')

In [None]:
plt.figure(figsize=(18, 8))
sns.jointplot(x="Condomínio", y="Preco", data=df, kind='reg')

In [None]:
sns.relplot(x="Condomínio", y="Preco", data=df, hue = "Negociação", col = "Negociação")

In [None]:
plt.figure(figsize = (30, 20))

corr = df.corr()
sns.heatmap(corr,  cmap = 'plasma', annot= True);

In [None]:
apt = df[["Latitude", "Longitude", "Preco"]]

fig = px.scatter_mapbox(apt,
                       lat = "Latitude",
                       lon = "Longitude",
                       size = "Preco",
                       color_continuous_scale = px.colors.cyclical.IceFire, 
                       size_max = 15, 
                       zoom = 10)

fig.update_layout(
        title = 'Mapa região de apartamentos Nova York',
)
fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})
fig.show()

# Treino e teste

In [None]:
x = df[["Condomínio", "Tamanho", "Quartos", "Sanitários", "Suites", "Estacionamento", "Elevador", "Mobiliado", "Piscina", "Novo"]]
y = df["Preco"]

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2811)

In [None]:
X_train.shape

In [None]:
X_test.shape

# Modelo de regressão linear

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

model = LinearRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
pred

In [None]:
model.score(X_train, y_train)

In [None]:
model.intercept_

In [None]:
model.coef_

In [None]:
model.coef_ * 27.74456356 + model.intercept_

In [None]:
x.columns

In [None]:
index = ["Intercepto", 
         "Coeficiente Angular", 
         "Condomínio', 'Tamanho", 
         "Quartos", 
         "Sanitários", 
         "Suites", 
         "Estacionamento", 
         "Elevador", 
         "Mobiliado", 
         "Piscina", 
         "Novo"]

dados = pd.DataFrame(data=np.append(model.intercept_, model.coef_), index = index, columns=['Parâmetros'])
dados

In [None]:
# Grafico

pred = model.predict(X_train)
pred

In [None]:
pred2 = y_train - pred
pred2

In [None]:
plt.figure(figsize=(18, 8))
plt.scatter(pred, y_train)
plt.plot(pred, model.predict(X_train), color = "red")
plt.title("Grafico de regressão linear", fontsize = 20)
plt.xlabel("Valor")
plt.ylabel("Valor do imóvel")
plt.legend(["Valor", "Imóvel"])

In [None]:
ax = sns.scatterplot(x = pred, y = y_train)
ax.figure.set_size_inches(20, 8)
ax.set_title('Previsão X imóvel', fontsize=18)
ax.set_xlabel('Previsão dos imóvel - Previsão', fontsize=14)
ax.set_ylabel('Preço dos imóvel - Real', fontsize=14)
ax

In [None]:
ax = sns.scatterplot(x=pred, y=pred2**2, s=150)
ax.figure.set_size_inches(20, 8)
ax.set_title('Resíduos X Previsão', fontsize=18)
ax.set_xlabel('Valor do imóvel - Previsão', fontsize=14)
ax.set_ylabel('Resíduos²', fontsize=14)
ax

In [None]:
ax = sns.distplot(pred)
ax.figure.set_size_inches(20, 8)
ax.set_title('Distribuição de Frequências dos Resíduos', fontsize=18)
ax.set_xlabel('Imóvel', fontsize=14)
ax

# Statsmodels modelo regressão linear

In [None]:
x = df[["Condomínio", "Tamanho", "Quartos", "Sanitários", "Suites", "Estacionamento", "Elevador", "Mobiliado", "Piscina", "Novo"]]
y = df["Preco"]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2811)

In [None]:
import statsmodels.api as sm

modelo = sm.add_constant(X_train)
modelo

In [None]:
modelo_statsmodels = sm.OLS(y_train, modelo, hasconst = True).fit()

print(modelo_statsmodels.summary())

# Previsão do imovel

In [None]:
X_test[0:1]

In [None]:
a1 = X_test[0: 1]
a1

In [None]:
pred = model.predict(a1)[0]
pred

In [None]:
# Simulação

Condomínio = 450

Tamanho = 50

Quartos = 4

Sanitários = 1

Suites = 2

Estacionamento = 2

Elevador = 1

Mobiliado = 0

Piscina = 1

Novo = 1

a1 = [[Condomínio, Tamanho, Quartos, Sanitários, Suites, Estacionamento, Elevador, Mobiliado, Piscina, Novo]]
print("{0:.2f} Valor do imóvel". format(model.predict(a1)[0]))

# Salvando o modelo de regressão linear

In [None]:
import pickle

saida = open("modelo_previsao_imóvel", "wb")
pickle.dump(modelo, saida)
saida.close()