# Modelo machine learning - Previsão de vendas de imóveis de Boston

**Descrição**

**Refere-se a valores habitacionais nos subúrbios de Boston**


1 - Número de instâncias: 506

2 - Número de atributos: 13 atributos contínuos (incluindo o atributo "classe"
"MEDV"), 1 atributo de valor binário.


3 - Informações sobre o atributo:


4 - ZN Taxa de crime per capita de CRIM por cidade


5 - INDUS Proporção de terrenos residenciais zoneados para lotes com mais de 25.000 pés quadrados.


6 - CHAS Proporção da INDUS de acres de negócios não varejistas por cidade variável dummy CHAS Charles River (= 1 se a área limita o rio; 0 caso contrário)


7 - NOX Concentração de óxidos nítricos NOX (partes por 10 milhões)


8 - RM Número médio de quartos por habitação RM


9 - AGE Proporção de AGE de unidades ocupadas pelo proprietário construídas antes de 1940


10 - DIS Distâncias ponderadas DIS até cinco centros de empregos de Boston.


11 - RAD Índice RAD de acessibilidade a rodovias radiais


12 - TAX Taxa de imposto sobre a propriedade de valor total por $ 10.000


13 - PTRATIO (PTRATIO Proporção aluno-professor de PTRATIO por cidade


14 - B 1000 (Bk - 0,63) ^ 2, onde Bk é a proporção de negros por cidade


15 - LSTAT % status inferior da população


16 - MEDV Valor médio de casas ocupadas pelo proprietário em US $ 1.000


17 - Valores de atributo ausentes: Nenhum.

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
%matplotlib inline
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objs as go
#py.init_notebook_mode(connected=True)

In [None]:
sns.set_palette("Accent")
sns.set_style('darkgrid')

In [None]:
df = pd.read_csv("data.csv")
df.head()

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df["AGE"].value_counts()

In [None]:
df.describe()

In [None]:
df.corr()

In [None]:
df.describe().round(2)

In [None]:
df.corr().round(4)

# Análise exploratória de dados

In [None]:
ax = sns.relplot(x="AGE", y="MEDV", data=df)

In [None]:
fig, ax = plt.subplots(figsize=(20, 6))

ax.set_title('Preço dos imoveis', fontsize=20)
ax.set_ylabel('Valor', fontsize=16)
ax.set_xlabel('Preço', fontsize=16)
ax = df['AGE'].plot(fontsize=14)

In [None]:
plt.figure(figsize = (8, 6))
ax = sns.distplot(df["AGE"])

In [None]:
plt.figure(figsize = (8, 6))
ax = sns.distplot(df["INDUS"])

In [None]:
ax = sns.boxplot(data=df["AGE"], orient = "h", width=0.3)
ax.figure.set_size_inches(20, 8)
ax.set_title('Preço dos Imóveis', fontsize=20)
ax.set_xlabel('Dolar', fontsize=16)
ax

In [None]:
plt.figure(figsize = (50,40))
sns.set(font_scale = 2.3)

ax = sns.barplot(x='AGE', y='MEDV', data= df,
                palette = 'plasma')

ax.set_title('Média Preço por Distrito', fontsize = 45)

In [None]:
ax = sns.distplot(df["MEDV"])
ax.figure.set_size_inches(12, 6)
ax.set_title('Preço dos imóveis', fontsize=20)
ax.set_ylabel('Imóvel total', fontsize=16)
ax

In [None]:
ax = sns.distplot(df["TAX"])
ax.figure.set_size_inches(12, 6)
ax.set_title('Preço dos imóveis', fontsize=20)
ax.set_ylabel('Imóvel total', fontsize=16)
ax

In [None]:
plt.figure(figsize=(18, 8))

ax = sns.scatterplot(x="AGE", y="MEDV", data=df)
ax.set_title('Condomínio x Preco', fontsize = 22)
ax.set_ylabel('Condomínio', fontsize = 16)
ax.set_xlabel('Preco', fontsize = 16)

In [None]:
plt.figure(figsize = (50,40))
sns.set(font_scale = 2.3)

ax = sns.relplot(x="AGE", y="MEDV", data=df, hue = "RAD", col = "RAD")

In [None]:
plt.figure(figsize = (50, 40))

corr = df.corr()
sns.heatmap(corr,  cmap = 'plasma', annot= True);

In [None]:
ax = sns.pairplot(df)

# Treino e Teste

In [None]:
df = df.drop(["CRIM","NOX","PTRATIO","B","LSTAT","MEDV","AGE"], axis=1)

In [None]:
df.nunique()

In [None]:
df.isnull().sum()

In [None]:
df = df.fillna(df.mean())
df

In [None]:
x = df.drop("TAX", axis = 1)
y = df["TAX"]

In [None]:
x.shape

In [None]:
y.shape

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size =0.3, random_state = 200)

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
X_test.shape

In [None]:
y_test.shape

# Modelo de regressão linear

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn import metrics

model = LinearRegression()
model.fit(X_train, y_train)
pred = model.predict(X_test)
pred

In [None]:
model.score(X_train, y_train)

In [None]:
model.intercept_

In [None]:
model.coef_

In [None]:
model.coef_ * 27.74456356 + model.intercept_

In [None]:
# Grafico

pred = model.predict(X_train)
pred

In [None]:
pred2 = y_train - pred
pred2

In [None]:
plt.figure(figsize=(18, 8))
plt.scatter(pred, y_train)
plt.plot(pred, model.predict(X_train), color = "red")
plt.title("Grafico de regressão linear", fontsize = 20)
plt.xlabel("Valor")
plt.ylabel("Totoal do imóvel")
plt.legend(["Valor", "Imóvel"])

In [None]:
ax = sns.scatterplot(x=pred, y=pred2**2, s=150)
ax.figure.set_size_inches(20, 8)
ax.set_title('Resíduos X Previsão', fontsize=18)
ax.set_xlabel('Valor do imóvel - Previsão', fontsize=14)
ax.set_ylabel('Resíduos²', fontsize=14)
ax

In [None]:
ax = sns.distplot(pred)
ax.figure.set_size_inches(20, 8)
ax.set_title('Distribuição de Frequências dos Resíduos', fontsize=18)
ax.set_xlabel('Imóvel', fontsize=14)
ax

In [None]:
import statsmodels.api as sm

modelo = sm.add_constant(X_train)
modelo_statsmodels = sm.OLS(y_train, modelo, hasconst = True).fit()
print(modelo_statsmodels.summary())

# Previsão do imovel

In [None]:
X_test[0:1]

In [None]:
a1 = X_test[0: 1]
a1

In [None]:
pred = model.predict(a1)[0]
pred

# Salvando o modelo

In [None]:
import pickle

saida = open("modelo_previsao_imóvel_Boston", "wb")
pickle.dump(modelo, saida)
saida.close()