# Análise de regressão linear para predição de aluguéis

In [35]:
#Importing libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

import plotly.graph_objs as go
from plotly.offline import iplot

In [36]:
# Arquivo do conjunto de dados é armazenado em um datafrase e suas primeira colunas são visualizadas
dataset = pd.read_csv('/content/rent.csv')
dataset.head()

Unnamed: 0,area,rent
0,2000,31500
1,2100,35000
2,2500,41050
3,2250,36100
4,3000,52100


In [37]:
# O conjunto é composto por duas colunas, com 60 entradas de tipo float64
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   area    60 non-null     int64
 1   rent    60 non-null     int64
dtypes: int64(2)
memory usage: 1.1 KB


In [38]:
# Um gráfico de dispersão foi construído ara visualizar a relação entre as variáveis
scatter = [go.Scatter(x = dataset['area'],
                      y = dataset['rent'],
                      mode ='markers')]
fig = go.Figure(scatter)
iplot(fig)


# Construção do modelo

In [25]:
# Atribuíndo os dados das colunas às variáveis
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [26]:
# Separando os dados de teste nas variáveis X_train, X_test, y_train, y_test
# Para isso, foram utilizados 30% dos dados para teste e o random state garante a divisão aleatória dos conjuntos
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.30,random_state=42)

In [27]:
# Na construção do modelo utilizando a classe LinearRegression do módulo sklearn.linear_model
# São utilizados o conjunto de treinamento para validação com o conjunto de teste
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(X_train, y_train)

### Predição

In [28]:
# Predizendo o valor de Y a partir do modelo de regressão linear
y_pred = lr.predict(X_test)

In [29]:
# A visualização dos dados treinados pode ser vista por meio de um gráfico de dispersão representado pela cor vermelha,
# os dados de teste pela cor azul e a linha verde representa o ajuste ao modelo
x_range = np.linspace(X.min(), X.max(), 100)
y_range = lr.predict(x_range.reshape(-1, 1))

fig = go.Figure([
        go.Scatter(x=X_train.squeeze(), y=y_train,
                   name='Dados treinados', mode='markers'),
        go.Scatter(x=X_test.squeeze(), y=y_test,
                   name='Dados de teste', mode='markers'),
        go.Scatter(x=x_range, y=y_range,
                   name='Predição')
    ])

fig.show()

In [30]:
# Cálculo do coeficiente angular e intercepto
b = lr.coef_
a = lr.intercept_
print("Coeficiente angular:" , b)
print("Intercepto: ", a)

Coeficiente angular: [20.68636687]
Intercepto:  -10252.90474033673


Dessa forma, a equação para esse modelo de regressão linear é dada por: **predicao_aluguel = -10252.90474033673 * area + 20.68636687**. Em seguida, para avaliação do modelo, o erro quadrático médio é calculado, identificando assim a diferença média quadrada entre os valores preditos e os valores reais.

In [31]:
# Predição a partir de novos valores:
# Exemplo: valor do aluguel para um imóvel de 2500 m²
print(lr.predict([[2500]]))

[41463.01243857]


In [32]:
# Cálculo do Erro Quadrático Médio
from sklearn import metrics
print('Erro Quadrático Médio: ', metrics.mean_squared_error(y_test, y_pred))

Erro Quadrático Médio:  7677066.248378809


In [34]:
# Valores de R²
from sklearn.metrics import r2_score
r2_score(y_train, lr.predict(X_train))


0.9471905709752625

Por meio da modelagem desse modelo de regressão linear, é possível, nesse contexto, estimar os preços de aluguéis a partir da área do imóvel. Assim, esse modelo pode tuar como uma ferramenta importante, tanto para proprietários quanto inquilidos durante a estimativa de preços para o mercado.