Dado o problema de previsão dos valores de venda de um imóvel baseado em seu tamanho teremos:

$x=area$

$y=price$

Logo teremos a tupla $(x,y)$, que serão os dados utilizados para ajustar nossa regressão linear.

Os dados a serem utilizados fazem parte de um dataset disponibilizado na plataforma Kaggle, disponível no link abaixo:

https://www.kaggle.com/code/ashydv/housing-price-prediction-linear-regression

Importando os dados para uso das informações.

In [2]:


import numpy as np
import pandas as pd
import random

import matplotlib.pyplot as plt 
import seaborn as sns

In [5]:
housing=pd.DataFrame(pd.read_csv("Housing.csv"))

In [6]:
housing.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


# Nova seção

In [8]:
X=housing[['area']]

In [9]:
y=housing[['price']]

In [11]:
X.head

<bound method NDFrame.head of      area
0    7420
1    8960
2    9960
3    7500
4    7420
..    ...
540  3000
541  2400
542  3620
543  2910
544  3850

[545 rows x 1 columns]>

In [12]:
y.head

<bound method NDFrame.head of         price
0    13300000
1    12250000
2    12250000
3    12215000
4    11410000
..        ...
540   1820000
541   1767150
542   1750000
543   1750000
544   1750000

[545 rows x 1 columns]>

Agora que ja separamos os parâmetros a serem utilizados, area e preço.
Poderemos construir a regressão.

In [13]:
X.shape

(545, 1)

In [14]:
y.shape

(545, 1)

In [15]:
random.seed(32)

Aplicando o Feature Scaling nos dados

In [16]:
import numpy as np
#Aplicando o feature scaling para normalizar os dados de entrada (MinMaxScaler)

def feature_scaling(X):
    X_scaled = X.copy()
    for column in X_scaled.columns:
        X_scaled[column] = (X_scaled[column] - X_scaled[column].min()) / (X_scaled[column].max() - X_scaled[column].min())
    return X_scaled  



In [17]:
X_scaled = feature_scaling(X)

Definindo o método da Regressão Linear

In [18]:
#Definindo a função de custo
#Seguindo a formula: J(t0,t1) = 1/2m * sum(np.norm(h(x)-y)**2)

def J(X, y, theta):
    m = len(y)
    J = 0
    J = (1/(2*m)) * np.sum(np.square(X.dot(theta)-y))
    return J

In [None]:
#Definindo a função de gradiente descendente
#Seguindo a formula: t0 = t0 - step * 1/m * sum(h(x)-y)
#Seguindo a formula: t1 = t1 - step * 1/m * sum((h(x)-y)*x)

def gradient_descent(X, y, theta, step, iterations):
    m = len(y)
    J_history = np.zeros((iterations, 1))
    for i in range(iterations):
        theta = theta - (step/m) * X.T.dot(X.dot(theta)-y)
        J_history[i] = J(X, y, theta)
    return theta, J_history


In [19]:
#Definindo a função de teste de predição(fit)

def fit(X, y, step, iterations):
    X = np.c_[np.ones((X.shape[0], 1)), X]
    theta = np.zeros((X.shape[1], random.random))
    theta, J_history = gradient_descent(X, y, theta, step, iterations)
    return theta, J_history