## Multiple Regression
O objetivo deste codigo e prever o preço de uma casa com base nas informaçoes de area, numero de quartos e idade

In [14]:
# importando as bibliotecas necessarias 
import pandas as pd
import statsmodels.api as sm
from sklearn.preprocessing import StandardScaler
import numpy as np
import matplotlib as plt

In [10]:
# criando o cojunto de dados necessarios para fazer a regressão 
dados = {
    'Area': [1500, 1600, 1700, 1800, 1900, 2000, 2100, 2200, 2300, 2400],
    'Quartos': [3, 3, 4, 4, 5, 5, 3, 4, 4, 5],
    'Idade': [10, 15, 20, 25, 10, 5, 30, 20, 15, 10],
    'Preco': [300000, 320000, 340000, 360000, 380000, 400000, 420000, 440000, 460000, 480000]
}

In [11]:
# criando um data frame com os dados 
df = pd.DataFrame(dados)
df

Unnamed: 0,Area,Quartos,Idade,Preco
0,1500,3,10,300000
1,1600,3,15,320000
2,1700,4,20,340000
3,1800,4,25,360000
4,1900,5,10,380000
5,2000,5,5,400000
6,2100,3,30,420000
7,2200,4,20,440000
8,2300,4,15,460000
9,2400,5,10,480000


In [19]:
# extraindo os dados necessarios
X = df[['Area', 'Quartos', 'Idade']] # caracteristicas
y = df['Preco'] # alvo

In [20]:
# fazendo o pré processamento dos dados
scaler = StandardScaler() # garante que todas as variaveis tenham o mesmo peso na analise 
X_scaled = scaler.fit_transform(X)

In [21]:
# adicionando a coluna constante 
X_scaled = sm.add_constant(X_scaled)

In [22]:
# modelo OLS regression
model = sm.OLS(y, X_scaled).fit()

# exibindo os resultados
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                  Preco   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 8.854e+29
Date:                Sun, 21 Jul 2024   Prob (F-statistic):           2.52e-89
Time:                        10:59:17   Log-Likelihood:                 217.54
No. Observations:                  10   AIC:                            -427.1
Df Residuals:                       6   BIC:                            -425.9
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         3.9e+05   3.52e-11   1.11e+16      0.0

  k, _ = kurtosistest(a, axis)


In [25]:
# preco medio em relação ao numero de quartos 
y.groupby(df.Quartos).mean()

Quartos
3    346666.666667
4    400000.000000
5    420000.000000
Name: Preco, dtype: float64

In [48]:
# criando nova casa  
casa = scaler.transform([[3250, 8, 2]]) # area: 3.250, quartos: 8, idade: 2
casa = np.insert(casa[0], 0, 1) # adicionando coluna constante novamente 

# valor de venda previsto 
predicted = model.predict(casa)
print(f'VALOR: {predicted[0]: .2f} R$') # ajustando a saida para uma melhor visulaização 

VALOR:  650000.00 R$


