In [None]:
### Projeto de regressão linear para prever os preços de imóveis 

In [5]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import seaborn as sns

In [None]:
### Fórmulas: Y= a.x+b / a = m. Σx.y - Σx . Σy / m. Σx² - (Σx)²
### Σ = soma total / m = montante ou quantidade total de linhas 

In [11]:
caminho_arquivo = "C:/Users/lipin/OneDrive/Área de Trabalho/Projetos de AI/sao-paulo-properties-april-2019.csv"
df = pd.read_csv(caminho_arquivo)

In [13]:
print(df)

        Price  Condo  Size  Rooms  Toilets  Suites  Parking  Elevator  \
0         930    220    47      2        2       1        1         0   
1        1000    148    45      2        2       1        1         0   
2        1000    100    48      2        2       1        1         0   
3        1000    200    48      2        2       1        1         0   
4        1300    410    55      2        2       1        1         1   
...       ...    ...   ...    ...      ...     ...      ...       ...   
13635  265000    420    51      2        1       0        1         0   
13636  545000    630    74      3        2       1        2         0   
13637  515000   1100   114      3        3       1        1         0   
13638  345000     48    39      1        2       1        1         0   
13639  161987      0    44      2        1       0        1         0   

       Furnished  Swimming Pool  New                 District  \
0              0              0    0    Artur Alvim/São Pa

In [14]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13640 entries, 0 to 13639
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Price             13640 non-null  int64  
 1   Condo             13640 non-null  int64  
 2   Size              13640 non-null  int64  
 3   Rooms             13640 non-null  int64  
 4   Toilets           13640 non-null  int64  
 5   Suites            13640 non-null  int64  
 6   Parking           13640 non-null  int64  
 7   Elevator          13640 non-null  int64  
 8   Furnished         13640 non-null  int64  
 9   Swimming Pool     13640 non-null  int64  
 10  New               13640 non-null  int64  
 11  District          13640 non-null  object 
 12  Negotiation Type  13640 non-null  object 
 13  Property Type     13640 non-null  object 
 14  Latitude          13640 non-null  float64
 15  Longitude         13640 non-null  float64
dtypes: float64(2), int64(11), object(3)
memo

In [18]:
# Criar um novo DataFrame com as colunas de texto convertidas
# O 'drop_first=True' é importante para evitar um problema estatístico chamado multicollinearidade
df_encoded = pd.get_dummies(df, columns = ["District","Negotiation Type","Property Type"], drop_first=True)

In [19]:
# Ver como ficou o novo DataFrame
print(f"Dimenções do dataframe original:{df.shape}")
print(f"Dimenções do dataframe após o encode:{df_encoded.shape}")

Dimenções do dataframe original:(13640, 16)
Dimenções do dataframe após o encode:(13640, 109)


In [20]:
# Olhando as primeiras linhas para ver as novas colunas
print(df_encoded.head())

   Price  Condo  Size  Rooms  Toilets  Suites  Parking  Elevator  Furnished  \
0    930    220    47      2        2       1        1         0          0   
1   1000    148    45      2        2       1        1         0          0   
2   1000    100    48      2        2       1        1         0          0   
3   1000    200    48      2        2       1        1         0          0   
4   1300    410    55      2        2       1        1         1          0   

   Swimming Pool  ...  District_Vila Leopoldina/São Paulo  \
0              0  ...                               False   
1              0  ...                               False   
2              0  ...                               False   
3              0  ...                               False   
4              0  ...                               False   

   District_Vila Madalena/São Paulo  District_Vila Maria/São Paulo  \
0                             False                          False   
1                 

In [21]:
# Verificando as informações para confirmar que não há mais colunas 'object'
print(df_encoded.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13640 entries, 0 to 13639
Columns: 109 entries, Price to Negotiation Type_sale
dtypes: bool(96), float64(2), int64(11)
memory usage: 2.6 MB
None


In [26]:
# Definindo o 'y', ou seja, a variável que queremos descobrir ou prever. 
y = df_encoded["Price"]
# Se 'y' é "Price" então 'X' são todas as outras colunas que servirão de informação para o modelo.
# Usamos .drop() para criar um DataFrame com todas as colunas, EXCETO a 'Price'.
X = df_encoded.drop("Price", axis=1)
print("Formato das features (X):", X.shape)
print("Formato do alvo (y):", y.shape)

Formato das features (X): (13640, 108)
Formato do alvo (y): (13640,)


In [27]:
from sklearn.model_selection import train_test_split

# Dividindo os dados: 80% para treino, 20% para teste.
# random_state=42 garante que a divisão seja sempre a mesma, para que os resultados sejam reproduzíveis.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
                                                    
print("Tamanho de X para treino:", X_train.shape)
print("Tamanho de X para teste:", X_test.shape)

Tamanho de X para treino: (10912, 108)
Tamanho de X para teste: (2728, 108)


In [29]:
from sklearn.linear_model import LinearRegression
# Criando uma instância do modelo de Regressão Linear
modelo = LinearRegression()
# Treinando o modelo usando os dados de treino.
modelo.fit(X_train, y_train)
print("Modelo treinado com sucesso!")

Modelo treinado com sucesso!


In [30]:
# Usamos o modelo treinado para prever os preços do conjunto de teste (X_test)
previsoes = modelo.predict(X_test)

# Vamos ver as 5 primeiras previsões e os 5 preços reais correspondentes, para poder comparar visualmente o resultado do treinamento. 
print("Previsões:", previsoes[:5])
print("Valores Reais:", y_test.head(5).values)

Previsões: [ 260614.31433587  584259.41288335 -298472.16866224  345953.96267205
  466793.0464124 ]
Valores Reais: [  4000 398850   1300 189000 169002]


In [31]:
from sklearn.metrics import r2_score, mean_absolute_error
# Calculando o R² 
r2 = r2_score(y_test, previsoes)
# Calculando o MAE ou Mean absulote error( Erro médio absoluto ) 
mae = mean_absolute_error(y_test, previsoes) 
print(f"R² (Coeficiente de Determinação): {r2:.2f}")
print(f"MAE (Erro Médio Absoluto): R$ {mae:,.2f}")

R² (Coeficiente de Determinação): 0.49
MAE (Erro Médio Absoluto): R$ 225,015.62
