In [37]:
import pandas as pd
import seaborn as sns
import numpy as np 
import matplotlib.pyplot as plt 
import plotly.express as ptx

In [38]:
df = pd.read_csv('Cornescu_Darius_features_encoded.csv')


In [39]:
correlation = df.corr(numeric_only=True)
correlation["SalePrice"].sort_values(ascending=False)

SalePrice             1.000000
LotFrontage           0.322751
ZoningScore           0.310521
EVI                   0.299640
LotArea               0.266204
LotArea_m^2           0.266204
LotAreaNorm           0.266204
Price_per_m^2         0.265210
Price_per_m^2_norm    0.265210
PDI                   0.241289
MSZoning_RL           0.224214
LotConfig_CulDSac     0.150660
LandContour_HLS       0.144847
LotShape_IR2          0.137603
Condition1_Norm       0.102339
MSZoning_FV           0.097565
Condition1_PosN       0.061106
Condition2_PosN       0.055467
Condition2_PosA       0.054413
LandSlope_Sev         0.050202
LandSlope_Mod         0.048691
Condition1_PosA       0.047779
LotShape_IR3          0.047473
LandContour_Low       0.038092
Condition1_RRAn       0.029157
Condition1_RRNn       0.026284
LotConfig_FR3         0.023145
Street_Pave           0.015487
Condition2_Norm       0.006393
Condition2_RRAe       0.003244
Condition1_RRNe       0.002107
LotConfig_FR2        -0.007377
Utilitie

In [40]:
fig = ptx.imshow(correlation, text_auto=True)
fig.show()

In [41]:
correlations = df.corr()['SalePrice'].abs().sort_values(ascending=False)
print(correlations.head(20))

SalePrice             1.000000
LotFrontage           0.322751
ZoningScore           0.310521
EVI                   0.299640
MSZoning_RM           0.279680
LotArea               0.266204
LotArea_m^2           0.266204
LotAreaNorm           0.266204
Price_per_m^2         0.265210
Price_per_m^2_norm    0.265210
LotShape_Reg          0.251103
PDI                   0.241289
MSZoning_RL           0.224214
LotConfig_CulDSac     0.150660
LandContour_HLS       0.144847
LotShape_IR2          0.137603
Condition1_Feedr      0.125273
Condition1_Norm       0.102339
MSZoning_FV           0.097565
MSSubClass            0.088081
Name: SalePrice, dtype: float64


In [42]:
treshold = 0.05
in_use_features = correlations[correlations > treshold].index.to_list()
#in_use_features.remove('SalePrice')

print(f"\nNumăr de variabile selectate (corelație > {treshold}): {len(in_use_features)}")
print(f"Variabile selectate: {in_use_features[:30]}")


Număr de variabile selectate (corelație > 0.05): 27
Variabile selectate: ['SalePrice', 'LotFrontage', 'ZoningScore', 'EVI', 'MSZoning_RM', 'LotArea', 'LotArea_m^2', 'LotAreaNorm', 'Price_per_m^2', 'Price_per_m^2_norm', 'LotShape_Reg', 'PDI', 'MSZoning_RL', 'LotConfig_CulDSac', 'LandContour_HLS', 'LotShape_IR2', 'Condition1_Feedr', 'Condition1_Norm', 'MSZoning_FV', 'MSSubClass', 'SubClassScore', 'MSZoning_RH', 'Condition1_PosN', 'LotConfig_Inside', 'Condition2_PosN', 'Condition2_PosA', 'LandSlope_Sev']


In [43]:
corr_subset = correlation.loc[in_use_features, in_use_features]
fig = ptx.imshow(corr_subset, text_auto=True)
fig.show()

In [44]:
selected =['SalePrice', 'LotFrontage', 'ZoningScore', 'EVI', 'MSZoning_RM', 
           'LotArea', 'LotArea_m^2', 'LotAreaNorm', 'Price_per_m^2', 'Price_per_m^2_norm',
            'LotShape_Reg', 'PDI', 'MSZoning_RL', 'LotConfig_CulDSac', 'LandContour_HLS', 
            'LotShape_IR2', 'Condition1_Feedr', 'Condition1_Norm', 'MSZoning_FV', 'MSSubClass', 
            'SubClassScore', 'MSZoning_RH', 'Condition1_PosN', 'LotConfig_Inside', 'Condition2_PosN', 
            'Condition2_PosA', 'LandSlope_Sev']


corr_matrix = df[selected].corr(numeric_only=True)
sale_corr = corr_matrix["SalePrice"].sort_values(ascending=False)
print(sale_corr)

SalePrice             1.000000
LotFrontage           0.322751
ZoningScore           0.310521
EVI                   0.299640
LotArea               0.266204
LotArea_m^2           0.266204
LotAreaNorm           0.266204
Price_per_m^2         0.265210
Price_per_m^2_norm    0.265210
PDI                   0.241289
MSZoning_RL           0.224214
LotConfig_CulDSac     0.150660
LandContour_HLS       0.144847
LotShape_IR2          0.137603
Condition1_Norm       0.102339
MSZoning_FV           0.097565
Condition1_PosN       0.061106
Condition2_PosN       0.055467
Condition2_PosA       0.054413
LandSlope_Sev         0.050202
LotConfig_Inside     -0.059510
MSZoning_RH          -0.073813
SubClassScore        -0.088081
MSSubClass           -0.088081
Condition1_Feedr     -0.125273
LotShape_Reg         -0.251103
MSZoning_RM          -0.279680
Name: SalePrice, dtype: float64


După ce am analizat corelațiile cu variabila țintă `SalePrice`, am observat că unele caracteristici sunt redundant corelate între ele, reprezentând practic aceeași informație în forme diferite. De exemplu:

* `LotArea`, `LotArea_m^2` și `LotAreaNorm` descriu aceeași dimensiune a terenului, doar în unități sau scale diferite;
* `Price_per_m^2` și `Price_per_m^2_norm` derivă direct din `SalePrice` și pot introduce **colinearitate** (corelație artificial de mare) în model.

Prin urmare, am decis să elimin aceste coloane pentru a reduce redundanța și a evita problemele de multicoliniaritate.

În ceea ce privește *feature-urile derivate din variabile categorice* (de tip one-hot encoded), precum `MSZoning_RL`, `MSZoning_RM` sau `LotConfig_CulDSac`, inițial m-am gândit să le elimin, însă după câteva teste realizate pe modelul de decizie am observat că acestea pot aduce un plus în performanță.
De aceea, am ales să le păstrez doar pe cele care prezintă o corelație absolută mai mare de **0.15** cu `SalePrice`, pentru a include doar acele variabile care contribuie semnificativ la precizia modelului.


In [45]:
cols_to_drop = [
    "LotArea_m^2",
    "LotAreaNorm",
    "Price_per_m^2"
]

df = df.drop(columns=cols_to_drop)
correlations = df.corr(numeric_only=True)["SalePrice"]


In [51]:
strong_correlation = correlations[correlations.abs() > 0.10].sort_values(ascending=False)
strong_correlation = strong_correlation.drop('SalePrice')

fig = ptx.bar(
    strong_correlation,
    x=strong_correlation.index,
    y=strong_correlation.values,
    text=strong_correlation.values.round(3),
    title=f"Features with |Correlation| > {0.10} to SalePrice"
)
fig.update_traces(textposition='outside')
fig.show()

In [47]:
fig = ptx.density_contour(df,x="LotArea",y="SalePrice")
fig.update_traces(contours_coloring="fill", contours_showlabels=True)
fig.update_layout(template="plotly_white")
fig.show()


In [48]:
num_cols = ["SalePrice", "LotFrontage", "ZoningScore", "EVI","LotArea", "Price_per_m^2_norm", "PDI"]

fig = ptx.scatter_matrix( df[num_cols], dimensions=num_cols, color="SalePrice", color_continuous_scale="Viridis", height=1000, width=1200)
fig.update_traces(diagonal_visible=False)
fig.update_layout(template="plotly_white")
fig.show()



In [50]:
import plotly.graph_objects as go

x_col = "EVI"
y_col = "LotArea"
z_col = "SalePrice"

x = np.linspace(df[x_col].min(), df[x_col].max(), 50)
y = np.linspace(df[y_col].min(), df[y_col].max(), 50)
x_grid, y_grid = np.meshgrid(x, y)

from scipy.interpolate import griddata
z_grid = griddata( (df[x_col], df[y_col]), df[z_col], (x_grid, y_grid), method='linear' )

fig = go.Figure(data=[go.Surface(x=x_grid, y=y_grid, z=z_grid, colorscale='Viridis', opacity=0.9)])

fig.update_layout(
    title="3D Surface: Relația dintre EVI, LotAreaNorm și SalePrice",
    scene=dict(
        xaxis_title="EVI",
        yaxis_title="LotAreaNorm",
        zaxis_title="SalePrice",
    ),
    template="plotly_white",
    width=800, height=400
)
fig.show()


Cele mai semnificative variabile sunt:
**Corelație pozitivă (directă):**
* `LotFrontage`, `ZoningScore`, `EVI`, `LotArea`, `PDI`, `MSZoning_RL`
  → asociate cu **creșterea prețului**.

**Corelație negativă (inversă):**
* `MSZoning_RM`, `LotShape_Reg`, `Condition1_Feedr`, `Condition1_Norm`
  → asociate cu **scăderea prețului** (dar semnificative statistic).


În urma analizei am observat că mai multe caracteristici prezintă o legătură semnificativă cu prețul de vânzare, atât pozitivă, cât și negativă.

Variabilele cu **corelație pozitivă**, precum `LotFrontage`, `ZoningScore`, `EVI`, `LotArea` sau `MSZoning_RL`, indică faptul că, pe măsură ce valorile acestora cresc, și `SalePrice` tinde să crească — ceea ce este logic din perspectivă economică, deoarece loturile mai mari, zonele mai bune și scorurile urbanistice ridicate determină prețuri mai mari.

Pe de altă parte, variabilele cu **corelație negativă**, precum `MSZoning_RM`, `LotShape_Reg`, `Condition1_Feedr` sau `Condition1_Norm`, sunt la fel de importante, întrucât explică acele condiții care pot contribui la **scăderea prețului** — de exemplu, o poziționare mai puțin favorabilă sau o formă regulată a terenului asociată cu construcții standard.

Prin urmare, selecția finală a variabilelor a fost făcută pe baza valorii **absolute a corelației (|r| > 0.1)**, păstrând atât relațiile pozitive, cât și cele negative, pentru a surprinde cât mai bine toate tipurile de influențe asupra `SalePrice`.

Această alegere asigură un model de regresie echilibrat, capabil să distingă atât factorii care cresc, cât și pe cei care scad prețul de vânzare al unei proprietăți.

