In [83]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [84]:
df = pd.read_excel('greece_housing_data.xlsx')
print(df.head())

            Νομαρχία Δήμος Καλλικράτη Δημοτικό ή Κοινοτικό Διαμέρισμα  \
0  ΑΘΗΝΩΝ (ΝΟΜΑΡΧΙΑ)   ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ                  ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ   
1  ΑΘΗΝΩΝ (ΝΟΜΑΡΧΙΑ)   ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ                  ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ   
2  ΑΘΗΝΩΝ (ΝΟΜΑΡΧΙΑ)   ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ                  ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ   
3  ΑΘΗΝΩΝ (ΝΟΜΑΡΧΙΑ)   ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ                  ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ   
4  ΑΘΗΝΩΝ (ΝΟΜΑΡΧΙΑ)   ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ                  ΑΓΙΑΣ ΒΑΡΒΑΡΑΣ   

  Ένδειξη ΑΠΑΑ                        Κατηγορία Ακινήτου  Πλήθος Προσόψεων  \
0   Εντός ΑΠΑΑ  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας                 1   
1   Εντός ΑΠΑΑ  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας                 1   
2   Εντός ΑΠΑΑ   Αποθήκες / Γεωργικά-Κτηνοτροφικά κτίρια                 1   
3   Εντός ΑΠΑΑ  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας                 1   
4   Εντός ΑΠΑΑ  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας                 2   

   Tιμή Ζώνης  Eπιφάνεια Κύριων Χώρων (σε τ.μ.)  \
0       700.0                            

In [85]:
print(f"Rows: {df.shape[0]}, Columns: {df.shape[1]}")

Rows: 304206, Columns: 20


In [86]:
print(df.dtypes)

Νομαρχία                                             object
Δήμος Καλλικράτη                                     object
Δημοτικό ή Κοινοτικό Διαμέρισμα                      object
Ένδειξη ΑΠΑΑ                                         object
Κατηγορία Ακινήτου                                   object
Πλήθος Προσόψεων                                      int64
Tιμή Ζώνης                                          float64
Eπιφάνεια Κύριων Χώρων (σε τ.μ.)                    float64
Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)                float64
Έτος Κατασκευής                                     float64
Είδος Εμπράγματου δικαιώματος Κτίσματος              object
Ποσοστό Συνιδιοκτησίας Κτίσματος                    float64
Ειδικές Συνθήκες Ακινήτου                            object
Όροφος                                               object
Επιφάνεια Οικοπέδου (σε τ.μ.)                       float64
Είδος Εμπράγματου δικαιώματος Οικοπέδου              object
Ποσοστό Συνιδιοκτησίας Οικοπέδου        

In [87]:
columns = ['Tιμή Ζώνης', 'Eπιφάνεια Κύριων Χώρων (σε τ.μ.)', 
           'Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)', 'Έτος Κατασκευής', 
           'Όροφος', 'Κατηγορία Ακινήτου', 'Τίμημα Δικαιώματος']
df = df[columns]
print(df.head())

   Tιμή Ζώνης  Eπιφάνεια Κύριων Χώρων (σε τ.μ.)  \
0       700.0                             35.20   
1       700.0                             63.35   
2       900.0                             73.00   
3       900.0                            102.00   
4       900.0                             74.50   

   Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)  Έτος Κατασκευής Όροφος  \
0                                   NaN           1966.0      1   
1                                   NaN           1975.0      2   
2                                   NaN           1973.0      Υ   
3                                   NaN           1969.0      1   
4                                   NaN           1982.0      1   

                         Κατηγορία Ακινήτου  Τίμημα Δικαιώματος  
0  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας              7000.0  
1  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας             18000.0  
2   Αποθήκες / Γεωργικά-Κτηνοτροφικά κτίρια              8000.0  
3  Κατοικία ή διαμέρισμα π

In [88]:
print(df.isnull().sum())

Tιμή Ζώνης                                5747
Eπιφάνεια Κύριων Χώρων (σε τ.μ.)         55381
Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)    248052
Έτος Κατασκευής                          45851
Όροφος                                   45744
Κατηγορία Ακινήτου                           0
Τίμημα Δικαιώματος                           0
dtype: int64


In [89]:
df = df.dropna()
print(f"Rows after removing NaN: {df.shape[0]}")

Rows after removing NaN: 46530


In [90]:
Q1 = df['Τίμημα Δικαιώματος'].quantile(0.25)
Q3 = df['Τίμημα Δικαιώματος'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['Τίμημα Δικαιώματος'] < lower_bound) | (df['Τίμημα Δικαιώματος'] > upper_bound)]
print(f"Number of outliers: {len(outliers)}")

Number of outliers: 3312


In [91]:
df = df[(df['Τίμημα Δικαιώματος'] >= lower_bound) & (df['Τίμημα Δικαιώματος'] <= upper_bound)]
print(f"Rows after removing outliers: {df.shape[0]}")

Rows after removing outliers: 43218


In [92]:
df['Ηλικία'] = 2025 - df['Έτος Κατασκευής']
df = df.drop('Έτος Κατασκευής', axis=1)
print(df.head())

    Tιμή Ζώνης  Eπιφάνεια Κύριων Χώρων (σε τ.μ.)  \
7        900.0                             84.67   
12       900.0                             96.48   
22      1700.0                             50.00   
37      1250.0                             92.00   
57      1700.0                            117.10   

    Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.) Όροφος  \
7                                   13.0      3   
12                                   6.3      0   
22                                  10.0      2   
37                                  12.0      1   
57                                  19.5      4   

                          Κατηγορία Ακινήτου  Τίμημα Δικαιώματος  Ηλικία  
7   Κατοικία ή διαμέρισμα πλήν μονοκατοικίας            49155.75    33.0  
12                              Μονοκατοικία            45000.00    50.0  
22  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας            42758.01    38.0  
37  Κατοικία ή διαμέρισμα πλήν μονοκατοικίας            69366.58    35.0  
57  Κ

In [93]:
df['Όροφος'] = pd.to_numeric(df['Όροφος'], errors='coerce')
df = df.dropna()
print(f"Rows after converting floor: {df.shape[0]}")

Rows after converting floor: 42501


In [94]:
df = pd.get_dummies(df, columns=['Κατηγορία Ακινήτου'], drop_first=True)
print(df.head())

    Tιμή Ζώνης  Eπιφάνεια Κύριων Χώρων (σε τ.μ.)  \
7        900.0                             84.67   
12       900.0                             96.48   
22      1700.0                             50.00   
37      1250.0                             92.00   
57      1700.0                            117.10   

    Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)  Όροφος  Τίμημα Δικαιώματος  Ηλικία  \
7                                   13.0     3.0            49155.75    33.0   
12                                   6.3     0.0            45000.00    50.0   
22                                  10.0     2.0            42758.01    38.0   
37                                  12.0     1.0            69366.58    35.0   
57                                  19.5     4.0           150000.00    46.0   

    Κατηγορία Ακινήτου_Αποθήκες / Γεωργικά-Κτηνοτροφικά κτίρια  \
7                                               False            
12                                              False            
22      

In [95]:
X = df.drop('Τίμημα Δικαιώματος', axis=1)
y = df['Τίμημα Δικαιώματος']

numeric_cols = ['Tιμή Ζώνης', 'Eπιφάνεια Κύριων Χώρων (σε τ.μ.)', 
                'Επιφάνεια Βοηθητικών Χώρων (σε τ.μ.)', 'Όροφος', 'Ηλικία']
onehot_cols = [col for col in X.columns if 'Κατηγορία Ακινήτου_' in col]

In [96]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_numeric_scaled = scaler.fit_transform(X_train[numeric_cols])
X_test_numeric_scaled = scaler.transform(X_test[numeric_cols])

X_train_numeric_scaled = pd.DataFrame(X_train_numeric_scaled, columns=numeric_cols, index=X_train.index)
X_test_numeric_scaled = pd.DataFrame(X_test_numeric_scaled, columns=numeric_cols, index=X_test.index)

X_train = pd.concat([X_train_numeric_scaled, X_train[onehot_cols].astype(int)], axis=1)
X_test = pd.concat([X_test_numeric_scaled, X_test[onehot_cols].astype(int)], axis=1)

print(f"Train size: {X_train.shape[0]}, Test size: {X_test.shape[0]}")

Train size: 34000, Test size: 8501


In [97]:
model = LinearRegression()
model.fit(X_train, y_train)
print("Model trained")

Model trained


In [98]:
y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE: {mae:.2f}")
print(f"MSE: {mse:.2f}")
print(f"R² Score: {r2:.4f}")

MAE: 43940.42
MSE: 3483869849.21
R² Score: 0.2722


In [99]:
coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})
coefficients = coefficients.sort_values('Coefficient', key=abs, ascending=False)
print(coefficients)

                                              Feature    Coefficient
8   Κατηγορία Ακινήτου_Ειδικό κτίριο κτηνοτροφικής... -187693.788739
6    Κατηγορία Ακινήτου_Βιομηχανικά-Βιοτεχνικά κτίρια  -77309.579909
11               Κατηγορία Ακινήτου_Θέσεις Στάθμευσης  -64923.941147
16  Κατηγορία Ακινήτου_Τουριστικές εγκαταστάσεις /...  -41919.229846
9                    Κατηγορία Ακινήτου_Εκπαιδευτήρια  -40432.514508
13                    Κατηγορία Ακινήτου_Λοιπά κτιρια   30287.208725
0                                          Tιμή Ζώνης   27279.037992
10             Κατηγορία Ακινήτου_Επαγγελματική Στέγη  -25946.852653
7   Κατηγορία Ακινήτου_Ειδικό κτίριο γεωργικής χρήσης  -25536.351604
5   Κατηγορία Ακινήτου_Αποθήκες / Γεωργικά-Κτηνοτρ...  -21476.574470
4                                              Ηλικία  -16576.226444
1                    Eπιφάνεια Κύριων Χώρων (σε τ.μ.)   15266.779942
15  Κατηγορία Ακινήτου_Σταθμοί αυτοκινήτων δημόσια...  -12641.729425
3                                 

### Σχόλια:
**Απόδοση Μοντέλου:**
- R² = 0.27, το μοντέλο εξηγεί μόνο 27% της διακύμανσης των τιμών
- Μέτρια απόδοση, υπάρχουν άλλοι παράγοντες που επηρεάζουν την τιμή (π.χ. ακριβής τοποθεσία, κατάσταση κτιρίου)

**Πιο Σημαντικά Χαρακτηριστικά:**
1. Τιμή Ζώνης (+27k): η τοποθεσία είναι ο κυριότερος παράγοντας
2. Ηλικία (-16k): νεότερα ακίνητα έχουν υψηλότερη αξία
3. Επιφάνεια Κύριων Χώρων (+15k): μεγαλύτερη επιφάνεια έχει υψηλότερη τιμή
4. Κατηγορία Ακινήτου: ειδικά κτίρια (κτηνοτροφικά, βιομηχανικά) έχουν χαμηλότερη αξία

**Οικονομική Σημασία:**
- Τιμή Ζώνης: κάθε 1 std αύξηση, +27k€ (η τοποθεσία είναι κρίσιμη)
- Επιφάνεια: κάθε 1 std αύξηση, +15k€ (περισσότερα τ.μ. = μεγαλύτερη αξία)
- Ηλικία: κάθε 1 std αύξηση, -16k€ (παλαιότερα κτίρια υποτιμούνται)
- Όροφος: ελάχιστη επίδραση, (+6k€ ανά std)

In [100]:
from sklearn.linear_model import Ridge, Lasso

ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
y_pred_ridge = ridge.predict(X_test)
r2_ridge = r2_score(y_test, y_pred_ridge)

lasso = Lasso(alpha=1.0, max_iter=10000)
lasso.fit(X_train, y_train)
y_pred_lasso = lasso.predict(X_test)
r2_lasso = r2_score(y_test, y_pred_lasso)

print(f"Linear Regression R²: {r2:.4f}")
print(f"Ridge R²: {r2_ridge:.4f}")
print(f"Lasso R²: {r2_lasso:.4f}")

Linear Regression R²: 0.2722
Ridge R²: 0.2730
Lasso R²: 0.2725


**Ridge/Lasso:**
Η ομαλοποίηση δεν βοηθά σημαντικά (παρόμοια R² scores).
Με R² = 0.27, το πρόβλημα δεν είναι overfitting αλλά ότι τα χαρακτηριστικά
δεν εξηγούν επαρκώς την τιμή. Θα χρειάζονταν επιπλέον features
(π.χ. ακριβής γεωγραφική θέση, κατάσταση ακινήτου, παροχές).