# Import Libraries


In [1]:
import yfinance as yf
import numpy as np
import plotly.graph_objects as go

# Load Dataset

In [2]:
ticker_symbol = "DX-Y.NYB"
ticker = yf.Ticker(ticker_symbol)

df = ticker.history(period="5y").reset_index(drop=False)
df

Unnamed: 0,Date,Open,High,Low,Close,Volume,Dividends,Stock Splits
0,2020-11-05 00:00:00-05:00,93.339996,93.550003,92.489998,92.529999,0,0.0,0.0
1,2020-11-06 00:00:00-05:00,92.570000,92.820000,92.180000,92.230003,0,0.0,0.0
2,2020-11-09 00:00:00-05:00,92.239998,92.959999,92.129997,92.730003,0,0.0,0.0
3,2020-11-10 00:00:00-05:00,92.760002,92.970001,92.599998,92.750000,0,0.0,0.0
4,2020-11-11 00:00:00-05:00,92.699997,93.209999,92.610001,93.040001,0,0.0,0.0
...,...,...,...,...,...,...,...,...
1253,2025-10-30 00:00:00-04:00,99.139999,99.720001,98.919998,99.529999,0,0.0,0.0
1254,2025-10-31 00:00:00-04:00,99.489998,99.839996,99.419998,99.800003,0,0.0,0.0
1255,2025-11-03 00:00:00-05:00,99.750000,99.989998,99.709999,99.870003,0,0.0,0.0
1256,2025-11-04 00:00:00-05:00,99.980003,100.260002,99.739998,100.220001,0,0.0,0.0


# Drop Unnecessary Columns

In [3]:
df = df.drop(columns=['Volume', 'Dividends', 'Stock Splits'])
df

Unnamed: 0,Date,Open,High,Low,Close
0,2020-11-05 00:00:00-05:00,93.339996,93.550003,92.489998,92.529999
1,2020-11-06 00:00:00-05:00,92.570000,92.820000,92.180000,92.230003
2,2020-11-09 00:00:00-05:00,92.239998,92.959999,92.129997,92.730003
3,2020-11-10 00:00:00-05:00,92.760002,92.970001,92.599998,92.750000
4,2020-11-11 00:00:00-05:00,92.699997,93.209999,92.610001,93.040001
...,...,...,...,...,...
1253,2025-10-30 00:00:00-04:00,99.139999,99.720001,98.919998,99.529999
1254,2025-10-31 00:00:00-04:00,99.489998,99.839996,99.419998,99.800003
1255,2025-11-03 00:00:00-05:00,99.750000,99.989998,99.709999,99.870003
1256,2025-11-04 00:00:00-05:00,99.980003,100.260002,99.739998,100.220001


# Line Plot

In [4]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=df['Date'], y=df['Open'], mode='lines', name='Open'))
fig.add_trace(go.Scatter(x=df['Date'], y=df['High'], mode='lines', name='High'))
fig.add_trace(go.Scatter(x=df['Date'], y=df['Low'], mode='lines', name='Low'))
fig.add_trace(go.Scatter(x=df['Date'], y=df['Close'], mode='lines', name='Close'))

fig.update_layout(
    title='USD Prices Over Time',
    xaxis_title='Date',
    yaxis_title='Value',
    height=600,  # Increase plot height for better clarity
    width=1000   # Increase plot width for better clarity
)

fig.show()

# Stationary or non-Stationary Time Series

Από το line plot, φαίνεται ότι οι χρονοσειρές είναι μη στατικές.

Αυτό παρατηρείται λόγω των ακόλουθων ιδιοτητων του γραφήματος:

Μη σταθερή μέση τιμή: Η μέση τιμή των τιμών (Open, High, Low, Close) δεν φαίνεται να είναι σταθερή με την πάροδο του χρόνου. Υπάρχουν εμφανείς τάσεις ανόδου και πτώσης.
Μη σταθερή διακύμανση: Η διακύμανση (μεταβλητότητα) των τιμών φαίνεται επίσης να αλλάζει με την πάροδο του χρόνου. Σε ορισμένες περιόδους οι διακυμάνσεις είναι μεγαλύτερες από άλλες.

## Creating Target Variables with `shift`

In [5]:
df['Close_Target'] = df['Close'].shift(-1)

df_shifted = df.dropna()

display(df_shifted.head())
display(df_shifted.tail())

Unnamed: 0,Date,Open,High,Low,Close,Close_Target
0,2020-11-05 00:00:00-05:00,93.339996,93.550003,92.489998,92.529999,92.230003
1,2020-11-06 00:00:00-05:00,92.57,92.82,92.18,92.230003,92.730003
2,2020-11-09 00:00:00-05:00,92.239998,92.959999,92.129997,92.730003,92.75
3,2020-11-10 00:00:00-05:00,92.760002,92.970001,92.599998,92.75,93.040001
4,2020-11-11 00:00:00-05:00,92.699997,93.209999,92.610001,93.040001,92.959999


Unnamed: 0,Date,Open,High,Low,Close,Close_Target
1252,2025-10-29 00:00:00-04:00,98.739998,99.360001,98.620003,99.220001,99.529999
1253,2025-10-30 00:00:00-04:00,99.139999,99.720001,98.919998,99.529999,99.800003
1254,2025-10-31 00:00:00-04:00,99.489998,99.839996,99.419998,99.800003,99.870003
1255,2025-11-03 00:00:00-05:00,99.75,99.989998,99.709999,99.870003,100.220001
1256,2025-11-04 00:00:00-05:00,99.980003,100.260002,99.739998,100.220001,100.239998


## Problems with Training a Regressor on Non-Stationary Time Series

Όταν εκπαιδεύουμε έναν Regressor σε μη στατικές χρονοσειρές, όπως αυτές που παρατηρήσαμε στο γράφημα, αντιμετωπίζουμε τα ακόλουθα προβλήματα:

**Εσφαλμένες συσχετίσεις (Spurious Correlations):** Ένα Regressor μπορεί να βρει φαινομενικές συσχετίσεις μεταξύ των μεταβλητών που δεν είναι πραγματικές ή διαρκείς. Αυτό συμβαίνει επειδή τόσο οι ανεξάρτητες μεταβλητές (π.χ., Open, High, Low, Close) όσο και η εξαρτημένη μεταβλητή (π.χ., Close_Target) έχουν τάσεις ή εποχικότητα που δεν είναι σταθερές. Για παράδειγμα, αν οι τιμές γενικά αυξάνονται με την πάροδο του χρόνου, ο Regressor μπορεί να "μάθει" ότι μια υψηλή τιμή σήμερα σημαίνει μια ακόμη υψηλότερη τιμή αύριο, απλώς λόγω της γενικής ανοδικής τάσης, και όχι λόγω κάποιας πραγματικής προβλεπτικής σχέσης.

**Μη αξιόπιστα στατιστικά συμπεράσματα: **Τα τυπικά στατιστικά τεστ και οι δείκτες αξιολόγησης ενός μοντέλου (όπως το R-squared, p-values των συντελεστών) βασίζονται στην υπόθεση ότι τα δεδομένα προέρχονται από μια στατική διαδικασία. Όταν τα δεδομένα είναι μη στατικά, αυτά τα στατιστικά μπορεί να είναι αναξιόπιστα και να οδηγήσουν σε εσφαλμένα συμπεράσματα σχετικά με τη σημασία των μεταβλητών ή την απόδοση του μοντέλου.

**Κακή γενίκευση (Poor Generalization):** Ένα μοντέλο που εκπαιδεύεται σε μη στατικά δεδομένα μπορεί να έχει καλή απόδοση στα δεδομένα εκπαίδευσης (τα οποία περιλαμβάνουν την τάση που "έμαθε"), αλλά να αποτυγχάνει παταγωδώς στην πρόβλεψη νέων, μελλοντικών δεδομένων, όπου η τάση ή η διακύμανση μπορεί να έχουν αλλάξει. Το μοντέλο δεν έχει μάθει την υποκείμενη δυναμική της χρονοσειράς, αλλά απλώς έχει αποτυπώσει την ιστορική συμπεριφορά της τάσης και της εποχικότητας.

# Dolar in June/Jule 2025

Η πορεία του δολαρίου  κατά τους μήνες Ιούνιο και Ιούλιο 2025 εξηγείται από έναν συνδυασμό μακροοικονομικών, νομισματικών και γεωπολιτικών παραγόντων.

## Γιατί έπεσε τον Ιούνιο του 2025  
- Υποχώρηση της απόδοσης των αμερικανικών κρατικών ομολόγων και προσδοκίες για χαλάρωση της νομισματικής πολιτικής από τη Fed.  
- Αδύναμα οικονομικά στοιχεία των ΗΠΑ, τα οποία ενέτειναν τις ανησυχίες για επιβράδυνση της οικονομίας.  
- Ανησυχίες για τη δημοσιονομική πολιτική και το χρέος των ΗΠΑ — η αγορά έδειχνε αύξηση της έκθεσης του δολαρίου στον κίνδυνο λόγω μεγάλου ελλείμματος και χρέους.  
- Γεωπολιτικά και κανονιστικά ρίσκα για παράδειγμα, παρεμβάσεις στην ανεξαρτησία της Fed ή νέες τάσεις στην παγκόσμια χρηματοοικονομική αρχιτεκτονική που υπονομεύουν εν μέρει τη θέση του δολαρίου ως βασικού αποθεματικού νομίσματος.  
- Οι επενδυτές στράφηκαν προς άλλα νομίσματα και περιοχές όπου οι προσδοκίες για πολιτική νομισματικής σύσφιξης ή μικρότερης μείωσης επιτοκίων ήταν μεγαλύτερες δηλαδή, μειώθηκε η ελκυστικότητα των περιουσιακών στοιχειών σε δολάριο.  

Συνοπτικά: τον Ιούνιο επικράτησε έντονα το μήνυμα ότι το δολάριο χάνει μέρος της «ασφάλειας» και της επίδοσης που είχε, επειδή η αγορά άρχισε να τιμολογεί χαμηλότερες αποδόσεις στο νομισματικό του μέλλον και αυξημένα δημοσιονομικά/πολιτικά ρίσκα.

---

## Γιατί ανέβηκε τον Ιούλιο του 2025  
- Ισχυρότερα από το αναμενόμενο οικονομικά στοιχεία για τις ΗΠΑ (π.χ. απασχόληση) που ενίσχυσαν την προοπτική ότι η Fed δεν θα βιάζεται να μειώσει τα επιτόκια.  
- Επικράτηση «ρίζουσας» προσδοκίας πως η νομισματική πολιτική των ΗΠΑ θα παραμείνει πιο «σφιχτή» από ό,τι είχε τιμολογηθεί προηγουμένως — δηλαδή η αγορά αναθεώρησε προς τα πάνω τις πιθανότητες παραμονής των επιτοκίων σε υψηλότερα επίπεδα.  
- Αυξημένη ζήτηση για δολάριο ως ασφαλές καταφύγιο λόγω γεωπολιτικών/διεθνών εντάσεων ή κινδύνων — παράγοντες που ενίσχυσαν τη ροή κεφαλαίων προς το δολάριο.  

Με άλλα λόγια: ο Ιούλιος έφερε ένα είδος ανάσας για το δολάριο μετά από το έντονο αδύναμο προηγούμενο διάστημα, καθώς η αγορά έδειξε ότι οι προοπτικές επιτοκίων και η ισχύς της αμερικανικής οικονομίας ήταν καλύτερες του αναμενόμενου.

---

## Συμπέρασμα  
Η πορεία του δολαρίου εξηγείται από την αλληλεπίδραση **νομισματικής πολιτικής (ειδικά προσδοκιών για επιτόκια)**, **οικονομικών στοιχείων (ιδιαίτερα απασχόλησης/αντοχής της οικονομίας)** και **παγκόσμιων/γεωπολιτικών παραγόντων**.  
Τον Ιούνιο κυριάρχησε η προσδοκία για χαλάρωση και η αβεβαιότητα, με αποτέλεσμα πτώση. Τον Ιούλιο, αυτές οι προσδοκίες αναπροσαρμόστηκαν, κάτι που έδωσε ώθηση στο δολάριο.


# Prediction

Ναι, είναι δυνατόν να προσπαθήσουμε να προβλέψουμε την τιμή κλεισίματος (Close) του δολαρίου για την επόμενη μέρα χρησιμοποιώντας τα σημερινά Open, High, Low, Close. Αυτός είναι ένας τυπικός στόχος στην ανάλυση χρονοσειρών χρηματοοικονομικών δεδομένων.

Ωστόσο, δεν είναι δυνατόν να βρούμε μια απλή, ντετερμινιστική συνάρτηση της μορφής $f(o_t, h_t, l_t, c_t) = c_{t+1}$$f(o_t, h_t, l_t, c_t) = c_{t+1}$ που να είναι πάντα ακριβής και να περιγράφει τέλεια τη σχέση. Οι λόγοι για αυτό είναι πολλοί και σχετίζονται άμεσα με τη φύση των χρηματοοικονομικών χρονοσειρών και την μη στασιμότητά τους, κάτι που συζητήσαμε προηγουμένως:

**Μη Γραμμικές και Πολύπλοκες Σχέσεις:** Η τιμή κλεισίματος της επόμενης μέρας δεν εξαρτάται μόνο από τις τιμές της τρέχουσας ημέρας με έναν απλό γραμμικό τρόπο. Επηρεάζεται από ένα πλήθος άλλων παραγόντων (οικονομικά νέα, γεωπολιτικές εξελίξεις, συναίσθημα αγοράς, κ.λπ.) που δεν περιλαμβάνονται στα σημερινά Open, High, Low, Close.

**Μη Στασιμότητα:** Καθώς οι χρονοσειρές είναι μη στατικές, η σχέση μεταξύ των σημερινών τιμών και της αυριανής τιμής κλεισίματος αλλάζει με την πάροδο του χρόνου. Μια συνάρτηση που ίσως λειτουργούσε καλά σε μια περίοδο με ανοδική τάση, μπορεί να αποτύχει παταγωδώς σε μια περίοδο με καθοδική τάση ή υψηλή μεταβλητότητα. Η "δυναμική" της σχέσης δεν είναι σταθερή.

**Στοχαστική Φύση:** Οι χρηματοοικονομικές αγορές είναι εγγενώς στοχαστικές. Υπάρχει πάντα ένα στοιχείο τυχαιότητας και απρόβλεπτου. Ακόμη και με τα καλύτερα μοντέλα, υπάρχει ένα αναπόφευκτο σφάλμα στην πρόβλεψη. Δεν υπάρχει "μαγική φόρμουλα" που να δίνει την ακριβή τιμή κλεισίματος της επόμενης μέρας με βεβαιότητα.

**Εσφαλμένες Συσχετίσεις:** Όπως εξηγήσαμε, η μη στασιμότητα μπορεί να δημιουργήσει εσφαλμένες συσχετίσεις. Ένας απλός Regressor που βασίζεται μόνο στα σημερινά δεδομένα μπορεί να "μάθει" αυτές τις εσφαλμένες συσχετίσεις και να δώσει φαινομενικά καλές προβλέψεις στα δεδομένα εκπαίδευσης, αλλά να αποτύχει στα νέα δεδομένα.
Συμπερασματικά:

Ενώ μπορούμε να χρησιμοποιήσουμε τεχνικές μηχανικής μάθησης (Regression) για να μοντελοποιήσουμε τη σχέση μεταξύ των σημερινών τιμών και της αυριανής τιμής κλεισίματος και να κάνουμε προβλέψεις, αυτές οι προβλέψεις θα είναι πιθανότητες και εκτιμήσεις και όχι ακριβή αποτελέσματα από μια ντετερμινιστική συνάρτηση. Για να έχουμε πιο αξιόπιστα αποτελέσματα, συνήθως απαιτείται η χρήση πιο προηγμένων τεχνικών χρονοσειρών (όπως ARIMA, GARCH, ή πιο σύγχρονα μοντέλα βασισμένα σε νευρωνικά δίκτυα όπως LSTM) και η ενσωμάτωση και άλλων παραγόντων, καθώς και ο μετασχηματισμός των δεδομένων για την αντιμετώπιση της μη στασιμότητας.

# Is there a Reason for Random Train Test Split?

Όχι, δεν έχει νόημα να γίνει τυχαίος διαχωρισμός των δεδομένων χρονοσειράς σε σύνολα train και test.

Οι χρονοσειρές έχουν μια εγγενή χρονολογική εξάρτηση. Η τιμή μιας παρατήρησης σε ένα συγκεκριμένο χρονικό σημείο επηρεάζεται από τις τιμές των προηγούμενων χρονικών σημείων. Όταν κάνουμε τυχαίο διαχωρισμό, ανακατεύουμε τα δεδομένα και διανέμουμε τυχαία παρατηρήσεις από το μέλλον στο σύνολο εκπαίδευσης.

Αυτό δημιουργεί ένα πρόβλημα γνωστό ως διαρροή δεδομένων (data leakage). Το μοντέλο εκπαίδευσης "βλέπει" δεδομένα από το μέλλον (μέσω των τυχαία τοποθετημένων μελλοντικών σημείων στο σύνολο εκπαίδευσης) και μπορεί να "μάθει" από αυτά. Ως αποτέλεσμα, η απόδοση του μοντέλου στο σύνολο δοκιμής, το οποίο αποτελείται επίσης από τυχαία επιλεγμένα σημεία (συμπεριλαμβανομένων μελλοντικών), θα φαίνεται τεχνητά καλή. Ωστόσο, όταν προσπαθήσουμε να εφαρμόσουμε αυτό το μοντέλο σε πραγματικά, νέα, μελλοντικά δεδομένα (τα οποία το μοντέλο δεν έχει "δει" ποτέ), η απόδοσή του θα είναι πολύ χειρότερη.

Στην ανάλυση χρονοσειρών, ο σωστός τρόπος διαχωρισμού των δεδομένων είναι ο χρονολογικός διαχωρισμός. Δηλαδή, ένα συνεχές χρονικό διάστημα των δεδομένων χρησιμοποιείται για την εκπαίδευση του μοντέλου, και ένα μεταγενέστερο, συνεχές χρονικό διάστημα χρησιμοποιείται για τη δοκιμή του μοντέλου. Με αυτόν τον τρόπο, προσομοιώνεται η πραγματική κατάσταση όπου ένα μοντέλο εκπαιδεύεται σε ιστορικά δεδομένα και χρησιμοποιείται για την πρόβλεψη μελλοντικών, άγνωστων δεδομένων.

# Train Test Split

In [6]:
train_df = df[df['Date'].dt.year < 2024].copy()
test_df = df[df['Date'].dt.year >= 2024].copy()

train_df = train_df.drop(columns=['Date'])
test_df = test_df.drop(columns=['Date'])

print("Train DataFrame shape:", train_df.shape)
print("Test DataFrame shape:", test_df.shape)

display(train_df.head())
display(test_df.head())

Train DataFrame shape: (792, 5)
Test DataFrame shape: (466, 5)


Unnamed: 0,Open,High,Low,Close,Close_Target
0,93.339996,93.550003,92.489998,92.529999,92.230003
1,92.57,92.82,92.18,92.230003,92.730003
2,92.239998,92.959999,92.129997,92.730003,92.75
3,92.760002,92.970001,92.599998,92.75,93.040001
4,92.699997,93.209999,92.610001,93.040001,92.959999


Unnamed: 0,Open,High,Low,Close,Close_Target
792,101.419998,102.25,101.339996,102.199997,102.459999
793,102.150002,102.730003,102.080002,102.459999,102.419998
794,102.459999,102.529999,102.150002,102.419998,102.410004
795,102.400002,103.099998,101.910004,102.410004,102.209999
796,102.440002,102.620003,102.080002,102.209999,102.57


# TimeFrame Function

In [7]:
def create_timeframes_and_targets(df, N):
    """
    Creates timeframes (inputs) and targets from a DataFrame.

    Args:
        df: The input DataFrame (train or test).
        N: The size of each timeframe.

    Returns:
        A tuple containing two numpy arrays: Inputs and Targets.
    """
    inputs = []
    targets = []

    features = df.drop(columns=['Close_Target']).values
    target_values = df['Close_Target'].values

    for i in range(len(df) - N):
        timeframe = features[i:i+N]
        inputs.append(timeframe)

        target = target_values[i+N-1] # The target for the last day in the timeframe
        targets.append(target)

    return np.array(inputs), np.array(targets)

N_value = 5
X_train, y_train = create_timeframes_and_targets(train_df, N_value)
X_test, y_test = create_timeframes_and_targets(test_df, N_value)

print("Input 0:", X_train[0])
print("Target 0:", y_train[0])

print("Input 1:", X_train[1])
print("Target 1:", y_train[1])

Input 0: [[93.33999634 93.55000305 92.48999786 92.52999878]
 [92.56999969 92.81999969 92.18000031 92.23000336]
 [92.23999786 92.95999908 92.12999725 92.73000336]
 [92.76000214 92.97000122 92.59999847 92.75      ]
 [92.69999695 93.20999908 92.61000061 93.04000092]]
Target 0: 92.95999908447266
Input 1: [[92.56999969 92.81999969 92.18000031 92.23000336]
 [92.23999786 92.95999908 92.12999725 92.73000336]
 [92.76000214 92.97000122 92.59999847 92.75      ]
 [92.69999695 93.20999908 92.61000061 93.04000092]
 [93.01000214 93.13999939 92.77999878 92.95999908]]
Target 1: 92.76000213623047


# Size of N

**Για πρόβλεψη της επόμενης ημέρας:**

Μικρό N: Ένα μικρό N (π.χ 1 έως 5 ημέρες) μπορεί να είναι επαρκές. Όταν προβλέπουμε την επόμενη ημέρα, η πιο πρόσφατη πληροφορία είναι συχνά η πιο σχετική. Ένα μικρό timeframe εστιάζει σε αυτή την πρόσφατη δυναμική.

**Για πρόβλεψη πιο μακρινού ορίζοντα (ένα μήνα):**

Μεγαλύτερο N: Για την πρόβλεψη ενός πιο μακρινού ορίζοντα, όπως ένας μήνας, ένα μεγαλύτερο N (π.χ., 20-30 ημέρες ή και περισσότερο) μπορεί να είναι πιο κατάλληλο. Ένα μεγαλύτερο timeframe επιτρέπει στο μοντέλο να "δει" μεγαλύτερες τάσεις, εποχικότητα και μακροπρόθεσμες εξαρτήσεις στα δεδομένα. Η τιμή σε ένα μήνα από τώρα είναι πιθανότερο να επηρεαστεί από την γενικότερη πορεία των τιμών τον τελευταίο μήνα παρά μόνο από τις τιμές της χθες.

**Γενικότερα:**
Βραχυπρόθεσμες εξαρτήσεις: Για βραχυπρόθεσμες προβλέψεις (π.χ., επόμενη ημέρα), οι τιμές του πολύ πρόσφατου παρελθόντος έχουν συνήθως τη μεγαλύτερη επιρροή. Ένα μικρό N αιχμαλωτίζει αυτές τις βραχυπρόθεσμες εξαρτήσεις.

Μακροπρόθεσμες εξαρτήσεις: Για μακροπρόθεσμες προβλέψεις, είναι σημαντικό να λάβουμε υπόψη μεγαλύτερες τάσεις, κύκλους ή εποχικότητα που μπορεί να υπάρχουν στα δεδομένα. Ένα μεγαλύτερο N παρέχει στο μοντέλο περισσότερο ιστορικό πλαίσιο για να εντοπίσει και να μάθει αυτές τις μακροπρόθεσμες εξαρτήσεις.

**Γενική Πρόταση:**
Για πρόβλεψη της επόμενης ημέρας, μικρά N (π.χ 3, 5, 7 ημέρες).
Για πρόβλεψη πιο μακρινού ορίζοντα (π.χ ένα μήνα), μεγαλύτερα N (π.χ.20, 30, 60 ημέρες).

Στην πράξη, η βέλτιστη τιμή του N συχνά βρίσκεται μέσω πειραματισμού και δοκιμάζοντας διαφορετικά μεγέθη και αξιολογώντας την απόδοση του μοντέλου στα test data.

# TimeFrame with N=5 Train Test Split

In [8]:
N_value = 5
X_train, y_train = create_timeframes_and_targets(train_df, N_value)
X_test, y_test = create_timeframes_and_targets(test_df, N_value)

X_train_reshaped = X_train.reshape(X_train.shape[0], N_value * 4)
X_test_reshaped = X_test.reshape(X_test.shape[0], N_value * 4)

print("Shape of X_train_reshaped:", X_train_reshaped.shape)
print("Shape of y_train:", y_train.shape)
print("Shape of X_test_reshaped:", X_test_reshaped.shape)
print("Shape of y_test:", y_test.shape)

print("Number of X_train_reshaped inputs equals number of y_train targets:", X_train_reshaped.shape[0] == y_train.shape[0])
print("Number of X_test_reshaped inputs equals number of y_test targets:", X_test_reshaped.shape[0] == y_test.shape[0])

print("\nFirst input of X_train_reshaped:", X_train_reshaped[0])

Shape of X_train_reshaped: (787, 20)
Shape of y_train: (787,)
Shape of X_test_reshaped: (461, 20)
Shape of y_test: (461,)
Number of X_train_reshaped inputs equals number of y_train targets: True
Number of X_test_reshaped inputs equals number of y_test targets: True

First input of X_train_reshaped: [93.33999634 93.55000305 92.48999786 92.52999878 92.56999969 92.81999969
 92.18000031 92.23000336 92.23999786 92.95999908 92.12999725 92.73000336
 92.76000214 92.97000122 92.59999847 92.75       92.69999695 93.20999908
 92.61000061 93.04000092]


# Mulptiple Models

In [9]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, BaggingRegressor, StackingRegressor
from sklearn.tree import DecisionTreeRegressor
from xgboost import XGBRegressor
from sklearn.metrics import mean_absolute_error
import pandas as pd
import plotly.graph_objects as go

## Linear Regression

In [10]:
lr = LinearRegression()
lr.fit(X_train_reshaped, y_train)

y_train_pred_lr = lr.predict(X_train_reshaped)
y_test_pred_lr = lr.predict(X_test_reshaped)

mae_train_lr = mean_absolute_error(y_train, y_train_pred_lr)
mae_test_lr = mean_absolute_error(y_test, y_test_pred_lr)

print(f"Linear Regression MAE Train: {mae_train_lr}")
print(f"Linear Regression MAE Test: {mae_test_lr}")

Linear Regression MAE Train: 0.34536750446372355
Linear Regression MAE Test: 0.3351891239896052


**Linear Regression**: Ένα απλό γραμμικό μοντέλο που βρίσκει την καλύτερη ευθεία (ή υπερεπίπεδο) για να ταιριάξει τα δεδομένα και να κάνει προβλέψεις.

## Random Forest Regressor

In [11]:
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train_reshaped, y_train)

y_train_pred_rf = rf.predict(X_train_reshaped)
y_test_pred_rf = rf.predict(X_test_reshaped)

mae_train_rf = mean_absolute_error(y_train, y_train_pred_rf)
mae_test_rf = mean_absolute_error(y_test, y_test_pred_rf)

print(f"Random Forest Regressor MAE Train: {mae_train_rf}")
print(f"Random Forest Regressor MAE Test: {mae_test_rf}")

Random Forest Regressor MAE Train: 0.1450378416999324
Random Forest Regressor MAE Test: 0.38997433180405633


**Random Forest Regressor**: Δημιουργεί πολλά δέντρα αποφάσεων και συνδυάζει τις προβλέψεις τους για να βελτιώσει την ακρίβεια και να μειώσει την υπερπροσαρμογή.

## Bagging Regressor (with Linear Regression)

In [12]:
bagging_lr = BaggingRegressor(estimator=LinearRegression(), random_state=42)
bagging_lr.fit(X_train_reshaped, y_train)

y_train_pred_bagging_lr = bagging_lr.predict(X_train_reshaped)
y_test_pred_bagging_lr = bagging_lr.predict(X_test_reshaped)

mae_train_bagging_lr = mean_absolute_error(y_train, y_train_pred_bagging_lr)
mae_test_bagging_lr = mean_absolute_error(y_test, y_test_pred_bagging_lr)

print(f"Bagging Regressor (Linear Regression) MAE Train: {mae_train_bagging_lr}")
print(f"Bagging Regressor (Linear Regression) MAE Test: {mae_test_bagging_lr}")

Bagging Regressor (Linear Regression) MAE Train: 0.3459277288058616
Bagging Regressor (Linear Regression) MAE Test: 0.3346626799564235


**Bagging Regressor**: Εκπαιδεύει πολλούς estimators (εδώ Linear Regression) σε διαφορετικά τυχαία υποσύνολα των δεδομένων και αθροίζει τις προβλέψεις τους.

## XGBoost Regressor

In [13]:
xgb = XGBRegressor(random_state=42)
xgb.fit(X_train_reshaped, y_train)

y_train_pred_xgb = xgb.predict(X_train_reshaped)
y_test_pred_xgb = xgb.predict(X_test_reshaped)

mae_train_xgb = mean_absolute_error(y_train, y_train_pred_xgb)
mae_test_xgb = mean_absolute_error(y_test, y_test_pred_xgb)

print(f"XGBoost Regressor MAE Train: {mae_train_xgb}")
print(f"XGBoost Regressor MAE Test: {mae_test_xgb}")

XGBoost Regressor MAE Train: 0.02159788526755579
XGBoost Regressor MAE Test: 0.44311099766133405


**XGBoost Regressor**: Ένα μοντέλο boosting που δημιουργεί δέντρα αποφάσεων διαδοχικά, όπου κάθε νέο δέντρο προσπαθεί να διορθώσει τα λάθη των προηγούμενων.

## Stacking Regressor

In [14]:
estimators = [
    ('lr', LinearRegression()),
    ('dt', DecisionTreeRegressor(random_state=42))
]
stacking_reg = StackingRegressor(estimators=estimators)
stacking_reg.fit(X_train_reshaped, y_train)

y_train_pred_stacking = stacking_reg.predict(X_train_reshaped)
y_test_pred_stacking = stacking_reg.predict(X_test_reshaped)

mae_train_stacking = mean_absolute_error(y_train, y_train_pred_stacking)
mae_test_stacking = mean_absolute_error(y_test, y_test_pred_stacking)

print(f"Stacking Regressor MAE Train: {mae_train_stacking}")
print(f"Stacking Regressor MAE Test: {mae_test_stacking}")

Stacking Regressor MAE Train: 0.36060465735231717
Stacking Regressor MAE Test: 0.3374758404035804


**Stacking Regressor**: Συνδυάζει τις προβλέψεις πολλαπλών μοντέλων (base estimators) χρησιμοποιώντας ένα τελικό μοντέλο (final estimator) για την τελική πρόβλεψη.

In [15]:
mae_results = pd.DataFrame({
    'Regressor': ['Linear Regression', 'Random Forest', 'Bagging (LR)', 'XGBoost', 'Stacking'],
    'MAE Train': [mae_train_lr, mae_train_rf, mae_train_bagging_lr, mae_train_xgb, mae_train_stacking],
    'MAE Test': [mae_test_lr, mae_test_rf, mae_test_bagging_lr, mae_test_xgb, mae_test_stacking]
})

print("\nMAE Results:")
display(mae_results)


MAE Results:


Unnamed: 0,Regressor,MAE Train,MAE Test
0,Linear Regression,0.345368,0.335189
1,Random Forest,0.145038,0.389974
2,Bagging (LR),0.345928,0.334663
3,XGBoost,0.021598,0.443111
4,Stacking,0.360605,0.337476


In [16]:
fig = go.Figure(data=[
    go.Bar(name='MAE Train', x=mae_results['Regressor'], y=mae_results['MAE Train'], marker_color='blue'),
    go.Bar(name='MAE Test', x=mae_results['Regressor'], y=mae_results['MAE Test'], marker_color='green')
])

fig.update_layout(
    title='Mean Absolute Error (MAE) for Different Regressors',
    xaxis_title='Regressor',
    yaxis_title='MAE',
    barmode='group',
    height=600,
    width=1000
)

fig.show()