In [None]:
# ------- Υποβολές που δεν χρησιμοποιήθηκαν στο τελικό pipeline ------- #
# Το notebook αυτό περιλαμβάνει πειραματικές υποβολές και παραλλαγές που δοκιμάστηκαν κατά την ανάπτυξη του τελικού μοντέλου.
# Κάθε μπλοκ αντιστοιχεί σε ένα διαφορετικό σύνολο χαρακτηριστικών ή μοντέλου.
# Έχει καταγραφεί και το Public Score που είχαν στο Kaggle Challenge
# Όλα τα χαρακτηριστικά φορτώνονται από έτοιμα αρχεία .csv.


In [None]:
# ------- Υποβολή: 01_logreg_text_only ------- #
# Kaggle Public Score: 0.30602
# Μοντέλο: LogisticRegression()
# Χαρακτηριστικά: "text_similarity", "bert_similarity"

import pandas as pd
from sklearn.linear_model import LogisticRegression

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity"]

# Εκπαίδευση μοντέλου
model = LogisticRegression()
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/01_logreg_text_only.csv", index=False)

In [None]:
# ------- Υποβολή: 02_logreg_text_author ------- #
# Kaggle Public Score: 0.29200
# Μοντέλο: LogisticRegression()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard"

import pandas as pd
from sklearn.linear_model import LogisticRegression

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard"]

# Εκπαίδευση μοντέλου
model = LogisticRegression()
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/02_logreg_text_author.csv", index=False)

In [None]:
# ------- Υποβολή: 03_rf_text_only ------- #
# Kaggle Public Score: 0.54417
# Μοντέλο: RandomForestClassifier(n_estimators=100, random_state=42)
# Χαρακτηριστικά: "text_similarity", "bert_similarity"

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity"]

# Εκπαίδευση μοντέλου
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/03_rf_text_only.csv", index=False)

In [None]:
# ------- Υποβολή: 04_rf_bert_only ------- #
# Kaggle Public Score: 1.23034
# Μοντέλο: RandomForestClassifier(n_estimators=100, random_state=42)
# Χαρακτηριστικά: "bert_similarity"

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["bert_similarity"]

# Εκπαίδευση μοντέλου
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/04_rf_bert_only.csv", index=False)

In [None]:
# ------- Υποβολή: 05_rf_graph_no_path ------- #
# Kaggle Public Score: 0.38162
# Μοντέλο: RandomForestClassifier(n_estimators=100, random_state=42)
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar"

import pandas as pd
from sklearn.ensemble import RandomForestClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar"]

# Εκπαίδευση μοντέλου
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/05_rf_graph_no_path.csv", index=False)

In [None]:
# ------- Υποβολή: 06_xgb_text_only ------- #
# Kaggle Public Score: 0.25234
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity"]

# Εκπαίδευση μοντέλου
model = XGBClassifier()
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/06_xgb_text_only.csv", index=False)

In [None]:
# ------- Υποβολή: 07_xgb_no_shortest_path ------- #
# Kaggle Public Score: 0.14747
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier()
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/07_xgb_no_shortest_path.csv", index=False)

In [None]:
# ------- Υποβολή: 08_xgb_lexical_features ------- #
# Kaggle Public Score: 0.25393
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "shared_word_count", "shared_word_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "shared_word_count", "shared_word_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier()
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/08_xgb_lexical_features.csv", index=False)

In [None]:
# ------- Υποβολή: 09_xgb_with_text_ratio ------- #
# Kaggle Public Score: 0.24642
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "shared_word_count", "shared_word_ratio", "text_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "shared_word_count", "shared_word_ratio", "text_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier(
    n_estimators=150,
    max_depth=5,
    learning_rate=0.1,
    eval_metric="logloss",
    random_state=42
)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/09_xgb_with_text_ratio.csv", index=False)

In [None]:
# ------- Υποβολή: 10_xgb_all_with_text_ratio ------- #
# Kaggle Public Score: 0.14367
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio", "text_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio", "text_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier(
    n_estimators=150,
    max_depth=6,
    learning_rate=0.1,
    subsample=0.8,
    colsample_bytree=0.9,
    eval_metric="logloss",
    random_state=42
)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/10_xgb_all_with_text_ratio.csv", index=False)

In [None]:
# ------- Υποβολή: 11_xgb_no_text_ratio ------- #
# Kaggle Public Score: 0.14205
# Μοντέλο: XGBClassifier()
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier(
    n_estimators=100,
    max_depth=5,
    learning_rate=0.1,
    eval_metric="logloss",
    random_state=42
)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/11_xgb_no_text_ratio.csv", index=False)

In [None]:
# ------- Υποβολή: 12_xgb_all_selected ------- #
# Kaggle Public Score: 0.14199
# Μοντέλο: XGBClassifier(n_estimators=100, max_depth=5, learning_rate=0.1, eval_metric='logloss', random_state=42)
# Χαρακτηριστικά: "text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio", "text_ratio"

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Επιλογή χαρακτηριστικών
selected_features = ["text_similarity", "bert_similarity", "author_jaccard", "common_neighbors", "jaccard", "log_adamic_adar", "shared_word_count", "shared_word_ratio", "text_ratio"]

# Εκπαίδευση μοντέλου
model = XGBClassifier(n_estimators=100, max_depth=5, learning_rate=0.1, eval_metric='logloss', random_state=42)
model.fit(X_train[selected_features], y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test[selected_features])[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv(f"../submission_trials/12_xgb_all_selected.csv", index=False)

In [None]:
# ------- Υποβολή: 13_xgb_full_implicit ------- #
# Kaggle Public Score: 0.13758
# Χρήση όλων των χαρακτηριστικών χωρίς feature selection
# Μοντέλο: XGBClassifier() (default hyperparams)

import pandas as pd
from xgboost import XGBClassifier

# Φόρτωση δεδομένων
X_train = pd.read_csv("../model_data/X_train.csv")
X_test = pd.read_csv("../model_data/X_test.csv")
y_train = pd.read_csv("../model_data/y_train.csv")

# Εκπαίδευση μοντέλου
model = XGBClassifier()
model.fit(X_train, y_train)

# Πρόβλεψη και δημιουργία υποβολής
preds = model.predict_proba(X_test)[:, 1]
submission = pd.DataFrame({
    "ID": range(len(preds)),
    "score": preds
})
submission.to_csv("../submission_trials/13_xgb_full_implicit.csv", index=False)