In [7]:

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score
from sklearn.dummy import DummyClassifier
import numpy as np
import pandas as pd
from tqdm import tqdm


df = pd.read_csv('descriptors.csv')  # Load your data
X = df.drop(columns=['graph_id','edge_source','edge_dest', 'is_causal'])  # Your features
y = df['is_causal']  # Your target
graph_ids = df['graph_id'].unique()  # Unique graph IDs

# Placeholder for scores
log_reg_scores = []
random_scores = []

# Logistic Regression and Random Classifier 
log_reg = LogisticRegression(solver='liblinear')
random_clf = DummyClassifier(strategy='uniform')  # It guesses randomly

for graph_id in tqdm(graph_ids):
    # Split the data
    train_x = X[df['graph_id'] != graph_id]
    train_y = y[df['graph_id'] != graph_id]
    test_x = X[df['graph_id'] == graph_id]
    test_y = y[df['graph_id'] == graph_id]

    # Train and predict with Logistic Regression
    log_reg.fit(train_x, train_y)
    pred_y = log_reg.predict(test_x)

    # Train and predict with Random Classifier
    random_clf.fit(train_x, train_y)
    random_pred_y = random_clf.predict(test_x)

    score1 = (accuracy_score(test_y, pred_y), f1_score(test_y, pred_y), roc_auc_score(test_y, pred_y))
    score2 = (accuracy_score(test_y, random_pred_y), f1_score(test_y, random_pred_y), roc_auc_score(test_y, random_pred_y))
    # Get the performance metrics and store them
    log_reg_scores.append(score1)
    random_scores.append(score2)


# Convert scores to numpy arrays for easier manipulation
log_reg_scores = np.array(log_reg_scores)
random_scores = np.array(random_scores)

# Calculate the mean score for each metric
mean_log_reg_scores = log_reg_scores.mean(axis=0)
mean_random_scores = random_scores.mean(axis=0)

print('Logistic Regression scores: ', mean_log_reg_scores)
print('Random Classifier scores: ', mean_random_scores)


  0%|          | 2/10000 [00:00<32:47,  5.08it/s]

Logistic Regression scores:  (0.5, 0.4, 0.5)
Random Classifier scores:  (0.5, 0.5714285714285715, 0.5)
Logistic Regression scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Random Classifier scores:  (0.6666666666666666, 0.5, 0.6666666666666666)


  0%|          | 4/10000 [00:00<30:49,  5.41it/s]

Logistic Regression scores:  (0.5, 0.0, 0.5)
Random Classifier scores:  (0.6666666666666666, 0.5, 0.6666666666666666)
Logistic Regression scores:  (0.0, 0.0, 0.0)
Random Classifier scores:  (0.3333333333333333, 0.5, 0.3333333333333333)


  0%|          | 6/10000 [00:01<29:54,  5.57it/s]

Logistic Regression scores:  (0.3333333333333333, 0.0, 0.33333333333333337)
Random Classifier scores:  (0.8333333333333334, 0.8571428571428571, 0.8333333333333334)
Logistic Regression scores:  (0.6666666666666666, 0.5, 0.6666666666666666)
Random Classifier scores:  (0.5, 0.4, 0.5)


  0%|          | 8/10000 [00:01<29:11,  5.70it/s]

Logistic Regression scores:  (1.0, 1.0, 1.0)
Random Classifier scores:  (0.5, 0.6666666666666666, 0.5)
Logistic Regression scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Random Classifier scores:  (0.6666666666666666, 0.6666666666666666, 0.6666666666666667)


  0%|          | 10/10000 [00:01<29:14,  5.69it/s]

Logistic Regression scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Random Classifier scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Logistic Regression scores:  (0.6666666666666666, 0.5, 0.6666666666666666)
Random Classifier scores:  (0.3333333333333333, 0.3333333333333333, 0.33333333333333337)


  0%|          | 12/10000 [00:02<28:52,  5.77it/s]

Logistic Regression scores:  (0.3333333333333333, 0.0, 0.33333333333333337)
Random Classifier scores:  (0.3333333333333333, 0.5, 0.3333333333333333)
Logistic Regression scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Random Classifier scores:  (0.5, 0.5714285714285715, 0.5)


  0%|          | 14/10000 [00:02<28:57,  5.75it/s]

Logistic Regression scores:  (0.6666666666666666, 0.5, 0.6666666666666666)
Random Classifier scores:  (0.6666666666666666, 0.6666666666666666, 0.6666666666666667)
Logistic Regression scores:  (0.5, 0.5714285714285715, 0.5)
Random Classifier scores:  (0.3333333333333333, 0.3333333333333333, 0.33333333333333337)


  0%|          | 16/10000 [00:02<27:58,  5.95it/s]

Logistic Regression scores:  (0.5, 0.0, 0.5)
Random Classifier scores:  (0.3333333333333333, 0.3333333333333333, 0.33333333333333337)
Logistic Regression scores:  (0.6666666666666666, 0.5, 0.6666666666666666)
Random Classifier scores:  (0.3333333333333333, 0.3333333333333333, 0.33333333333333337)


  0%|          | 18/10000 [00:03<29:21,  5.67it/s]

Logistic Regression scores:  (0.8333333333333334, 0.8, 0.8333333333333333)
Random Classifier scores:  (0.6666666666666666, 0.6666666666666666, 0.6666666666666667)
Logistic Regression scores:  (0.6666666666666666, 0.6666666666666666, 0.6666666666666667)
Random Classifier scores:  (0.5, 0.5714285714285715, 0.5)





KeyboardInterrupt: 