# Credit Card Fraud Detection

Αυτό το notebook έχει δημιουργηθεί για την ανίχνευση δόλιων συναλλαγών πιστωτικών καρτών.
Μπορείτε να το εκτελέσετε στο Google Colab.

[Άνοιγμα στο Google Colab](https://colab.research.google.com/)

In [None]:
# Φόρτωση απαιτούμενων βιβλιοθηκών
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import rcParams

# Ρυθμίσεις εμφάνισης και σταθερό seed για αναπαραγωγιμότητα
sns.set(style='whitegrid', palette='muted', font_scale=1.5)
rcParams['figure.figsize'] = 14, 8
RANDOM_SEED = 42
LABELS = ["Normal", "Fraud"]

# 1. Φόρτωση συνόλου δεδομένων
url = "https://raw.githubusercontent.com/nsethi31/Kaggle-Data-Credit-Card-Fraud-Detection/master/creditcard.csv"
data = pd.read_csv(url)

# 2. Προκαταρκτική επεξεργασία δεδομένων
# Απομάκρυνση μη αριθμητικών στηλών ή κενού περιεχομένου για να διασφαλιστεί η συνοχή
data = data.select_dtypes(include=['float64', 'int64']).dropna()

# 3. Διαχωρισμός χαρακτηριστικών και ετικετών
X = data.drop(['Class'], axis=1)
y = data['Class']

# 4. Διαχωρισμός συνόλου δεδομένων σε σύνολο εκπαίδευσης και δοκιμής
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=RANDOM_SEED)

# 5. Επισκόπηση κατανομής τάξεων
plt.figure(figsize=(8, 4))
sns.countplot(x=y, palette='muted')
plt.title("Κατανομή τάξεων")
plt.xticks(range(2), LABELS)
plt.ylabel("Αριθμός Συναλλαγών")
plt.xlabel("Κατηγορία")
plt.show()

# 6. Δημιουργία και εκπαίδευση του αλγορίθμου Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=RANDOM_SEED)
rf_model.fit(X_train, y_train)

# 7. Πρόβλεψη στο σύνολο δοκιμής
y_pred = rf_model.predict(X_test)

# 8. Αξιολόγηση αποτελεσμάτων
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Εμφάνιση μετρικών
print(f"Ακρίβεια: {accuracy:.4f}")
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(class_report)

# Σχόλια για τα αποτελέσματα:
# Η κατανομή των κλάσεων υποδεικνύει έντονη ανισορροπία μεταξύ φυσιολογικών και δόλιων συναλλαγών.
# Ενώ η ακρίβεια (accuracy) μπορεί να είναι υψηλή, αυτό δεν σημαίνει ότι το μοντέλο αναγνωρίζει αποτελεσματικά τις περιπτώσεις απάτης.
# Οι μετρικές recall και F1-score για τη δόλια κατηγορία (Fraud) είναι πιο ενδεικτικές για την ποιότητα του μοντέλου.
# Σε περίπτωση χαμηλών τιμών σε αυτές τις μετρικές, μπορεί να εξεταστεί η χρήση τεχνικών διαχείρισης ανισόρροπων δεδομένων όπως oversampling,
# undersampling ή ειδικοί αλγόριθμοι που λαμβάνουν υπόψη τις ανισορροπίες μεταξύ των κλάσεων.
