## Podstawy Uczenia Maszynowego – Projekt
### Rozpoznawanie nadużyć w transakcjach płatniczych na podstawie fizycznych okoliczności ich wykonania
#### Autorzy: Kacper Korecki, Dominik Zakrzewski, Konrad Zbylut

## Wprowadzenie

Celem naszego projektu jest analiza obszernego zbioru transakcji płatniczych za pomocą kilku wybranych algorytmów dla porównania ich charakterystyki i otrzymanych wyników.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import tree
from sklearn.model_selection import train_test_split

Wczytujemy zbiór danych z pliku CSV.

In [None]:
data = pd.read_csv('card_transdata.csv', delimiter=',')

In [None]:
df = pd.DataFrame(data)
df.describe()

Ponadto sprawdzamy stosunek transakcji oznaczonych jako nadużycia (y=1.0) do liczby wszystkich transakcji w zbiorze

In [None]:
data_np = df.to_numpy()

In [None]:
total_fraud_transactions = np.sum(data_np[:, 7])
print("Percentage of fraud transactions:", total_fraud_transactions / data_np.shape[0] * 100, "%")

Jak widzimy różnorodność jest dla nas niezadowalająco niska, gdyż większość transakcji stanowią "normalne" transakcje. Stąd też mamy potrzebę dostosowania zbioru tak, by lepiej trenowały się na nim modele

#### zrobi sie potem

Dokonujemy podziału na zbiory X i y

In [None]:
X = data_np[:, :-1]
y = data_np[:, -1]

## Naiwny klasyfikator Bayesa

In [None]:
from sklearn.naive_bayes import GaussianNB, ComplementNB, BernoulliNB, MultinomialNB

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

In [None]:
gaussian_nb_model = GaussianNB().fit(X_train, y_train)

gaussian_nb_train_sc = gaussian_nb_model.score(X_train, y_train)
gaussian_nb_test_sc = gaussian_nb_model.score(X_test, y_test)

print('Train accuracy: {}'.format(gaussian_nb_train_sc))
print('Test accuracy: {}'.format(gaussian_nb_test_sc))

In [None]:
complement_nb_model = ComplementNB().fit(X_train, y_train)

complement_nb_train_sc = complement_nb_model.score(X_train, y_train)
complement_nb_test_sc = complement_nb_model.score(X_test, y_test)

print('Train accuracy: {}'.format(complement_nb_train_sc))
print('Test accuracy: {}'.format(complement_nb_test_sc))

In [None]:
bernoulli_nb_model = BernoulliNB().fit(X_train, y_train)

bernoulli_nb_train_sc = bernoulli_nb_model.score(X_train, y_train)
bernoulli_nb_test_sc = bernoulli_nb_model.score(X_test, y_test)

print('Train accuracy: {}'.format(bernoulli_nb_train_sc))
print('Test accuracy: {}'.format(bernoulli_nb_test_sc))

In [None]:
multinomial_nb_model = MultinomialNB().fit(X_train, y_train)

multinomial_nb_train_sc = multinomial_nb_model.score(X_train, y_train)
multinomial_nb_test_sc = multinomial_nb_model.score(X_test, y_test)

print('Train accuracy: {}'.format(multinomial_nb_train_sc))
print('Test accuracy: {}'.format(multinomial_nb_test_sc))

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay, classification_report

In [None]:
preds = gaussian_nb_model.predict(X_test)
cm = ConfusionMatrixDisplay.from_predictions(y_test, preds)
cm.ax_.set_title('Gaussian NB Confusion Matrix')
plt.show()
print(classification_report(y_test, preds))