# Maskininlärning för "frauddetection"

## Ladda datasets & EDA

In [None]:
!pip install pandas seaborn matplotlib scikit-learn

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Ladda datasetet
file_path = 'path/to/your/dataset.csv'
data = pd.read_csv(file_path)

# EDA
print(data.info())
print(data.describe())
print(data['fraud'].value_counts())

## Feature Engineering

In [None]:
# Skapa en ny feature
data['distance_diff'] = data['distance_from_home'] - data['distance_from_last_transaction']
print(data.describe())

## Visualisering

### Heatmap för korrelation

In [None]:
# Heatmap för att visualisera korrelationer mellan variabler
corr_matrix = data.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', center=0)
plt.title('korr. mellan variabler')
plt.show()

### Linjär  regression

In [None]:
# Slumputval av en mindre del av datan för snabbare visualisering
data_sample = data.sample(n=1000, random_state=66)  # Exempelvis 10 000 rader

# Visualisera
sns.regplot(x='distance_from_home', y='ratio_to_median_purchase_price', data=data_sample, scatter_kws={'s':10}, line_kws={'color':'red'})
plt.title('Linjär Regression mellan Distance_from_Home och Ratio_to_Median_Purchase_Price (Sampled Data)')
plt.xlabel('Distance from Home')
plt.ylabel('Ratio to Median Purchase Price')
plt.show()

## Dela upp data i tränings/testset

In [None]:
# Dela upp data i tränings- och testset
X = data[['distance_from_home', 'distance_diff', 'ratio_to_median_purchase_price', 'used_chip', 'used_pin_number', 'online_order']]
y = data['fraud']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=99)

## Träna modellen

In [None]:
# Träna en logistisk regressionsmodell
model = LogisticRegression()
model.fit(X_train, y_train)

# Gör prediktioner på testdata
y_pred = model.predict(X_test)

# Utvärdera modellens träffsäkerthet
print(f"träffsäkerhet på: {accuracy_score(y_test, y_pred):.10f}")