In [None]:
#importando as bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [None]:
#importando o arquivo
df_credit = pd.read_csv("creditcard.csv")

In [None]:
#verificando a quantidade de linhas
print(len(df_credit))

In [None]:
#verificando o dataframe
df_credit.head()

In [None]:
#verificando os tipos dos dados dos atributos
df_credit.dtypes

In [None]:
#verificando a existência de valores nulos
df_credit.isnull().sum()

In [None]:
#verificando as estatísticas descritivas das observações não fraude
df_nao_fraude = df_credit.Amount[df_credit.Class == 0]

df_nao_fraude.describe()

In [None]:
#verificando as estatísticas descritivas das observações fraude
df_fraude = df_credit.Amount[df_credit.Class == 1]

df_fraude.describe()

In [None]:
#verificando a distribuição das observações (em fraude e não fraude)
df_credit.Class.value_counts()

In [None]:
#armazenando apenas as observações fraude
df_fraude = df_credit[df_credit.Class == 1]
df_fraude

In [None]:
#armazenando apenas as observações não fraude
df_nao_fraude = df_credit[df_credit.Class == 0]
df_nao_fraude

In [None]:
#utilizando a técnica de undersampling
df_nao_fraudes = df_nao_fraude.sample(n=492) #randômico
df_nao_fraudes

In [None]:
#concatenando os dois dataframes (df_nao_fraudes e df_fraude)
df = pd.concat([df_nao_fraudes, df_fraude], axis = 0)
df

In [None]:
#ajustando o índice das observações
df.reset_index(inplace=True) #inplace = True pra fazer a alteração efetiva
df

In [None]:
#escolhendo as observações para a validação
df_val_nao_fraude = df.head(5)
df_val_fraude = df.tail(5)

In [None]:
#removendo as observações de validação do dataset
#removendo as 5 primeiras linhas (df_val_nao_fraude)
df = df.iloc[5:]

#removendo as 5 últimas linhas (df_val_fraude)
df = df[:-5]

df

In [None]:
#concatenando os dois dataframes de validação (df_val_nao_fraude e df_val_fraude)
df_val_total = pd.concat([df_val_nao_fraude, df_val_fraude], axis = 0)

df_val_total.reset_index(inplace=True)

df_val_total_real = df_val_total.Class #quero só o campo Class para validar

df_val_total

In [None]:
#retirando os atributos que não vou utilizar
df_val_total = df_val_total.drop(['level_0','index','Time','Class'], axis=1)
df_val_total

In [None]:
#verificando a distribuição das observações fraude e não fraude
df.Class.value_counts()

In [None]:
#separando labels e features
X = df.drop(['index','Time','Class'], axis=1)
y = df['Class']

In [None]:
#separando em dados de treino e de teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=Y)

In [None]:
#treinamento
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)
pred = lr.predict(X_test)

In [None]:
#acurácia do treinamento
acc = accuracy_score(y_test, pred)
f'Acurácia do treinamento: {acc*100:.2f}%'

In [None]:
#acurácia da validação
pred = lr.predict(df_val_total)
df = pd.DataFrame({'real':df_val_total_real, 'previsao':pred})
acc = accuracy_score(df_val_total_real, pred)

print(df)

f'Acurácia da validação: {acc*100:.2f}%'