In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score

In [None]:
import pandas as pd

# carregando o dataset
df = pd.read_csv('/content/creditcard.csv')

# informações básicas sobre o dataset
print(df.info())
print(df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1759 entries, 0 to 1758
Data columns (total 31 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Time    1759 non-null   float64
 1   V1      1759 non-null   float64
 2   V2      1759 non-null   float64
 3   V3      1759 non-null   float64
 4   V4      1759 non-null   float64
 5   V5      1759 non-null   float64
 6   V6      1759 non-null   float64
 7   V7      1759 non-null   float64
 8   V8      1759 non-null   float64
 9   V9      1759 non-null   float64
 10  V10     1759 non-null   float64
 11  V11     1759 non-null   float64
 12  V12     1759 non-null   float64
 13  V13     1759 non-null   float64
 14  V14     1759 non-null   float64
 15  V15     1759 non-null   float64
 16  V16     1759 non-null   float64
 17  V17     1759 non-null   float64
 18  V18     1759 non-null   float64
 19  V19     1759 non-null   float64
 20  V20     1759 non-null   float64
 21  V21     1759 non-null   float64
 22  

In [None]:
# definindo as variáveis independentes (X) e a variável dependente (y)
X = df.drop('Class', axis=1)  # 'Class' é a coluna de fraudes (1 para fraude, 0 para normal)
y = df['Class']
# obs: quando você usa axis=1 em uma função do pandas, está dizendo à função para realizar a operação
# ao longo de todas as colunas

# dividindo em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# treinando e avaliando o modelo com todos os atributos
clf = DecisionTreeClassifier(random_state=1)
clf.fit(X_train, y_train)
y_pred_all = clf.predict(X_test)

print("Desempenho com todos os atributos:")
print("Acurácia:", accuracy_score(y_test, y_pred_all))
print("Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred_all))
print("F1 Score:", f1_score(y_test, y_pred_all))

Desempenho com todos os atributos:
Acurácia: 0.9261363636363636
Matriz de Confusão:
[[245  12]
 [ 14  81]]
F1 Score: 0.8617021276595744


In [None]:
# selecionando os 10 melhores atributos com base no teste F
selector = SelectKBest(score_func=f_classif, k=10)
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

# exibindo as pontuações de cada atributo
scores = selector.scores_
feature_scores = list(zip(X.columns, scores))
feature_scores.sort(key=lambda x: x[1], reverse=True)  # ordenando atributos por relevância

print("Pontuação dos atributos:")
for feature, score in feature_scores:
    print(f"{feature}: {score}")

Pontuação dos atributos:
V14: 2424.874146944827
V4: 1694.3821010262113
V12: 1686.9897304713375
V11: 1592.9385105728825
V10: 1245.454696748403
V16: 1093.1475442266735
V17: 926.329126679115
V3: 906.4432298846186
V9: 763.8771596496724
V7: 582.3131338867894
V2: 566.1147697046804
V18: 493.88282170262863
V1: 443.05962704144423
V5: 324.09772144612026
V6: 249.63736301655103
V19: 132.3837490534975
V20: 47.32534624541176
Time: 29.45374793781783
V21: 25.03460964648798
V24: 14.671724282985403
V28: 11.493520129184155
Amount: 11.022058645248393
V8: 9.787945477355713
V13: 4.624470404269658
V27: 4.363139389716825
V26: 3.8122732667927015
V15: 2.722042065975952
V23: 2.098391149238729
V22: 1.2781322808060873
V25: 1.1211265327114976


In [None]:
# escolhendo os melhores atributos para o modelo
# exemplo: vamos manter os 10 atributos mais relevantes
selected_features = [feature for feature, score in feature_scores[:10]]
X_train_top = X_train[selected_features]
X_test_top = X_test[selected_features]

# treinando e avaliando o modelo com os atributos selecionados
clf = DecisionTreeClassifier(random_state=1)
clf.fit(X_train_top, y_train)
y_pred_selected = clf.predict(X_test_top)

print("\nDesempenho com atributos selecionados:")
print("Acurácia:", accuracy_score(y_test, y_pred_selected))
print("Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred_selected))
print("F1 Score:", f1_score(y_test, y_pred_selected))


Desempenho com atributos selecionados:
Acurácia: 0.9090909090909091
Matriz de Confusão:
[[239  18]
 [ 14  81]]
F1 Score: 0.8350515463917526
