In [1]:
# Importando bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Carregando os dados
df = pd.read_csv('creditcard_2023.csv')

# Separando recursos e rótulos
X = df.drop(['Class'], axis=1)  # Recursos
y = df['Class']  # Rótulo

# Dividindo os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Construindo e treinando o modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Fazendo previsões e avaliando o modelo
y_pred = model.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


[[85142     7]
 [   24 85416]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85149
           1       1.00      1.00      1.00     85440

    accuracy                           1.00    170589
   macro avg       1.00      1.00      1.00    170589
weighted avg       1.00      1.00      1.00    170589



### Matriz de Confusão
A matriz de confusão é uma tabela que mostra a performance do modelo de classificação. Para o seu modelo, a matriz é:

```
[[85142     7]
 [   24 85416]]
```

- **Verdadeiros Negativos (TN)**: 85,142 - O modelo previu corretamente a classe negativa (não-fraude) 85,142 vezes.
- **Falsos Positivos (FP)**: 7 - O modelo previu erroneamente a classe positiva (fraude) 7 vezes quando era realmente negativa.
- **Falsos Negativos (FN)**: 24 - O modelo previu erroneamente a classe negativa 24 vezes quando era realmente positiva.
- **Verdadeiros Positivos (TP)**: 85,416 - O modelo previu corretamente a classe positiva 85,416 vezes.

### Relatório de Classificação
O relatório de classificação fornece várias métricas importantes:

- **Precision** (Precisão): A precisão é a capacidade do classificador em não rotular como positivo uma amostra que é negativa. Para ambas as classes (0 e 1), a precisão é 1,00 ou 100%, o que indica um desempenho excepcionalmente alto do modelo.

- **Recall** (Revocação ou Sensibilidade): O recall é a capacidade do classificador em encontrar todas as amostras positivas. Para ambas as classes, o recall é 1,00 ou 100%, o que significa que o modelo foi capaz de identificar corretamente todas as instâncias de ambas as classes.

- **F1-Score**: É a média harmônica de precisão e recall. Um F1-Score de 1,00 para ambas as classes indica um equilíbrio perfeito entre precisão e recall.

- **Support**: O número de ocorrências reais de cada classe no conjunto de dados especificado. Para a classe 0, são 85,149 instâncias, e para a classe 1, são 85,440 instâncias.

- **Accuracy** (Acurácia): A proporção de previsões corretas (tanto positivas quanto negativas) em relação ao total de previsões. A acurácia do modelo é 1,00 ou 100%, o que é excepcionalmente alto.

- **Macro Avg**: A média não ponderada de precisão, recall e F1-score.

- **Weighted Avg**: A média ponderada de precisão, recall e F1-score.

### Interpretação Geral
O modelo demonstra um desempenho extremamente alto, com precisão, recall e F1-score de 100% para ambas as classes. Isso sugere que o modelo é eficaz na identificação de transações fraudulentas e não fraudulentas. No entanto, é importante estar atento para o risco de sobreajuste (overfitting), dado que os resultados são quase perfeitos. É recomendável realizar uma validação cruzada ou testar o modelo em um conjunto de dados completamente novo para verificar a generalização desses resultados.