<a href="https://colab.research.google.com/github/emmanuelpigola/Deteccion-de-Fraudes-en-Transacciones-Financieras/blob/Google-Colab/Proyecto_ParteIII_%2BPigola.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Detección de Fraudes en Transacciones Financieras

In [None]:
# 1. Importación de bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE
from sklearn.metrics import classification_report

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# 2. Cargar el conjunto de datos
file_path = "/content/drive/MyDrive/Entrega Coder House/Fraud excel.xlsx"
data = pd.read_excel(file_path)

In [None]:
# Seleccionar una muestra aleatoria más pequeña y reducir el tamaño del DataFrame
selected_features = ['step', 'amount', 'oldbalanceOrg', 'newbalanceOrig', 'oldbalanceDest', 'newbalanceDest', 'type', 'isFraud']
data_sample = data[selected_features].sample(frac=0.1, random_state=42)

In [None]:
# Codificar variables categóricas
data_preprocessed = pd.get_dummies(data_sample, columns=['type'])

In [None]:
# Dividir el conjunto de datos en características (X) y etiquetas (y)
X = data_preprocessed.drop(['isFraud'], axis=1)
y = data_preprocessed['isFraud']

In [None]:
# 3. Dividir los Datos en Conjuntos de Entrenamiento y Prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 4. Entrenar y Evaluar el Modelo
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

In [None]:
# Evaluar el rendimiento del modelo
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     20950
           1       1.00      0.64      0.78        22

    accuracy                           1.00     20972
   macro avg       1.00      0.82      0.89     20972
weighted avg       1.00      1.00      1.00     20972



In [None]:
# 5. Analizar la Importancia de las Características
# Calcular la importancia de las características
feature_importances = clf.feature_importances_
print("Importancia de las características:")
for feature, importance in zip(X.columns, feature_importances):
    print(f"{feature}: {importance}")

Importancia de las características:
step: 0.22669047460340883
amount: 0.2192005473837935
oldbalanceOrg: 0.20008784015647446
newbalanceOrig: 0.03210310167902839
oldbalanceDest: 0.0957635064916105
newbalanceDest: 0.17668070151928073
type_CASH_IN: 0.006346996039506562
type_CASH_OUT: 0.01492150297477619
type_DEBIT: 0.0006773706919876919
type_PAYMENT: 0.003966417770541798
type_TRANSFER: 0.02356154068959139


In [None]:
# 6. Calcular Métricas Adicionales y Visualizar la Matriz de Confusión
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

# Calcular métricas
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

# Imprimir métricas
print("Métricas del modelo:")
print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1-score: {f1}")

# Calcular y visualizar la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusión:")
print(conf_matrix)

Métricas del modelo:
Accuracy: 0.9996185390043868
Precision: 1.0
Recall: 0.6363636363636364
F1-score: 0.7777777777777778

Matriz de Confusión:
[[20950     0]
 [    8    14]]


# CONCLUSIONES

El modelo ha demostrado un rendimiento sólido en términos de precisión y accuracy. Sin embargo, la métrica de recall es un poco más baja, lo que indica que el modelo no identifica todas las transacciones fraudulentas. La importancia de las características muestra que "step", "amount", "oldbalanceOrg", "newbalanceDest" y "oldbalanceDest" son las más influyentes en la predicción de fraudes.


Aunque el modelo actual proporciona un buen rendimiento en términos de precisión y accuracy, es importante tener en cuenta que la detección de fraudes en transacciones financieras es un desafío continuo debido a la naturaleza cambiante de los métodos de fraude. Por lo tanto, es recomendable implementar un sistema de monitoreo continuo y actualizaciones periódicas del modelo para adaptarse a nuevos patrones de fraude y mejorar la capacidad de detección en el tiempo. Además, la colaboración con expertos en seguridad financiera y la incorporación de datos externos, como información sobre actividades delictivas conocidas, podrían mejorar aún más la precisión y la eficacia del modelo en la detección de fraudes.

Esta conclusión resalta la importancia de la vigilancia continua y la adaptación del modelo para mantenerse al día con las nuevas amenazas y proteger eficazmente las transacciones financieras contra el fraude.
