<a href="https://colab.research.google.com/github/Rubenkdai/Rubenkdai/blob/main/Proyecto_final_completo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Detección de fraudes con tarjetas de crédito**

En este proyecto, abordaremos el problema de la detección de fraudes con tarjetas de crédito utilizando un enfoque basado en Machine Learning. Usaremos un dataset público que contiene transacciones etiquetadas como fraudulentas o legítimas. El objetivo es construir un modelo que pueda identificar transacciones fraudulentas con alta precisión.

## Carga del dataset

In [None]:

import pandas as pd

# Descargar el dataset desde Kaggle (o cargar un archivo local si está disponible)
url = "https://www.kaggleusercontent.com/mlg-ulb/creditcardfraud/creditcard.csv"
df = pd.read_csv(url)

# Verificar las primeras filas
df.head()


## Análisis exploratorio de datos

In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# Estadísticas descriptivas
print(df.describe())

# Distribución de clases
sns.countplot(x='Class', data=df)
plt.title("Distribución de clases")
plt.show()


## Preprocesamiento de datos

In [None]:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Separar características y etiquetas
X = df.drop('Class', axis=1)
y = df['Class']

# Dividir datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Escalar características
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


## Entrenamiento de modelos

In [None]:

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# Entrenar modelos
log_reg = LogisticRegression(random_state=42)
log_reg.fit(X_train, y_train)

rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)


## Evaluación de los modelos

In [None]:

from sklearn.metrics import classification_report, confusion_matrix

# Evaluar el modelo de regresión logística
y_pred_log = log_reg.predict(X_test)
print("Resultados de Regresión Logística:")
print(classification_report(y_test, y_pred_log))
print(confusion_matrix(y_test, y_pred_log))

# Evaluar el modelo Random Forest
y_pred_rf = rf_clf.predict(X_test)
print("Resultados de Random Forest:")
print(classification_report(y_test, y_pred_rf))
print(confusion_matrix(y_test, y_pred_rf))


## Conclusiones

En este proyecto, construimos y evaluamos modelos para la detección de fraudes con tarjetas de crédito. Se analizaron dos enfoques principales: Regresión Logística y Random Forest. Los resultados muestran que el modelo de Random Forest tiene mejor rendimiento para este conjunto de datos. Para mejorar aún más el modelo, podríamos considerar técnicas como:

- Manejo de desbalance en las clases mediante sobremuestreo o submuestreo.
- Uso de algoritmos más avanzados como Gradient Boosting.
- Optimización de hiperparámetros.