In [None]:
# 📦 Importación de librerías necesarias / Required Libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, roc_auc_score, classification_report

from imblearn.over_sampling import SMOTE


In [None]:
# 📂 Carga del dataset / Load dataset
df = pd.read_csv('data/creditcard.csv')
df.head()


In [None]:
# 📊 Distribución de clases / Class distribution
print(df['Class'].value_counts())

# 📈 Heatmap de correlaciones
plt.figure(figsize=(12,8))
sns.heatmap(df.corr(), cmap='coolwarm')
plt.title('Correlation Heatmap')
plt.tight_layout()
plt.savefig('images/correlation_heatmap.png', dpi=300)
plt.show()


In [None]:
# 🎯 Separar variables / Separate features and target
X = df.drop('Class', axis=1)
y = df['Class']

# ⚖️ Aplicar SMOTE / Apply SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

print("Clase original:\n", y.value_counts())
print("Clase balanceada:\n", pd.Series(y_resampled).value_counts())


In [None]:
# 🌲 Entrenar modelo de Random Forest / Train Random Forest
model = RandomForestClassifier(random_state=42)
model.fit(X_resampled, y_resampled)


In [None]:
# 🧠 Predicción sobre datos originales / Prediction on original data
y_pred = model.predict(X)

# 📋 Métricas / Metrics
print(classification_report(y, y_pred))
print("ROC AUC:", roc_auc_score(y, model.predict_proba(X)[:,1]))

# 📷 Guardar visuales (confusión y curva ROC) / Save evaluation visuals
cm = confusion_matrix(y, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix')
plt.tight_layout()
plt.savefig('images/confusion_matrix.png', dpi=300)
plt.show()


In [None]:
# 📌 Importancia de variables / Feature importance
importances = model.feature_importances_
plt.figure(figsize=(10,8))
plt.barh(X.columns, importances)
plt.title('Feature Importance')
plt.tight_layout()
plt.savefig('images/feature_importance.png', dpi=300)
plt.show()


### 🧠 Strategic Insights

- 🔍 Variables más influyentes: Las más importantes en el modelo fueron X, Y y Z.
- 💡 Impacto: Detectar patrones en estas variables permite reducir pérdidas por fraude.
- 📈 Decisión: Este modelo puede integrarse en tiempo real para alertas automatizadas.

---

**Next Steps / Próximos pasos:**
- Validación cruzada con más modelos (Logistic Regression, XGBoost).
- GridSearch para optimización de hiperparámetros.
- Integración de visuales con dashboard (Streamlit o Power BI).

🔗 Ver README para contexto completo del proyecto.
