## CreditGuard: Detección de Fraude en Transacciones con Machine Learning

----

### Objetivo del Proyecto:

Desarrollar un modelo de machine learning que detecte transacciones financieras fraudulentas a partir de datos históricos. El objetivo es minimizar los falsos positivos y maximizar la precisión en la detección de fraudes para reducir las pérdidas económicas.

Para ello, cuento con un conjunto de datos que contiene transacciones de tarjetas de crédito realizadas por titulares de tarjetas europeos en el año 2023. Consta de 568,630 registros y 31 columnas, y los datos han sido anonimizados para proteger las identidades de los titulares de las tarjetas. 

> Características clave del dataset:
> - 'id': Identificador único para cada transacción.
> - 'V1-V28': Características anonimizadas que representan varios atributos de la transacción (por ejemplo, tiempo, ubicación, etc.).
> - 'Amount': Monto de la transacción.
> - 'Class': Etiqueta binaria que indica si la transacción es fraudulenta (1) o no (0).

----

### Plan de Trabajo

#### 1. Exploración y Limpieza de Datos (Data Wrangling):

- Limpieza de los datos eliminando valores faltantes, duplicados o atípicos y analizar desbalance de clases (Python).

- Análisis exploratorio de los datos (EDA) para identificar características importantes (Jupyter Nb).

- > Herramientas: Pandas, Matplotlib, Seaborn.

#### 2. Entrenamiento de Modelos:

2.1. Segmentar subconjuntos para entrenamiento, validación y prueba. 

2.2. Entrenar algoritmos para clasificación binaria: 
  - Logistic Regression
  - Random Forest
  - Gradient Boosting (XGBoost o LightGBM)
  - Support Vector Machines (SVM)



> Algoritmos comunes para la detección de anomalías en fraudes:
> - Isolation Forest: Algoritmo especializado en detectar outliers o anomalías en datos.
> - One-Class SVM: Otro algoritmo que aprende a detectar patrones normales y señala las transacciones que no se ajustan a ellos.
> - Autoencoders (en redes neuronales): Usados para detectar diferencias significativas entre transacciones normales y sospechosas.
> - Modelos de clustering: Como DBSCAN o k-means, pueden detectar grupos de transacciones similares y detectar aquellos que se alejan del comportamiento típico.

> - Realizar la validación cruzada para asegurarte de que los modelos no estén sobreajustando los datos de entrenamiento.


#### 3. Evaluación y optimización de los Modelos:

- Dado el desbalanceo de las clases, utilizar métricas como F1-score, precisión, recall, y AUC-ROC en lugar de la precisión general.

- Evalúar la capacidad del modelo para detectar fraudes minimizando los falsos negativos (transacciones fraudulentas que pasan desapercibidas).

- Ajustar los hiperparámetros de los modelos para mejorar su desempeño utilizando técnicas como GridSearchCV o RandomizedSearchCV.

#### 4. Seleccionar el mejor Modelo:

- Seleccionar el modelo con mejor rendimiento y probarlo en el conjunto de validación. 


#### 5. Visualización de Resultados:

- Utilizar gráficos como matrices de confusión y curvas ROC para visualizar los resultados.

- Mostrar las transacciones fraudulentas detectadas frente a las legítimas para ilustrar la efectividad del modelo.


#### 6. Informe del Proyecto :

- Documentar bien el proceso y preparar un informe final con hallazgos, técnicas utilizadas y los resultados obtenidos.

- Incluir visualizaciones y ejemplos de transacciones fraudulentas detectadas.
