# Plataforma FSI & Banca con Databricks Data Intelligence Platform - Detección de fraude en tiempo real

<img src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-0.png " style="float: left; margin-right: 30px; margin-bottom: 50px" width="600px" />

<br/>

## ¿Qué es la Databricks Data Intelligence Platform para Banca?

Es la única plataforma de datos empresarial que te permite aprovechar todos tus datos, de cualquier fuente, en cualquier carga de trabajo para optimizar tu negocio con datos en tiempo real, al menor costo.

Lakehouse te permite centralizar todos tus datos, desde datos de clientes y banca minorista hasta la detección de fraude en tiempo real, proporcionando velocidad operativa y eficiencia a una escala nunca antes posible.


### Simple
  Una sola plataforma y capa de gobierno/seguridad para tu data warehousing e IA para **acelerar la innovación** y **reducir riesgos**. No necesitas unir múltiples soluciones con gobernanza dispar y alta complejidad.

### Abierta
  Construida sobre código abierto y estándares abiertos. Eres dueño de tus datos y evitas el bloqueo de proveedor, con fácil integración con soluciones externas. Ser abierta también te permite compartir tus datos con cualquier organización externa, sin importar su stack o proveedor.

### Multinube
  Una plataforma de datos consistente en todas las nubes. Procesa tus datos donde los necesites.
 
<!-- Recopilar datos de uso (vista). Elimínalo para desactivar la recopilación. Consulta el README para más detalles.  -->
<img width="1px" src="https://ppxrzfxige.execute-api.us-west-2.amazonaws.com/v1/analytics?category=lakehouse&org_id=7474659742638075&notebook=%2F00-FSI-fraud-detection-introduction-lakehouse&demo_name=lakehouse-fsi-fraud&event=VIEW&path=%2F_dbdemos%2Flakehouse%2Flakehouse-fsi-fraud%2F00-FSI-fraud-detection-introduction-lakehouse&version=1">

## Reduciendo el Fraude con Lakehouse

Poder recopilar y centralizar información en tiempo real es fundamental para la industria. Los datos son la clave para desbloquear capacidades críticas como la personalización en tiempo real o la prevención de fraude. <br/> 

### Qué construiremos

En esta demo, construiremos una plataforma bancaria de extremo a extremo, recopilando datos de múltiples fuentes en tiempo real.

Con esta información, no solo podremos analizar fraudes pasados y entender patrones comunes, sino que también podremos calificar el riesgo de transacciones financieras en tiempo real.

Con base en esta información, podremos reducir proactivamente el fraude. Un ejemplo típico podría ser solicitar un reto de seguridad adicional o requerir intervención humana cuando nuestro modelo arroja un puntaje alto.

A grandes rasgos, este es el flujo que implementaremos:

<img width="1000px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-overview-0.png" />

1. Ingerir y crear nuestra base de datos bancaria, con tablas fáciles de consultar en SQL
2. Proteger los datos y otorgar acceso de lectura a los equipos de Data Analyst y Data Science.
3. Ejecutar consultas BI para analizar fraudes existentes
4. Construir modelos de ML y desplegarlos para proveer capacidades de detección de fraude en tiempo real.

### Nuestro conjunto de datos

Para simplificar esta demo, consideraremos que un sistema externo envía periódicamente datos a nuestro almacenamiento en la nube (S3/ADLS/GCS):

- Historial de transacciones bancarias
- Datos de clientes (perfil)
- Tabla de metadatos
- Reporte de fraudes pasados (usado como nuestra etiqueta)

*Nota que a nivel técnico, nuestros datos pueden provenir de cualquier fuente. Databricks puede ingerir datos de cualquier sistema (Salesforce, Fivetran, colas de mensajes como kafka, almacenamiento en la nube, bases de datos SQL y NoSQL...).*

Veamos cómo estos datos pueden ser usados en el Lakehouse para analizar transacciones de clientes y detectar posibles fraudes en tiempo real.

## 1/ Ingesta y preparación de los datos (Ingeniería de Datos)

<img style="float: left; margin-right: 20px" width="400px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-1.png" />


<br/>
<div style="padding-left: 420px">
Nuestro primer paso es ingerir y limpiar los datos en bruto que recibimos para que nuestro equipo de Data Analyst pueda comenzar a analizarlos.


<img src="https://pages.databricks.com/rs/094-YMS-629/images/delta-lake-logo.png" style="float: right; margin-top: 20px" width="200px">

### Delta Lake

Todas las tablas que crearemos en el Lakehouse se almacenarán como tablas Delta Lake. [Delta Lake](https://delta.io) es un framework de almacenamiento abierto para confiabilidad y rendimiento. <br/>
Ofrece muchas funcionalidades *(Transacciones ACID, DELETE/UPDATE/MERGE, clonación sin copia, Change Data Capture...)* <br />
Para más detalles sobre Delta Lake, ejecuta `dbdemos.install('delta-lake')`

### Simplifica la ingesta con Spark Declarative Pipelines (SDP)

Databricks simplifica la ingesta y transformación de datos con Spark Declarative Pipelines permitiendo a usuarios de SQL crear pipelines avanzados, en batch o streaming. El motor simplifica el despliegue y pruebas de pipelines y reduce la complejidad operativa, para que puedas enfocarte en la transformación de negocio y asegurar la calidad de los datos.<br/>

Abre la <a dbdemos-pipeline-id="sdp-fsi-fraud" href="#joblist/pipelines/aea9c893-dbc5-4d79-93c2-f44617361b06" target="_blank">canalización Spark Declarative Pipelines de FSI Banking & Fraud</a> o el [notebook SQL]($./01-Data-ingestion/01.1-sdp-sql/01-SDP-fraud-detection-SQL) *(Alternativa: la versión SDP en Python estará disponible pronto)*. <br>
  Para más detalles sobre SDP: `dbdemos.install('pipeline-bike')` o `dbdemos.install('declarative-pipeline-cdc')`

## 2/ Seguridad de datos y gobierno (Unity Catalog)

<img style="float: left" width="400px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-2.png" />

<br/><br/><br/>
<div style="padding-left: 420px">
  Ahora que nuestras primeras tablas han sido creadas, necesitamos otorgar a nuestro equipo de Data Analyst acceso de LECTURA para que puedan comenzar a analizar la información de la base de datos bancaria.
  
  Veamos cómo Unity Catalog proporciona seguridad y gobierno sobre nuestros activos de datos, incluyendo linaje y registros de auditoría.
  
  Ten en cuenta que Unity Catalog integra Delta Sharing, un protocolo abierto para compartir tus datos con cualquier organización externa, sin importar su stack. Para más detalles:  `dbdemos.install('delta-sharing-airlines')`
 </div>

   Abre el [notebook de Unity Catalog]($./02-Data-governance/02-UC-data-governance-ACL-fsi-fraud) para ver cómo configurar ACL y explorar el linaje con el Data Explorer.
  

## 3/ Analizando fraudes existentes (BI / Data warehousing / SQL) 

<img width="500px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-dashboard.png"  style="float: right; margin: 0px 0px 10px;"/>


<img width="400px" src="https://raw.githubusercontent.com/QuentinAmbard/databricks-demo/main/retail/resources/images/lakehouse-retail/lakehouse-retail-churn-3.png"  style="float: left; margin-right: 10px"/>
 
<br><br><br>
Nuestros conjuntos de datos ahora están correctamente ingeridos, asegurados, son de alta calidad y fácilmente descubribles dentro de nuestra organización.

Los Data Analysts ahora están listos para ejecutar consultas BI interactivas, con baja latencia y alto rendimiento, incluyendo data warehouses serverless que permiten inicio y detención instantáneos.

¡Veamos cómo se puede hacer Data Warehousing usando Databricks, incluyendo integración con soluciones BI externas como PowerBI, Tableau y otras!

Abre el [notebook de Data warehousing]($./03-BI-data-warehousing/03-BI-Datawarehousing-fraud) para comenzar a ejecutar tus consultas BI, o abre directamente el <a dbdemos-dashboard-id="fraud-detection" href='/sql/dashboardsv3/01f0e7eb2bf01998b25ad773aa3b6cd9' target="_blank">Dashboard de Análisis de Fraude Bancario.</a>

## 4/ Predecir riesgo de fraude con Data Science & AutoML

<img style="float: right;" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/fsi-fraud-real-time-serving.png" width="700px" />


<img width="400px" style="float: left; margin-right: 10px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-4.png" />

<br><br><br>
Poder analizar nuestros datos históricos ya nos dio mucha información para impulsar nuestro negocio. Podemos entender mejor los datos de nuestros clientes y fraudes pasados.

Sin embargo, saber dónde tuvimos fraude en el pasado no es suficiente. Ahora necesitamos llevarlo al siguiente nivel y construir un modelo predictivo para detectar amenazas potenciales antes de que ocurran, reduciendo nuestro riesgo y aumentando la satisfacción del cliente.

Aquí es donde entra el valor de Lakehouse. Dentro de la misma plataforma, cualquiera puede comenzar a construir modelos de ML para realizar este tipo de análisis, incluyendo soluciones low-code con AutoML.

### ML: Entrenamiento del Modelo de Detección de Fraude
Veamos cómo Databricks acelera los proyectos de ML con AutoML: entrenamiento de modelos con un clic usando el [04.1-AutoML-FSI-fraud]($./04-Data-Science-ML/04.1-AutoML-FSI-fraud)

### ML: Servicio de Modelos en Tiempo Real

Una vez que nuestro modelo está entrenado y disponible, Databricks Model Serving puede usarse para habilitar inferencias en tiempo real, permitiendo la detección de fraude en tiempo real.

Revisa el [04.3-Model-serving-realtime-inference-fraud]($./04-Data-Science-ML/04.3-Model-serving-realtime-inference-fraud)

## 5/ Despliegue y orquestación del flujo de trabajo completo

<img style="float: left; margin-right: 10px" width="400px" src="https://raw.githubusercontent.com/databricks-demos/dbdemos-resources/main/images/fsi/fraud-detection/lakehouse-fsi-fraud-5.png" />

<br><br><br>
Aunque nuestra canalización de datos está casi completa, nos falta un último paso: orquestar el flujo de trabajo completo en producción.

Con Databricks Lakehouse, no es necesario gestionar un orquestador externo para ejecutar tu trabajo. Databricks Workflows simplifica todos tus trabajos, con alertas avanzadas, monitoreo, opciones de ramificación, etc.

Abre el [notebook de workflow y orquestación]($./06-Workflow-orchestration/06-Workflow-orchestration-fsi-fraud) para programar nuestra canalización (ingesta de datos, reentrenamiento de modelos, etc.)

Prueba Yurguen


## Conclusión

Demostramos cómo implementar una canalización de extremo a extremo con Lakehouse, usando una plataforma única, unificada y segura:

- Ingesta de datos
- Análisis de datos / DW / BI 
- Ciencia de datos / ML
- Workflow y orquestación

Como resultado, nuestro equipo de analistas pudo construir fácilmente un sistema para no solo entender sino también predecir fallas futuras y actuar en consecuencia.

Esto fue solo una introducción a la Plataforma Databricks. Para más detalles, contacta a tu equipo de cuenta y explora más demos con `dbdemos.list()`