# Dataset de Transferencias Bancarias

- Los datos a utilizar corresponden a una tabla de transacciones con tarjeta de crédito.   
- Las transacciones son clasificadas como fraudulentas (`Class = 1`) o normales (`Class = 0`).    
- Los datos se obtienen desde tabla pública en BigQuery `bigquery-public-data.ml_datasets.ulb_fraud_detection`, correspondiente al siguiente [dataset de Kaggle](https://www.kaggle.com/mlg-ulb/creditcardfraud).   
- La tabla está compuesta por 284.807 transacciones.    
- Cada transacción está descrita por 28 features `V1, V2, ... V28`, correspondientes a una proyección PCA de los datos reales (no se entregan directamente por motivos de privacidad).  Ademas de las etiquetas `Class`, se agregan dos features descriptivas sin PCA:
    - `Time`: Segundos entre la transacción y la primera transacción de la tabla.
    - `Amount`: Cantidad de la transacción.

## Preparación

Definir constantes:

In [None]:
project = !gcloud config get-value project
PROJECT_ID = project[0] # Nombre del proyecto

REGION = 'us-central1' # Ubicación servidores a usar
EXPERIMENT = '01'
SERIES = '01'

# Parámetros BigQuery
BQ_PROJECT = PROJECT_ID # Proyecto de BigQuery
BQ_DATASET = 'fraud' # Nombre del dataset dentro de BigQuery
BQ_TABLE = 'fraud' # Nombre de tabla dentro del dataset

BQ_SOURCE = 'bigquery-public-data.ml_datasets.ulb_fraud_detection' # Fuente (tabla BigQuery pública) para descargar datos de fraude bancario

BUCKET = PROJECT_ID #Bucket en Google Storage

Importaciones:

In [None]:
from google.cloud import bigquery
from google.cloud import storage

Declarar clientes de BigQuery y de Google Storage:

In [None]:
bq = bigquery.Client(project = PROJECT_ID)
gcs = storage.Client(project = PROJECT_ID)

---
## Guardar data en GCS Storage Bucket
Verificar si ya existe la data.   
Si no existe, importar como .csv al Bucket.

In [None]:
file = f"{SERIES}/{EXPERIMENT}/data/{BQ_TABLE}.csv"

In [None]:
bucketDef = gcs.bucket(BUCKET)
if storage.Blob(bucket = bucketDef, name = file).exists(gcs):
    print(f'Archivo ya existe en: gs://{bucketDef.name}/{file}')
else:
    source = bigquery.TableReference.from_string(BQ_SOURCE)
    extract = bq.extract_table(source = source, destination_uris = [f'gs://{bucketDef.name}/{file}'])
    extract.result()
    print(f'Tabla importada en: gs://{bucketDef.name}/{file}')

Ver archivos en el Bucket:

In [None]:
list(bucketDef.list_blobs(prefix = f'{SERIES}/{EXPERIMENT}'))

---
## Crear Dataset en BigQuery 

Listar datasets dentro del proyecto en BigQuery:

In [None]:
datasets = list(bq.list_datasets())
for d in datasets:
    print(d.dataset_id)

Crear dataset si no existe:

In [None]:
ds = bigquery.Dataset(f"{BQ_PROJECT}.{BQ_DATASET}")
ds.location = REGION
ds.labels = {'experiment': f'{EXPERIMENT}'}
ds = bq.create_dataset(dataset = ds, exists_ok = True)

Listar nuevamante datasets dentro del proyecto en BigQuery:

In [None]:
datasets = list(bq.list_datasets())
for d in datasets:
    print(d.dataset_id)

---
## Crear tabla en BigQuery

Si la tabla no existe, crear a partir de archivo .csv en el Bucket.

In [None]:
from google.cloud.exceptions import NotFound
try:
    table = bq.get_table(f'{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}')
    if table:
        print(f'La tabla ya existe: {BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}')
except NotFound as error:
    print(f'Creando tabla ...')
    destination = bigquery.TableReference.from_string(f"{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}")
    job_config = bigquery.LoadJobConfig(
        write_disposition = 'WRITE_TRUNCATE',
        source_format = bigquery.SourceFormat.CSV,
        autodetect = True,
        labels = {'experimento': f'{EXPERIMENT}'}
    )
    job = bq.load_table_from_uri(f"gs://{bucketDef.name}/{file}", destination, job_config = job_config)
    job.result()
    print(f'Tabla creada: {BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}')

### Revisar data en tabla creada

In [None]:
query = f"""
SELECT Class
FROM `{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}`
"""
df = bq.query(query = query).to_dataframe()

In [None]:
df['Class'].value_counts()

In [None]:
df['Class'].value_counts(normalize=True)

---
## Crear copia de tabla en BigQuery
Para agregar dos columnas importantes:
- transaction_id: Identificador único para cada fila (transacción bancaria)
- splits: Asignar a cada instancia conjunto de entrenamiento, validación o test.

In [None]:
query = f"""
CREATE TABLE IF NOT EXISTS `{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}_prepped` AS
WITH add_id AS(SELECT *, GENERATE_UUID() transaction_id FROM `{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}`)
SELECT *,
    CASE 
        WHEN MOD(ABS(FARM_FINGERPRINT(transaction_id)),10) < 8 THEN "TRAIN" 
        WHEN MOD(ABS(FARM_FINGERPRINT(transaction_id)),10) < 9 THEN "VALIDATE"
        ELSE "TEST"
    END AS splits
FROM add_id
"""
job = bq.query(query = query)
job.result()

### Revisar data en tabla creada

Revisar la división de los datos en conjuntos:

In [None]:
query = f"""
SELECT splits, count(*) as Count, 100*count(*) / (sum(count(*)) OVER()) as Percentage
FROM `{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}_prepped`
GROUP BY splits
"""
bq.query(query = query).to_dataframe()

Revisar nueva tabla creada:

In [None]:
query = f"""
SELECT * 
FROM `{BQ_PROJECT}.{BQ_DATASET}.{BQ_TABLE}_prepped`
LIMIT 5
"""
data = bq.query(query = query).to_dataframe()

In [None]:
data.head()