![alt text](header.png)

# 🚀 Descripción del proyecto

# 📚 Importación de librerías

In [1]:
# Librerías para procesamiento de datos
import os
import pandas as pd
import numpy as np
import json
from datetime import datetime, timedelta, date
from functools import reduce

<!-- 
  Paleta:
  #10002b
  #240046
  #3c096c
  #5a189a
  #7b2cbf
  #9d4edd
  #c77dff
  #e0aaff
-->

<div style="max-width: 500px; 
            margin: 1rem auto; 
            background: linear-gradient(to bottom right, #10002b, #240046);
            color: #e0aaff; 
            border-radius: 5px; 
            padding: 1.5rem; 
            text-align: center;">

  <h2 style="margin-top: 0; color: #c77dff;">Mensaje Importante</h2>
  
  <p style="font-size: 1rem; line-height: 1.4;">
    Se recomienda reiniciar el kernel de Python tras la finalización de la conversión a CSV de cada archivo.
  </p>
  
  <a href="https://docs.digitalocean.com/products/paperspace/notebooks/how-to/restart-kernels/#:~:text=Restarting%20a%20Kernel&text=You%20can%20restart%20a%20single,file%20in%20the%20file%20manager."
     style="display: inline-block; 
            margin-top: 1rem; 
            padding: 0.5rem 1rem; 
            background-color: #7b2cbf; 
            border: 2px solid #9d4edd; 
            color: #fff; 
            text-decoration: none; 
            border-radius: 4px;
            font-weight: bold;">
    Más información
  </a>

</div>


# 🕵🏻 Carga y tratamiento de archivos

### Exploración de alarma_fraude.json

In [None]:
# Ruta de los datos
file_path = "./datos/alarma_fraude.json"

# Cargar los datos JSON
df_alarma_fraude = pd.read_json(file_path)

# Imprimir los datos cargados
print("Archivo cargado correctamente:")
display(df_alarma_fraude)

# La estructura del archivo es la siguiente: (como ejemplo, un registro)
# {
#     "2736446": {
#         "t_id": 2736446,
#         "mensaje_alarma": "Detectado_fraude"
#     }
# }
# Donde:
# - "2736446" es una clave en el diccionario principal.
# - El valor asociado es otro diccionario con:
#     - "t_id": 2736446
#     - "mensaje_alarma": "Detectado_fraude"



In [None]:
df_alarma_fraude = pd.json_normalize(df_alarma_fraude)

print(df_alarma_fraude)

In [None]:
# Leemos los datos del JSON con "with open" antes de trabajar con dataframe y los asignamos a la variable datos:

with open("./datos/alarma_fraude.json", mode='r') as f:
    datos_alarma_fraude = json.load(f)

datos_alarma_fraude # Vemos la estructura de datos mencionada anteriormente:


In [5]:
# Creación del bucle para crear la lista de diccionarios:
registros = []

for clave, valor in datos_alarma_fraude.items():
    registro = {'id':clave}
    registro.update(valor)
    registros.append(registro)

# Creación del DataFrame a partir de la lista de registros:

df_alarma_fraude = pd.DataFrame(registros)

In [None]:
display(df_alarma_fraude.head())

In [None]:
# Realizamos la conversión del tipo de datos:

df_alarma_fraude['id'] = df_alarma_fraude['id'].astype(int)

# Comparamos ambas columnas:

son_iguales = (df_alarma_fraude['id'] == df_alarma_fraude['t_id']).all()

print(f"Los datos de la columna 'id' y 't_id' son iguales: {son_iguales}.")

In [None]:
df_alarma_fraude.drop(columns='id', inplace=True)

df_alarma_fraude.head()

In [None]:
print(f'Este archivo contiene {df_alarma_fraude.shape[0]} filas y {df_alarma_fraude.shape[1]} columnas.')

In [None]:
print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_alarma_fraude.dtypes}\n")

df_alarma_fraude['mensaje_alarma'] = df_alarma_fraude['mensaje_alarma'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_alarma_fraude.dtypes}")

In [None]:
# creación del CSV

file_path = "./datos/alarma_fraude.json"

# Guardar el DataFrame como un archivo CSV
csv_path = "./datos/alarma_fraude.csv"
df_alarma_fraude.to_csv(csv_path, index=False)

print(f"El DataFrame ha sido guardado correctamente en {csv_path}")


### Exploración de balances.json

In [None]:
try:
    file_path = "./datos/balances.json"

    # Intentar cargar el archivo JSON
    with open(file_path, 'r', encoding='utf-8') as file:
        df_balances = json.load(file)
    print("Fichero JSON cargado")

    # Verificamos el tipo de datos cargados
    print(f"Tipo de datos cargados: {type(df_balances)}")

    # Si es un diccionario
    if isinstance(df_balances, dict):
        print("Estructura del diccionario:")
        print(f"Claves del diccionario: {list(df_balances.keys())[:5]}")  # Mostramos las primeras 5 claves

        # Verificamos una de las claves y su estructura
        sample_key = list(df_balances.keys())[0]  # Tomamos la primera clave como ejemplo
        record = df_balances[sample_key]
        print(f"Estructura del primer registro de la clave '{sample_key}':", record)

except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")


In [None]:
 # Crear la lista para almacenar todos los registros
all_records = []

# Recorremos todas las claves y sus valores (listas de diccionarios)
for key, value in df_balances.items():
    # Verifica si el valor es una lista de registros
    if isinstance(value, list):
        for record in value:
            record['key'] = key  # Añade la clave como columna adicional
            all_records.append(record)
    else:
        print(f"Advertencia: El valor asociado a la clave {key} no es una lista")

# Crear el DataFrame
df_balances = pd.DataFrame(all_records)
print("DataFrame creado correctamente")

In [None]:
# Mostrar información del DataFrame
print("Primeros 20 registros del DataFrame:")
display(df_balances.head(20))

In [None]:
print(f'Este archivo contiene {df_balances.shape[0]} filas y {df_balances.shape[1]} columnas.')

In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_balances.dtypes}\n")

df_balances['key'] = df_balances['key'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_balances.dtypes}")

In [None]:
#creación del CSV

try:
    # Guardar el DataFrame en un archivo CSV
    csv_path = "./datos/balances.csv"
    df_balances.to_csv(csv_path, index=False)
    print(f"El DataFrame ha sido guardado correctamente en {csv_path}")

except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")



### Exploración de es_fraude.json

In [None]:
# Ruta actualizada al archivo JSON
file_path = "./datos/es_fraude.json"

try:
    # Intentar cargar el archivo JSON
    with open(file_path, encoding='utf-8') as file:
        df_es_fraude = json.load(file)
    print("Fichero JSON cargado")

    # Verificamos el tipo de datos cargados
    print(f"Tipo de datos cargados: {type(df_es_fraude)}")

    # Si es un diccionario
    if isinstance(df_es_fraude, dict):
        print("Estructura del diccionario:")
        print(f"Claves del diccionario: {list(df_es_fraude.keys())[:5]}")  # Mostramos las primeras 5 claves

        # Verificamos una de las claves y su estructura
        sample_key = list(df_es_fraude.keys())[0]  # Tomamos la primera clave como ejemplo
        record = df_es_fraude[sample_key]
        print(f"Estructura del primer registro de la clave '{sample_key}':", record)

    else:
        print("El archivo JSON no es un diccionario. Es de tipo:", type(df_es_fraude))

except FileNotFoundError:
    print(f"El archivo {file_path} no se encuentra. Verifique la ruta.")
except json.JSONDecodeError:
    print("Error al decodificar el archivo JSON. Verifique su formato.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

In [None]:
# Convertir el archivo a DataFrame y renombrar columnas
df_es_fraude = pd.DataFrame(list(df_es_fraude.items()), columns=['fraude_id', 'es_fraude'])


print(f'Este archivo contiene {df_es_fraude.shape[0]} filas y {df_es_fraude.shape[1]} columnas.')

# Mostramos el dataframe df_es_fraude
display(df_es_fraude)


In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_es_fraude.dtypes}\n")

df_es_fraude['fraude_id'] = df_es_fraude['fraude_id'].astype(int)
df_es_fraude['es_fraude'] = df_es_fraude['es_fraude'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_es_fraude.dtypes}")

In [None]:
# Cambiamos el valor True/False por 1 y 0
df_es_fraude['es_fraude'] = np.where(df_es_fraude['es_fraude'] == 'False', 0, 1)

display(df_es_fraude)

In [None]:
df_es_fraude.sample(5)

In [None]:
# creación del CSV

# Guardar el DataFrame como un archivo CSV
csv_path = './datos/es_fraude.csv'
df_es_fraude.to_csv(csv_path, index=False)

print(f"El DataFrame ha sido guardado correctamente en {csv_path}")

### Exploración de cuantia.json

In [2]:
# Cargamos el archivo como JSON
with open('./datos/cuantia.json') as f:
    cuantia_json = json.load(f)

# Inicializamos el diccionario de registros
registros = {'t_id': [], 'cuantia': []}

# Iteramos sobre las claves de cuantía_json
for key in cuantia_json:
    registros['t_id'].append(key)
    registros['cuantia'].append(cuantia_json[key]['cuantia'])


# Convertimos el JSON en un DataFrame
df_cuantia = pd.DataFrame(registros)

In [None]:
df_cuantia.sample(5)

In [None]:
# Forma del DataFrame resultante

print(f'Este archivo contiene {df_cuantia.shape[0]} filas y {df_cuantia.shape[1]} columnas.')

In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES------\n")
print(f"{df_cuantia.dtypes}\n")

df_cuantia['t_id'] = df_cuantia['t_id'].astype(int)

print("------ TIPO DE DATO DESPUÉS------\n")
print(f"{df_cuantia.dtypes}")

In [None]:
#creación del CSV

print("Guardando el DataFrame como archivo CSV...")
df_cuantia.to_csv('./datos/cuantia.csv', index=False)
print("El archivo CSV 'cuantia.csv' ha sido guardado correctamente.")


### Exploración del archivo tiempo.json

In [121]:
# Ruta al archivo JSON
file_path = './datos/tiempo.json'
archivo_json = os.path.join(file_path)

# Abrimos y cargamos el archivo JSON
with open(archivo_json, 'r', encoding='utf-8') as f:
    datos = json.load(f)

In [122]:
df_tiempo = pd.DataFrame(datos.keys(), columns=['hora_transaccion'])
df_tiempo['t_id'] = list(datos.values())

In [None]:
df_tiempo.sample(5)

In [124]:
df_tiempo = df_tiempo.explode('t_id')

In [None]:
df_tiempo.sample(5)

In [None]:
print(f'Este archivo contiene {df_tiempo.shape[0]} filas y {df_tiempo.shape[1]} columnas.')

In [None]:
# Conversión de la hora de la transacción a tipo entero
df_tiempo['hora_transaccion'] = df_tiempo['hora_transaccion'].astype(dtype='int')

print(f"{df_tiempo.dtypes}")


In [None]:
# Ajustamos el tiempo en el que se realizaron las transacciones
fecha_referencia = datetime(2022, 9, 1, 7, 0, 0)
print(f'La fecha de referencia se da en este formato: {fecha_referencia}')

# Se actualiza el campo hora_transacción para sumar las horas dadas en número entero y la hora de referencia
df_tiempo['hora_transaccion'] = fecha_referencia + pd.to_timedelta(df_tiempo['hora_transaccion'], unit='h')

In [None]:
df_tiempo.sample(5)


In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_tiempo.dtypes}\n")

df_tiempo['t_id'] = df_tiempo['t_id'].astype(int)

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_tiempo.dtypes}")

In [None]:
#creación del CSV

# Ruta para guardar el archivo CSV
path_file = './datos/tiempo.csv'

# Guardamos el DataFrame como archivo CSV
df_tiempo.to_csv(path_file, index=False, encoding='utf-8')

print(f"\nEl archivo CSV ha sido guardado como 'tiempo.csv' en la misma carpeta.")


### Exploración de tipo.json

In [2]:
# Cargar el archivo JSON
with open('./datos/tipo.json') as f:
    data = json.load(f)

In [None]:
# Normalizamos los datos JSON en un DataFrame

df_tipo = pd.json_normalize(data)
df_tipo

In [None]:

# Paso Creamos una lista vacía para almacenar los datos de las transacciones
transacciones = []

# Definimos los tipos de transacciones que hay
tipos = ['PAYMENT', 'TRANSFER', 'CASH_OUT', 'DEBIT', 'CASH_IN']

# Iteramos en cada tipo de transacción para combinar los t_id y tipos de transacción en un DataFrame
for tipo in tipos:
    tipo_col = f'{tipo}.t_id'  # Construimos el nombre de la columna con los t_id
    if tipo_col in df_tipo.columns:  # Verificamos si la columna 'tipo.t_id' existe en df
        # Paso 6: Extendemos la lista de transacciones con los t_id y el tipo correspondiente
        transacciones.extend([(t_id, tipo) for t_id in df_tipo[tipo_col].iloc[0]])  # Accedemos al primer (y único) elemento de la lista
    else:
        print(f"Advertencia: la clave '{tipo}' no está presente en el DataFrame.")

# Creamos el DataFrame con los resultados
df_tipo = pd.DataFrame(transacciones, columns=['t_id', 'tipo'])

# Verificar si el DataFrame tiene datos antes de mostrar una muestra
if not df_tipo.empty:
    # Mostrar una muestra de 5 filas del DataFrame
    print(df_tipo.sample(5))
else:
    print("El DataFrame está vacío, no se han encontrado transacciones.")



In [None]:
print(f'Este archivo contiene {df_tipo.shape[0]} filas y {df_tipo.shape[1]} columnas.')

In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_tipo.dtypes}\n")

df_tipo['t_id'] = df_tipo['t_id'].astype(int)
df_tipo['tipo'] = df_tipo['tipo'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_tipo.dtypes}")

In [None]:
# Crear el CSV

# Ruta para guardar el archivo CSV
path_file = './datos/tipo.csv'

# Guardamos el DataFrame como archivo CSV
df_tipo.to_csv(path_file, index=False, encoding='utf-8')

print(f"\nEl archivo CSV ha sido guardado como 'tipo.csv' en la misma carpeta.")


### Exploración fichero clientes.json

In [8]:
# Ruta del archivo JSON
file_path = './datos/clientes.json'

# Cargar el archivo JSON
with open(file_path, encoding='utf-8') as f:
        data = json.load(f)

In [9]:
records = []
for key, value in data.items():
  record = {
    't_id':key,
    'origen':value['origen'],
    'destino':value['destino']
  }
  records.append(record)

df_clientes = pd.DataFrame(records)

In [None]:
# Comprobamos el tipo de datos y corregimos

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_clientes.dtypes}\n")

df_clientes['t_id'] = df_clientes['t_id'].astype(int)
df_clientes['origen'] = df_clientes['origen'].astype('string')
df_clientes['destino'] = df_clientes['destino'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_clientes.dtypes}")

In [None]:
display(df_clientes.head(5))

display(df_clientes.sample(5))

In [None]:
print(f'Este archivo contiene {df_clientes.shape[0]} filas y {df_clientes.shape[1]} columnas.')

In [None]:
# Creamos archivo csv
archivo_csv = "./datos/clientes.csv"
df_clientes.to_csv(archivo_csv, index=False)  # index=False para no incluir el índice en el CSV
print(f"Archivo CSV creado exitosamente: {archivo_csv}")

# 📋 Unión de datos

## Unión de es_fraude y alarma_fraude

In [94]:
# Cargamos ambos CSV
df_es_fraude = pd.read_csv("./datos/es_fraude.csv")
df_alarma_fraude = pd.read_csv("./datos/alarma_fraude.csv")

In [95]:
# Renombramos la columna fraude_id de df_es_fraude para que se pueda unir tomando como referencia t_id
df_es_fraude.rename(columns={'fraude_id':'t_id'}, inplace=True)

In [None]:
df_es_fraude.tail()

In [97]:
# Unimos ambos dataframes
df_fraude = pd.merge(df_es_fraude, df_alarma_fraude, how='left', on='t_id')

In [None]:
df_fraude.sample(5)

In [101]:
# Sustituimos los NaN de mensaje_alarma
df_fraude['mensaje_alarma'] = np.where(df_fraude['mensaje_alarma'] == 'Detectado_fraude', 'Detectado_fraude', 'No_detectado_fraude')

In [None]:
display(df_fraude.sample(5))

print("------ TIPO DE DATO ANTES ------\n")
print(f"{df_fraude.dtypes}\n")

df_fraude['mensaje_alarma'] = df_fraude['mensaje_alarma'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df_fraude.dtypes}")

In [None]:
# Guardar el DataFrame como un archivo CSV
csv_path = "./datos/fraude.csv"
df_fraude.to_csv(csv_path, index=False)

print(f"El DataFrame ha sido guardado correctamente en {csv_path}")

## Creación de un DataFrame único

In [104]:
# Cargamos todos los CSV
balances = pd.read_csv("./datos/balances.csv")
clientes = pd.read_csv("./datos/clientes.csv")
cuantia = pd.read_csv("./datos/cuantia.csv")
fraude = pd.read_csv("./datos/fraude.csv")
tiempo = pd.read_csv("./datos/tiempo.csv")
tipo = pd.read_csv("./datos/tipo.csv")

In [None]:
lista_campos = []

for i in balances.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en balances.csv son: {lista_campos}')
lista_campos = []

for i in clientes.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en clientes.csv son: {lista_campos}')
lista_campos = []

for i in cuantia.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en cuantia.csv son: {lista_campos}')
lista_campos = []

for i in fraude.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en fraude.csv son: {lista_campos}')
lista_campos = []

for i in tiempo.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en tiempo.csv son: {lista_campos}')
lista_campos = []

for i in tipo.columns:
    lista_campos.append(i)
print(f'Las columnas que hay en tipo.csv son: {lista_campos}')
lista_campos = []

In [105]:
# Unimos los dataframes
dataframes = [clientes, cuantia, fraude, tiempo, tipo]

def unir_por_t_id(left, right):
    return pd.merge(left, right, on='t_id', how='left')

df1 = reduce(unir_por_t_id, dataframes)

In [None]:
print(df1.dtypes)

balances['key'] = balances['key'].astype('string')
df1['destino'] = df1['destino'].astype('string')

In [None]:
print(df1.columns)
print(balances.columns)

In [107]:
balances = balances.rename(columns={'key':'origen'})
df2 = df1.merge(balances, how='inner', on=['origen', 't_id'])

In [108]:
balances = balances.rename(columns={'origen':'destino'})
df = df2.merge(balances, how='inner', on=['destino', 't_id'])

In [None]:
df.head()

In [None]:
print(f'El número de registros es de: {len(df)}')

In [111]:
# Renombramos las columnas correctamente
df = df.rename(columns={'balance_prev_x':'balance_prev_or', 'balance_post_x':'balance_post_or', 'balance_prev_y':'balance_prev_des', 'balance_post_y':'balance_post_des'})

In [None]:
df.sample(5)

In [None]:
# Corregimos los tipo de datos
print("------ TIPO DE DATO ANTES ------\n")
print(f"{df.dtypes}\n")

df['origen'] = df['origen'].astype('string')
df['destino'] = df['destino'].astype('string')
df['es_fraude'] = df['es_fraude'].round().astype('Int64')
df['mensaje_alarma'] = df['mensaje_alarma'].astype('string')
df['hora_transaccion'] = df['hora_transaccion'].astype('datetime64[ns]')
df['tipo'] = df['tipo'].astype('string')

print("------ TIPO DE DATO DESPUÉS ------\n")
print(f"{df.dtypes}")

In [134]:
# Exportamos el dataframe a csv
csv_path = "./datos/df.csv"
df.to_csv(csv_path, index=False)