## Metadata:

0) **channel**: Canal por el cual se realiza la transacción.

1)  **devicenameid**: Dispositivo por el cual se realiza la transacción.

2)  **finaltrxyear**: Año de la transacción.

3)  **finaltrxmonth**: Mes de la transacción.

4)  **finaltrxday**: Día de de la transacción.

5)  **finaltrxhour**: Hora de la transacción formato numérico (8).

6)  **transactioncode**: Código que identifica una transacción.

7)  **transactioncodedesc**: Nombre de la transacción.

8)  **responsecode**: Respuesta de la transacción, cuando es cero es exitosa, diferente de cero no exitosa.

9)  **responsecodedesc**: Nombre de respuesta de la transacción.

10) **transactiontype**: Si es una transacción monetaria o no.

11) **transactionvouchernumber**: Comprobante físico de una transacción.

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Abrimos el archivo CSV
df = pd.read_csv('data.csv', index_col = 0, low_memory = False)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria,
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria,
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria,
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria,
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria,


In [3]:
df.tail()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
961921,NEG,APP,2024,12,11,16284600,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961922,NEG,APP,2024,12,11,16292400,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961923,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961924,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961925,NEG,APP,2024,12,11,16311700,360,Consulta de saldos,0,Transacción exitosa,Administrativa,


In [4]:
print(f"Las dimensiones del DataFrame son: {df.shape}\n")
df.info()

Las dimensiones del DataFrame son: (772107, 12)

<class 'pandas.core.frame.DataFrame'>
Index: 772107 entries, 0 to 961925
Data columns (total 12 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   channel                   772107 non-null  object 
 1   devicenameid              772107 non-null  object 
 2   finaltrxyear              772107 non-null  int64  
 3   finaltrxmonth             772107 non-null  int64  
 4   finaltrxday               772107 non-null  int64  
 5   finaltrxhour              772107 non-null  int64  
 6   transactioncode           772107 non-null  int64  
 7   transactioncodedesc       772107 non-null  object 
 8   responsecode              771444 non-null  object 
 9   responsecodedesc          772107 non-null  object 
 10  transactiontype           772107 non-null  object 
 11  transactionvouchernumber  0 non-null       float64
dtypes: float64(1), int64(5), object(6)
memory usage: 76.6+ M

In [5]:
df.describe()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactionvouchernumber
count,772107.0,772107.0,772107.0,772107.0,772107.0,0.0
mean,2024.000003,12.000001,10.98122,9682235.0,5393.16548,
std,0.002276,0.001138,0.818449,4957947.0,2841.158524,
min,2024.0,12.0,10.0,127.0,317.0,
25%,2024.0,12.0,10.0,6070800.0,2304.0,
50%,2024.0,12.0,11.0,9503393.0,7900.0,
75%,2024.0,12.0,12.0,12365260.0,7900.0,
max,2026.0,13.0,12.0,23595520.0,7921.0,


### Columna 'transactionvouchernumber'

Notemos que la columna **transactionvouchernumber** tiene todos sus valores nulos, además, puesto que hace referencia al comprobante físico de una transacción, no se considerará como importante en el proceso analítico, por lo cual se eliminará.

In [6]:
# Quitamos la columna 'transactionvouchernumber'
df.drop(columns=['transactionvouchernumber'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


### Columnas 'channel' y 'devicenameid'

In [7]:
# Veamos la cantidad de valores únicos por cada columna
df.nunique()

channel                     1
devicenameid                1
finaltrxyear                2
finaltrxmonth               2
finaltrxday                 3
finaltrxhour           276291
transactioncode            27
transactioncodedesc        30
responsecode               67
responsecodedesc           62
transactiontype             4
dtype: int64

Vemos que según la cantidad de valores únicos en las columnas **channel** y **devicenameid**, estas cuentan con solo un valor para todas las filas.

In [8]:
# Veamos cuáles son los valores únicos de las columnas 'channel' y 'devicenameid
print(f"Valor único de la columna 'channel':{df['channel'].unique()}")
print(f"Valor único de la columna 'devicenameid':{df['devicenameid'].unique()}")
# Dropeamos las columnas 'channel' y 'devicenameid'
df.drop(columns=['channel', 'devicenameid'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Valor único de la columna 'channel':['NEG']
Valor único de la columna 'devicenameid':['APP']


Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


Como es un único valor en ambos casos, podemos darnos cuenta entonces que ***todas las transacciones se realizaron por el mismo canal ('NEG'), y por el mismo dispostivo ('APP')***. Teniendo esto presente y para recordarlo, se pueden borrar esas columnas para simplificar el dataset.

### Columna 'transactiontype'

In [9]:
# Veamos ahora los valores únicos de la columna 'transactiontype'
print(df['transactiontype'].unique())

['No Monetaria' 'No monetaria' 'Administrativa' 'No_monetaria']


Según la descripción de la metadata, la columna 'transactiontype' únicamente indica de forma binaria si la transacción es monetaria o no. Por lo tanto vamos a codificar esto para que queden solo 2 valores únicos:
- 0 = No monetaria
- 1 = Monetaria


In [10]:
# Cambiamos los valores de la columna 'transactiontype' a 1 y 0 según el tipo de transacción
df['transactiontype'] = np.where(df['transactiontype'] == 'Administrativa', -1, 0)
df.head()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,0
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,0
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,0
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,0
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,0


### Columna 'responsecode'

Ahora bien, al columna de **responsecode** es otra que debería tener solo 2 valores únicos, para indicar:
- 0 = Transacción exitosa.
- -1 = Transacción no exitosa (en general diferente de cero, pero aquí lo trataremos de esta forma a -1 directamente).

Pero tiene gran variedad de valores, además de que en un análisis inicial, mostró también tener valores nulos.

In [11]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())
# Veamos los valores únicos de la columna 'responsecode'
df.responsecode.unique()

663


array(['000', '469', '0000', '500', '104', '086', nan, '435', '7208',
       '7245', '7206', '7207', '205', '209', '206', '7084', '404', '607',
       '7204', '308', '3011', '220', '8238', '7390', '207', '486', '724',
       '434', '915', '438', '7210', '3075', '7205', '7203', '7134',
       '7229', '7097', '3020', '30', '105', '102', '7080', '7230', '748',
       '103', '072', '087', '090', '7209', '091', '7128', '7130', '987',
       '8210', '21', '7067', '305', 'HI', '7043', '3072', '8227', '309',
       '7070', '3079', '488', '7231', '7030', '7023'], dtype=object)

In [12]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())

663


In [13]:
def encontrar_ceros(lista_valores_unicos):
    """
    Encuentra valores que representan cero en una lista,
    manejando enteros, flotantes y strings.

    Args:
        lista_valores_unicos (list): Una lista de valores únicos de una columna.

    Returns:
        list: Una lista de los valores que representan cero.
    """
    ceros_encontrados = []
    for valor in lista_valores_unicos:
        # 1. Manejo de enteros y flotantes
        if isinstance(valor, (int, float)):
            if valor == 0:
                ceros_encontrados.append(valor)
        # 2. Manejo de strings
        elif isinstance(valor, str):
            try:
                # Intentar convertir el string a un número y verificar si es cero
                numero_desde_string = float(valor)
                if numero_desde_string == 0:
                    ceros_encontrados.append(valor)
            except ValueError:
                # Si no se puede convertir a número, no es un cero numérico en string
                pass
    return ceros_encontrados

In [14]:
ceros = encontrar_ceros(df['responsecode'].unique())
print(f"Valores que representan cero en la columna 'responsecode': {ceros}")

Valores que representan cero en la columna 'responsecode': ['000', '0000']


In [15]:
# Veamos cuantos valores de la columna 'responsecode' coniciden con los valores que representan cero
print(f"""Cantidad de valores que representan cero en la columna 'responsecode':
{df['responsecode'].isin(ceros).sum()}""")

Cantidad de valores que representan cero en la columna 'responsecode':
714544


Ahora transformamos los valores a 0 ó -1, exceptuando los nulos, que los trataremos luego

In [16]:
# Crear una copia de la serie para evitar SettingWithCopyWarning
columna_transformada = df['responsecode'].copy()

# Identificar los valores que no son nulos
no_nulos = columna_transformada.notna()

# Crear una máscara para los valores que deben ser 0 (están en la lista y no son nulos)
debe_ser_cero = no_nulos & columna_transformada.isin(ceros)

# Crear una máscara para los valores que deben ser -1 (no son nulos y NO están en la lista)
# Es crucial que estos no sean los que ya identificamos para ser 0
debe_ser_menos_uno = no_nulos & ~columna_transformada.isin(ceros)

# Aplicar las transformaciones en el orden correcto
# Primero, asignar 0 a los que deben ser 0
columna_transformada.loc[debe_ser_cero] = 0

# Luego, asignar -1 a los que deben ser -1
columna_transformada.loc[debe_ser_menos_uno] = -1


df['responsecode'] = columna_transformada
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,0
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,0
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,0
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,0
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,0


In [17]:
df['responsecode'].unique()

array([0, -1, nan], dtype=object)

In [19]:
# Contamos cuantos valores 0 y -1 hay en la columna 'responsecode'
print(f"""Cantidad de valores 0 en la columna 'responsecode':
{df['responsecode'].value_counts()[0]}""")
print(f"""Cantidad de valores -1 en la columna 'responsecode':
{df['responsecode'].value_counts()[-1]}""")

Cantidad de valores 0 en la columna 'responsecode':
714544
Cantidad de valores -1 en la columna 'responsecode':
56900


In [18]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())

663


In [22]:
df.nunique()

finaltrxyear                2
finaltrxmonth               2
finaltrxday                 3
finaltrxhour           276291
transactioncode            27
transactioncodedesc        30
responsecode                2
responsecodedesc           62
transactiontype             2
dtype: int64

### Columnas de fecha y hora
Estas columnas son:
- finaltrxyear.
- finaltrxmonth.
- finaltrxday.
- finaltrxhour.

In [26]:
# Veamos los valores únicos de las primeras 4 columnas
for col in df.columns[:4]:
    print(f"Valores únicos de la columna {col}: {df[col].unique()}")

Valores únicos de la columna finaltrxyear: [2024 2026]
Valores únicos de la columna finaltrxmonth: [12 13]
Valores únicos de la columna finaltrxday: [11 10 12]
Valores únicos de la columna finaltrxhour: [ 3075400  3162400  3431400 ... 16251600 16292400 16311700]


In [None]:
# Veamos los valores únicos de las columnas 'transactioncode' y 'transactioncodedesc'
print(df['transactioncode'].unique())
print(df['transactioncodedesc'].unique())

[7900 2462 2312 2315 2311 2460 7911 2304 2305  317 2314 2402  360 7910
 2316 2313 7913 2307 7912 2404 2308 2306 2401 2403 2309 2310 7921]
['Autenticación' 'Cifrar datos biometría' 'Enviar OTP'
 'Ingresar datos contactabilidad empresa' 'Consultar correo en MDM'
 'BIOMETRIA DACTILAR - REGISTRO'
 'BIOMETRIA DACTILAR - REENROLAR CLAVE DINAMICA'
 'BIOMETRIA DACTILAR - MIGRACION' 'Validar OTP' 'Regeneración de clave'
 'Validar clave dinámica' 'Solicitar datos de empresa'
 'Autenticación legada' 'Consultar saldos consolidados'
 'Crear usuario y aceptar términos y condiciones'
 'Validar Reglas del canal' 'Consulta de saldos' 'Recordación de usuario'
 'Enrolar clave dinámica' 'Crear usuario en migración' 'Validar biometría'
 'Crear clave' 'Consultar estado registro'
 'Validar reglas seguridad plan B'
 'Validar relación cliente usuario - registro' 'Validar Rues'
 'BIOMETRIA DACTILAR - REGENERACION DE CLAVE'
 'Validar clave canal personas plan B'
 'Validar clave dinámica canal personas plan B'
 '