## Metadata:

0) **channel**: Canal por el cual se realiza la transacción.

1)  **devicenameid**: Dispositivo por el cual se realiza la transacción.

2)  **finaltrxyear**: Año de la transacción.

3)  **finaltrxmonth**: Mes de la transacción.

4)  **finaltrxday**: Día de de la transacción.

5)  **finaltrxhour**: Hora de la transacción formato numérico (8).

6)  **transactioncode**: Código que identifica una transacción.

7)  **transactioncodedesc**: Nombre de la transacción.

8)  **responsecode**: Respuesta de la transacción, cuando es cero es exitosa, diferente de cero no exitosa.

9)  **responsecodedesc**: Nombre de respuesta de la transacción.

10) **transactiontype**: Si es una transacción monetaria o no.

11) **transactionvouchernumber**: Comprobante físico de una transacción.

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Abrimos el archivo CSV
df = pd.read_csv('data.csv', index_col = 0, low_memory = False)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria,
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria,
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria,
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria,
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria,


In [3]:
df.tail()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
961921,NEG,APP,2024,12,11,16284600,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961922,NEG,APP,2024,12,11,16292400,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961923,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961924,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961925,NEG,APP,2024,12,11,16311700,360,Consulta de saldos,0,Transacción exitosa,Administrativa,


In [4]:
print(f"Las dimensiones del DataFrame son: {df.shape}\n")
df.info()

Las dimensiones del DataFrame son: (772107, 12)

<class 'pandas.core.frame.DataFrame'>
Index: 772107 entries, 0 to 961925
Data columns (total 12 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   channel                   772107 non-null  object 
 1   devicenameid              772107 non-null  object 
 2   finaltrxyear              772107 non-null  int64  
 3   finaltrxmonth             772107 non-null  int64  
 4   finaltrxday               772107 non-null  int64  
 5   finaltrxhour              772107 non-null  int64  
 6   transactioncode           772107 non-null  int64  
 7   transactioncodedesc       772107 non-null  object 
 8   responsecode              771444 non-null  object 
 9   responsecodedesc          772107 non-null  object 
 10  transactiontype           772107 non-null  object 
 11  transactionvouchernumber  0 non-null       float64
dtypes: float64(1), int64(5), object(6)
memory usage: 76.6+ M

In [5]:
df.describe()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactionvouchernumber
count,772107.0,772107.0,772107.0,772107.0,772107.0,0.0
mean,2024.000003,12.000001,10.98122,9682235.0,5393.16548,
std,0.002276,0.001138,0.818449,4957947.0,2841.158524,
min,2024.0,12.0,10.0,127.0,317.0,
25%,2024.0,12.0,10.0,6070800.0,2304.0,
50%,2024.0,12.0,11.0,9503393.0,7900.0,
75%,2024.0,12.0,12.0,12365260.0,7900.0,
max,2026.0,13.0,12.0,23595520.0,7921.0,


Por otro lado, notamos que la columna *transactionvouchernumber* tiene todos sus valores nulos, además puesto que hace referencia al comprobante físico de una transacción, no se considerará como importante en el proceso analítico, por lo cual, se eliminará.

In [6]:
# Quitamos la columna 'transactionvouchernumber'
df.drop(columns=['transactionvouchernumber'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


In [7]:
# Veamos la cantidad de valores únicos por cada columna
df.nunique()

channel                     1
devicenameid                1
finaltrxyear                2
finaltrxmonth               2
finaltrxday                 3
finaltrxhour           276291
transactioncode            27
transactioncodedesc        30
responsecode               67
responsecodedesc           62
transactiontype             4
dtype: int64

Vemos que según la cantidad de valores únicos en las columnas *'channel'* y *'devicenameid'*, estas cuentan con solo un valor para todas las filas.

In [8]:
# Veamos cuáles son los valores únicos de las columnas 'channel' y 'devicenameid
print(df['channel'].unique())
print(df['devicenameid'].unique())
# Dropeamos las columnas 'channel' y 'devicenameid'
df.drop(columns=['channel', 'devicenameid'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

['NEG']
['APP']


Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


Como es un único valor en ambos casos, podemos darnos cuenta entonces que todas las transacciones se realizaron por el mismo canal ('NEG'), y por el mismo dispostivo ('APP'). Teniendo esto presente y para recordarlo, se pueden borrar esas columnas para simplificar el dataset.

In [9]:
# Veamos ahora los valores únicos de la columna 'transactiontype'
print(df['transactiontype'].unique())

['No Monetaria' 'No monetaria' 'Administrativa' 'No_monetaria']


Según la descripción de la metadata, la columna 'transactiontype' únicamente indica de forma binaria si la transacción es monetaria o no. Por lo tanto vamos a codificar esto para que queden solo 2 valores únicos:
- 0 = No monetaria
- 1 = Monetaria


In [10]:
# Cambiamos los valores de la columna 'transactiontype' a 1 y 0 según el tipo de transacción
df['transactiontype'] = np.where(df['transactiontype'] == 'Administrativa', 1, 0)
df.head()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,0
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,0
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,0
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,0
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,0


Ahora bien, al columna de **responsecode** es otra que debería tener solo 2 valores únicos, para indicar:
- 0 $=$ Transacción exitosa.
- 0 $\neq$ Transacción no exitosa.

Pero tiene gran variedad de valores, además de que en un análisis inicial, mostró también tener valores nulos.

In [11]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())
# Veamos los valores únicos de la columna 'responsecode'
df.responsecode.unique()

663


array(['000', '469', '0000', '500', '104', '086', nan, '435', '7208',
       '7245', '7206', '7207', '205', '209', '206', '7084', '404', '607',
       '7204', '308', '3011', '220', '8238', '7390', '207', '486', '724',
       '434', '915', '438', '7210', '3075', '7205', '7203', '7134',
       '7229', '7097', '3020', '30', '105', '102', '7080', '7230', '748',
       '103', '072', '087', '090', '7209', '091', '7128', '7130', '987',
       '8210', '21', '7067', '305', 'HI', '7043', '3072', '8227', '309',
       '7070', '3079', '488', '7231', '7030', '7023'], dtype=object)

In [13]:
len(df.responsecode.unique())

68

In [14]:
df.responsecode.nunique()

67

In [12]:
len(df['responsecode'].unique())

68

In [15]:
df = pd.read_csv('data.csv', index_col = 0)
# Mostramos las primeras filas del DataFrame
df.head()

  df = pd.read_csv('data.csv', index_col = 0)


Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0.0,SUCCESS,No Monetaria,
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0.0,SUCCESS,No Monetaria,
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0.0,SUCCESS,No Monetaria,
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0.0,SUCCESS,No Monetaria,
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0.0,SUCCESS,No Monetaria,


In [16]:
df.responsecode.unique()

array([0.0, 469.0, 500.0, 104.0, 86.0, nan, 435.0, 7208.0, 7245.0, 7206.0,
       7207.0, 205.0, 209.0, 206.0, 7084.0, 404.0, 607.0, 7204.0, 308.0,
       3011.0, 220.0, 8238.0, 7390.0, 207.0, 486.0, 724.0, 434.0, 915.0,
       438.0, 7210.0, 3075.0, 7205.0, 7203.0, 7134.0, 7229.0, 7097.0,
       3020.0, 30.0, 105.0, 102.0, 7080.0, 7230.0, 748.0, 103.0, 72.0,
       87.0, 90.0, 7209.0, 91.0, 7128.0, 7130.0, 987.0, 8210.0, 21.0,
       7067.0, '0000', '000', '435', '500', '469', '104', '7209', '404',
       '086', '205', '102', '30', '206', '7245', '7210', '7206', '7205',
       '7207', '7204', '7390', '21', '305', '607', '724', '3011', '3075',
       '220', '7084', 'HI', '486', '434', '7203', '7208', '7080', '308',
       '209', '7134', '915', '105', 7043.0, 3072.0, 8227.0, 309.0, 7070.0,
       3079.0, 488.0, 305.0, 7231.0, 7030.0, 7023.0], dtype=object)

In [17]:
len(df['responsecode'].unique())

105

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 772107 entries, 0 to 961925
Data columns (total 12 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   channel                   772107 non-null  object 
 1   devicenameid              772107 non-null  object 
 2   finaltrxyear              772107 non-null  int64  
 3   finaltrxmonth             772107 non-null  int64  
 4   finaltrxday               772107 non-null  int64  
 5   finaltrxhour              772107 non-null  int64  
 6   transactioncode           772107 non-null  int64  
 7   transactioncodedesc       772107 non-null  object 
 8   responsecode              771444 non-null  object 
 9   responsecodedesc          772107 non-null  object 
 10  transactiontype           772107 non-null  object 
 11  transactionvouchernumber  0 non-null       float64
dtypes: float64(1), int64(5), object(6)
memory usage: 76.6+ MB


In [9]:
# Veamos los valores únicos de la columna 'responsecode'
print(f"Valores únicos de la columna 'responsecode': {df['responsecode'].unique()}\n")

Valores únicos de la columna 'responsecode': ['000' '469' '0000' '500' '104' '086' nan '435' '7208' '7245' '7206'
 '7207' '205' '209' '206' '7084' '404' '607' '7204' '308' '3011' '220'
 '8238' '7390' '207' '486' '724' '434' '915' '438' '7210' '3075' '7205'
 '7203' '7134' '7229' '7097' '3020' '30' '105' '102' '7080' '7230' '748'
 '103' '072' '087' '090' '7209' '091' '7128' '7130' '987' '8210' '21'
 '7067' '305' 'HI' '7043' '3072' '8227' '309' '7070' '3079' '488' '7231'
 '7030' '7023']



In [10]:
df.responsecode.unique()

array(['000', '469', '0000', '500', '104', '086', nan, '435', '7208',
       '7245', '7206', '7207', '205', '209', '206', '7084', '404', '607',
       '7204', '308', '3011', '220', '8238', '7390', '207', '486', '724',
       '434', '915', '438', '7210', '3075', '7205', '7203', '7134',
       '7229', '7097', '3020', '30', '105', '102', '7080', '7230', '748',
       '103', '072', '087', '090', '7209', '091', '7128', '7130', '987',
       '8210', '21', '7067', '305', 'HI', '7043', '3072', '8227', '309',
       '7070', '3079', '488', '7231', '7030', '7023'], dtype=object)