## Metadata:

0) **channel**: Canal por el cual se realiza la transacción.

1)  **devicenameid**: Dispositivo por el cual se realiza la transacción.

2)  **finaltrxyear**: Año de la transacción.

3)  **finaltrxmonth**: Mes de la transacción.

4)  **finaltrxday**: Día de de la transacción.

5)  **finaltrxhour**: Hora de la transacción formato numérico (8).

6)  **transactioncode**: Código que identifica una transacción.

7)  **transactioncodedesc**: Nombre de la transacción.

8)  **responsecode**: Respuesta de la transacción, cuando es cero es exitosa, diferente de cero no exitosa.

9)  **responsecodedesc**: Nombre de respuesta de la transacción.

10) **transactiontype**: Si es una transacción monetaria o no.

11) **transactionvouchernumber**: Comprobante físico de una transacción.

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import datetime
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Abrimos el archivo CSV
df = pd.read_csv('data.csv', index_col = 0, low_memory = False)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria,
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria,
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria,
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria,
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria,


In [3]:
df.tail()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,transactionvouchernumber
961921,NEG,APP,2024,12,11,16284600,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961922,NEG,APP,2024,12,11,16292400,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961923,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961924,NEG,APP,2024,12,11,16300100,360,Consulta de saldos,0,Transacción exitosa,Administrativa,
961925,NEG,APP,2024,12,11,16311700,360,Consulta de saldos,0,Transacción exitosa,Administrativa,


In [4]:
print(f"Las dimensiones del DataFrame son: {df.shape}\n")
df.info()

Las dimensiones del DataFrame son: (772107, 12)

<class 'pandas.core.frame.DataFrame'>
Index: 772107 entries, 0 to 961925
Data columns (total 12 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   channel                   772107 non-null  object 
 1   devicenameid              772107 non-null  object 
 2   finaltrxyear              772107 non-null  int64  
 3   finaltrxmonth             772107 non-null  int64  
 4   finaltrxday               772107 non-null  int64  
 5   finaltrxhour              772107 non-null  int64  
 6   transactioncode           772107 non-null  int64  
 7   transactioncodedesc       772107 non-null  object 
 8   responsecode              771444 non-null  object 
 9   responsecodedesc          772107 non-null  object 
 10  transactiontype           772107 non-null  object 
 11  transactionvouchernumber  0 non-null       float64
dtypes: float64(1), int64(5), object(6)
memory usage: 76.6+ M

In [5]:
df.describe()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactionvouchernumber
count,772107.0,772107.0,772107.0,772107.0,772107.0,0.0
mean,2024.000003,12.000001,10.98122,9682235.0,5393.16548,
std,0.002276,0.001138,0.818449,4957947.0,2841.158524,
min,2024.0,12.0,10.0,127.0,317.0,
25%,2024.0,12.0,10.0,6070800.0,2304.0,
50%,2024.0,12.0,11.0,9503393.0,7900.0,
75%,2024.0,12.0,12.0,12365260.0,7900.0,
max,2026.0,13.0,12.0,23595520.0,7921.0,


### Columna 'transactionvouchernumber'

Notemos que la columna **transactionvouchernumber** tiene todos sus valores nulos, además, puesto que hace referencia al comprobante físico de una transacción, no se considerará como importante en el proceso analítico, por lo cual se eliminará.

In [6]:
# Quitamos la columna 'transactionvouchernumber'
df.drop(columns=['transactionvouchernumber'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,channel,devicenameid,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,NEG,APP,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,NEG,APP,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,NEG,APP,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,NEG,APP,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,NEG,APP,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


### Columnas 'channel' y 'devicenameid'

In [7]:
# Veamos la cantidad de valores únicos por cada columna
df.nunique()

channel                     1
devicenameid                1
finaltrxyear                2
finaltrxmonth               2
finaltrxday                 3
finaltrxhour           276291
transactioncode            27
transactioncodedesc        30
responsecode               67
responsecodedesc           62
transactiontype             4
dtype: int64

Vemos que según la cantidad de valores únicos en las columnas **channel** y **devicenameid**, estas cuentan con solo un valor para todas las filas.

In [8]:
# Veamos cuáles son los valores únicos de las columnas 'channel' y 'devicenameid
print(f"Valor único de la columna 'channel':{df['channel'].unique()}")
print(f"Valor único de la columna 'devicenameid':{df['devicenameid'].unique()}")
# Dropeamos las columnas 'channel' y 'devicenameid'
df.drop(columns=['channel', 'devicenameid'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Valor único de la columna 'channel':['NEG']
Valor único de la columna 'devicenameid':['APP']


Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,No Monetaria
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,No Monetaria
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,No Monetaria
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,No Monetaria
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,No Monetaria


Como es un único valor en ambos casos, podemos darnos cuenta entonces que ***todas las transacciones se realizaron por el mismo canal ('NEG'), y por el mismo dispostivo ('APP')***. Teniendo esto presente y para recordarlo, se pueden borrar esas columnas para simplificar el dataset.

### Columna 'transactiontype'

In [9]:
# Veamos ahora los valores únicos de la columna 'transactiontype'
print(df['transactiontype'].unique())

['No Monetaria' 'No monetaria' 'Administrativa' 'No_monetaria']


Según la descripción de la metadata, la columna 'transactiontype' únicamente indica de forma binaria si la transacción es monetaria o no. Por lo tanto vamos a codificar esto para que queden solo 2 valores únicos:
- 0 = No monetaria
- 1 = Monetaria


In [10]:
# Cambiamos los valores de la columna 'transactiontype' a 1 y 0 según el tipo de transacción
df['transactiontype'] = np.where(df['transactiontype'] == 'Administrativa', -1, 0)
df.head()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,0,SUCCESS,0
1,2024,12,11,3162400,7900,Autenticación,0,SUCCESS,0
2,2024,12,11,3431400,7900,Autenticación,0,SUCCESS,0
3,2024,12,11,3484600,7900,Autenticación,0,SUCCESS,0
4,2026,12,11,3501600,7900,Autenticación,0,SUCCESS,0


### Columna 'responsecode'

Ahora bien, al columna de **responsecode** es otra que debería tener solo 2 valores únicos, para indicar '0' si fue exitosa, y diferente de '0' si no fue exitosa, sin embargo vamos a cambiar esto de la siguiente forma:
- 1 = Transacción exitosa.
- 0 = Transacción no exitosa.
- -1 = Transacción sin éxito registrado.

In [11]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())
# Veamos los valores únicos de la columna 'responsecode'
df.responsecode.unique()

663


array(['000', '469', '0000', '500', '104', '086', nan, '435', '7208',
       '7245', '7206', '7207', '205', '209', '206', '7084', '404', '607',
       '7204', '308', '3011', '220', '8238', '7390', '207', '486', '724',
       '434', '915', '438', '7210', '3075', '7205', '7203', '7134',
       '7229', '7097', '3020', '30', '105', '102', '7080', '7230', '748',
       '103', '072', '087', '090', '7209', '091', '7128', '7130', '987',
       '8210', '21', '7067', '305', 'HI', '7043', '3072', '8227', '309',
       '7070', '3079', '488', '7231', '7030', '7023'], dtype=object)

In [12]:
# Veamos cuantos valores nulos hay en la columna 'responsecode'
print(df['responsecode'].isnull().sum())

663


In [13]:
def encontrar_ceros(lista_valores_unicos):
    """
    Encuentra valores que representan cero en una lista,
    manejando enteros, flotantes y strings.

    Args:
        lista_valores_unicos (list): Una lista de valores únicos de una columna.

    Returns:
        list: Una lista de los valores que representan cero.
    """
    ceros_encontrados = []
    for valor in lista_valores_unicos:
        # 1. Manejo de enteros y flotantes
        if isinstance(valor, (int, float)):
            if valor == 0:
                ceros_encontrados.append(valor)
        # 2. Manejo de strings
        elif isinstance(valor, str):
            try:
                # Intentar convertir el string a un número y verificar si es cero
                numero_desde_string = float(valor)
                if numero_desde_string == 0:
                    ceros_encontrados.append(valor)
            except ValueError:
                # Si no se puede convertir a número, no es un cero numérico en string
                pass
    return ceros_encontrados

In [14]:
ceros = encontrar_ceros(df['responsecode'].unique())
print(f"Valores que representan cero en la columna 'responsecode': {ceros}")

Valores que representan cero en la columna 'responsecode': ['000', '0000']


In [15]:
# Veamos cuantos valores de la columna 'responsecode' coniciden con los valores que representan cero
print(f"""Cantidad de valores que representan cero en la columna 'responsecode':
{df['responsecode'].isin(ceros).sum()}""")

Cantidad de valores que representan cero en la columna 'responsecode':
714544


Ahora transformamos los valores a 0 si la transacción fue exitosa, 1 a los otros valores que indican que no fue exitosa, y con -1 a los valores nulos, que podrían representar deficiencias en el proceso de recopilación de informació o errores,

In [16]:
# Creamos una copia de la serie por buena práctica y seguridad
columna_transformada = df['responsecode'].copy()

# Identificamos los valores que no son nulos
no_nulos = columna_transformada.notna()

# Máscara para los valores que deben ser 0 (están en la lista y no son nulos)
debe_ser_cero = no_nulos & columna_transformada.isin(ceros)

# Máscara para los valores que deben ser 1 (no están en la lista y no son nulos)
debe_ser_menos_uno = no_nulos & ~columna_transformada.isin(ceros)

# Aplicamos las transformaciones en el orden correcto

# Primero, asignar 1 indicando éxito a los que originalmente eran 0
columna_transformada.loc[debe_ser_cero] = 1

# Luego, asignar 0 a los que eran originalmente diferentes de 0, para inidicador no exitosa
columna_transformada.loc[debe_ser_menos_uno] = 0

# Asigamos -1 a los valores nulos
columna_transformada.loc[columna_transformada.isna()] = -1


df['responsecode'] = columna_transformada
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,2024,12,11,3075400,7900,Autenticación,1,SUCCESS,0
1,2024,12,11,3162400,7900,Autenticación,1,SUCCESS,0
2,2024,12,11,3431400,7900,Autenticación,1,SUCCESS,0
3,2024,12,11,3484600,7900,Autenticación,1,SUCCESS,0
4,2026,12,11,3501600,7900,Autenticación,1,SUCCESS,0


In [17]:
df['responsecode'].value_counts()

responsecode
1     714544
0      56900
-1       663
Name: count, dtype: int64

In [18]:
df.nunique()

finaltrxyear                2
finaltrxmonth               2
finaltrxday                 3
finaltrxhour           276291
transactioncode            27
transactioncodedesc        30
responsecode                3
responsecodedesc           62
transactiontype             2
dtype: int64

### Columnas de fecha y hora
Estas columnas son:
- finaltrxyear.
- finaltrxmonth.
- finaltrxday.
- finaltrxhour.

In [19]:
# Veamos los valores únicos de las primeras 4 columnas
for col in df.columns[:4]:
    print(f"Valores únicos de la columna {col}: {df[col].unique()}")

Valores únicos de la columna finaltrxyear: [2024 2026]
Valores únicos de la columna finaltrxmonth: [12 13]
Valores únicos de la columna finaltrxday: [11 10 12]
Valores únicos de la columna finaltrxhour: [ 3075400  3162400  3431400 ... 16251600 16292400 16311700]


In [20]:
# Ahora la cantidad de valores únicos en las primeras 3 columnas (año, mes y día)
for col in df.columns[:3]:
    print(f"Cantidad de valores únicos de la columna {col}: {df[col].value_counts()} \n")

Cantidad de valores únicos de la columna finaltrxyear: finaltrxyear
2024    772106
2026         1
Name: count, dtype: int64 

Cantidad de valores únicos de la columna finaltrxmonth: finaltrxmonth
12    772106
13         1
Name: count, dtype: int64 

Cantidad de valores únicos de la columna finaltrxday: finaltrxday
10    265987
11    254633
12    251487
Name: count, dtype: int64 



Notamos de inicio algo sospechoso, y es que la columna que indica el número de mes, tiene un único valor 13, lo cual no tiene sentido considerando que un año solo tiene 12 meses. Lugo la columa del año también solo tiene un registro con el año 2026 vamos a indagar más sobre esto.

In [21]:
df[df["finaltrxmonth"] == 13]

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
60000,2024,13,12,18115688,2304,Solicitar datos de empresa,1,Transacción exitosa,0


In [22]:
df[df["finaltrxyear"] == 2026]

Unnamed: 0,finaltrxyear,finaltrxmonth,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
4,2026,12,11,3501600,7900,Autenticación,1,SUCCESS,0


Vemos que tanto para el mes como para el año, solo existe una instancia de datos con esos valores atípicos, considerando que el tamaño del dataset en bastante grande en comparación a estas únicas instancias. Se puede asumir con seguridad de dichos datos en los registros son erróneos, por lo cual, se concluye que todo el dataset corresponde a transacciones del año 2024 en el mes 12 (Diciembre). Teniendo esto presente se eliminarán esas 2 columnas.

In [23]:
# Eliminamos 'finaltrxmonth' y 'finaltrxyear'
df.drop(columns=['finaltrxmonth', 'finaltrxyear'], inplace=True)
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,finaltrxday,finaltrxhour,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,11,3075400,7900,Autenticación,1,SUCCESS,0
1,11,3162400,7900,Autenticación,1,SUCCESS,0
2,11,3431400,7900,Autenticación,1,SUCCESS,0
3,11,3484600,7900,Autenticación,1,SUCCESS,0
4,11,3501600,7900,Autenticación,1,SUCCESS,0


Ahora bien, ya se elimaron las columnas **finaltrxmonth** y **finaltrxyear** entendiendo que no aportan diversidad al dataset, y su estudio dejó en evidencia que el archivo corresponde a transacciones de Diciembre de 2024. Luego la columna **finaltrxday** tiene valores apropiados, por lo cual solo resta tratar con la columna **finaltrxhour** que tiene unos valores un tanto extraños.

In [24]:
df['finaltrxhour'].head(10)

0    3075400
1    3162400
2    3431400
3    3484600
4    3501600
5    3510300
6    3451800
7    3483400
8    3493100
9    3301500
Name: finaltrxhour, dtype: int64

In [25]:
df['finaltrxhour'].tail(10)

961916    16253800
961917    16254300
961918    16261300
961919    16272100
961920    16282300
961921    16284600
961922    16292400
961923    16300100
961924    16300100
961925    16311700
Name: finaltrxhour, dtype: int64

In [26]:
print("Máxima hora:",df['finaltrxhour'].max())

Máxima hora: 23595520


Considerando que la descripción de la metadata, nos dice que "**finaltrxhour**: Hora de la transacción formato numérico (8)", podemos suponer que la hora está dada en un formato `HHMMSSxx`donde `xx` debe ser alguna unidad decimal de segundos. Vamos a comprobar esa hipótesis con este bloque de código.

In [27]:
df_temp = df.copy()

# Convertir a string para manipular los dígitos
df_temp['hour_str'] = df_temp['finaltrxhour'].astype(str).str.zfill(8) # Asegura 8 dígitos, rellenando con ceros si es necesario

# Extraer componentes (hipótesis: HHMMSScc)
df_temp['parsed_hour'] = pd.to_numeric(df_temp['hour_str'].str[0:2], errors='coerce')
df_temp['parsed_minute'] = pd.to_numeric(df_temp['hour_str'].str[2:4], errors='coerce')
df_temp['parsed_second'] = pd.to_numeric(df_temp['hour_str'].str[4:6], errors='coerce')
df_temp['parsed_decimalseconds'] = pd.to_numeric(df_temp['hour_str'].str[6:8], errors='coerce') # O milisegundos

print("\nAnálisis con hipótesis HHMMSSxx:")

# Verificar rangos lógicos
print("\nVerificación de rangos:")
print(f"Max parsed_hour: {df_temp['parsed_hour'].max()}")
print(f"Min parsed_hour: {df_temp['parsed_hour'].min()}")
print(f"Max parsed_minute: {df_temp['parsed_minute'].max()}")
print(f"Min parsed_minute: {df_temp['parsed_minute'].min()}")
print(f"Max parsed_second: {df_temp['parsed_second'].max()}")
print(f"Min parsed_centiseconds: {df_temp['parsed_second'].min()}")
print(f"Min parsed_decimalseconds: {df_temp['parsed_decimalseconds'].max()}")
print(f"Min parsed_decimalseconds: {df_temp['parsed_decimalseconds'].min()}")


Análisis con hipótesis HHMMSSxx:

Verificación de rangos:
Max parsed_hour: 23
Min parsed_hour: 0
Max parsed_minute: 59
Min parsed_minute: 0
Max parsed_second: 59
Min parsed_centiseconds: 0
Min parsed_decimalseconds: 99
Min parsed_decimalseconds: 0


Se comprueba según esos resultados, que la hora efectivamente está en formato `HHMMSSxx`donde `xx` son centisegundos por que tiene un rango de 0 a 99. Procedemos entonces a crear la columna con la fecha en el formato correcto.

In [28]:
# Función para parsear el formato numérico HHMMSScc a un objeto datetime.time
def parse_trx_hour(num_hour):
    """
    Parsea el formato numérico HHMMSScc a un objeto datetime.time.
    Asume que el número de 7 u 8 dígitos es HHMMSSc c.
    """
    if pd.isna(num_hour):
        return None # Mantener nulos si los hay

    s_hour = str(int(num_hour)).zfill(8) # Asegurar 8 dígitos

    try:
        # Descartamos las centésimas de segundos, y nos quedamo con HHMMSS
        hour = int(s_hour[0:2])
        minute = int(s_hour[2:4])
        second = int(s_hour[4:6])

        # Aquí los descartamos para un formato de hora estándar HH:MM:SS
        return datetime.time(hour, minute, second)
    except ValueError:
        return None # En caso de que haya un número que no se pueda parsear

In [29]:
# Función para obtener únicamente el valor de HH
def get_hour(num_hour):
    """
    Obtiene únicamente el valor de HH de un número en formato HHMMSScc.
    """
    if pd.isna(num_hour):
        return None # Mantener nulos si los hay

    s_hour = str(int(num_hour)).zfill(8) # Asegurar 8 dígitos

    try:
        hour = int(s_hour[0:2])
        return hour
    except ValueError:
        return None # En caso de que haya un número que no se pueda parsear

In [30]:
# Aplicar la función a la columna
# Usar el DataFrame real 'df' aquí
df['hour_trx'] = df['finaltrxhour'].apply(parse_trx_hour)
df['hour_only'] = df['finaltrxhour'].apply(get_hour)
# Dropeamos la columna 'finaltrxhour'
df.drop(columns=['finaltrxhour'], inplace=True)

# Mostramos las primeras filas del DataFrame
df.head(10)

Unnamed: 0,finaltrxday,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype,hour_trx,hour_only
0,11,7900,Autenticación,1,SUCCESS,0,03:07:54,3
1,11,7900,Autenticación,1,SUCCESS,0,03:16:24,3
2,11,7900,Autenticación,1,SUCCESS,0,03:43:14,3
3,11,7900,Autenticación,1,SUCCESS,0,03:48:46,3
4,11,7900,Autenticación,1,SUCCESS,0,03:50:16,3
5,11,7900,Autenticación,1,SUCCESS,0,03:51:03,3
6,11,7900,Autenticación,1,SUCCESS,0,03:45:18,3
7,11,7900,Autenticación,0,Lo sentimos tenemos inconvenientes. Intenta ma...,0,03:48:34,3
8,11,7900,Autenticación,1,SUCCESS,0,03:49:31,3
9,11,7900,Autenticación,1,SUCCESS,0,03:30:15,3


### Columnas de 'transactioncode' y 'transactioncodedesc'

In [31]:
# Veamos los valores únicos de las columnas 'transactioncode' y 'transactioncodedesc'
print(df['transactioncode'].unique())
print(df['transactioncodedesc'].unique())

[7900 2462 2312 2315 2311 2460 7911 2304 2305  317 2314 2402  360 7910
 2316 2313 7913 2307 7912 2404 2308 2306 2401 2403 2309 2310 7921]
['Autenticación' 'Cifrar datos biometría' 'Enviar OTP'
 'Ingresar datos contactabilidad empresa' 'Consultar correo en MDM'
 'BIOMETRIA DACTILAR - REGISTRO'
 'BIOMETRIA DACTILAR - REENROLAR CLAVE DINAMICA'
 'BIOMETRIA DACTILAR - MIGRACION' 'Validar OTP' 'Regeneración de clave'
 'Validar clave dinámica' 'Solicitar datos de empresa'
 'Autenticación legada' 'Consultar saldos consolidados'
 'Crear usuario y aceptar términos y condiciones'
 'Validar Reglas del canal' 'Consulta de saldos' 'Recordación de usuario'
 'Enrolar clave dinámica' 'Crear usuario en migración' 'Validar biometría'
 'Crear clave' 'Consultar estado registro'
 'Validar reglas seguridad plan B'
 'Validar relación cliente usuario - registro' 'Validar Rues'
 'BIOMETRIA DACTILAR - REGENERACION DE CLAVE'
 'Validar clave canal personas plan B'
 'Validar clave dinámica canal personas plan B'
 '

Estas columnas tiene valores diversos, que nos servirán para hacer agrupaciones y estudiar posibles patrones en un dashboard con Powe BI

### Reordenar columnas

In [32]:
# Reordenamos las columnas

# Obtener la lista actual de todas las columnas
columns = df.columns.tolist()

new_column_order = columns[0:1] + columns[-2:] + columns[1:-2]

# Reindexar el DataFrame con el nuevo orden de columnas
df_reordered = df[new_column_order]

In [33]:
df_reordered.head()

Unnamed: 0,finaltrxday,hour_trx,hour_only,transactioncode,transactioncodedesc,responsecode,responsecodedesc,transactiontype
0,11,03:07:54,3,7900,Autenticación,1,SUCCESS,0
1,11,03:16:24,3,7900,Autenticación,1,SUCCESS,0
2,11,03:43:14,3,7900,Autenticación,1,SUCCESS,0
3,11,03:48:46,3,7900,Autenticación,1,SUCCESS,0
4,11,03:50:16,3,7900,Autenticación,1,SUCCESS,0


In [34]:
df_reordered.dtypes

finaltrxday             int64
hour_trx               object
hour_only               int64
transactioncode         int64
transactioncodedesc    object
responsecode           object
responsecodedesc       object
transactiontype         int64
dtype: object

### Renombrar columnas

In [35]:
# Definimos los nuevos nombres de las columnas
nuevos_nombres = {
    'finaltrxday': 'Día',
    'hour_trx': 'Hora Transacción',
    'hour_only': 'Hora',
    'transactioncode': 'Código Transacción',
    'transactioncodedesc': 'Descripción Transacción',
    'responsecode': 'Transacción Exitosa',
    'responsecodedesc': 'Descripción Respuesta',
    'transactiontype': 'Monetaria'
}

# Renombramos las columnas
df_reordered.rename(columns=nuevos_nombres, inplace=True)
# Mostramos las primeras filas del DataFrame
df_reordered.head()

Unnamed: 0,Día,Hora Transacción,Hora,Código Transacción,Descripción Transacción,Transacción Exitosa,Descripción Respuesta,Monetaria
0,11,03:07:54,3,7900,Autenticación,1,SUCCESS,0
1,11,03:16:24,3,7900,Autenticación,1,SUCCESS,0
2,11,03:43:14,3,7900,Autenticación,1,SUCCESS,0
3,11,03:48:46,3,7900,Autenticación,1,SUCCESS,0
4,11,03:50:16,3,7900,Autenticación,1,SUCCESS,0


### Guardar archivo .csv tras proceso ETL

In [36]:
# Guardamos el DataFrame en un nuevo archivo CSV
df_reordered.to_csv('transacciones_12-2024.csv', index=False)

In [37]:
# Abrimos el nuevo archivo CSV para verificar
df_verificado = pd.read_csv('transacciones_12-2024.csv')
print(df_verificado.shape)
df_verificado.head()

(772107, 8)


Unnamed: 0,Día,Hora Transacción,Hora,Código Transacción,Descripción Transacción,Transacción Exitosa,Descripción Respuesta,Monetaria
0,11,03:07:54,3,7900,Autenticación,1,SUCCESS,0
1,11,03:16:24,3,7900,Autenticación,1,SUCCESS,0
2,11,03:43:14,3,7900,Autenticación,1,SUCCESS,0
3,11,03:48:46,3,7900,Autenticación,1,SUCCESS,0
4,11,03:50:16,3,7900,Autenticación,1,SUCCESS,0
