# Analísis Exploratorio de los Datos

In [2]:
import pandas as pd


In [3]:
dataset = pd.read_csv('../data/data_transactions.csv')

In [5]:
dataset.head()

Unnamed: 0,user_id,transaction_type,amount,balance_before,balance_after,timestamp,is_anomaly
0,user_51,recarga,19821.54,474314.99,494136.53,2023-01-01 00:00:00,0
1,user_92,recarga,5743.16,217815.04,223558.2,2023-01-01 00:01:00,0
2,user_14,retiro,17011.92,11710.15,-5301.77,2023-01-01 00:02:00,0
3,user_71,recarga,26655.67,469606.25,496261.92,2023-01-01 00:03:00,0
4,user_60,recarga,33147.4,16918.13,50065.53,2023-01-01 00:04:00,0


In [6]:
dataset.tail()

Unnamed: 0,user_id,transaction_type,amount,balance_before,balance_after,timestamp,is_anomaly
9995,user_15,recarga,38723.21,400275.82,438999.03,2023-01-07 22:35:00,0
9996,user_16,recarga,13939.31,308558.02,322497.33,2023-01-07 22:36:00,0
9997,user_79,retiro,19073.72,440061.75,420988.03,2023-01-07 22:37:00,0
9998,user_18,retiro,8625.07,359459.44,350834.37,2023-01-07 22:38:00,0
9999,user_7,recarga,6982.52,387260.83,394243.35,2023-01-07 22:39:00,0


In [7]:
dataset.describe()

Unnamed: 0,amount,balance_before,balance_after,is_anomaly
count,10000.0,10000.0,10000.0,10000.0
mean,48454.13,254697.230031,267220.0,0.0104
std,315476.4,141770.476819,348382.4,0.101454
min,1000.0,10008.2,-4621451.0,0.0
25%,11684.29,130533.6325,136564.6,0.0
50%,18182.34,254952.05,262899.5,0.0
75%,24742.22,377613.0225,385255.9,0.0
max,4995116.0,499986.35,5417279.0,1.0


Aquí se debe tener en cuenta que solo un 1% de los datos son anomalías, por lo tanto se debe tener cuidado a la hora de splitear los datos para hacer random forest u otros de forma aleatoria, ya que puede que varios árboles no tengan ningún ejemplo de anomalía o estén heavily biased por unos pocos datapoints en el dataset. 

In [10]:
dataset.describe(include="object")

Unnamed: 0,user_id,transaction_type,timestamp
count,10000,10000,10000
unique,100,2,10000
top,user_16,recarga,2023-01-01 00:00:00
freq,126,6105,1


Solo hay dos tipos de transacciones. Recargas y retiros. Hay un total de 100 usuarios, de los cuales el usuario 16 tiene la mayor cantidad de transacciones realizadas.

In [11]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   user_id           10000 non-null  object 
 1   transaction_type  10000 non-null  object 
 2   amount            10000 non-null  float64
 3   balance_before    10000 non-null  float64
 4   balance_after     10000 non-null  float64
 5   timestamp         10000 non-null  object 
 6   is_anomaly        10000 non-null  int64  
dtypes: float64(3), int64(1), object(3)
memory usage: 547.0+ KB


In [None]:
# Double check de que no existan valores vacíos.
# Efectivamente es un dataset ideal
missing_data = dataset.isnull().sum()
missing_percentage = (missing_data / len(dataset)) * 100

missing_percentage

user_id             0.0
transaction_type    0.0
amount              0.0
balance_before      0.0
balance_after       0.0
timestamp           0.0
is_anomaly          0.0
dtype: float64

No hay datos vacíos en el dataset. Por lo que no debemos aplicar ninguna técnica para llenarlos.

## Feature Engineering

Dado que no hay ningún dato vacío, y no hay un indicador claro de que variables pueden ser features fuertes para un modelo predictivo, vamos a aislar las anomalías para ver si tienen una diferencia significativa con los datos reales y podemos tener una idea general de que variables puden ser strong predictors para nuestro modelo. 



In [15]:
anomaly = dataset[dataset['is_anomaly'] == 1]
legitimate = dataset[dataset['is_anomaly'] == 0]

In [16]:
anomaly.head()

Unnamed: 0,user_id,transaction_type,amount,balance_before,balance_after,timestamp,is_anomaly
7,user_86,recarga,2438737.5,240491.47,2679228.97,2023-01-01 00:07:00,1
84,user_61,recarga,4970018.15,447261.25,5417279.4,2023-01-01 01:24:00,1
191,user_96,retiro,4916307.24,377886.08,-4538421.16,2023-01-01 03:11:00,1
199,user_26,recarga,4194378.53,409143.66,4603522.19,2023-01-01 03:19:00,1
253,user_72,recarga,2370883.11,38094.03,2408977.14,2023-01-01 04:13:00,1


In [17]:
legitimate.head()

Unnamed: 0,user_id,transaction_type,amount,balance_before,balance_after,timestamp,is_anomaly
0,user_51,recarga,19821.54,474314.99,494136.53,2023-01-01 00:00:00,0
1,user_92,recarga,5743.16,217815.04,223558.2,2023-01-01 00:01:00,0
2,user_14,retiro,17011.92,11710.15,-5301.77,2023-01-01 00:02:00,0
3,user_71,recarga,26655.67,469606.25,496261.92,2023-01-01 00:03:00,0
4,user_60,recarga,33147.4,16918.13,50065.53,2023-01-01 00:04:00,0


In [18]:
anomaly.describe()

Unnamed: 0,amount,balance_before,balance_after,is_anomaly
count,104.0,104.0,104.0,104.0
mean,2915214.0,264526.082788,854808.6,1.0
std,1126014.0,143409.941577,3077410.0,0.0
min,1014924.0,14740.44,-4621451.0,1.0
25%,2095876.0,161358.3275,-2203949.0,1.0
50%,2850572.0,275176.06,1919371.0,1.0
75%,3794361.0,382729.7425,3411152.0,1.0
max,4995116.0,495739.98,5417279.0,1.0


In [20]:
anomaly.describe(include="object")

Unnamed: 0,user_id,transaction_type,timestamp
count,104,104,104
unique,58,2,104
top,user_24,recarga,2023-01-01 00:07:00
freq,5,64,1


In [19]:
legitimate.describe()

Unnamed: 0,amount,balance_before,balance_after,is_anomaly
count,9896.0,9896.0,9896.0,9896.0
mean,18326.498404,254593.935701,261044.907727,0.0
std,9390.763639,141756.856896,142822.54204,0.0
min,1000.0,10008.2,-25366.29,0.0
25%,11605.3775,130247.7225,137064.54,0.0
50%,18042.915,254376.935,262565.67,0.0
75%,24513.7225,377513.1675,383571.5,0.0
max,58067.17,499986.35,539116.14,0.0


In [22]:
legitimate.describe(include="object")

Unnamed: 0,user_id,transaction_type,timestamp
count,9896,9896,9896
unique,100,2,9896
top,user_16,recarga,2023-01-01 00:00:00
freq,125,6041,1


De este análsis es claro que las transacciones fraudulentas mueven en promedio cantidades mucho mas altas de dinero. Por lo tanto la cantidad de dinero asociada a la transacción va a ser el indicador más fuerte en cualquier modelo que entrenemos con los datos, especialemente si se trata de árboles de decisión. 

Posibles problemas de esta tendencia estadística en la vida real: 
 - Un posible problema significativo de esta tendencia en la vida real es que va a ser muy probable que las transcacciones hechas por big players o ballenas en la plataforma sean flageadas cómo anomalas. Idealmente deberíamos tener una feature que contrareste este efecto.
 
 En el caso de los retiros: 
- Si una transacción es fraudulenta, es muy probable que la transacción se haga por una gran cantidad de dinero, por lo cual el saldo final va a tender a ser muy negativo. Esto también es un strong feature pero tiene una fuerte correlación con la cantidad de la transacción.

También hay usuarios que solo tienen transacciones legítimas, por lo que dado el tamaño relativamente pequeño del dataset puede generar bias en el modelo inicial. 