In [1]:
# magic function para hacer que los graficos de matplotlib se renderizen en el notebook.
%matplotlib notebook

import datetime as datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('default') # Make the graphs a bit prettier
plt.rcParams['figure.figsize'] = (15, 5)

In [2]:
person_data = {
        'nro_transaccion': ['95001', '95002', '95003', '95004', '95005','95006','95007','95008','95009','95010'],
        'tipo_transac': ['transferencia', 'deposito', 'extraccion', 'extraccion', 'deposito','transferencia','deposito','transferencia',np.nan,'deposito'],
        'cuenta_origen': ['A', 'B', 'C', 'D', 'D','C','E',np.nan,'A','Z'],
        'cuenta_destino': ['B', 'C', 'A', 'A', 'B','D','C',np.nan,'B','Z'],
        'fecha': ['01-08-2017', '02-04-2016', '30-08-2019', '04-05-2018', '25-11-2019','25-04-2019','12-12-2019','10-10-2019','19-10-2019','29-02-2019'],
        'hora':['12:00:02','14:00:02','17:00:01','15:00:04','22:00:02','21:00:01','12:30:02','23:45:01','20:45:01','22:22:22'],
        'monto':[np.nan,np.nan,np.nan,'3000','27000','45000','900','1500','1','0']
}

df_a = pd.DataFrame(person_data, columns = ['nro_transaccion', 'tipo_transac','cuenta_origen','cuenta_destino','fecha','hora','monto'])

In [3]:
df_a

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto
0,95001,transferencia,A,B,01-08-2017,12:00:02,
1,95002,deposito,B,C,02-04-2016,14:00:02,
2,95003,extraccion,C,A,30-08-2019,17:00:01,
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0
8,95009,,A,B,19-10-2019,20:45:01,1.0
9,95010,deposito,Z,Z,29-02-2019,22:22:22,0.0


In [4]:
df_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
nro_transaccion    10 non-null object
tipo_transac       9 non-null object
cuenta_origen      9 non-null object
cuenta_destino     9 non-null object
fecha              10 non-null object
hora               10 non-null object
monto              7 non-null object
dtypes: object(7)
memory usage: 640.0+ bytes


In [5]:
df_b=df_a.loc[:,'tipo_transac'].astype('category')
df_a['tipo_transac']=df_b
df_a

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto
0,95001,transferencia,A,B,01-08-2017,12:00:02,
1,95002,deposito,B,C,02-04-2016,14:00:02,
2,95003,extraccion,C,A,30-08-2019,17:00:01,
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0
8,95009,,A,B,19-10-2019,20:45:01,1.0
9,95010,deposito,Z,Z,29-02-2019,22:22:22,0.0


In [6]:
#Valido que todas las transacciones tienen un tipo de transaccion (punto 2A)
df_a['tipo_transac'].isnull().value_counts()

False    9
True     1
Name: tipo_transac, dtype: int64

In [7]:
df_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
nro_transaccion    10 non-null object
tipo_transac       9 non-null category
cuenta_origen      9 non-null object
cuenta_destino     9 non-null object
fecha              10 non-null object
hora               10 non-null object
monto              7 non-null object
dtypes: category(1), object(6)
memory usage: 674.0+ bytes


In [8]:
#Ahora valido que todas las transferencias tengan una cuenta origen y una cuenta destino
df_c=df_a.loc[:,['tipo_transac','cuenta_origen','cuenta_destino']]
df_c

Unnamed: 0,tipo_transac,cuenta_origen,cuenta_destino
0,transferencia,A,B
1,deposito,B,C
2,extraccion,C,A
3,extraccion,D,A
4,deposito,D,B
5,transferencia,C,D
6,deposito,E,C
7,transferencia,,
8,,A,B
9,deposito,Z,Z


In [9]:
type(df_c)

pandas.core.frame.DataFrame

In [10]:
df_c.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
tipo_transac      9 non-null category
cuenta_origen     9 non-null object
cuenta_destino    9 non-null object
dtypes: category(1), object(2)
memory usage: 354.0+ bytes


In [11]:
df_c.columns

Index(['tipo_transac', 'cuenta_origen', 'cuenta_destino'], dtype='object')

In [12]:
#Agrego una columna con valores True para los tipos de cuenta origen y destino con valores Nan
df_a['transf_ok']=(df_a['cuenta_origen'].isnull() & df_a['cuenta_destino'].isnull())
df_a

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
0,95001,transferencia,A,B,01-08-2017,12:00:02,,False
1,95002,deposito,B,C,02-04-2016,14:00:02,,False
2,95003,extraccion,C,A,30-08-2019,17:00:01,,False
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0,False
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True
8,95009,,A,B,19-10-2019,20:45:01,1.0,False
9,95010,deposito,Z,Z,29-02-2019,22:22:22,0.0,False


In [13]:
#Filtro por tipo transferencia
df_e=df_a.loc[df_c["tipo_transac"]=="transferencia"]
df_e

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
0,95001,transferencia,A,B,01-08-2017,12:00:02,,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True


In [14]:
#Veo si hay transferencias donde no existe cuenta origen ,idem cuenta destino (punto 2B)
df_e.loc[df_e['transf_ok']==True]

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
7,95008,transferencia,,,10-10-2019,23:45:01,1500,True


In [15]:
df_e['cuenta_origen'].hasnans

True

In [16]:
#Verifico 
df_a['transf_ok'].value_counts()

False    9
True     1
Name: transf_ok, dtype: int64

In [17]:
df_a['monto'].isnull()

0     True
1     True
2     True
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: monto, dtype: bool

In [18]:
#Convierto a float la columna monto
df_a2=df_a.loc[:,'monto'].astype(float)
df_a['monto']=df_a2
df_a

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
0,95001,transferencia,A,B,01-08-2017,12:00:02,,False
1,95002,deposito,B,C,02-04-2016,14:00:02,,False
2,95003,extraccion,C,A,30-08-2019,17:00:01,,False
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0,False
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True
8,95009,,A,B,19-10-2019,20:45:01,1.0,False
9,95010,deposito,Z,Z,29-02-2019,22:22:22,0.0,False


In [19]:
#Verifico que todas las transacciones de tipo transf. deposito y extraccion cuenten con montos mayores a 0 (punto 2C)
df_a.loc[df_a['monto']!=0,:]

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
0,95001,transferencia,A,B,01-08-2017,12:00:02,,False
1,95002,deposito,B,C,02-04-2016,14:00:02,,False
2,95003,extraccion,C,A,30-08-2019,17:00:01,,False
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0,False
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True
8,95009,,A,B,19-10-2019,20:45:01,1.0,False


In [20]:
df_a['monto']>0

0    False
1    False
2    False
3     True
4     True
5     True
6     True
7     True
8     True
9    False
Name: monto, dtype: bool

In [21]:
#Busco cuales son las 10 transacciones con mayor monto ,uso head(5) ya que el dataframe tiene 10 valores maximo
#Si agrego mas valores iria head(10) (punto 2D)
df_a.sort_values(by='monto',ascending=False).head(5)

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0,False
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0,False


In [22]:
#Ahora busco la transaccion con mayor monto promedio
#Filtro valores iguales y menores a 0 y valores de tipo Nan
df_a3=df_a.loc[df_a['monto']!=0,:]
df_a4=df_a3.dropna()
df_a4

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
3,95004,extraccion,D,A,04-05-2018,15:00:04,3000.0,False
4,95005,deposito,D,B,25-11-2019,22:00:02,27000.0,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
6,95007,deposito,E,C,12-12-2019,12:30:02,900.0,False


In [23]:
#Agrupo por tipo de transaccion y aplico el promedio a monto
df1=df_a4.groupby(["tipo_transac",]).agg({"monto":"mean"})
df1

Unnamed: 0_level_0,monto
tipo_transac,Unnamed: 1_level_1
deposito,13950.0
extraccion,3000.0
transferencia,45000.0


In [24]:
#Visualizo el tipo de transaccion con mayor monto promedio (2E)
df1.sort_values(by='monto',ascending=False).head(1)

Unnamed: 0_level_0,monto
tipo_transac,Unnamed: 1_level_1
transferencia,45000.0


In [25]:
#Busco las 5 cuentas con mayor cantidad de transaciones
groupCuenta=df_a.groupby(["cuenta_origen",]).agg({"cuenta_origen":"count"})
groupCuenta.rename(columns={"cuenta_origen":"cantidad"},inplace=True)
groupCuenta

Unnamed: 0_level_0,cantidad
cuenta_origen,Unnamed: 1_level_1
A,2
B,1
C,2
D,2
E,1
Z,1


In [26]:
#Ordeno los resultados y veo las 5 cuentas con mayor cantidad de transacciones (punto 2F)
groupCuenta.sort_values(by='cantidad',ascending=False)

Unnamed: 0_level_0,cantidad
cuenta_origen,Unnamed: 1_level_1
A,2
C,2
D,2
B,1
E,1
Z,1


In [27]:
#Busco las 5 cuentas con mayor monto involucrado (punto 2G)
groupCuenta2=df_a.groupby(["cuenta_origen",]).agg({"monto":"sum"})
groupCuenta2.rename(columns={"monto":"cantidad_monto"},inplace=True)
groupCuenta2.sort_values(by='cantidad_monto',ascending=False).head(5)

Unnamed: 0_level_0,cantidad_monto
cuenta_origen,Unnamed: 1_level_1
C,45000.0
D,30000.0
E,900.0
A,1.0
B,0.0


In [28]:
df_h=df_a.loc[df_c["tipo_transac"]=="transferencia"]
df_h

Unnamed: 0,nro_transaccion,tipo_transac,cuenta_origen,cuenta_destino,fecha,hora,monto,transf_ok
0,95001,transferencia,A,B,01-08-2017,12:00:02,,False
5,95006,transferencia,C,D,25-04-2019,21:00:01,45000.0,False
7,95008,transferencia,,,10-10-2019,23:45:01,1500.0,True


In [29]:
#Busco las 5 cuentas con mayor cantidad de transacciones (punto 2H)
groupCuenta3=df_h.groupby(["cuenta_origen",]).agg({"cuenta_origen":"count"})
groupCuenta3.rename(columns={"cuenta_origen":"cantidad_transac"},inplace=True)
groupCuenta3.sort_values(by='cantidad_transac',ascending=False).head(5)

Unnamed: 0_level_0,cantidad_transac
cuenta_origen,Unnamed: 1_level_1
A,1
C,1
