In [36]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("transacciones.csv")
df.head(15)

Unnamed: 0,numero,tipo,origen,destino,fecha,hora,monto
0,900,TRANS,A,B,2019,07:00:00 AM,1100
1,901,TRANS,A,D,2019,08:00:00 AM,1200
2,902,DEPO,B,C,2018,09:00:00 AM,1300
3,903,DEPO,B,C,2019,10:00:00 AM,1400
4,904,TRANS,A,B,2019,11:00:00 AM,10000
5,905,DEPO,,A,2018,12:00:00 PM,1600
6,906,EXT,C,A,2018,01:00:00 PM,1700
7,907,EXT,B,D,2019,02:00:00 PM,1800
8,908,DEPO,B,C,2019,03:00:00 PM,1900
9,909,DEPO,,B,2018,04:00:00 PM,2000


In [2]:
#Verificar que ninguno sea null

df['tipo'].isnull().any()

False

In [3]:
#Validar que exista cuenta origen y destino

df[['origen', 'destino']].isnull().any()

origen      True
destino    False
dtype: bool

In [4]:
# Verificar que todas las transacciones del tipo transferencia, depósito y extracción cuenten con montos distintos de cero.

df.loc[(df.tipo == 'DEPO') | (df.tipo == 'TRANS') | (df.tipo == 'EXT')].tipo.isnull().any()

False

In [5]:
# Indicar cuáles fueron las 10 transacciones de mayor monto.

df.sort_values('monto', ascending = False).head(10)

Unnamed: 0,numero,tipo,origen,destino,fecha,hora,monto
11,911,DEPO,D,A,2019,06:00:00 PM,2200
10,910,TRANS,C,B,2019,05:00:00 PM,2100
9,909,DEPO,,B,2018,04:00:00 PM,2000
8,908,DEPO,B,C,2019,03:00:00 PM,1900
7,907,EXT,B,D,2019,02:00:00 PM,1800
6,906,EXT,C,A,2018,01:00:00 PM,1700
5,905,DEPO,,A,2018,12:00:00 PM,1600
4,904,TRANS,A,B,2019,11:00:00 AM,1500
3,903,DEPO,B,C,2019,10:00:00 AM,1400
2,902,DEPO,B,C,2018,09:00:00 AM,1300


In [6]:
#Indicar cuál es el tipo de transacción que registra mayor monto promedio.

# Agrupo por tipo __ Solo quiero promedio del monto
df.groupby('tipo')['monto'].mean()

tipo
DEPO     1733.333333
EXT      1750.000000
TRANS    1475.000000
Name: monto, dtype: float64

In [37]:
#Indicar cuáles son las 5 cuentas con mayor cantidad de transacciones

#Cuento por tipo pero podria ser cualquier otra columna
transacciones_por_cuenta = df.groupby('origen')['tipo'].count().reset_index()
transacciones_por_cuenta.rename(columns = {'tipo' : 'cantidad_transacciones'}, inplace=True)
transacciones_por_cuenta.sort_values('cantidad_transacciones', ascending = False, inplace=True)
transacciones_por_cuenta.head(5)

Unnamed: 0,origen,cantidad_transacciones
1,B,4
0,A,3
2,C,2
3,D,1


In [38]:
monto_por_cuenta_origen = df.groupby('origen')['monto'].agg(np.sum).reset_index()
monto_por_cuenta_origen.sort_values('monto', ascending = False, inplace= True)
monto_por_cuenta_origen.rename(columns = {'origen' : 'cuenta'}, inplace=True)
monto_por_cuenta_origen.head(5)

Unnamed: 0,cuenta,monto
2,C,21700
0,A,12300
1,B,6400
3,D,2200


In [39]:
monto_por_cuenta_destino = df.groupby('destino')['monto'].agg(np.sum).reset_index()
monto_por_cuenta_destino.sort_values('monto', ascending = False, inplace= True)
monto_por_cuenta_destino.rename(columns = {'destino' : 'cuenta'}, inplace=True)
monto_por_cuenta_destino.head(5)

Unnamed: 0,cuenta,monto
1,B,33100
0,A,5500
2,C,4600
3,D,3000


In [40]:
montos_por_cuenta = pd.merge(monto_por_cuenta_origen, monto_por_cuenta_destino, on='cuenta', how='inner')
montos_por_cuenta['monto involucrado'] = montos_por_cuenta['monto_x'] + montos_por_cuenta['monto_y']
montos_por_cuenta.sort_values('monto involucrado', ascending = False, inplace = True)
del montos_por_cuenta['monto_x']
del montos_por_cuenta['monto_y']
montos_por_cuenta.head(6)

Unnamed: 0,cuenta,monto involucrado
2,B,39500
0,C,26300
1,A,17800
3,D,5200


In [58]:
#Para el tipo de transacción con mayor cantidad de monto promedio, indicar cuales son 
# las 5 cuentas con más transacciones.


#Primero veo transaccion con mayor monto promedio

df1 = df.groupby('tipo')['monto'].agg(np.mean).reset_index()
df1.sort_values('monto', ascending = False, inplace = True)
tipo_max = df1.iloc[0, 0]
tipo_max

'TRANS'

In [83]:
#Ahora busco para ese tipo las 5 cuentas con mayor transacciones de este


#Crosstab genera una tabla de 2 parametros donde JUSTAMENTE mide la frecuencia, gracias Martin
df1 = pd.crosstab(df.origen, df.tipo)
df1.loc[:,'TRANS'].idxmax()

'A'